Marianne Vergez-Couret - Academia.edu (original) (raw)
Uploads
Papers by Marianne Vergez-Couret
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2022
HAL (Le Centre pour la Communication Scientifique Directe), Nov 15, 2018
HAL (Le Centre pour la Communication Scientifique Directe), Oct 10, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Oct 29, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Nov 7, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Jul 1, 2019
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
HAL (Le Centre pour la Communication Scientifique Directe), Sep 1, 2021
HAL (Le Centre pour la Communication Scientifique Directe), Sep 23, 2021
HAL (Le Centre pour la Communication Scientifique Directe), May 11, 2012
Le Centre pour la Communication Scientifique Directe - HAL - Diderot, Nov 21, 2019
Journées d'étude "Cohérence et Cohésion textuelles", Nov 7, 2019
Le Centre pour la Communication Scientifique Directe - HAL - Inria, Dec 4, 2019
The RESTAURE project (2015-2018) aimed at providing digital resources and natural language proces... more The RESTAURE project (2015-2018) aimed at providing digital resources and natural language processing (NLP) tools for three regional languages of France: Alsatian, Occitan and Picard. These languages belong to different language families and are characterized by heterogeneous sociolinguistic situations. In this paper, we focus on the main challenges faced during the project and detail the solutions that we have implemented for the development and distribution of the resources and tools produced. We also present the main lessons learned from the RESTAURE project.
Le Centre pour la Communication Scientifique Directe - HAL - memSIC, Jul 3, 2013
XIIème Congrès de l’Association Internationale d'Etudes Occitanes, Jul 10, 2017
Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan L... more Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan Loflòc (Lexic obèrt flechit occitan-Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Ses premières versions ont été réalisées dans le cadre du projet ANR RESTAURE 1 (Bernhard et Vergez-Couret, 2016 ; Bernhard et al. 2018) puis du projet européen POCTEFA LINGUATEC 2 , en collaboration avec Lo Congrès Permanent de la Lenga Occitana 3. La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées pour une langue qui dispose de peu de ressources à l'heure actuelle. Ces ressources, qu'elles soient lexicales comme Loflòc, ou textuelles comme BaTelÒc 4 (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traduction automatique). La création de ces ressources permet de compléter certaines étapes définies par la Feuille de route pour le développement du numérique occitan (Lo Congrès Permanent de la Lenga Occitana, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016), et de développer des applications de recherche et d'extraction d'information, des agents conversationnels, des outils d'aide à l'écriture comme les claviers prédictifs, des correcteurs orthographiques.... Les objectifs qui ont présidé à la création de Loflòc sont les suivants : • Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) et d'une ressource indispensable pour les modules de base du traitement automatique : lemmatiseur, analyseur morphosyntaxique, analyseur syntaxique (Vergez-Couret et Urieli, 2015) ; • Munir le lexique d'une interface de consultation ; • Utiliser un jeu d'étiquettes morphosyntaxiques standard ; • Accueillir par étapes la variation (dialectale, intra-dialectale, graphique). Nous décrivons ici la première version de Loflòc, telle que présentée au congrès de l'AIEO 2017, tout en intégrant les évolutions concernant la catégorisation de certains items permises par
Le Centre pour la Communication Scientifique Directe - HAL - SHS, Oct 29, 2019
International audienc
Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, Jul 3, 2013
University of Hawaii Press, Jun 1, 2021
Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1htt... more Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1http://restaure.unistra.fr/ 2A rating of 1/10 indicates an excellent language resource base. Conversely, a rating of 10/10 indicates a weak or non-existent base.
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2022
HAL (Le Centre pour la Communication Scientifique Directe), Nov 15, 2018
HAL (Le Centre pour la Communication Scientifique Directe), Oct 10, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Oct 29, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Nov 7, 2019
HAL (Le Centre pour la Communication Scientifique Directe), Jul 1, 2019
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
HAL (Le Centre pour la Communication Scientifique Directe), Sep 1, 2021
HAL (Le Centre pour la Communication Scientifique Directe), Sep 23, 2021
HAL (Le Centre pour la Communication Scientifique Directe), May 11, 2012
Le Centre pour la Communication Scientifique Directe - HAL - Diderot, Nov 21, 2019
Journées d'étude "Cohérence et Cohésion textuelles", Nov 7, 2019
Le Centre pour la Communication Scientifique Directe - HAL - Inria, Dec 4, 2019
The RESTAURE project (2015-2018) aimed at providing digital resources and natural language proces... more The RESTAURE project (2015-2018) aimed at providing digital resources and natural language processing (NLP) tools for three regional languages of France: Alsatian, Occitan and Picard. These languages belong to different language families and are characterized by heterogeneous sociolinguistic situations. In this paper, we focus on the main challenges faced during the project and detail the solutions that we have implemented for the development and distribution of the resources and tools produced. We also present the main lessons learned from the RESTAURE project.
Le Centre pour la Communication Scientifique Directe - HAL - memSIC, Jul 3, 2013
XIIème Congrès de l’Association Internationale d'Etudes Occitanes, Jul 10, 2017
Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan L... more Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan Loflòc (Lexic obèrt flechit occitan-Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Ses premières versions ont été réalisées dans le cadre du projet ANR RESTAURE 1 (Bernhard et Vergez-Couret, 2016 ; Bernhard et al. 2018) puis du projet européen POCTEFA LINGUATEC 2 , en collaboration avec Lo Congrès Permanent de la Lenga Occitana 3. La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées pour une langue qui dispose de peu de ressources à l'heure actuelle. Ces ressources, qu'elles soient lexicales comme Loflòc, ou textuelles comme BaTelÒc 4 (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traduction automatique). La création de ces ressources permet de compléter certaines étapes définies par la Feuille de route pour le développement du numérique occitan (Lo Congrès Permanent de la Lenga Occitana, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016), et de développer des applications de recherche et d'extraction d'information, des agents conversationnels, des outils d'aide à l'écriture comme les claviers prédictifs, des correcteurs orthographiques.... Les objectifs qui ont présidé à la création de Loflòc sont les suivants : • Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) et d'une ressource indispensable pour les modules de base du traitement automatique : lemmatiseur, analyseur morphosyntaxique, analyseur syntaxique (Vergez-Couret et Urieli, 2015) ; • Munir le lexique d'une interface de consultation ; • Utiliser un jeu d'étiquettes morphosyntaxiques standard ; • Accueillir par étapes la variation (dialectale, intra-dialectale, graphique). Nous décrivons ici la première version de Loflòc, telle que présentée au congrès de l'AIEO 2017, tout en intégrant les évolutions concernant la catégorisation de certains items permises par
Le Centre pour la Communication Scientifique Directe - HAL - SHS, Oct 29, 2019
International audienc
Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, Jul 3, 2013
University of Hawaii Press, Jun 1, 2021
Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1htt... more Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1http://restaure.unistra.fr/ 2A rating of 1/10 indicates an excellent language resource base. Conversely, a rating of 10/10 indicates a weak or non-existent base.