Marianne Vergez-Couret - Academia.edu (original) (raw)

Uploads

Papers by Marianne Vergez-Couret

Research paper thumbnail of Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan (Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan )

Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.

Research paper thumbnail of Compétences textuelles chez le jeune enfant non lecteur-scripteur : Constitution et analyse d'un corpus de productions écrites en dictée à l'adulte

HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2022

Research paper thumbnail of Variations dans la pratique du conte : complexité théorique des relations entre l'oral et l'écrit

HAL (Le Centre pour la Communication Scientifique Directe), Nov 15, 2018

Research paper thumbnail of Lexique et frontières de genre dans un corpus de contes et récits en occitan

HAL (Le Centre pour la Communication Scientifique Directe), Oct 10, 2019

Research paper thumbnail of Le poitevin-saintongeais à l'ère du numérique

HAL (Le Centre pour la Communication Scientifique Directe), Oct 29, 2019

Research paper thumbnail of Encadrement temporel et connecteurs dans les contes et récits oraux en français et en occitan

HAL (Le Centre pour la Communication Scientifique Directe), Nov 7, 2019

Research paper thumbnail of Étude exploratoire de productions écrites en dictées à l’adulte dans les classes multiâges en maternelle : Regards croisés en sémantique du discours et didactique

Research paper thumbnail of Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan

HAL (Le Centre pour la Communication Scientifique Directe), Jul 1, 2019

Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.

Research paper thumbnail of « Pour faire texte : la relativité de la cohérence et de la cohésion »

HAL (Le Centre pour la Communication Scientifique Directe), Sep 1, 2021

Research paper thumbnail of Cohérence et cohésion textuelles

HAL (Le Centre pour la Communication Scientifique Directe), Sep 23, 2021

Research paper thumbnail of La temporalité dans des contes et récits en français et en occitan

Research paper thumbnail of Nouvelles perspectives dans la détection de la relation d'Elaboration : l'apport d'une ressource distributionnelle, Journée d'étude Discours et TAL : des modèles linguistiques aux applications

HAL (Le Centre pour la Communication Scientifique Directe), May 11, 2012

Research paper thumbnail of Telpos - Texte électronique en poitevin-saintongeais, enjeux et difficultés

Le Centre pour la Communication Scientifique Directe - HAL - Diderot, Nov 21, 2019

Research paper thumbnail of Analyse discursive de productions écrites en dictées à l'adulte dans les classes multiâges en maternelle

Journées d'étude "Cohérence et Cohésion textuelles", Nov 7, 2019

Research paper thumbnail of Language Technologies for Regional Languages of France: The RESTAURE Project

Le Centre pour la Communication Scientifique Directe - HAL - Inria, Dec 4, 2019

The RESTAURE project (2015-2018) aimed at providing digital resources and natural language proces... more The RESTAURE project (2015-2018) aimed at providing digital resources and natural language processing (NLP) tools for three regional languages of France: Alsatian, Occitan and Picard. These languages belong to different language families and are characterized by heterogeneous sociolinguistic situations. In this paper, we focus on the main challenges faced during the project and detail the solutions that we have implemented for the development and distribution of the resources and tools produced. We also present the main lessons learned from the RESTAURE project.

Research paper thumbnail of Du versant empirique au versant théorique : quand l'analyse des données enrichit la SDRT

Le Centre pour la Communication Scientifique Directe - HAL - memSIC, Jul 3, 2013

Research paper thumbnail of Loflòc : Lexic obert flechit occitan

XIIème Congrès de l’Association Internationale d'Etudes Occitanes, Jul 10, 2017

Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan L... more Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan Loflòc (Lexic obèrt flechit occitan-Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Ses premières versions ont été réalisées dans le cadre du projet ANR RESTAURE 1 (Bernhard et Vergez-Couret, 2016 ; Bernhard et al. 2018) puis du projet européen POCTEFA LINGUATEC 2 , en collaboration avec Lo Congrès Permanent de la Lenga Occitana 3. La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées pour une langue qui dispose de peu de ressources à l'heure actuelle. Ces ressources, qu'elles soient lexicales comme Loflòc, ou textuelles comme BaTelÒc 4 (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traduction automatique). La création de ces ressources permet de compléter certaines étapes définies par la Feuille de route pour le développement du numérique occitan (Lo Congrès Permanent de la Lenga Occitana, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016), et de développer des applications de recherche et d'extraction d'information, des agents conversationnels, des outils d'aide à l'écriture comme les claviers prédictifs, des correcteurs orthographiques.... Les objectifs qui ont présidé à la création de Loflòc sont les suivants : • Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) et d'une ressource indispensable pour les modules de base du traitement automatique : lemmatiseur, analyseur morphosyntaxique, analyseur syntaxique (Vergez-Couret et Urieli, 2015) ; • Munir le lexique d'une interface de consultation ; • Utiliser un jeu d'étiquettes morphosyntaxiques standard ; • Accueillir par étapes la variation (dialectale, intra-dialectale, graphique). Nous décrivons ici la première version de Loflòc, telle que présentée au congrès de l'AIEO 2017, tout en intégrant les évolutions concernant la catégorisation de certains items permises par

Research paper thumbnail of Ressources et outils de traitement automatique pour la langue occitane

Le Centre pour la Communication Scientifique Directe - HAL - SHS, Oct 29, 2019

International audienc

Research paper thumbnail of Analyse quantitative des marqueurs du discours dans ANNODIS

Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, Jul 3, 2013

Research paper thumbnail of Collecting and Annotating Corpora for Three Under Resourced Languages of France Methodological Issues

University of Hawaii Press, Jun 1, 2021

Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1htt... more Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1http://restaure.unistra.fr/ 2A rating of 1/10 indicates an excellent language resource base. Conversely, a rating of 10/10 indicates a weak or non-existent base.

Research paper thumbnail of Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan (Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan )

Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.

Research paper thumbnail of Compétences textuelles chez le jeune enfant non lecteur-scripteur : Constitution et analyse d'un corpus de productions écrites en dictée à l'adulte

HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2022

Research paper thumbnail of Variations dans la pratique du conte : complexité théorique des relations entre l'oral et l'écrit

HAL (Le Centre pour la Communication Scientifique Directe), Nov 15, 2018

Research paper thumbnail of Lexique et frontières de genre dans un corpus de contes et récits en occitan

HAL (Le Centre pour la Communication Scientifique Directe), Oct 10, 2019

Research paper thumbnail of Le poitevin-saintongeais à l'ère du numérique

HAL (Le Centre pour la Communication Scientifique Directe), Oct 29, 2019

Research paper thumbnail of Encadrement temporel et connecteurs dans les contes et récits oraux en français et en occitan

HAL (Le Centre pour la Communication Scientifique Directe), Nov 7, 2019

Research paper thumbnail of Étude exploratoire de productions écrites en dictées à l’adulte dans les classes multiâges en maternelle : Regards croisés en sémantique du discours et didactique

Research paper thumbnail of Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan

HAL (Le Centre pour la Communication Scientifique Directe), Jul 1, 2019

Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsaci... more Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.

Research paper thumbnail of « Pour faire texte : la relativité de la cohérence et de la cohésion »

HAL (Le Centre pour la Communication Scientifique Directe), Sep 1, 2021

Research paper thumbnail of Cohérence et cohésion textuelles

HAL (Le Centre pour la Communication Scientifique Directe), Sep 23, 2021

Research paper thumbnail of La temporalité dans des contes et récits en français et en occitan

Research paper thumbnail of Nouvelles perspectives dans la détection de la relation d'Elaboration : l'apport d'une ressource distributionnelle, Journée d'étude Discours et TAL : des modèles linguistiques aux applications

HAL (Le Centre pour la Communication Scientifique Directe), May 11, 2012

Research paper thumbnail of Telpos - Texte électronique en poitevin-saintongeais, enjeux et difficultés

Le Centre pour la Communication Scientifique Directe - HAL - Diderot, Nov 21, 2019

Research paper thumbnail of Analyse discursive de productions écrites en dictées à l'adulte dans les classes multiâges en maternelle

Journées d'étude "Cohérence et Cohésion textuelles", Nov 7, 2019

Research paper thumbnail of Language Technologies for Regional Languages of France: The RESTAURE Project

Le Centre pour la Communication Scientifique Directe - HAL - Inria, Dec 4, 2019

The RESTAURE project (2015-2018) aimed at providing digital resources and natural language proces... more The RESTAURE project (2015-2018) aimed at providing digital resources and natural language processing (NLP) tools for three regional languages of France: Alsatian, Occitan and Picard. These languages belong to different language families and are characterized by heterogeneous sociolinguistic situations. In this paper, we focus on the main challenges faced during the project and detail the solutions that we have implemented for the development and distribution of the resources and tools produced. We also present the main lessons learned from the RESTAURE project.

Research paper thumbnail of Du versant empirique au versant théorique : quand l'analyse des données enrichit la SDRT

Le Centre pour la Communication Scientifique Directe - HAL - memSIC, Jul 3, 2013

Research paper thumbnail of Loflòc : Lexic obert flechit occitan

XIIème Congrès de l’Association Internationale d'Etudes Occitanes, Jul 10, 2017

Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan L... more Loflòc : Lexic obèrt flechit occitan 1. Un lexique informatisé des formes fléchies de l'occitan Loflòc (Lexic obèrt flechit occitan-Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Ses premières versions ont été réalisées dans le cadre du projet ANR RESTAURE 1 (Bernhard et Vergez-Couret, 2016 ; Bernhard et al. 2018) puis du projet européen POCTEFA LINGUATEC 2 , en collaboration avec Lo Congrès Permanent de la Lenga Occitana 3. La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées pour une langue qui dispose de peu de ressources à l'heure actuelle. Ces ressources, qu'elles soient lexicales comme Loflòc, ou textuelles comme BaTelÒc 4 (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traduction automatique). La création de ces ressources permet de compléter certaines étapes définies par la Feuille de route pour le développement du numérique occitan (Lo Congrès Permanent de la Lenga Occitana, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016), et de développer des applications de recherche et d'extraction d'information, des agents conversationnels, des outils d'aide à l'écriture comme les claviers prédictifs, des correcteurs orthographiques.... Les objectifs qui ont présidé à la création de Loflòc sont les suivants : • Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) et d'une ressource indispensable pour les modules de base du traitement automatique : lemmatiseur, analyseur morphosyntaxique, analyseur syntaxique (Vergez-Couret et Urieli, 2015) ; • Munir le lexique d'une interface de consultation ; • Utiliser un jeu d'étiquettes morphosyntaxiques standard ; • Accueillir par étapes la variation (dialectale, intra-dialectale, graphique). Nous décrivons ici la première version de Loflòc, telle que présentée au congrès de l'AIEO 2017, tout en intégrant les évolutions concernant la catégorisation de certains items permises par

Research paper thumbnail of Ressources et outils de traitement automatique pour la langue occitane

Le Centre pour la Communication Scientifique Directe - HAL - SHS, Oct 29, 2019

International audienc

Research paper thumbnail of Analyse quantitative des marqueurs du discours dans ANNODIS

Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, Jul 3, 2013

Research paper thumbnail of Collecting and Annotating Corpora for Three Under Resourced Languages of France Methodological Issues

University of Hawaii Press, Jun 1, 2021

Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1htt... more Licensed under Creative Commons Attribution-NonCommercial 4.0 International E-ISSN 1934-5275 1http://restaure.unistra.fr/ 2A rating of 1/10 indicates an excellent language resource base. Conversely, a rating of 10/10 indicates a weak or non-existent base.