L'annotation structurelle (original) (raw)

ANNODIS: une approche outillée de l'annotation de structures discursives

Le projet ANNODIS vise la construction d'un corpus de textes annotés au niveau discursif ainsi que le développement d'outils pour l'annotation et l'exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d'unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau. La construction du corpus est associée à la création de deux interfaces : la première assiste l'annotation manuelle des relations et structures discursives en permettant une visualisation du marquage issu des prétraitements ; une seconde sera destinée à l'exploitation des annotations. Nous présentons les modèles et protocoles d'annotation élaborés pour mettre en oeuvre, au travers de l'interface dédiée, la campagne d'annotation.

Un schéma d'annotation en dépendances syntaxiques profondes pour le français

À partir du schéma d'annotation en dépendances syntaxiques de surface du corpus Sequoia, nous proposons un schéma en dépendances syntaxiques profondes qui en est une abstraction exprimant les relations grammaticales entre mots sémantiquement pleins. Quand ces relations grammaticales sont partie prenante de diathèses verbales, ces diathèses sont vues comme le résultat de redistributions à partir d'une diathèse canonique et c'est cette dernière qui est retenue dans notre schéma d'annotation syntaxique profonde.

Annoter en constituants pour évaluer des analyseurs syntaxiques

Résumé -Abstract Cet article présente l'annotation en constituants menée dans le cadre d'un protocole d'évaluation des analyseurs syntaxiques (mis au point dans le pré-projet PEAS, puis dans le projet EASY). Le choix des constituants est décrit en détail et une première évaluation effectuée à partir des résultats de deux analyseurs est donnée. This paper focuses on constituent annotation in a syntactic parsers evaluation protocol (which was elaborated in PEAS pre-project and EASY project). The choice of the constituents is described in details, and the results of a first evaluation between two parsers are given.

Structures et référence

2006

Synthese des travaux de recherche effectues, sur will + BV, sur le conditionnel francais, son invariant semantique et sa traduction en anglais, sur les reperes hypothetiques, l'opposition entre irreel et potentiel, le conditionnel journalistique et le discours indirect libre ; sur certaines constructions verbales (want, will) ; sur le sujet, la predication, les constructions participiales, la qualification ; sur la focalisation (just ; l'exception) ; sur les prepositions ; sur les mots en wh. Presentation d'une reflexion actuelle qui porte entre autres sur la qualification, les structures resultatives, l'apposition, la copredication, les nexus, les paradigmatiques, les structures de focalisation. L'auteur en est arrive a essayer de rendre compte systematiquement dans ses travaux, entre autres, en relation avec la specificite des phenomenes etudies, de trois series d'observables linguistiques dont les proprietes sont loin d'etre entierement explorees : tro...

Vérification sémantique pour l’annotation d’entités nommées

2008

Dans cet article, nous proposons une méthode visant à corriger et à associer dynamiquement de nouveaux types sémantiques dans le cadre de systèmes de détection automatique d’entités nommées (EN). Après la détection des entités nommées et aussi de manière plus générale des noms propres dans les textes, une vérification de compatibilité de types sémantiques est effectuée non seulement pour confirmer ou corriger les résultats obtenus par le système de détection d’EN, mais aussi pour associer de nouveaux types non couverts par le système de détection d’EN. Cette vérification est effectuée en utilisant l’information syntaxique associée aux EN par un système d’analyse syntaxique robuste et en confrontant ces résultats avec la ressource sémantique WordNet. Les résultats du système de détection d’EN sont alors considérablement enrichis, ainsi que les étiquettes sémantiques associées aux EN, ce qui est particulièrement utile pour l’adaptation de systèmes de détection d’EN à de nouveaux domai...

Vers une approche interactive pour l'annotation sémantique

2012

Nous presentons une methodologie permettant la constitution d'une ressource destinee a l'annotation semantique de corpus. Notre demarche s'inscrit dans le cadre des plateformes d'annotation linguistique. Elle permet de creer un etage d'annotation semantique constitue de regles d'annotation qui tirent profit dans leur expression des differents niveaux inferieurs d'annotation linguistique de la plateforme. La particularite de l'approche presentee est d'assister l'utilisateur a travers un processus interactif et iteratif ou il est possible de travailler de maniere duale sur les regles d'annotation ainsi que sur des exemples d'annotation.

Correction d'ontologies construites à partir de la structure de documents

Les logiciels de construction d'ontologies à partir de textes réalisent une interprétation fixée a priori du contenu des textes, qu'un expert du domaine ou une ontologie doit vérifier. Or une étude précise des limites des techniques d'analyse des textes permet de guider la correction de l'ontologie apprise en définissant des règles d'aide à la correction. Ces règles attirent l'attention de l'ontographe sur des parties d'ontologie contenant des « anomalies » et tiennent compte du texte d'origine et de l'analyse réalisée pour proposer des corrections. Dans cet article, nous illustrons la notion de règle de correction dans le cas où les connaissances apprises viennent de l'exploitation de structures énumératives parallèles présentes en corpus.

Défi d'annotation DEGELS2012 : la segmentation

2012

Dans cet article, nous presentons la deuxieme edition du defi d’annotation de gestes et de langue des signes (DEGELS). Comme l'annee derniere, l’objectif est d’organiser une campagne d’annotation dans le but de comparer des methodologies d’annotation et d’analyse de corpus de gestes coverbaux en francais oral et de langue des signes francaise (LSF) en soumettant aux chercheurs linguistes et informaticiens de ces domaines un corpus constitue pour l’occasion. L’edition 2012 se propose d’etudier les methodes de segmentation des unites gestuelles, methodes partagees par les communautes gestualiste et LSF. Apres avoir presente les objectifs, les enjeux scientifiques et le deroulement de cette manifestation scientifique, nous expliquons comment nous avons exploite les annotations realisees par les cinq equipes participantes afin de preparer la journee de l'atelier.

Annotation sémantique floue de tableaux guidée par une ontologie

2007

Nous présentons dans ce mémoire une méthode d'annotation de tableaux guidée par les connaissances d'un domaine d'application formalisées dans une ontologie. Après avoir présenté le contexte applicatif et uneétude bibliographique sur l'annotation sémantique et l'extraction d'information, nous présentons les différentesétapes de notre système : annotation des cellules, des colonnes puis des relations représentées par le tableau. Nous traitons différemment les données selon qu'elles sont numériques ou symboliques. Nous commençons par déterminer si une colonne d'un tableau contient des données numériques ou symboliques. Les données symboliques sont annotées avec les termes de l'ontologie, en utilisant une comparaison motà mot des termes employés dans le tableau avec ceux définis dans l'ontologie. Les données numériques sont extraites, ainsi que les unités de mesure employées, et comparées avec les unités et intervalles de valeurs possibles définis dans l'ontologie pour les types de données numériques. Le type de données représenté par chaque colonne du tableau est alors déterminé, en utilisantà la fois le contenu de la colonne (deux méthodes différentes sont employées suivant que la colonne contient des données numériques ou symboliques) et le titre de la colonne. Une fois le type des colonnes reconnu, les relations sémantiques représentées par le tableau sont identifiées en utilisantà la fois le titre du tableau et la signature du tableau, qui est comparée avec la signature des relations sémantiques définies dans l'ontologie. Les relations reconnues sont ensuite instanciées pour chaque ligne du tableau. Les annotations que nous manipulons sont floues, c'est-à-dire qu'au lieu de faire un lien direct entre unélément du tableau et unélément de l'ontologie, nous proposons plusieurs valeurs possibles pour l'annotation, en associantà chaque valeur un degré représentant la confiance que l'on accordeà cette valeur. Les différentesétapes de notre méthode d'annotation de tableaux ontétéévaluées expérimentalement, en prenant comme domaine d'application la microbiologie alimentaire.