Traitement informatique des entités nommées dans un corpus de données foncières en latin : méthodologie et application (original) (raw)
Related papers
DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées
2023
Ces dernières années, les contributions majeures qui ont eu lieu en apprentissage automatique supervisé ont mis en evidence la nécessité de disposer de grands jeux de données annotés de haute qualité. Les recherches menées sur la tâche de reconnaissance d'entités nommées dans des textes en français font face à l'absence de jeux de données annotés "à grande échelle" et avec de nombreuses classes d'entités hiérarchisées. Dans cet article, nous proposons une approche pour obtenir un tel jeu de données qui s'appuie sur des étapes de traduction puis d'annotation des données textuelles en anglais vers une langue cible (ici au français). Nous évaluons la qualité de l'approche proposée et mesurons les performances de quelques modèles d'apprentissage automatique sur ces données.
Un problème d'identification d'entités nommées dans des bases de donnés documentaires
2015
Ce rapport concerne la construction, la verification et la reparation de liens d'egalite et de difference entre entites nommees dans des bases de donnees documentaires. Nous proposons une methode generale que nous precisons dans le cas ou les entites nommees sont des personnes. Le probleme etudie peut etre considere comme un cas simple d'un probleme fondamental du web semantique ce-lui de la construction ou de la verification de liens owl :sameAs et owl :differentFrom entre identifiants representant des entites du monde exterieur. Un prototype, SudoQual, a ete construit et a ete evalue sur la base sudoc qui est le catalogue collectif de l'enseignement superieur gere par l'Agence Bibliographique de l'Enseignement Superieur.
Reconnaissance robuste d’entités nommées sur de la parole transcrite automatiquement
2010
Les transcriptions automatiques de parole constituent une ressource importante, mais souvent bruitée, pour décrire des documents multimédia contenant de la parole (e.g. journaux télévisés). En vue d’améliorer la recherche documentaire, une étape d’extraction d’information à caractère sémantique, précédant l’indexation, permet de faire face au problème des transcriptions imparfaites. Parmis ces contenus informatifs, on compte les entités nommées (e.g. noms de personnes) dont l’extraction est l’objet de ce travail. Les méthodes traditionnelles de reconnaissance basées sur une définition manuelle de grammaires formelles donnent de bons résultats sur du texte ou des transcriptions propres manuellement produites, mais leurs performances se trouvent fortement affectées lorsqu’elles sont appliquées sur des transcriptions automatiques. Nous présentons, ici, trois méthodes pour la reconnaissance d’entités nommées basées sur des algorithmes d’apprentissage automatique : les champs conditionne...
2009
Ce papier présente une approche pour la recherche d'entités nommées dans des transcriptions radiophoniques. Nous allons utiliser les structures des entités nommées afin d'améliorer le taux de leur reconnaissance. En effet, l'espace des entités peut être représenté par une structure hiérarchique (arbre). Ainsi, un concept peut être vu comme un noeud dans l'arbre, et une entité comme un parcours dans la structure de l'espace. Nous allons montrer l'apport de cette représentation en utilisant le modèle des Champs Aléatoires Conditionnels (CAC). La comparaison de notre approche avec la méthode des Modèles de Markov Cachés (MMC) montre une amélioration de la reconnaissance en utilisant les CAC Combinés. Nous montrons également l'impact de l'utilisation des informations a priori dans le processus en incluant les informations syntaxiques des transcriptions comme nouveau contexte.
Modélisation du domaine par une méthode fondée sur l'analyse de corpus (2005)
HAL (Le Centre pour la Communication Scientifique Directe), 2005
paris13.fr Résumé Les nombreux travaux actuels sur les ontologies et modèles de domaines, justifiés par la perspective de leur réutilisabilité, proposent très peu de solutions aux problèmes pratiques de recueil et de structuration de ces connaissances. Cet article propose une méthode de construction de modèles de domaine ou d'ontologies, dont l'originalité est de se fonder sur l'analyse de corpus en utilisant ses principes linguistiques et ses logiciels de traitement automatique de la langue. Cette démarche se veut un complément efficace et précis aux méthodes classiques de modélisation du domaine à partir d'expertises individuelles. Mots clés : Construction d'ontologies, acquisition de connaissances à partir de textes, terminologie.
Gestion informatisée de corpus bibliographiques (La)
La gestion informatisée de corpus bibliographiques Adaptation des normes et formats documentaires L 'interrogation de plusieurs banques de données (BDD) documentaires est une nécessité dans la constitution d'une bibliographie exhaustive sur un sujet pluridisciplinaire (14). Or, si la consultation de sources d'information variées, tant sur le plan géographique que thématique, garantit une meilleure couverture du sujet, elle pose néanmoins trois problèmes majeurs : l'hétérogénéité des formats de présentation ; la variabilité du vocabulaire d'indexation utilisé ; et la redondance de l'information due à la présence de références identiques. * INRS : Institut national de recherche et de sécurité, Vandoeuvre-lès-Nancy. ** LORIA : Laboratoire lorrain de recherche en informatique et ses applications, Vandoeuvre-lès-Nancy.