Construction et enrichissement automatique d'ontologie à partir de ressources externes (original) (raw)

Construction automatique d'ontologie et enrichissement à partir de ressources externes

2010

La construction automatique d'ontologies à partir de textes est généralement basée sur le texte proprement dit, et le domaine décrit est circonscrit au contenu du texte. Afin de concevoir des ontologies sémantiquement plus riches, nous proposons d'étendre les méthodes classiques en matière de construction d'ontologie (1) en prenant en compte le texte du point de vue de sa structure et de son contenu pour construire un premier noyau d'ontologie, et (2) en enrichissant l'ontologie obtenue en exploitant des ressources externes (textes grand public et vocabulaires contrôlés du même domaine). Ce papier décrit comment ces différentes ressources sont analysées et exploitées. Nous avons appliqué cette méthode sur des textes géographiques et avons évalué le bénéfice induit par une ontologie plus riche (par rapport à une première taxonomie du domaine) dans le contexte du typage des entités nommées spatiales. Les résultats ont été améliorés de façon significative.

Une approche combinée pour l'enrichissement d'ontologie à partir de textes et de données du LOD

2016

Résumé. Cet article porte sur l’étiquetage automatique de documents décrivant des produits, avec des concepts très spécifiques traduisant des besoins précis d’utilisateurs. La particularité du contexte est qu’il se confronte à une triple difficulté : 1) les concepts utilisés pour l’étiquetage n’ont pas de réalisations terminologiques directes dans les documents, 2) leurs définitions formelles ne sont pas connues au départ, 3) toutes les informations nécessaires ne sont pas forcément présentes dans les documents mêmes. Pour résoudre ce problème, nous proposons un processus d’annotation en deux étapes, guidé par une ontologie. La première consiste à peupler l’ontologie avec les données extraites des documents, complétées par d’autres issues de ressources externes. La deuxième est une étape de raisonnement sur les données extraites qui recouvre soit une phase d’apprentissage de définitions de concepts, soit une phase d’application des définitions apprises. L’approche SAUPODOC est ainsi...

Techniques d'alignement d'ontologies basées sur la structure d'une ressource complémentaire

2007

Pour identifier des mappings entre les concepts de deux ontologies, de nombreux travaux récents portent sur l'utilisation de connaissances complémentaires dites de "background" ou de support, représentées le plus souvent sous la forme d'une 3 ème ontologie. Leur objectif commun est de compléter les techniques classiques d'appariement qui exploitent la structure ou la richesse du langage de représentation des ontologies, et qui ne s'appliquent plus quand les ontologies à apparier sont faiblement structurées ou se limitent à de simples hiérarchies de classification. Cet article présente une analyse comparative des travaux utilisant des connaissances de support, en commençant par leur schéma général commun, suivi par une analyse des travaux en fonction du type de connaissance de support utilisée. Nous étudions ensuite les problèmes rencontrés lorsque la connaissance de support est WordNet puis nous montrons comment notre système TaxoMap résout ces difficultés.

Peuplement automatique d'ontologie à partir d'un catalogue de produits

HAL (Le Centre pour la Communication Scientifique Directe), 2014

Nous proposons dans cet article une approche de peuplement automatisé d'une ontologie à partir de données issues de catalogues de produits. Le peuplement automatisé est vu ici comme un problème d'annotation de documents. Dans notre contexte, les documents à annoter sont des descriptions relativement pauvres ce qui rend irréalisable un peuplement totalement automatique. Nous proposons une approche en deux étapes : (1) une étape semi-automatique d'annotation portant sur un petit ensemble de données ; (2) une étape entièrement automatique d'annotations d'autres données basées sur des mécanismes d'apprentissage automatique exploitant les résultats de la première étape. L'originalité de ce travail consiste en une approche incrémentale de raffinement des annotations qui permet de générer des annotations même dans un contexte très restreint. Le travail décrit a été appliqué sur des jeux de données réelles concernant des jouets.

Vers un outil de co-construction d'ontologies à partir de textes à l'aide d'un système multi-agent adaptatif

2009

Manual ontology engineering and maintenance is a di‐cult task that requires signiflcant efiort from the ontologist to identify and structure domain knowledge. Automatic ontology learning makes this task easier, especially through the use of text and natural language processing tools. In this paper, we present DYNAMO, a tool based on an Adaptive Multi-Agent System (AMAS), which aims at assisting ontologists during ontology design and evolution. This work is carried out in the context of the ANR DYNAMO (Dynamic Ontology for Information Retrieval) project. DYNAMO is based on text extracted terms, lexical relations and provides an AMAS based module to support ontology co-construction. The ontologist interacts with the tool by modifying the ontology (move, add, change concepts, terms and/or relationships). Then Dynamo adapts to these changes and proposes new evolutions to improve the ontology. After describing the context of this work and the principles of DYNAMO, we report an experiment...

Enrichissement d'ontologies : maintenance de la consistance et évaluation de la qualité

Journées Francophones dIngénierie des Connaissances, 2008

Cet article s'intéresse aux traces numériques d'interaction, et en particulier à ce que nous définissons comme les traces modélisées. Contrairement à une majorité d'approches se basant sur les traces, nous considérons trace et modèle de trace explicite comme indissociables. Cet article aborde deux questions en particulier : la première, théorique, concernant le statut d'inscription de connaissances des traces modélisées ; la seconde, méthodologique, concernant une démarche de modélisation de trace que nous considérons comme une « ingénierie de la trace ». Nous y considérons l'exploitation des traces dans la dynamique d'une activité toujours susceptible d'évoluer et à laquelle le modèle de trace doit rester adapté.

Intégration de sources de données autonomes par articulation a priori d'ontologies

2004

L'intégration de sources données réparties est une méthode qui vise à offrir aux utilisateurs l'accès à des multiples sources de données à travers des requêtes sur un schéma global. Pour traiter l'hétérogénéité sémantique, considérée comme la plus importante difficulté, l'utilisation d'ontologies est apparue comme l'approche la plus prometteuse pour une possible automatisation. Deux types d'approches d'intégration à base d'ontologies ont jusque là été proposées. Soit des ontologies linguistiques sont utilisées. Cette approche nécessite toujours une intervention humaine. Soit le schéma global est supposé constituer lui-même une ontologie complète du domaine. Les sources n'ont alors plus aucune autonomie. L'approche que nous proposons s'inscrit dans cette dernière approche avec deux différences. (1) Chaque source de donnés contient a priori à la fois sa propre ontologie et les relations sémantiques qui l'articulent avec une ou des ontologie(s) de domaine. (2) Les sources gardent leur autonomie : chaque ontologie locale peut étendre l'ontologie de domaine. Dans notre approche, appelée a priori, l'intégration se déroule alors de façon complètement automatique et peut donc se réaliser à très grande échelle. Elle est actuellement prototypée dans plusieurs environnements SGBDOO, SGBDR.

Construction automatique d'adaptateurs guidée par une ontologie pour l'intégration de sources et de données XML

Technique Et Science Informatiques, 2009

Le travail décrit dans ce papier porte sur l'intégration de sources d'informations hétérogènes XML au sein d'un serveur d'information selon une approche mixte combinant médiation et entrepôt de données. Ce serveur dispose d'un schéma, ou ontologie, utilisé pour l'accès tant aux sources externes qu'aux données locales. La méthode que nous proposons est une méthode unifiée qui s'appuie sur l'ontologie et permet de réaliser à la fois l'intégration de sources et de données. Notre contribution est double. Elle porte d'une part sur la génération automatisée de mises en correspondance, ou mappings, entre l'ontologie et une nouvelle source à intégrer, d'autre part sur la construction automatique d'adaptateurs (wrappers en anglais) allant de la description du contenu abstrait de cette nouvelle source jusqu'à l'extraction des données. Des expérimentations ont été réalisées sur des données réelles dans le domaine du tourisme. ABSTRACT. This paper deals with integration of XML heterogeneous information sources into an information server according to an approach combining mediation and data warehousing. A schema, or ontology, is used to access to the external sources and also to the local data. We propose a unified method based on such an ontology able to achieve the two kinds of integration. Our contribution is twofold. First, we propose techniques to automate the generation of mappings between the ontology and a new source. Second, we present an approach to automate the construction of wrappers starting from the description of the abstract content of a source and ending by data extraction. Experiments on real data in the tourism domain have been achieved. Analysis and comments of the results are given.

Modélisation de ressources termino-ontologiques en owl

2007

Depuis le lancement du World Wide Web au début des années 90, les sites Web ont connu un essor fulgurant tant dans leur nombre (d'une trentaine de sites en 1992 à plus de cent millions fin 2006) que dans la diversité et la richesse de leur contenu. Le Web Sémantique est ...

Construction d’ontologies à partir de textes

2003

Cet article constitue le support d’un cours présenté lors de la conférence TALN 2003. Il défend la place du Traitement Automatique des Langues comme discipline clé pour le développement de ressources termino-ontologiques à partir de textes. Les contraintes et enjeux de ce processus sont identifiés, en soulignant l’importance de considérer cette tâche comme un processus supervisé par un analyste. Sont présentés un certain nombre d’outils logiciels et méthodologiques venant de plusieurs disciplines comme le TAL et l’ingénierie des connaissances qui peuvent aider l’analyste dans sa tâche. Divers retours d’expérience sont présentés.