Intégration de données hétérogènes et imprécises guidée par une ressource termino-ontologique (original) (raw)
Related papers
Intégration de sources de données autonomes par articulation a priori d'ontologies
2004
L'intégration de sources données réparties est une méthode qui vise à offrir aux utilisateurs l'accès à des multiples sources de données à travers des requêtes sur un schéma global. Pour traiter l'hétérogénéité sémantique, considérée comme la plus importante difficulté, l'utilisation d'ontologies est apparue comme l'approche la plus prometteuse pour une possible automatisation. Deux types d'approches d'intégration à base d'ontologies ont jusque là été proposées. Soit des ontologies linguistiques sont utilisées. Cette approche nécessite toujours une intervention humaine. Soit le schéma global est supposé constituer lui-même une ontologie complète du domaine. Les sources n'ont alors plus aucune autonomie. L'approche que nous proposons s'inscrit dans cette dernière approche avec deux différences. (1) Chaque source de donnés contient a priori à la fois sa propre ontologie et les relations sémantiques qui l'articulent avec une ou des ontologie(s) de domaine. (2) Les sources gardent leur autonomie : chaque ontologie locale peut étendre l'ontologie de domaine. Dans notre approche, appelée a priori, l'intégration se déroule alors de façon complètement automatique et peut donc se réaliser à très grande échelle. Elle est actuellement prototypée dans plusieurs environnements SGBDOO, SGBDR.
Modélisation de ressources termino-ontologiques en owl
2007
Depuis le lancement du World Wide Web au début des années 90, les sites Web ont connu un essor fulgurant tant dans leur nombre (d'une trentaine de sites en 1992 à plus de cent millions fin 2006) que dans la diversité et la richesse de leur contenu. Le Web Sémantique est ...
Méta-modèle général de description de ressources terminologiques et ontologiques
2009
L'intégration des ressources terminologiques et ontologiques d'un domaine est un enjeu majeur en vue de leur pleine exploitation par des organisations. Cette intégration est rendue difficile par l'hétérogénéité des ressources et de leur formalisme de représentation (SKOS, BS 8723, etc.). Ces formalismes se différencient principalement par leur richesse d'expressivité. Dans cet article, nous proposons un nouveau méta-modèle de représentation de terminologies et d'ontologies. Celui-ci a une double particularité. Il propose un formalisme de représentation plus général car il fait l'union de chacune des spécificités des formalismes existants tout en définissant de nouveaux constructeurs qui apportent un pouvoir d'expressivité supplémentaire aux ressources terminologiques. Il se base sur les technologies d'Ingénierie Dirigée par les Modèles, en vue de permettre une intégration automatique de ressources terminologiques provenant d'un formalisme. Mots-clés : méta-modèle, terminologie, ontologie, interopérabilité, opérationnalisation. 1. 10 e édition de la classification internationale des maladies. Voir : http://taurus.unine.ch/ icd10/ Références AUSSENAC-GILLES N. (2005). Méthodes ascendantes pour l'ingénierie des connaissances. Habilitation à diriger des recherches, Université Paul Sabatier, Toulouse, France. BERNSTEIN P. A. (2003). Applying model management to classical meta data problems. In CIDR. BOURIGAULT D., AUSSENAC-GILLES N. & CHARLET J. (2004). Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d'Intelligence Artificielle, 18(4), 24.
Dans différents domaines, le besoin d'organiser et de structurer les données pour améliorer leur exploitation et leur diffusion monopolise de nombreuses équipes de recherche. Au coeur de ces travaux on trouve souvent une ressource terminologique ou ontologique (RTO) spécifique à une application dans le domaine considéré. Cependant la conception de cette RTO ignore trop souvent des données hétérogènes provenant de ressources spécifiques. Dans le domaine biomédical, il peut s'agir de rapports d'actes médicaux, de ressources bibliographiques, mais également de données biologiques issues de bases de données telles que GOA, Gene Ontology ou encore KEGG. Cet article présente un environnement intégré d'ingénierie ontologique expérimenté dans le domaine de la biologie. Son objectif principal est l'intégration de données hétérogènes dans le processus de conception d'une RTO spécifique à une application donnée. Cet environnement permet, grâce à une chaîne d'analyse...
Alignement de taxonomies pour l'interrogation de sources d'information hétérogènes
2006
Intégrer des sources d'information hétérogènes permet un accès unifié sans modification du contenu. Les schémas des sources sont mis en correspondance de façon à ce qu'il soit possible d'accéder à tout un ensemble de documents provenant de sources multiples, à partir d'un système d'interrogation unique. La spécification de ces mises en correspondance, ou mappings, est ainsi au coeur de l'intégration. Nous proposons d'utiliser différentes techniques d'alignement de taxonomies pour automatiser leur génération. Ces techniques ont été implémentées dans un outil logiciel TaxoMap qui recherche les mappings et, en cas d'échec, donne des indications pour aider les utilisateurs à les spécifier eux-mêmes. Nous présentons et discutons des résultats issus d'expériences réalisées dans le domaine de la microbiologie. Nous testons TaxoMap sur différentes taxonomies issues de domaines variés. Mots Clefs Ingénierie des connaissances, Ontologies, Mise en correspondances de taxonomies, Intégration de sources d'information.
Résumé : L'évolution rapide des connaissances et des besoins en termes de vocabulaires spécialisés dans le domaine de la santé oblige les gestionnaires de ressources termino-ontologiques (RTO) à constamment mettre à disposition des utilisateurs de nouvelles versions. Ceci a des conséquences sur les systèmes d'information exploitant ces RTOs devant alors gérer l'évolution des mappings existants entre les ressources utilisées. La taille du domaine médical nécessite très souvent l'utilisation de plusieurs RTOs mises en relation pour garantir l'interopérabilité sémantique. Ce papier traite de l'évolution de ces mappings. Après une description précise du problème, nous montrons, sur la base d'expérimentations effectuées sur SNOMED CT et ICD-9-CM, quels sont les éléments clés qu'une approche de gestion de l'évolution de mappings entre RTOs doit considérer. Mots-clés : évolution des RTOs médicales, maintenance des mappings.
Modélisation d'une ressource termino-ontologique de domaine pour l'annotation sémantique de tableaux
Nous proposons dans cet article une modélisation d'une ressource termino-ontologique (RTO) de domaine, guidée par la tâche d'annotation sémantique de tableaux. L'annotation d'un tableau consiste à annoter ses cellules, pour pouvoir ensuite identifier les concepts représentés par ses colonnes et enfin identifier la ou les relations n-aires qu'il représente. La RTO proposée permet d'une part de modéliser dans sa composante lexicale les termes utilisés pour l'annotation des cellules en intégrant la gestion des synonymes et du multilingue, et, d'autre part, de modéliser dans sa composante conceptuelle les concepts symboliques, les concepts numériques et les relations n-aires, qui sont propres au domaine étudié.
Une approche combinée pour l'enrichissement d'ontologie à partir de textes et de données du LOD
2016
Résumé. Cet article porte sur l’étiquetage automatique de documents décrivant des produits, avec des concepts très spécifiques traduisant des besoins précis d’utilisateurs. La particularité du contexte est qu’il se confronte à une triple difficulté : 1) les concepts utilisés pour l’étiquetage n’ont pas de réalisations terminologiques directes dans les documents, 2) leurs définitions formelles ne sont pas connues au départ, 3) toutes les informations nécessaires ne sont pas forcément présentes dans les documents mêmes. Pour résoudre ce problème, nous proposons un processus d’annotation en deux étapes, guidé par une ontologie. La première consiste à peupler l’ontologie avec les données extraites des documents, complétées par d’autres issues de ressources externes. La deuxième est une étape de raisonnement sur les données extraites qui recouvre soit une phase d’apprentissage de définitions de concepts, soit une phase d’application des définitions apprises. L’approche SAUPODOC est ainsi...
Evolution et maintenance des ressources termino-ontologique : une question à approfondir
Ce numéro spécial s'intéresse à l'évolution et à la maintenance des ressources terminologiques ou ontologiques en lien avec l'évolution des textes à partir desquels ou pour lesquels elles sont construites. Cette problématique s'inscrit dans une réflexion de longue haleine sur les liens entre textes et connaissance dans un contexte de traitements automatisés, réflexion dont les principaux éléments sont rappelés dans la présente introduction.