Indexation sémantique de documents sur le web: application aux ressources humaines (original) (raw)
Related papers
Indexation sémantique des documents multilingues
Dans cet article, nous décrivons une méthode d'indexation sémantique adaptée aux documents multilingues. Nous proposons une démarche d'extraction des concepts et des relations entre les concepts. L'idée centrale de notre travail est que l'utilisation de ressources sémantiques externes telle que les ontologies et les thésaurus peut améliorer l'efficacité des processus d'indexation. La méthode proposée peut s'appliquer à plusieurs langues car elle construit ses ressources linguistiques directement à partir du corpus multilingue.
Indexation sémantique et recherche d'information interactive
2007
Parmi les différentes facettes de la recherche d'information en données textuelles, la recherche d'informations localisées dans l'espace et dans le temps constitue un domaine d'étude à part entière. Celle-ci nécessite en effet, pour l'indexation comme pour la recherche, des analyses linguistiques et des ressources spécifiques. Le projet GéoSem fut le cadre de conception de techniques d'indexation sémantique d'informations géographiques. Ces techniques se trouvent aujourd'hui mises en oeuvre au sein d'un moteur de recherche permettant la localisation intra-documentaire des informations, indexées selon des « axes sémantiques » géographiques (temps, espace et phénomène), sa généricité permettant de le paramétrer pour d'autres axes. Une visualisation de la localisation spatiale et temporelle de l'information est également proposée. Cet article décrit les différentes facettes du moteur.
Indexation sémantique de ressources pédagogiques numériques. Approche par composants sémiotiques
Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, 2015
Pour créer une ressource pédagogique numérique (RPN), un enseignant réutilise généralement les composants sémiotiques (e.g. un schéma, un texte) issus de ressources numériques existantes. Nous proposons d'instrumentaliser la tâche de sélection de composants à l'aide d'un parseur, qui repère et compte les composants. Pour guider l'enseignant-concepteur dans l'assemblage des composants sémiotiques, nous proposons un logiciel qui l'assiste dans la prise en compte des traitements cognitifs induits par ces composants.
Vers une approche statistique pour l'indexation sémantique des documents multilingues
Dans cet article nous présentons une approche statistique d'indexation sémantique des documents multilingues. Cette approche est validée par un ensemble d'expérimentations et une comparaison avec une approche linguistique. Nous montrons ainsi que l'approche statistique obtient des résultats équivalents à l'approche linguistique. ABSTRACT. This article presents a statistical approach of semantic indexing for multilingual documents. This approach is validated by a set of experiments and a comparison with a linguistic approach. The experiments show that the statistical approach obtains results equivalent to the linguistic one. MOTS-CLÉS : recherche d'information, indexation sémantique, ontologie, documents multilingues, analyse linguistique, mesure statistique.
Document numérique, 2011
Dans cet article nous présentons une approche statistique d'indexation sémantique des documents multilingues. L'approche que nous proposons est composée de trois étapes : extraction des termes, détection des concepts et détection des relations à partir des couples de concepts. Notre approche est validée par un ensemble d'expérimentations sur la collection ImageCLEFmed 2007 et une comparaison avec une approche linguistique. Nous montrons ainsi que l'approche statistique obtient des résultats équivalents à l'approche linguistique sans adapter la phase d'indexation à la langue du document. ABSTRACT. This article presents a statistical approach of semantic indexing for multilingual documents. The proposed approach is composed of three stages: extraction of terms, detection of concepts and detection of relations from couples of terms. Our approach is validated by a set of experiments on the ImageCLEFmed 2007 collection and a comparison with a linguistic approach. The experiments show that the statistical approach obtains results equivalent to the linguistic one without adapting the indexing procedure to the document language.
2004
La demande pressante des institutions en matiere de protection des usagers contre les contenus illicites ou prejudiciables sur Internet (racisme, xenophobie, pedophilie) invite a depasser les systemes de filtrage automatique conventionnels bases sur des listes de mots-cles ou des annuaires d'adresses preetablies, peu efficaces et exigeant de frequentes mises a jour. Princip, la plate-forme multilingue de detection de pages Web racistes dont nous presentons quelques aspects, met en jeu une analyse semantique globale, multicritere, et differentielle des documents. Elle repose a la fois sur les propositions theoriques de la semantique interpretative et les possibilites offertes par l'implementation dans un systeme multi-agents, tout en se demarquant des approches ontologiques classiques.
Démarches sémantiques de recherche d'information sur le Web
2009
Thèmes : Web sémantique Résumé : L'examen de différents projets de recherche visantà supporter les activités des membres d'une communautéà l'aide d'une mémoire collective met enévidence l'intérêt de capitaliser les requêtes formuléesà la mémoire et plus généralement les savoir-faire experts d'une communauté en matière de recherche d'information. L'enjeu est de donner les moyens aux membres d'une communauté de réutiliser et partager ces savoir-faire pour retrouver des informations précises et complètes par composition des résultats de requêtes sur différentes sources d'information. Dans cet article, nous proposons un modèle fondé sur les standards du web sémantique pour capitaliser, réutiliser et partager des séquences complexes de requêtes que nous appelons démarches de recherche. Notre modèle est le résultat d'une adaptation de la représentation intentionnelle de processus : nous explicitons les sous-buts qui gouvernent l'organisation d'une démarche de recherche et l'ordre selon lequel ces sous-buts doiventêtre satisfaits. Les démarches de recherche sont représentées en RDF et opérationalisées par des requêtes représentées en SPARQL. L'instanciation d'une démarche repose sur la mise en oeuvre d'un mécanisme de chaînage arrière sur ces règles.
Documentation et bibliothèques, 2011
Notre approche vise à aider le travail d’indexation des bibliothécaires via les concepts provenant d’un vocabulaire contrôlé par des relations de sens contenues dans les notices descriptives. Dans notre travail de recherche, nous définissons automatiquement le thésaurus TERRIDOC en exploitant les spécificités du corpus liées à des termes qui « ont fait sens » au bibliothécaire lors de la constitution de la notice descriptive. Une phase de conceptualisation a permis dans un premier temps de définir en détails les différents modules pour créer automatiquement la structure sémantique représentant le travail d’indexation des experts, puis dans un second temps de proposer des interfaces représentant visuellement ce travail à des fins de validation du travail d’indexation des bibliothécaires et de navigation dans le fonds documentaire. À la suite de l’analyse et de la création de ce premier outil, nous proposons des moyens de contrôler et de valider le travail d’indexation. Notre travail ...