Caractérisation de Requêtes d’Assistance à partir de corpus (original) (raw)

Caractérisation d’un Corpus de Requêtes d’Assistance

Afin de concevoir un agent conversationnel logiciel capable d'assister des utilisateurs novices d'applications informatiques, nous avons été amenés à constituer un corpus spécifique de requêtes d'assistance en français, et à étudier ses caractéristiques. Nous montrons ici que les requêtes d'assistance se distinguent nettement de requêtes issues d'autres corpus disponibles dans des domaines proches. Nous mettons également en évidence le fait que ce corpus n'est pas homogène, mais contient au contraire plusieurs activités conversationnelles distinctes, dont l'assistance elle-même. Ces observations nous permettent de discuter de l'opportunité de considérer l'assistance comme un registre particulier de la langue générale.

Interroger un corpus par le sens

2008

In textual knowledge management, statistical methods prevail. Nonetheless, some difficulties cannot be overcome by these methodologies. I propose a symbolic approach using a complete textual analysis to identify which analysis level can improve the the answers provided by a system. The approach identifies word senses and relation between words and generates as many rephrasings as possible. Using synonyms and derivative, the system provides new utterances without changing the original meaning of the sentences. Such a way, an information can be retrieved whatever the question or answer's wording may be.

Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement

HAL (Le Centre pour la Communication Scientifique Directe), 2022

Dans cette démonstration, nous présenterons les travaux en cours pour l'annotation d'un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme "FQuad" ou "Piaf", nous nous intéressons à l'annotation de questions-réponses "non factuelles". En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s'appuyant sur un schéma de raisonnement issue de l'agrégation de différentes sources ou contextes. L'objectif du projet associé est de parvenir à la création d'un assistant virtuel pour l'éducation, ainsi des réponses explicatives, de raisonnement et/ou d'agrégation de l'information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d'approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l'étape de validation de la campagne d'annotation. Une deuxième phase d'annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).

Un corpus vidéo d’appels d’urgence par SMS

Corpus, 2020

Dispositifs numériques et dévoilement de soi Un corpus vidéo d'appels d'urgence par SMS Reconstruire des repères pour des interactions textuelles A Video Corpus of SMS-Calls for Emergency. To Build Benchmarks for Textual Interactions

Création semi-automatique d’un corpus annoté pour l’analyse d’opinions

SHS Web of Conferences, 2016

Nous décrivons une méthode semi-automatique pour la création d'un corpus annoté en français. Ce corpus vise à permettre l'apprentissage d'un système d'analyse d'opinions dans des textes portant sur l'évaluation d'établissements de recherche et d'enseignement supérieur. La création de ce corpus s'effectue de manière itérative. Au cours de ces itérations une ontologie, une terminologie ainsi qu'un ensemble de patrons syntaxicosémantiques sont créés automatiquement à partir d'annotations antérieures effectuées par des experts du domaine. Ces ressources permettent par la suite de guider l'annotation automatique de nouveaux corpus. Chaque corpus annoté automatiquement est alors soumis à une nouvelle annotation manuelle des experts. Des résultats empiriques montrent que notre méthode permet d'accélérer et de faciliter le processus d'annotation. Le corpus résultat est annoté à la fois sémantiquement et syntaxiquement. Il est disponible gratuitement.

Modélisation du domaine par une méthode fondée sur l'analyse de corpus (2005)

HAL (Le Centre pour la Communication Scientifique Directe), 2005

paris13.fr Résumé Les nombreux travaux actuels sur les ontologies et modèles de domaines, justifiés par la perspective de leur réutilisabilité, proposent très peu de solutions aux problèmes pratiques de recueil et de structuration de ces connaissances. Cet article propose une méthode de construction de modèles de domaine ou d'ontologies, dont l'originalité est de se fonder sur l'analyse de corpus en utilisant ses principes linguistiques et ses logiciels de traitement automatique de la langue. Cette démarche se veut un complément efficace et précis aux méthodes classiques de modélisation du domaine à partir d'expertises individuelles. Mots clés : Construction d'ontologies, acquisition de connaissances à partir de textes, terminologie.