Pour un modèle de dépôt de données adapté à la constitution de corpus de recherche (original) (raw)

Un modèle générique d'organisation de corpus en ligne: application à la FReeBank

Arxiv preprint cs/0611026, 2006

Abstract: The few available French resources for evaluating linguistic models or algorithms on other linguistic levels than morpho-syntax are either insufficient from quantitative as well as qualitative point of view or not freely accessible. Based on this fact, the FREEBANK project intends to create French corpora constructed using manually revised output from a hybrid Constraint Grammar parser and annotated on several linguistic levels (structure, morpho-syntax, syntax, coreference), with the objective to make them available on-line for ...

Design d’un portail pour l’archivage des données de la recherche et proposition d’interfaces pour inciter les chercheurs/structures à déposer leurs données

2020

Design d'un portail pour l'archivage des données de la recherche et proposition d'interfaces pour inciter les chercheurs/structures à déposer leurs données FAVRE, Marion & HAHLING, Héloïse i Remerciements Nous tenons à remercier tout particulièrement les personnes qui nous ont apporté une aide précieuse et sans qui le projet n'aurait pas pu être mené à bien : • Messieurs Pierre-Yves Burgi et Hugues Cazeaux, qui nous ont accompagnées tout au long de ce travail et qui se sont montrés disponibles. En tant que mandants, ils nous ont permis de nous plonger dans les problématiques liées à la gestion des données de recherche, domaine qui nous n'était pas familier, mais pour lequel nous manifestons un intérêt tout particulier. • Monsieur René Schneider, qui nous a conseillées et orientées vers des outils qui ont facilité la réalisation de notre travail. Design d'un portail pour l'archivage des données de la recherche et proposition d'interfaces pour inciter les chercheurs/structures à déposer leurs données FAVRE, Marion & HAHLING, Héloïse vii 1 L'Open science est un « mouvement visant à rendre la recherche scientifique et les données qu'elle produit accessibles à tous et dans tous les niveaux de la société » (Wikipédia 2009). 2 Dans le cadre de l'Open science, les principes du FAIR data évoquent « les manières de construire, stocker, présenter ou publier des données de manière à permettre que la donnée soit « trouvable, accessible, interopérable et réutilisable » » (Wikipédia 2017a). 3 L'Open access est la « mise à disposition en ligne de contenus numériques, qui peuvent eux-mêmes être soit libres, soit sous un des régimes de propriété intellectuelle » (Wikipédia 2006). 4 Le cycle de vie des données comprend leur création, leur traitement, leur analyse, leur préservation, leur mise à disposition, ainsi que leur réutilisation (Burgi 2018).

Un meilleur corpus de données pour la recherche comparée internationale

Revue internationale des sciences sociales, 2007

Distribution électronique Cairn.info pour ERES. © ERES. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit.

Contribution à la structuration de corpus d'apprentissage pour un meilleur partage en recherche

1 Contribution à la structuration de corpus d'apprentissage pour un meilleur partage en recherche Christophe REFFAY (LIFC, Besançon), Thierry CHANIER (LASELDI, Besançon), Muriel NORAS (LIFC, Besançon), Marie-Laure BETBEDER (LIFC, Besançon). RÉSUMÉ • D'un point de vue méthodologique, pour permettre une analyse des interactions situées, il convient de relier les différentes données issues de formations en ligne, pour construire un objet d'analyse, exploitable par différentes équipes et disciplines, qui puisse ainsi donner lieu à la réplication d'expérimentations, à des analyses cumulatives ou contrastives. Le constat actuel est que les données sont souvent décontextualisées, parcellaires ou simplement inaccessibles à la communauté des chercheurs. Nous définissons un corpus d'apprentissage, en identifiant l'information qu'il doit contenir, structurée de façon à rendre possible son échange et la capitalisation des analyses. Le protocole de recherche, le scénario pédagogique, les interactions, productions et traces, les licences et les analyses capitalisables en sont les constituants. Nous illustrons la démarche de construction d'un tel corpus sur l'exemple de la formation Simuligne. Ce travail est ensuite positionné au regard des questions d'éthique et de droit, des efforts de standardisation et des avancées sur l'analyse des traces en EIAH. MOTS CLÉS • apprentissage en ligne, contexte, corpus d'apprentissage, interactions verbales et non verbales, échange de données de recherche.

Création d’un prototype de jeu sérieux sur la gestion des données de la recherche

Revue électronique suisse de science de l'information (RESSI)

Les professionnel-le-s de l'information travaillant en bibliothèque académique sont désormais régulièrement amené-e-s à accompagner des chercheurs et chercheuses dans la gestion de leurs données de recherche. Dans le but d'offrir à ces professionnel-le-s une formation introductive sur cette thématique, nous avons conçu et testé un prototype de jeu sérieux. Ce projet a été réalisé dans le cadre du Master en Sciences de l'information à la Haute école de gestion de Genève. Méthode : Notre méthodologie s’inspire de deux modèles de conception de jeux sérieux. Elle s'articule en trois étapes : (1) la phase de définition, qui présente les résultats de l'analyse des besoins, l'exploration de l'existant et le dispositif de formation ; (2) la production du prototype et les tests effectués ; (3) l'accompagnement et l'évaluation. Résultats : Le jeu proposé, « Mission GDR : ultime quête avant les fêtes » est inspiré de la série de jeux d'évasion en boîte «...

Structuration de corpus de formation en ligne en vue de leur échange

Dans cet article, nous proposons une définition des corpus de formation en ligne permettant leur structuration en vue de leur échange. La structuration prévoit d'inclure les éléments caractérisant le dispositif de formation ainsi que le dispositif de recherche afin de permettre à un chercheur n'ayant pas participé à l'expérimentation d'accéder au contexte des interactions pour en saisir le contenu. Ce papier décrit les composants d'un corpus échangeable : les données de recherche, le scénario pédagogique, les acteurs et outils, les traces, interactions et productions elles-mêmes et les contrats de cessation et d'utilisation de ces données. La démarche de structuration s'appuie sur deux corpus existants très différents : l'un essentiellement asynchrone et textuel, l'autre synchrone et multimodal.

Présentation : Constitution de corpus linguistiques et pérennisation des données

Histoire épistémologie langage, 2016

Ce numéro d'HEL est constitué d'articles issus des communications du colloque SHESL-HTL 2015 « Corpus et constitution des savoirs linguistiques ». Ce colloque a eu lieu les 30 et 31 janvier 2015 à Paris et a été co-organisé par la SHESL, le laboratoire d'Histoire des Théories Linguistiques (UMR7597) et le Laboratoire Ligérien de Linguistique (UMR 7270) sous la direction de Gabriel Bergounioux, Bernard Colombat et Jacqueline Léon (cf. l'appel à colloque et le programme [http://www.shesl.org/spip.php?rubrique76\]). Une autre partie des communications et la table ronde font l'objet d'une publication dans les Dossiers d'HEL, supplément électronique à la revue HEL. Voir la liste des articles ci-dessous. La référence aux corpus est devenue l'une des orientations méthodologiques majeures de la linguistique contemporaine en lien avec le développement de la numérisation et le recours aux outils de traitement automatique. Pour en donner un exemple dans l'actualité scienti que, on a constaté en quelques années la création de la TGIR Humanités Numériques (Huma-Num) déclinée en plusieurs consortiums, d'un Equipex (Ortolang) et d'un appel de l'ANR (Corpus en SHS). Avec le projet Huma-Num et la mise en place de DARIAH et de CLARIN, c'est au niveau européen que la question se trouve transposée. Le travail sur des données destinées à l'établissement, la collation, la véri cation et l'analyse des faits linguistiques est une pratique ancienne. Elle correspond

Modèles d’analyse de corpus de données média.

2014

Ce rapport constitue le livrable 1 du projet Campus AAR. Il est consacré à une présentation et description très détaillée des différents scénarios d’analyse de données média ou de corpus de données média, tels qu’ils doivent être maîtrisés par l’environnement technique et scientifique du projet appelé Campus AAR. 1) Analyse : Le terme « analyse » est ici pris dans un sens très large, incluant non seulement des activités telles que la classification, la description ou l’indexation de données média, mais aussi les activités de traitement telles que la segmentation de données média, le montage virtuel ou encore le sous-titrage. 2) Donnée média : Le terme « donnée média » d’une analyse renvoie ici à plusieurs types de média : support vidéo (document filmique, …), image fixe (photographie, dessin, …), enregistrement sonore (musique, bruitage, parole, …) ou encore document textuel en format pdf. 3) Niveaux d’analyse : Une analyse peut porter sur différents niveaux, qu’il s’agisse d’une partie d’une donnée média (par exemple sur une zone délimitée d’une image, sur un segment particulier d’une vidéo), de la donnée média prise comme un tout (par exemple sur une image, une vidéo, …) ou encore d’un corpus de données média et/ou de parties de données média. 4) Projet d’archives : Toute activité d’analyse s’inscrit, selon la vision du projet Campus AAR, dans un projet d’archives, comme par exemple, dans un projet de production, de diffusion, d’exploitation, … d’un patrimoine culturel ou scientifique. Ainsi, le présent rapport débute par un premier chapitre qui explicite d’une part le scénario de référence en dix étapes principales qui sous-tend tout projet d’archives (notamment audiovisuelles) et, d’autre part, les principaux rôles (et responsabilités) qu’on peut rencontrer dans un tel projet. Une série d’exemples tirés du programme AAR (Archives Audiovisuelles de la recherche) montrera le fonctionnement de ce scénario. Parmi les 10 étapes principales décrivant le scénario de référence du projet Campus AAR, ce sont essentiellement les étapes 5 et 7 qui constituent l’objet principal de ce rapport consacré à la description des scénarios de traitement, de description et d’indexation de données ou de corpus de données média. Le deuxième chapitre du rapport est consacré à la présentation détaillée du dépôt d’un fonds multimédia (vidéo, image, texte, …) dans le cadre d’un projet concret d’archive. Toute archive (personnelle, institutionnelle, …) repose obligatoirement sur un fonds de données. Si ce fonds n’existe pas encore, il doit être constitué, c’est-à-dire – dans le cadre du projet Campus AAR – « déposé » sous forme de fichiers média sur l’un des deux dépôts physiques actuellement disponibles : le dépôt MédiHAL du CCSD (CNRS) et le dépôt AAR de l’ESCoM. Un point crucial traité ici est que le Studio Campus AAR (la plateforme que le projet Campus AAR vise à réaliser) doit permettre à tout utilisateur authentifié et agréé d’utiliser les dépôts physiques et d’accéder aux fonds audiovisuels des AAR (ESCoM) et de MédiHAL (CNRS). Le dépôt des données média d’une archive précède l’analyse à proprement parler, i.e. le traitement (segmentation, sous-titrage, montage, …), la description, l’indexation et la classification de ces données. L’analyse elle-même peut prendre des formes très différentes. Elle peut ressembler à un travail de documentaliste assurant le travail classique de classification et d’indexation d’un fonds, elle peut se présenter sous forme d’une analyse spécialisée correspondant au travail d’un chercheur dans une discipline scientifique donnée, ou elle peut encore correspondre à une activité professionnelle dans tel ou tel secteur de la communication, de la médiation scientifique, etc. Dans tous les cas de figure, toute analyse peut être décrite sous forme d’un parcours – d’un « workflow » – qui se décompose en une ou plusieurs tâches (d’analyse) spécifiques. Chaque tâche, à son tour, peut de nouveau être caractérisée par une ou plusieurs activités d’analyse, dont chacune porte sur une ou plusieurs données (d’analyse). Les chapitres 3, 4, 5 et 6 sont entièrement consacrés à la description et l’explicitation du travail d’analyse de données ou de corpus de données média : Le troisième chapitre introduit quatre genres (ou types) d’analyse – chaque genre (ou type) reposant sur un ensemble de tâches typiques : 1) le genre analyse de base correspondant au travail « élémentaire » de traitement, de classification et d’indexation d’un fonds audiovisuel ; 2) le genre analyse standard permettant de traiter d’une manière plus « ciblée » un objet ou un corpus de données média : analyse du contenu, analyse des plans d’expression audiovisuels, analyse des usages, etc. ; 3) le genre analyse spécialisée permettant de traiter une donnée ou un corpus de données média selon les approches théoriques propres à telle ou telle discipline scientifique ; 4) le genre analyse experte qui confie à l’analyste le choix des tâches appropriées pour mener à bien son travail. Le quatrième et le cinquième chapitre décrivent les tâches, ainsi que les parcours typiques, qui constituent chaque genre (ou type) d’analyse. Le sixième chapitre (le plus long de ce rapport) identifie et décrit, pour chaque tâche, les activités d’analyse ainsi que les objets sur lesquels porte chaque activité. Les résultats du septième chapitre sont d’une importance centrale pour la définition des ressources métalinguistiques (i.e. de l’« ontologie », du thesaurus et des modèles de description) utilisées par le Studio Campus AAR. En effet, la description détaillée de chaque tâche en termes d’activité d’analyse et d’objet d’analyse permet la constitution empiriquement motivée d’un vocabulaire conceptuel de base, i.e. d’un ensemble de termes conceptuels désignant les objets et les activités d’analyse qui constituent (partiellement) l’univers du discours des archives audiovisuelles réalisées à l’aide du Studio Campus AAR. Enfin, le septième chapitre est réservé à l’énumération de ce vocabulaire de base des termes conceptuels, formant une partie de l’ontologie générique qui sera utilisée par le Studio Campus AAR et qui fera l’objet des travaux de R&D de la deuxième tâche du projet – tâche consacrée aux modèles des données du Campus AAR.