Modèles d’analyse de corpus de données média. (original) (raw)

Ce rapport constitue le livrable 1 du projet Campus AAR. Il est consacré à une présentation et description très détaillée des différents scénarios d’analyse de données média ou de corpus de données média, tels qu’ils doivent être maîtrisés par l’environnement technique et scientifique du projet appelé Campus AAR. 1) Analyse : Le terme « analyse » est ici pris dans un sens très large, incluant non seulement des activités telles que la classification, la description ou l’indexation de données média, mais aussi les activités de traitement telles que la segmentation de données média, le montage virtuel ou encore le sous-titrage. 2) Donnée média : Le terme « donnée média » d’une analyse renvoie ici à plusieurs types de média : support vidéo (document filmique, …), image fixe (photographie, dessin, …), enregistrement sonore (musique, bruitage, parole, …) ou encore document textuel en format pdf. 3) Niveaux d’analyse : Une analyse peut porter sur différents niveaux, qu’il s’agisse d’une partie d’une donnée média (par exemple sur une zone délimitée d’une image, sur un segment particulier d’une vidéo), de la donnée média prise comme un tout (par exemple sur une image, une vidéo, …) ou encore d’un corpus de données média et/ou de parties de données média. 4) Projet d’archives : Toute activité d’analyse s’inscrit, selon la vision du projet Campus AAR, dans un projet d’archives, comme par exemple, dans un projet de production, de diffusion, d’exploitation, … d’un patrimoine culturel ou scientifique. Ainsi, le présent rapport débute par un premier chapitre qui explicite d’une part le scénario de référence en dix étapes principales qui sous-tend tout projet d’archives (notamment audiovisuelles) et, d’autre part, les principaux rôles (et responsabilités) qu’on peut rencontrer dans un tel projet. Une série d’exemples tirés du programme AAR (Archives Audiovisuelles de la recherche) montrera le fonctionnement de ce scénario. Parmi les 10 étapes principales décrivant le scénario de référence du projet Campus AAR, ce sont essentiellement les étapes 5 et 7 qui constituent l’objet principal de ce rapport consacré à la description des scénarios de traitement, de description et d’indexation de données ou de corpus de données média. Le deuxième chapitre du rapport est consacré à la présentation détaillée du dépôt d’un fonds multimédia (vidéo, image, texte, …) dans le cadre d’un projet concret d’archive. Toute archive (personnelle, institutionnelle, …) repose obligatoirement sur un fonds de données. Si ce fonds n’existe pas encore, il doit être constitué, c’est-à-dire – dans le cadre du projet Campus AAR – « déposé » sous forme de fichiers média sur l’un des deux dépôts physiques actuellement disponibles : le dépôt MédiHAL du CCSD (CNRS) et le dépôt AAR de l’ESCoM. Un point crucial traité ici est que le Studio Campus AAR (la plateforme que le projet Campus AAR vise à réaliser) doit permettre à tout utilisateur authentifié et agréé d’utiliser les dépôts physiques et d’accéder aux fonds audiovisuels des AAR (ESCoM) et de MédiHAL (CNRS). Le dépôt des données média d’une archive précède l’analyse à proprement parler, i.e. le traitement (segmentation, sous-titrage, montage, …), la description, l’indexation et la classification de ces données. L’analyse elle-même peut prendre des formes très différentes. Elle peut ressembler à un travail de documentaliste assurant le travail classique de classification et d’indexation d’un fonds, elle peut se présenter sous forme d’une analyse spécialisée correspondant au travail d’un chercheur dans une discipline scientifique donnée, ou elle peut encore correspondre à une activité professionnelle dans tel ou tel secteur de la communication, de la médiation scientifique, etc. Dans tous les cas de figure, toute analyse peut être décrite sous forme d’un parcours – d’un « workflow » – qui se décompose en une ou plusieurs tâches (d’analyse) spécifiques. Chaque tâche, à son tour, peut de nouveau être caractérisée par une ou plusieurs activités d’analyse, dont chacune porte sur une ou plusieurs données (d’analyse). Les chapitres 3, 4, 5 et 6 sont entièrement consacrés à la description et l’explicitation du travail d’analyse de données ou de corpus de données média : Le troisième chapitre introduit quatre genres (ou types) d’analyse – chaque genre (ou type) reposant sur un ensemble de tâches typiques : 1) le genre analyse de base correspondant au travail « élémentaire » de traitement, de classification et d’indexation d’un fonds audiovisuel ; 2) le genre analyse standard permettant de traiter d’une manière plus « ciblée » un objet ou un corpus de données média : analyse du contenu, analyse des plans d’expression audiovisuels, analyse des usages, etc. ; 3) le genre analyse spécialisée permettant de traiter une donnée ou un corpus de données média selon les approches théoriques propres à telle ou telle discipline scientifique ; 4) le genre analyse experte qui confie à l’analyste le choix des tâches appropriées pour mener à bien son travail. Le quatrième et le cinquième chapitre décrivent les tâches, ainsi que les parcours typiques, qui constituent chaque genre (ou type) d’analyse. Le sixième chapitre (le plus long de ce rapport) identifie et décrit, pour chaque tâche, les activités d’analyse ainsi que les objets sur lesquels porte chaque activité. Les résultats du septième chapitre sont d’une importance centrale pour la définition des ressources métalinguistiques (i.e. de l’« ontologie », du thesaurus et des modèles de description) utilisées par le Studio Campus AAR. En effet, la description détaillée de chaque tâche en termes d’activité d’analyse et d’objet d’analyse permet la constitution empiriquement motivée d’un vocabulaire conceptuel de base, i.e. d’un ensemble de termes conceptuels désignant les objets et les activités d’analyse qui constituent (partiellement) l’univers du discours des archives audiovisuelles réalisées à l’aide du Studio Campus AAR. Enfin, le septième chapitre est réservé à l’énumération de ce vocabulaire de base des termes conceptuels, formant une partie de l’ontologie générique qui sera utilisée par le Studio Campus AAR et qui fera l’objet des travaux de R&D de la deuxième tâche du projet – tâche consacrée aux modèles des données du Campus AAR.