Philippe Suignard - Academia.edu (original) (raw)

Papers by Philippe Suignard

Research paper thumbnail of Sociologie de l'Etat en recomposition - Paul du Gay et Alan Scott

Publications Docs-en-stock.com, Oct 29, 2012

Research paper thumbnail of Que peuvent les algorithmes de plongement de mots pour l’analyse sociologique des textes ? Analyser les discours et caractériser les locuteurs des plateformes « Grand Débat National » et « Vrai Débat »

Statistique et Société, Sep 28, 2021

Research paper thumbnail of EDF R&D Participation to DEFT 2022

HAL (Le Centre pour la Communication Scientifique Directe), Jun 27, 2022

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe a participé aux deux tâches proposées, l'une sur la prédiction automatique de la note d'un étudiant.e pour sa réponse à une question, d'après une référence existante, la seconde, nouvelle, qui était une tâche de prédiction itérative des notes. Notre équipe s'est classée 1ère sur la première tâche et a été la seule contributrice sur la seconde. Le corpus se composait d'énoncés en informatique avec la correction de l'enseignant et les réponses des étudiant.e.s par question.

Research paper thumbnail of Novelty Detection in Text Streams - A Survey

HAL (Le Centre pour la Communication Scientifique Directe), 2013

International audienc

Research paper thumbnail of Un discours et un public « Gilets Jaunes » au coeur du Grand Débat National ? Combinaison des approches IA et textométriques pour l'analyse de discours des plateformes « Grand Débat National » et « Vrai débat »

HAL (Le Centre pour la Communication Scientifique Directe), Jun 16, 2020

In this contribution, we propose to analyze the statements coming from two "civic tech" platforms... more In this contribution, we propose to analyze the statements coming from two "civic tech" platforms-the governmental platform, "Grand Débat National" and, its political and algorithmic response proposed by a Yellow Vest collective, "Vrai Débat"-, by confronting two families of algorithms dedicated to text analysis. We propose to implement, on the one hand, proven approaches in textual data analysis (Reinert/Iramuteq Method) which have recently shown their interest in the analysis of very large corpora and, on the other hand, new methods resulting from the crossroads of the computer worlds, artificial intelligence and automatic language processing. We will examine the methodological solutions for qualifying the social properties of speakers about whom we have little direct information. Finally, we will attempt to present some research questions at the crossroads of the political sociology of public opinion and data science, which such a confrontation opens up.

Research paper thumbnail of Spontaneous speech and opinion detection: mining call-centre transcripts

Language Resources and Evaluation, Apr 4, 2013

Research paper thumbnail of Visual analysis of topics in Twitter based on co-evolution of terms

HAL (Le Centre pour la Communication Scientifique Directe), 2015

The analysis of Twitter short messages has become a key issue for companies seeking to understand... more The analysis of Twitter short messages has become a key issue for companies seeking to understand consumer behaviour and expectations. However, automatic algorithms for topic tracking often extract general tendencies at a high granularity level and do not provide added value to experts who are looking for more subtle information. In this paper, we focus on the visualization of the co-evolution of terms in tweets in order to facilitate the analysis of the evolution of topics by a decision-maker. We take advantage of the perceptual quality of heatmaps to display our 3D data (term × time × score) in a 2D space. Furthermore, by computing an appropriate order to display the main terms on the heatmap, our methodology ensures an intuitive visualization of their co-evolution. An experiment was conducted on real-life datasets in collaboration with an expert in customer relationship management working at the French energy company EDF. The first results show three different kinds of co-evolution of terms: bursty features, reoccurring terms and long periods of activity.

Research paper thumbnail of Une promesse technologique et démocratique : Analyser les énoncés recueillis sur les plateformes du « grand débat » et du « vrai débat» avec les outils de l’analyse des données textuelles et des algorithmes issus de l’IA

HAL (Le Centre pour la Communication Scientifique Directe), Aug 27, 2019

International audienc

Research paper thumbnail of Monitoring geometrical properties of word embeddings for detecting the emergence of new topics

arXiv (Cornell University), Nov 5, 2021

Slow emerging topic detection is a task between event detection, where we aggregate behaviors of ... more Slow emerging topic detection is a task between event detection, where we aggregate behaviors of different words on short period of time, and language evolution, where we monitor their long term evolution. In this work, we tackle the problem of early detection of slowly emerging new topics. To this end, we gather evidence of weak signals at the word level. We propose to monitor the behavior of words representation in an embedding space and use one of its geometrical properties to characterize the emergence of topics. As evaluation is typically hard for this kind of task, we present a framework for quantitative evaluation. We show positive results that outperform state-ofthe-art methods on two public datasets of press and scientific articles.

Research paper thumbnail of Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites

Cette étude porte sur l'analyse de conversations entre des clients et des téléconseillers d'EDF. ... more Cette étude porte sur l'analyse de conversations entre des clients et des téléconseillers d'EDF. Elle propose une chaîne de traitements permettant d'automatiser la détection des sujets abordés dans chaque conversation. L'aspect multi-thématique des conversations nous incite à trouver une unité de documents entre le simple tour de parole et la conversation entière. Cette démarche enchaîne une étape de segmentation de la conversation en thèmes homogènes basée sur la notion de cohésion lexicale, puis une étape de text-mining comportant une analyse linguistique enrichie d'un vocabulaire métier spécifique à EDF, et enfin une classification non supervisée des segments obtenus. Plusieurs algorithmes de segmentation ont été évalués sur un corpus de test, segmenté et annoté manuellement : le plus « proche » de la segmentation de référence est C99. Cette démarche, appliquée à la fois sur un corpus de conversations transcrites à la main, et sur les mêmes conversations décodées par un moteur de reconnaissance vocale, aboutit quasiment à l'obtention des 20 mêmes classes thématiques.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2022

HAL (Le Centre pour la Communication Scientifique Directe), 2022

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe a participé aux deux tâches proposées, l'une sur la prédiction automatique de la note d'un étudiant.e pour sa réponse à une question, d'après une référence existante, la seconde, nouvelle, qui était une tâche de prédiction itérative des notes. Notre équipe s'est classée 1ère sur la première tâche et a été la seule contributrice sur la seconde. Le corpus se composait d'énoncés en informatique avec la correction de l'enseignant et les réponses des étudiant.e.s par question.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2020 (This paper describes the participation of EDF R&D at DEFT 2020 evaluation campaign)

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2020. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l'extraction d'information fine autour d'une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2 e sur la tâche 1. Les méthodes proposées sont facilement transposables à d'autres cas d'application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l'outil SpaCy sur l'extraction d'information.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2019. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d'information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des résultats satisfaisants sur l'ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d'autres tâches d'indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of How to Detect Novelty in Textual Data Streams? A Comparative Study of Existing Methods

Lecture Notes in Computer Science, 2020

Since datasets with annotation for novelty at the document and/or word level are not easily avail... more Since datasets with annotation for novelty at the document and/or word level are not easily available, we present a simulation framework that allows us to create different textual datasets in which we control the way novelty occurs. We also present a benchmark of existing methods for novelty detection in textual data streams. We define a few tasks to solve and compare several state-of-the-art methods. The simulation framework allows us to evaluate their performances according to a set of limited scenarios and test their sensitivity to some parameters. Finally, we experiment with the same methods on different kinds of novelty in the New York Times Annotated Dataset.

Research paper thumbnail of Analyser le “grand débat national” et le “vrai débat” en confrontant les outils del’analyse des données textuelles et des algorithmes de type réseau de neurones

HAL (Le Centre pour la Communication Scientifique Directe), Jan 16, 2020

International audienceDans cet article, nous montrons comment des techniques de type word et docu... more International audienceDans cet article, nous montrons comment des techniques de type word et document embeddings, appris sur le corpus des articles de la conférence EGC, associés à une technique de visualisation de graphe, permettent de détecter les thématiques en émergence de cette conférence

Research paper thumbnail of Participation d’EDF R&D à DEFT 2018 (Here the title in English)

Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT, 2018

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2018. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2018. Notre équipe a participé aux deux premières tâches : classification des tweets en transport/non-transport (Tâche T1) et détection de la polarité globale des tweets (Tâche T2). Nous avons utilisé 3 méthodes différentes s'appuyant sur Word2Vec, CNN et LSTM. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des résultats très corrects et se classe 1 ère équipe non académique. Les méthodes proposées sont facilement transposables à d'autres tâches de classification de textes courts et peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of How to Detect Novelty in Textual Data Streams? A Comparative Study of Existing Methods

Advanced Analytics and Learning on Temporal Data, 2020

Since datasets with annotation for novelty at the document and/or word level are not easily avail... more Since datasets with annotation for novelty at the document and/or word level are not easily available, we present a simulation framework that allows us to create different textual datasets in which we control the way novelty occurs. We also present a benchmark of existing methods for novelty detection in textual data streams. We define a few tasks to solve and compare several state-of-the-art methods. The simulation framework allows us to evaluate their performances according to a set of limited scenarios and test their sensitivity to some parameters. Finally, we experiment with the same methods on different kinds of novelty in the New York Times Annotated Dataset.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a ... more Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2021 (EDF R&D Participation to DEFT 2021)

Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT), 2021

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2021. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2021. Notre équipe a participé aux deux dernières tâches proposées (T2 et T3), deux tâches sur le calcul de similarité sémantique entre textes courts, et s'est classée 1 ère sur ces deux tâches. Cette édition proposait deux nouvelles tâches pour l'évaluation automatique de réponses d'étudiants à des questions d'enseignants. Le corpus se composait d'une centaine d'énoncés en informatique avec la correction de l'enseignant et les réponses d'une cinquantaine d'étudiants en moyenne par question, sur 2 ans. La tâche 2 consistait à évaluer les réponses des étudiants en prenant pour référence la correction produite par l'enseignant et la tâche 3 à évaluer les réponses d'étudiants à partir d'un ensemble composé d'un énoncé et de plusieurs réponses d'étudiants déjà corrigées par l'enseignant.e.

Research paper thumbnail of Un Discours et Un Public Gilets Jaunes Au Coeur Du Grand Debat National Combinaison Des Approches Ia et Textometriques Pour L Analyse De Discours Des Plateformes Grand Debat National et Vrai Debat

JADT 2020 : 15es Journées internationales d’Analyse statistique des Données Textuelles, Jun 16, 2020

Research paper thumbnail of Sociologie de l'Etat en recomposition - Paul du Gay et Alan Scott

Publications Docs-en-stock.com, Oct 29, 2012

Research paper thumbnail of Que peuvent les algorithmes de plongement de mots pour l’analyse sociologique des textes ? Analyser les discours et caractériser les locuteurs des plateformes « Grand Débat National » et « Vrai Débat »

Statistique et Société, Sep 28, 2021

Research paper thumbnail of EDF R&D Participation to DEFT 2022

HAL (Le Centre pour la Communication Scientifique Directe), Jun 27, 2022

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe a participé aux deux tâches proposées, l'une sur la prédiction automatique de la note d'un étudiant.e pour sa réponse à une question, d'après une référence existante, la seconde, nouvelle, qui était une tâche de prédiction itérative des notes. Notre équipe s'est classée 1ère sur la première tâche et a été la seule contributrice sur la seconde. Le corpus se composait d'énoncés en informatique avec la correction de l'enseignant et les réponses des étudiant.e.s par question.

Research paper thumbnail of Novelty Detection in Text Streams - A Survey

HAL (Le Centre pour la Communication Scientifique Directe), 2013

International audienc

Research paper thumbnail of Un discours et un public « Gilets Jaunes » au coeur du Grand Débat National ? Combinaison des approches IA et textométriques pour l'analyse de discours des plateformes « Grand Débat National » et « Vrai débat »

HAL (Le Centre pour la Communication Scientifique Directe), Jun 16, 2020

In this contribution, we propose to analyze the statements coming from two "civic tech" platforms... more In this contribution, we propose to analyze the statements coming from two "civic tech" platforms-the governmental platform, "Grand Débat National" and, its political and algorithmic response proposed by a Yellow Vest collective, "Vrai Débat"-, by confronting two families of algorithms dedicated to text analysis. We propose to implement, on the one hand, proven approaches in textual data analysis (Reinert/Iramuteq Method) which have recently shown their interest in the analysis of very large corpora and, on the other hand, new methods resulting from the crossroads of the computer worlds, artificial intelligence and automatic language processing. We will examine the methodological solutions for qualifying the social properties of speakers about whom we have little direct information. Finally, we will attempt to present some research questions at the crossroads of the political sociology of public opinion and data science, which such a confrontation opens up.

Research paper thumbnail of Spontaneous speech and opinion detection: mining call-centre transcripts

Language Resources and Evaluation, Apr 4, 2013

Research paper thumbnail of Visual analysis of topics in Twitter based on co-evolution of terms

HAL (Le Centre pour la Communication Scientifique Directe), 2015

The analysis of Twitter short messages has become a key issue for companies seeking to understand... more The analysis of Twitter short messages has become a key issue for companies seeking to understand consumer behaviour and expectations. However, automatic algorithms for topic tracking often extract general tendencies at a high granularity level and do not provide added value to experts who are looking for more subtle information. In this paper, we focus on the visualization of the co-evolution of terms in tweets in order to facilitate the analysis of the evolution of topics by a decision-maker. We take advantage of the perceptual quality of heatmaps to display our 3D data (term × time × score) in a 2D space. Furthermore, by computing an appropriate order to display the main terms on the heatmap, our methodology ensures an intuitive visualization of their co-evolution. An experiment was conducted on real-life datasets in collaboration with an expert in customer relationship management working at the French energy company EDF. The first results show three different kinds of co-evolution of terms: bursty features, reoccurring terms and long periods of activity.

Research paper thumbnail of Une promesse technologique et démocratique : Analyser les énoncés recueillis sur les plateformes du « grand débat » et du « vrai débat» avec les outils de l’analyse des données textuelles et des algorithmes issus de l’IA

HAL (Le Centre pour la Communication Scientifique Directe), Aug 27, 2019

International audienc

Research paper thumbnail of Monitoring geometrical properties of word embeddings for detecting the emergence of new topics

arXiv (Cornell University), Nov 5, 2021

Slow emerging topic detection is a task between event detection, where we aggregate behaviors of ... more Slow emerging topic detection is a task between event detection, where we aggregate behaviors of different words on short period of time, and language evolution, where we monitor their long term evolution. In this work, we tackle the problem of early detection of slowly emerging new topics. To this end, we gather evidence of weak signals at the word level. We propose to monitor the behavior of words representation in an embedding space and use one of its geometrical properties to characterize the emergence of topics. As evaluation is typically hard for this kind of task, we present a framework for quantitative evaluation. We show positive results that outperform state-ofthe-art methods on two public datasets of press and scientific articles.

Research paper thumbnail of Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites

Cette étude porte sur l'analyse de conversations entre des clients et des téléconseillers d'EDF. ... more Cette étude porte sur l'analyse de conversations entre des clients et des téléconseillers d'EDF. Elle propose une chaîne de traitements permettant d'automatiser la détection des sujets abordés dans chaque conversation. L'aspect multi-thématique des conversations nous incite à trouver une unité de documents entre le simple tour de parole et la conversation entière. Cette démarche enchaîne une étape de segmentation de la conversation en thèmes homogènes basée sur la notion de cohésion lexicale, puis une étape de text-mining comportant une analyse linguistique enrichie d'un vocabulaire métier spécifique à EDF, et enfin une classification non supervisée des segments obtenus. Plusieurs algorithmes de segmentation ont été évalués sur un corpus de test, segmenté et annoté manuellement : le plus « proche » de la segmentation de référence est C99. Cette démarche, appliquée à la fois sur un corpus de conversations transcrites à la main, et sur les mêmes conversations décodées par un moteur de reconnaissance vocale, aboutit quasiment à l'obtention des 20 mêmes classes thématiques.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2022

HAL (Le Centre pour la Communication Scientifique Directe), 2022

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2022. Notre équipe a participé aux deux tâches proposées, l'une sur la prédiction automatique de la note d'un étudiant.e pour sa réponse à une question, d'après une référence existante, la seconde, nouvelle, qui était une tâche de prédiction itérative des notes. Notre équipe s'est classée 1ère sur la première tâche et a été la seule contributrice sur la seconde. Le corpus se composait d'énoncés en informatique avec la correction de l'enseignant et les réponses des étudiant.e.s par question.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2020 (This paper describes the participation of EDF R&D at DEFT 2020 evaluation campaign)

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2020. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l'extraction d'information fine autour d'une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2 e sur la tâche 1. Les méthodes proposées sont facilement transposables à d'autres cas d'application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l'outil SpaCy sur l'extraction d'information.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2019. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d'information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des résultats satisfaisants sur l'ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d'autres tâches d'indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of How to Detect Novelty in Textual Data Streams? A Comparative Study of Existing Methods

Lecture Notes in Computer Science, 2020

Since datasets with annotation for novelty at the document and/or word level are not easily avail... more Since datasets with annotation for novelty at the document and/or word level are not easily available, we present a simulation framework that allows us to create different textual datasets in which we control the way novelty occurs. We also present a benchmark of existing methods for novelty detection in textual data streams. We define a few tasks to solve and compare several state-of-the-art methods. The simulation framework allows us to evaluate their performances according to a set of limited scenarios and test their sensitivity to some parameters. Finally, we experiment with the same methods on different kinds of novelty in the New York Times Annotated Dataset.

Research paper thumbnail of Analyser le “grand débat national” et le “vrai débat” en confrontant les outils del’analyse des données textuelles et des algorithmes de type réseau de neurones

HAL (Le Centre pour la Communication Scientifique Directe), Jan 16, 2020

International audienceDans cet article, nous montrons comment des techniques de type word et docu... more International audienceDans cet article, nous montrons comment des techniques de type word et document embeddings, appris sur le corpus des articles de la conférence EGC, associés à une technique de visualisation de graphe, permettent de détecter les thématiques en émergence de cette conférence

Research paper thumbnail of Participation d’EDF R&D à DEFT 2018 (Here the title in English)

Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT, 2018

Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2018. Notre équipe a ... more Ce papier décrit la participation d'EDF R&D à la campagne d'évaluation DEFT 2018. Notre équipe a participé aux deux premières tâches : classification des tweets en transport/non-transport (Tâche T1) et détection de la polarité globale des tweets (Tâche T2). Nous avons utilisé 3 méthodes différentes s'appuyant sur Word2Vec, CNN et LSTM. Aucune donnée supplémentaire, autre que les données d'apprentissage, n'a été utilisée. Notre équipe obtient des résultats très corrects et se classe 1 ère équipe non académique. Les méthodes proposées sont facilement transposables à d'autres tâches de classification de textes courts et peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of How to Detect Novelty in Textual Data Streams? A Comparative Study of Existing Methods

Advanced Analytics and Learning on Temporal Data, 2020

Since datasets with annotation for novelty at the document and/or word level are not easily avail... more Since datasets with annotation for novelty at the document and/or word level are not easily available, we present a simulation framework that allows us to create different textual datasets in which we control the way novelty occurs. We also present a benchmark of existing methods for novelty detection in textual data streams. We define a few tasks to solve and compare several state-of-the-art methods. The simulation framework allows us to evaluate their performances according to a set of limited scenarios and test their sensitivity to some parameters. Finally, we experiment with the same methods on different kinds of novelty in the New York Times Annotated Dataset.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a ... more Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

Research paper thumbnail of Participation d’EDF R&D à DEFT 2021 (EDF R&D Participation to DEFT 2021)

Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT), 2021

Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2021. Notre équipe ... more Ce papier présente la participation d'EDF R&D à la campagne d'évaluation DEFT 2021. Notre équipe a participé aux deux dernières tâches proposées (T2 et T3), deux tâches sur le calcul de similarité sémantique entre textes courts, et s'est classée 1 ère sur ces deux tâches. Cette édition proposait deux nouvelles tâches pour l'évaluation automatique de réponses d'étudiants à des questions d'enseignants. Le corpus se composait d'une centaine d'énoncés en informatique avec la correction de l'enseignant et les réponses d'une cinquantaine d'étudiants en moyenne par question, sur 2 ans. La tâche 2 consistait à évaluer les réponses des étudiants en prenant pour référence la correction produite par l'enseignant et la tâche 3 à évaluer les réponses d'étudiants à partir d'un ensemble composé d'un énoncé et de plusieurs réponses d'étudiants déjà corrigées par l'enseignant.e.

Research paper thumbnail of Un Discours et Un Public Gilets Jaunes Au Coeur Du Grand Debat National Combinaison Des Approches Ia et Textometriques Pour L Analyse De Discours Des Plateformes Grand Debat National et Vrai Debat

JADT 2020 : 15es Journées internationales d’Analyse statistique des Données Textuelles, Jun 16, 2020