Analyse OLAP sur des tweets et des blogs : un retour d'expérience (original) (raw)

ADVANSE : Analyse du sentiment, de l’opinion et de l’émotion sur des Tweets Français

Ce papier décrit les systèmes que nous avons soumis au défi DEFT 2015 (Défi Fouille de Texte). Cette onzième édition a porté sur l'analyse de l'opinion, du sentiment et de l'émotion dans des tweets rédigés en Français. Le défi propose trois tâches, nous avons participé à la tâche 1 qui concerne la classification des tweets selon leur polarité, à la tâche 2.1 qui concerne l'identification de la classe générique de l'information exprimée dans les tweets et enfin à la tâche 2.2 qui concerne l'identification de la classe spécifique de l'opinion, du sentiment ou de l'émotion présente dans les tweets. Nous avons proposé des méthodes supervisées basées sur les machines à vecteurs de support (SVM) utilisant plusieurs types d'attributs comme les n-grammes de mots, les n-grammes de caractères, les patrons syntaxiques les plus fréquents, etc. Nous avons également construit et utilisé des lexiques de sentiments et d'émotions spécifiques pour le français. ...

Comment articuler analyse des réseaux et des discours sur Twitter

Tic & société, 2014

Comment articuler analyse des réseaux et des discours sur Twitter : L'exemple du débat autour du pacte budgétaire européen 120 Comment articuler analyse des réseaux et des discours sur Twitter : L'exemple du débat autour du pacte budgétaire européen Résumé : Notre article propose de repérer des communautés d'usagers au sein de Twitter et de les articuler avec les principales thématiques mobilisées dans le cadre du débat qui a eu lieu en France concernant la ratification du Traité européen sur la stabilité, la coordination et la gouvernance (TSCG) à l'automne 2012. Nos résultats montrent que les échanges mêlent des messages informatifs avec une gamme d'expressions diverses (ironie, critique, humour, indignation etc.). Le débat est structuré et ne se limite pas à une simple juxtaposition d'expressions individuelles. Les échanges sont dominés par ceux qui adoptent une position de forte opposition au Traité, couplée souvent à des discours de dénonciation ; ces internautes se tournent vers les blogues et les médias militants et alternatifs dont ils font la promotion pour s'informer mais également pour tenter de changer l'agenda dominant.

Schéma multidimensionnel dédié pour l'OLAP des Tweets

2013

Les tweets permettent l’echange de faits et d’opinions entre les utilisateurs du reseau social "Twitter". Le nombre de tweets echanges ne cesse d’augmenter et constitue ainsi une nouvelle source importante d’informations. L’application des techniques OLAP "On-Line analytical Processing" sur ces gros volumes de tweets permet d’extraire de nouvelles informations et/ou connaissances concernant par exemple le comportement des usagers ou les sujets emergents. Cet article propose un schema multidimensionnel generique dedie a l’OLAP des donnees dynamiques (tweets).

L’analyse des opinions politiques sur Twitter

Revue française de sociologie

Ce travail a été partiellement financé par le programme H2020 FETPROACT 2016-2017 de la Commission Européenne sous le numéro de bourse 732942 (ODYCCEUS).

Nouvelle approche anaphorique pour le résumé automatique des textes d’opinions dans les tweets

Ingénierie des systèmes d'information

Fournir un résumé automatique des opinions exprimées via Twitter est un thème émergent ces dernières années. Nous présentons dans cet article une nouvelle approche pour le résumé automatique des opinions sur Twitter basée sur les conversations et non sur le traitement des tweets individuels. Notre approche vise à attribuer à chaque conversation un score, indiquant le niveau de satisfaction de l'utilisateur pour le produit correspondant ainsi que pour ses différentes caractéristiques. Nous avons développé un nouvel algorithme basé sur la relation des réponses dans les conversations qui utilise la résolution anaphorique dans un processus de backtracking pour déterminer efficacement les produits évoqués dans les tweets ainsi que leurs aspects. Les expérimentations montrent des résultats prometteurs. En particulier, nous avons prouvé que l'incorporation de la structure de la conversation pour résumer les opinions contribue à améliorer les performances du système. ABSTRACT. Summarizing opinions conveyed through Twitter has been an emergent theme over the last several years. In this paper, we present a new approach for customer opinion summarization based on twitter conversations rather than individual tweets. Our approach aims to assign to each conversation, a score indicating the level of user's satisfaction towards the corresponding product as well as its features. We have developed a new algorithm based on the reply links in the conversations which employs the anaphora resolution in a backtracking process to effectively extract the different products involved in the tweets as well as their features. Experimentations show promising results. In particular, we have proved that incorporating conversation structure in the opinion summarization contributes to improving system performance.

DEFT 2017 : Fouille d'opinion sur des messages postés sur Twitter. TALN 2017, Orléan, 26/06/2017

2017

La détection automatique du langage figuratif dans les réseaux sociaux est un sujet de recherche extrêmement actif principalement en raison de son importance pour améliorer les performances des systèmes d'analyse d'opinions. Pour la première fois, l'édition 2017 du Défi Fouille de Texte (DEFT) s'intéresse à l'influence du langage figuratif (en particulier l'ironie, le sarcasme et l'humour) dans l'analyse d'opinions à partir de tweets en français. Trois tâches de niveaux de complexité croissants ont été proposées aux participants : (T1) déterminer la polarité globale des tweets non figuratifs, (T2) déterminer si un tweet contient ou non du langage figuratif, et (T3) déterminer la polarité globale des tweets figuratifs et non figuratifs. Douze équipes ont participé à ce défi. Les meilleurs résultats, en macro f-mesure, sont de 0,650 pour (T1), 0,783 pour (T2) et 0,594 pour (T3). Ces résultats montrent clairement que l'usage du langage figuratif complique considérablement l'analyse d'opinions.

Chapitre 10. Commenter et juger l’information sur Twitter grâce aux emojis et émoticônes

#info

Revue de sociolinguistique en ligne n° 10-juillet 2007 Regards sur l'internet, dans ses dimensions langagières. Penser les continuités et discontinuités En hommage à Jacques Anis SOMMAIRE Françoise Gadet : A la mémoire de Jacques Anis Isabelle Pierozak : Prendre internet pour terrain Florence Mourlhon-Dallies : Communication électronique et genres du discours Olli Philippe Lautenbacher : Hypertexte et réception : pour une approche trajectographique Michel Marcoccia et Nadia Gauducheau : L'Analyse du rôle des smileys en production et en réception : un retour sur la question de l'oralité des écrits numériques Rémi Adam van Compernolle et Lawrence Williams : De l'oral à l'électronique : la variation orthographique comme ressource sociostylistique et pragmatique dans le français électronique Valentin Feussi : A travers textos, courriels et tchat : des usages de français au Cameroun Gudrun Ledegen et Mélissa Richard : « jv me prendre un bois monumental the wood of the century g di ». Langues en contact dans quatre corpus oraux et écrits « ordinaires » à la Réunion Raluca Moise : Les SMS chez les jeunes : premiers éléments de réflexion, à partir d'un point de vue ethnolinguistique Hassan Atifi : Continuité et/ou rupture dans l'Internet multilingue : quelles langues parler dans un forum diasporique ? Christine Develotte et François Mangenot : Discontinuités didactiques et langagières au sein d'un dispositif pédagogique en ligne

LOL sur Twitter: une approche du contact de langues et de la variation par l'analyse des réseaux sociaux

Thesis, Université du Québec à Montréal, 2018

Cette étude vise à effectuer une analyse de la façon dont la variable linguistique lexicale (loi), constituée de variantes d'origine française et anglaise, est réalisée sur Twitter. Nous employons des outils actuels de l'analyse des réseaux sociaux qui sont peu connus dans la sociolinguistique variationniste, surtout la méthode de Louvain (Blondel et al., 2008), et ce, afin de détecter les communautés et le PageRank (Brin et Page, 1998) afin de quantifier la centralité des individus dans ces communautés. Nous nous interrogeons à savoir si la distribution des réalisations de variable (lol) change de communauté en communauté et si les individus présentent moins de diversité dans leurs réalisations de (lot) que l'ensemble de leurs communautés. Nos résultats nous permettent de répondre par l'affirmative pour la première question, mais nous hésitons à affirmer de fortes conclusions pour la dernière question en raison d'un manque de données. Des améliorations à la collecte de données sont donc proposées. Finalement, nous croyons que notre analyse joue bien le rôle d'une validation de principe pour ce qui est des outils actuels de l'analyse des réseaux sociaux et fait avancer du même coup l'étude du contact de langues.

Le microblogage pour la microanalyse des sentiments et des opinions

2010

Le microblogage est une tendance récente dans l'Internet d'aujourd'hui. Les utilisateurs expriment leurs opinions par le biais des plates-formes de microblogage comme Twitter. Dans nos travaux, nous utilisons Twitter comme une source de données multilingues pour collecter un corpus de textes exprimant des sentiments annotés. Avec le lexique issu du corpus collecté, nous construisons un classificateur des sentiments que nous appliquons à trois types de tâches : la classification des sentiments dans des textes courts, la désambiguïsation des adjectifs de sentiments ambigus et la construction de lexiques affectifs pour d'autres langues. Nous les appelons des tâches de microanalyse des sentiments car elles opérent sur des textes courts ou des portions de textes. Les évaluations experimentales utilisant l'ensemble des données annotées à la main, la participation à la campagne d'évaluation SemEval 2010 et la corrélation avec le lexique affectif ANEW montrent que notre méthode fonctionne bien même si nous n'utilisons pas d'outils spécifiques à la langue ou de ressources construites par des humains. ABSTRACT. Microblogging is a recent trend in today's Internet. Users express their opinions using microblogging platforms such as Twitter. In our research, we use Twitter as a multilingual data source to collect a corpus of sentiment labeled texts. Using the lexicon extracted from our corpus, we build a sentiment classifier which we apply to three kinds of tasks: classification of sentiments in short texts, disambiguation of sentiment ambiguous adjectives, and construction of affective lexicons in different languages. We call them "micro sentiment analysis" tasks as they operate on small texts or spans of texts. Experimental evaluations using hand-annotated dataset, participation in the SemEval 2010 evaluation campaign and correlation with ANEW affective lexicon prove that our method performs well, even if we do not use language specific tools and human-built resources.

Journalistes sur Twitter : une analyse des graphes

2013

l’article vise à présenter une enquête préliminaire sur l’usage de Twitter par les journalistes français à travers une méthode essentiellement quantitative, mais qui s’appuie également sur une observation qualitative et « manuelle » de ceux-ci. Il s’agit d’une tentative exploratoire qui vise à articuler des méthodes numériques, inspirées de la théorie des graphes et fondées sur une analyse algorithmique, avec une approche plus traditionnelle s’inscrivant dans la socioéconomie du journalisme et des médias. Dans un premier temps nous présentons un état de la littérature sur la question des l’usage des réseaux socionumériques par des journalistes. Dans un deuxième temps nous décrivons la méthode que nous avons mis en œuvre lors de notre enquête quantitative auprès d’un échantillon des journalistes français utilisateurs de Twitter. Enfin, nous présentons les résultats de notre recherche en les mettant en perspective par rapport à nos observations qualitatives.