Des représentations continues de mots pour l’analyse d’opinions en arabe: une étude qualitative (Word embeddings for Arabic sentiment analysis : a qualitative study) (original) (raw)

Des représentations continues de mots pour l'analyse d'opinions en arabe: une étude qualitative

25e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2018), 2018

Nous nous intéressons, dans cet article, à la détection d'opinions dans la langue arabe. Ces dernières années, l'utilisation de l'apprentissage profond a amélioré des performances de nombreux systèmes automatiques dans une grande variété de domaines (analyse d'images, reconnaissance de la parole, traduction automatique,. . .) et également celui de l'analyse d'opinions en anglais. Ainsi, nous avons étudié l'apport de deux architectures (CNN et LSTM) dans notre cadre spécifique. Nous avons également testé et comparé plusieurs types de représentations continues de mots (embeddings) disponibles en langue arabe, qui ont permis d'obtenir de bons résultats. Nous avons analysé les erreurs de notre système et la pertinence de ces embeddings. Cette analyse mène à plusieurs perspectives intéressantes de travail, au sujet notamment de la constitution automatique de ressources expert et d'une construction pertinente des embeddings spécifiques à la tâche d'analyse d'opinions.

Plongements lexicaux spécifiques à la langue arabe : application à l’analyse d’opinions (Arabic-specific embedddings : application in Sentiment Analysis)

2019

Nous nous intéressons, dans cet article, à la tâche d’analyse d’opinions en arabe. Nous étudions la spécificité de la langue arabe pour la détection de polarité. Nous nous focalisons ici sur les caractéristiques d’agglutination et de richesse morphologique de cette langue. Nous avons particulièrement étudié différentes représentations d’unité lexicale : token, lemme et light stemme. Nous avons construit et testé des espaces continus de ces différentes représentations lexicales. Nous avons mesuré l’apport de tels types de representations vectorielles dans notre cadre spécifique. Les performances du réseau CNN montrent un gain significatif de 2% par rapport à l’état de l’art.

L’analyse automatique des mots-outils en arabe

in Ghenima, Malek, Ouksel, Aris et Sidhom, Sahbi (eds.), Systèmes d’Information et Intelligence Economique, 2ème Conférence Internationale ( SIIE 2009), organisée par l’université de Nancy, France et l’université de la Manouba, École supérieure de commerce électronique (ESCE), Tunis, Hammamet,2009, 2009

Analyse de sentiments et extraction des opinions pour les sites e-commerce : application sur la langue arabe

Avec l’émergence du web 2.0, les internautes sont de plus en plus inviter à exprimer leurs opinions à propos de différents sujets dans des réseaux sociaux, des sites de e-commerce, des sites d’actualités, des forums, etc. Une majeur partie de ces informations, qui décrivent des sentiments devient l’objet d’études dans plusieurs domaines de recherche tel que : « La détection de opinions et l’analyse des sentiments ». En fait c’est le processus d'identification de la polarité des sentiments détenus dans les avis trouvés dans les interactions des internautes sur le web et de les classer comme positif, négatif ou neutre. Dans cet article, nous proposons l’implémentation d'un outil d'analyse des sentiments qui a pour rôle de détecter la polarité des opinions à partir des revues extraites des sites web qui se spécialisent dans le commerce électronique ou les revues des produits en langue arabe. Les résultats montrent des lacunes dans ce domaine de recherche, d’abord le manque ...

Les expressions dans le dictionnaire bilingue français-arabe : classement et traitement

Mémoire de DES soutenu à l'Université Libanaise, 2014

La question épineuse du classement des expressions et de leur traitement dans le dictionnaire bilingue, de par son interférence avec la linguistique, la sémantique et la culture - ou plutôt l’interculturalité, mérite d’être étudiée. Cette question est d’autant plus complexe, voire compliquée, que les différents classements proposés par les linguistes ne sont pas superposables : on ne cesse de changer d’optique, de sorte qu’on perd de vue le fonctionnement des éléments linguistiques au profit des préoccupations théoriques. Côté pratique, on trouve que tous les dictionnaires bilingues ont de nombreuses insuffisances, surtout des problèmes d'exhaustivité, de présentation, d’organisation, de fréquence et d'emploi, que nous examinons de plus près. Et même, une fois les expressions classées, l’affaire n’en demeure pas moins difficile, en ce qui concerne le traitement réservé à ces dernières. Pour ces raisons, on s’est intéressé à l’étude du classement et de la traduction des expressions françaises dans trois dictionnaires bilingues français-arabe s’adressant aux arabophones.

L’expression des émotions en arabe : variation intra et interdialectale

Le langage de l'émotion : variations linguistiques et culturelles., 2017

L'étude porte sur l'expression des émotions 'cardinales' dans trois variétés dialectales de l'arabe (oriental, yéménite et saoudien). Les structures syntaxiques (possessive, transitive, intransitive, dative), qui leur sont associées, sont envisagées séparément et à l'intérieur d'un même champ émotionnel. L'analyse révèle l'existence d'une échelle d'intensité qui, en fonction de l'émotion visée, s'exprime par une variation lexicale ou morphologique (schèmes de dérivation). La comparaison intra et inter-dialectale fait ressortir des divergences entre les dialectes sur le plan syntaxique, d'un point de vue sociolinguistique (entre les générations) et culturel (homme ~ femme). Eu égard aux données typologiques, il apparaît que le lexique relatif aux parties du corps est fortement représenté contrairement à celui des couleurs. Trois variétés dialectales de l'arabe sont envisagées dans cette étude qui repose néanmoins principalement sur un corpus constitué en Arabie saoudite dans la région ʕasīr, située à l'ouest du pays.

Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)

2018

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.

Analyse automatique vs analyse interactive : un cercle vertueux pour la voyellation, l’étiquetage et la lemmatisation de l’arabe

2007

Comment produire de façon massive des textes annotés dans des conditions d’efficacité, de reproductibilité et de coût optimales ? Plutôt que de corriger les sorties d’analyse automatique moyennant des outils d’éditions éventuellement dédiés, ainsi qu’il estcommunément préconisé, nous proposons de recourir à des outils d’analyse interactive où la correction manuelle est au fur et à mesure prise en compte par l’analyse automatique. Posant le problème de l’évaluation de ces outils interactifs et du rendement de leur ergonomie linguistique, et proposant pour cela une métrique fondée sur le calcul du coût qu’exigent ces corrections exprimé en nombre de manipulations (frappe au clavier, clic de souris, etc.), nous montrons, au travers d’un protocole expérimental simple orienté vers la voyellation, l’étiquetage et la lemmatisation de l’arabe, que paradoxalement, les meilleures performances interactives d’un système ne sont pas toujours corrélées à ses meilleures performances automatiques. ...

Un système de traduction de verbes entre arabe standard et arabe dialectal par analyse morphologique profonde

Le développement d'outils de TAL pour les dialectes de l'arabe se heurte à l'absence de ressources pour ces derniers. Comme conséquence d'une situation de diglossie, il existe une variante de l'arabe, l'arabe moderne standard, pour laquelle de nombreuses ressources ont été développées et ont permis de construire des outils de traitement automatique de la langue. Etant donné la proximité des dialectes de l'arabe, le tunisien dans notre cas, avec l'arabe moderne standard, une voie consiste à réaliser une traduction surfacique du dialecte vers l'arabe moderne standard afin de pouvoir utiliser les outils existants pour l'arabe standard. Nous décrivons dans cet article une architecture pour une telle traduction et nous l'évaluons sur les verbes.