Le langage SMS. Étude d'un corpus informatisé à partir de l’enquête «Faites don de vos sms à la science» (original) (raw)

Étudier l’écrit SMS. Un objectif du projet sms4science

Louise-Amélie Cougnon and Thomas François (2011). « Étudier l’écrit SMS. Un objectif du projet sms4science ». In Adrian Stähli / Christa Dürscheid / Marie-José Béguelin (eds.) (2011), La communication par SMS en Suisse. Usages et variétés linguistiques. Linguistik Online (Themenheft). This paper details an international project called sms4science that aims to collect text message corpora (hereafter referred to as "SMS corpora") from across the globe for scientific research. The project already has ten participating regions, including Belgium, Réunion, Switzerland and Quebec. This article first presents the initial corpora collected from these four areas (resulting in a combined total of 116.000 text messages) and the accompanying methodology. It then exposes the research possibilities related to it: the corpus-based studies pertain as much to linguistics and sociolinguistics as they do to natural language processing and statistics. A specific statistical study is thus presented here and its possible conclusions are outlined. Finally, the paper delineates the project obstacles and correspondingly proposes fresh perspectives for the coming year (2011).

« Sud4science, de l'acquisition d'un grand corpus de SMS en français à l'analyse de l'écriture SMS »

This article describes the sud4science project (www.sud4science.org). Firstly, the authors present the acquisition phase of both SMS data and questionnaire data. Secondly, they explain anonymisation techniques, transcoding and optional annotation phases. Finally, they propose preliminary (socio-) linguistic analyses of scriptural usage of SMS writing, and they also indicate those that are planned in the foreseeable future.

Panckhurst R., Roche M., Lopez C. (2015), « Données authentiques : un grand corpus de SMS en français », Paris, 30-31 janvier 2015 Colloque SHESL « Corpus et constitution des savoirs linguistiques », pages 33-35.

Qu’est-ce que la donnée écrite en sciences du langage ? Trois types se distinguent : 1) la donnée lexicale, qui se présente essentiellement sous forme d’une entrée lexicale, regroupant un ensemble de propriétés ; 2) « le nom spécifique de la donnée observable en linguistique est l’exemple » et renvoie à « un énoncé qui pourrait être effectivement prononcé, même s’il ne l’est pas dans les faits » (Milner, 1989 : 51-52) ; 3) la donnée en tant que texte brut, i.e. le corpus. En linguistique de corpus (cf. entre autres, Habert et al., 1997, McEnery & Hardie, 2012, Péry-Woodley 1995, Sinclair 1991), il s’agit d’analyser les productions authentiques contenues dans le corpus. Dans certaines écoles linguistiques, au contraire, l’étude du corpus tout-venant n’a pas lieu d’être. Ainsi, perdure le débat concernant l’opposition (ou, tout au moins, la différenciation) entre exemples linguistiques (éventuellement « fabriqués ») et productions authentiques relevées dans des corpus. En vingt ans, notre propre approche a évolué : d’une analyse linguistique-informatique basée sur l’exemple (Panckhurst 1994 : 39), nous sommes passée à une analyse de la donnée authentique figurant dans des corpus (Panckhurst 2013 : 97, Panckhurst et al. 2014). Pour nous, cette mutation s’explique, d’une part, par l’évolution de l’accès aux données, et, d’autre part, par le discours électronique médié (Panckhurst, 1997, 2006), circulant entre individus se servant d’outils électroniques (ordinateurs, tablettes, téléphones portables, etc.), qui induit des pratiques et des usages émergents, novateurs. En deux décennies, la constitution de corpus numérisés ou nativement numériques est devenue monnaie courante. Les données authentiques existant sous la forme de courriels, forums, chats, blogs, réseaux sociaux, et, plus récemment de SMS, facilement exploitables par les chercheurs, permettent l’observation, la fouille et l’analyse des pratiques et des usages des scripteurs. Dans le cadre de cette communication, nous expliquerons ce cheminement, en nous focalisant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé « 88milSMS » (consultable sur la grille de services d’Huma-Num). En 2004, des universitaires belges ont lancé un projet international, sms4science (www.sms4science.org, Fairon et al., 2006, Cougnon, 2014), afin de constituer une grande base de données mondiale de SMS authentiques. D’autres collectes ont suivi : en 2011, plus de 93 000 SMS ont été recueillis auprès du grand public par un groupe de chercheurs dans la région Languedoc-Roussillon (projet sud4science LR, www.sud4science.org, Panckhurst et al. 2013, Panckhurst & Moïse, 2012). À l’aide d’exemples extraits de « 88milSMS », nous montrerons que les données peuvent être appréhendées selon deux approches, « fondée sur corpus » (‘corpus-based’) et « guidée par corpus » (‘corpus-driven’), et que le va-et-vient constant entre les hypothèses et l’observation des données constitue le point essentiel de notre démarche. L’élaboration de ce corpus a participé au développement d’un logiciel d’anonymisation semi-automatique, Seek&Hide, par des étudiants (Accorsi et al. 2012, Patel et al., 2013), et d’un prototype, permettant la construction automatique de dictionnaires électroniques de SMS selon une méthode d’alignement statistique (Lopez et al., 2014).

Panckhurst R., Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2014), « Un grand corpus de SMS en français : 88milSMS », La lettre de l’InSHS, pages 22-25, la Tribune d’Huma-Num, septembre 2014.

De l'oral dans l'écrit'? - Le profil variationnel des SMS (textos) et leur valeur pour la recherche linguistique

2015

Year: 2015 'De l'oral dans l'écrit'?-Le profil variationnel des SMS (textos) et leur La loi du 11 mars 1957 n'autorisant, aux termes des alinéas 2 et 3 de l'article 41, d'une part, que les « copies ou reproductions strictement réservées à l'usage privé du copiste et non destinées à une utilisation collective », et d'autre part, que les analyses et les courtes citations dans un but d'exemple et d'illustration, « toute représentation ou reproduction intégrale, ou partielle, faite sans le consentement de l'auteur ou de ses ayants-droit ou ayants-cause, est illicite » (alinéa 1 er de l'article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du Code Pénal.

Le langage SMS: sous-produit de l’oral et de l’ecrit ou veritable langage ecrit?

2010

Le langage SMS : sous-produit de l’oral et de l’ecrit ou veritable langage ecrit ? Ce travail analyse les caracteristiques et les implications du langage SMS et du francais utilise par les jeunes des banlieues urbaines d'origine immigree. Tous deux provoquent des reactions opposees, les unes en defense de la langue, contre sa "corruption", et d'autres qui les tiennent pour des facteurs d'enrichissement de la langue. Neanmoins ces deux langages, amplement utilises par les jeunes – bien que par un groupe d'âge different dans le premier cas – non seulement suivent des regles reconnaissables, mais agissent comme un facteur d'identification et de cohesion de groupes sociaux. Il en ressort une sorte de jeu du chat et de la souris, dans lequel les jeunes creent de nouvelles expressions au fur et a mesure que les plus anciennes se disseminent au point d'etre utilisees par les medias. Dans le cas du langage SMS, qui vise a raccourcir et a simplifier la reda...

Orthographe et langue dans les SMS Conclusions à partir de quatre corpus francophones

L’article aborde la délicate question du rapport entre écrit sms et orthographe. En se basant sur un corpus de 60000 sms couvrant une partie non négligeable de la francophonie (France, Belgique, Suisse et Québec), nous présentons les grandes tendances de variation graphique des sms, des tendances régulières qui permettent une classification claire. Nous expliquons ensuite comment l’altération de la graphie dans les sms peut résulter de la transcription phonétique d’un français régional. Dans une troisième partie, nous abordons la question des rectifications orthographiques en examinant de plus près les points communs entre les règles régissant l’écrit sms et les principales rectifications orthographiques adoptées en 1990. Enfin, l’article présente les données sociolinguistiques des usagers du sms, qui offrent un riche témoignage des représentations linguistiques des auteurs de sms.