• Aucun résultat trouvé

3.3 Les données récoltées

3.3.2 Le corpus SMS

En reprenant la définition du corpus linguistique par Sinclair (1994), Baker (1998), McE-nery et Wilson (2001) le corpus est une collection de morceaux du langage lisibles et com-préhensibles par la machine, sélectionnés et ordonnés en accord avec des critères linguistiques explicites dans le but d’être utilisés comme un échantillon du langage. Quant à la question de la place des SMS dans la linguistique de corpus Cougnon (2015) nous expose, dans sa thèse

Langage et sms, 8 arguments affirmatifs sur l’étude du langage développée par la linguistique du corpus selon l’adaptation de Laviosa (2002). C’est en observant les particularités de ce langage en comparaison avec la langue générale que nous retrouvons la notion de spécialité telle qu’elle est définie par Condamines (2006). Un corpus SMS est un corpus spécialisé car il est centré sur un vocabulaire particulier, sur un certain type de textes, sur le langage des membres d’un groupe social (Bowker et Pearson, 2002).

A l’issue de la récolte, 22 054 SMS authentiques ont été enregistrés dans la base de données. Cependant, en réalité le nombre total de messages réellement retenus pour la composition du corpus est passé à 21 261 SMS après l’élimination de SMS :

— identiques expédiés depuis le même numéro figurant plusieurs fois (doublons), un seul exemplaire de chacun a été retenu ;

— contentant exclusivement des chiffres, dans la plupart de cas les messages contentaient des numéros de téléphones ;

— rédigés en une autre langue que la langue française, en effet, plusieurs SMS écrits en anglais, espagnol, allemand, italien, etc. ont été envoyés par les participants ;

— impossibles à transcrire par les annotateurs ;

— contenant le codeSMS05 et un numéro de téléphone.

La restriction de 160 caractères par SMS a entrainé le découpage automatique de certains messages. En effet lorsqu’un SMS contient plus de 160 caractères les opérateurs le coupent en morceaux de 153-160 caractères et envoient le message tronqué en morceaux. Par contre, les téléphones mobiles associent ces morceaux et n’en font apparaître qu’un. Cette tâche représente un problème car la première partie d’un SMS long contient bien le préfixeSMS05, qui permet de renvoyer les SMS reçus vers la plateforme, mais la deuxième partie ne contient pas forcement ce préfixe, une fois éloigné de la sa partie précédente qui commence par le code. Exemple de SMS brut tronqué :

Coucou,c’est chouette pr hier soir si tu as réussi a te protéger un peu.j’espere que tu as qd meme passé une bonne soirée.ce soir je vais jouer a l

Des messages contenant uniquement 66 caractères ont été, également, repérés tronqués. Des problèmes d’encodage sont à l’origine de ce fait car certains caractères spéciaux proposés par des mobiles ne figurent pas dans l’alphabet GSM 7 bits (Chabert et al., 2012, Antoniadis

et al., 2011). Dans les deux cas de figure un message automatique d’erreur a été envoyé à l’utilisateur :

SMSPRO : ce service est réservé à des utilisateurs pré-enregistrés Vous ne pouvez pas avoir accès au service depuis votre téléphone mobile.

Ces messages ont été retenus dans le corpus mais annotés par les annotateurs comme étant découpés car nous ne pouvons pas omettre le fait qu’un tel problème nuit et rend obsolète la constitution et l’étude du corpus portant surtout sur l’analyse quantitative du corpus.

Par ailleurs, comme Cougnon (2015) l’affirme, la différence entre un corpus traditionnel et un corpus spécialisé tel que le corpus de SMS repose sur sa caractérisation quantitative. La caractérisation du corpus en terme quantitatif se trouve sur la description du nombre de phrases, formes/tokens et caractères. Toutefois, une telle analyse s’avère un grand défi pour toute sorte de corpus liés à la communication médiée par ordinateur. Du fait qu’il existe une variation imprévisible de formes (abréviations, omissions, etc.) propre à chaque utilisateur,

l’unité lexicale est difficilement identifiable et l’utilisation de la ponctuation est couramment inexistante. Dans la partie 5.2.2 nous évoquons de façon exhaustive les différents problèmes de tokenisation d’unités lexicales identifiés propre au langage SMS. A titre indicatif nous don-nons les caractéristiques du corpus sur la table 3.5. Nous nous basons sur le corpus brut et transcrit de 21 261 SMS où nous avons, dans une première phase, calculé à l’aide de la ligne de commandes le nombre de caractères6 et par la suite le nombre de tokens à l’aide de l’outil Unitex7 Paumier (2003) pour le corpus de SMS transcrits. Nous remarquons que le corpus de transcription est plus long que le corpus brut, ce qui confirme qu’il s’agit d’un code écrit qui combine des procédés pour raccourcir les phrases.

Corpus SMS brut Corpus SMS transcrits Nombre de caractères 1 383 469 1 558 648 Nombre de tokens - 288 050

Table3.5 – Description du corpus

Il existe une distinction en CMO entre deux modes de communication : synchrone (web chat, messagerie instantanée) et asynchrone (email, SMS, MMS, forum de discussions). Cela signifie en réalité que le moment de la production et de la réception du message n’est plus le même, à la différence de ce qui arrive en communication directe, (Bevilacqua et al., 2012). Même si les SMS font partie de la communication asynchrone qui rend l’interaction directe impossible, comme Frehner (2008) le souligne, ils ont portant lepotentiel d’approximer la syn-chronicité et permettre une conversation écrite en temps quasi-réel à un point qui n’a jamais été connu avant. Notre corpus ne peut qu’être un corpus de communication asynchrone puisqu’il contient des messages rédigés uniquement par l’expéditeur participant au projet. De ce fait, le corpus ne contient pas de discussions pour des raisons éthiques, en effet, pour que les SMS

6. wc -m : compte le nombre de caractères dans le fichier dans le terminal. La commande "wc" signifie essentiellement "le nombre de mots" et avec différents paramètres facultatifs peut être utilisée pour compter le nombre de lignes, de mots et de caractères dans un fichier texte.

de l’interlocuteur figurent parmi les SMS du corpus il est impératif d’avoir son consentement. Panckhurst et Moïse (2012) affirment sans doute, qu’un tel fait est assez contraignant pour les linguistes, sociologues et psychologues qui s’intéressent surtout aux aspects conversationnels.

Même si le corpus est marqué par certaines limites, nous partageons les idées de Fairon

et al.(2006), Cougnon (2015) autour de la valeur qu’un corpus de SMS peut avoir : a) unique dans son genre ayant une taille importante, b) marqué par la diversité d’usagers, c) couteux en nécessité d’une longue durée de la conception jusqu’à la délivrance du corpus, d) couteux financièrement avec la nécessité publicitaire et humaine, e) difficile à construire car il demande une mise en place d’un système adéquat et d’un protocole garantissant la protection de la vie privée.

3.4 Conclusion

Ce chapitre est dédié à la présentation du projet alpes4science réalisé en 2010 dans les Hautes-Alpes et l’Isère au sein du laboratoire LIDILEM. Nous avons exposé en détail la pro-cédure de participation d’utilisateurs aussi bien que le protocole établi pour l’enregistrement des données transmises : les réponses au questionnaire et les SMS. D’une part nous avons analysé les traitements effectuées sur le corpus de SMS afin de le rendre opérationnel : trans-cription et anonyisation de données sensibles et, d’autre part, nous avons effectué une analyse générale sur les SMS et les réponses au questionnaire (partie 3.3).

En dernière analyse nous résumons que le corpus de SMS issu de cette collecte constitue un ensemble de 21 261 SMS bruts accompagnés de leurs transcriptions pour constituer un corpus monolingue, authentique, et accessible, disponible en ligne8. En outre, malgré les di-verses particularités que ce corpus présente il reste, en effet, un matériau précieux puisque

8. Corpus brut anonymisé de SMS disponible sur le site d’Ortolang :https://hdl.handle.net/11403/ comere/cmr-smsalpes

les SMS sont difficiles à collecter en grande quantité. En plus, des questions éthiques et des contraintes techniques interviennent pour rendre cette tâche difficile à réaliser. Les messages récoltés nous permettront de présenter une analyse basée sur l’analyse et la classification de pratiques langagières repérées dans le corpus et l’exposition des principales caractéristiques lexicométriques.

De même, les réponses issues du questionnaire rempli par les utilisateurs nous permettent de réaliser une analyse du profil des participants que nous allons exposer dans la partie 4.2. Par ailleurs, ces données constituent un matériau incontournable pour la réalisation de recherches sociologiques, sociolinguistiques et comparatives sur l’observation de l’usage des SMS.

L’analyse du corpus alpes4science

Sommaire

4.1 Introduction . . . . 61 4.2 Présentation des données socio-démographiques . . . . 62

4.2.1 Le profil du participant . . . . 63 4.2.2 Les pratiques des participants . . . . 67

4.3 Analyse lexicométrique . . . . 69

4.3.1 Principales caractéristiques lexicométriques du corpus . . . . 71

4.4 Analyse et typologie des pratiques langagières . . . . 84

4.4.1 Typologie des formes du corpus . . . . 87

4.5 Conclusion . . . . 90

4.1 Introduction

L’intérêt d’étudier le langage SMS réside dans les particularités que nous repérons au sein de ce discours. Le langage SMS se définit comme un aspect particulier de la communication, il s’agit d’un code écrit particulier qui combine plusieurs procédés pour raccourcir les phrases

et les mots, selon Stark (2011). En parallèle, il est proche de l’oral tout en étant une forme écrite et c’est pourquoi ce langage intéresse de nombreux chercheurs.

L’observation de ces particularités nécessite l’utilisation des données authentiques dans le but d’obtenir un point de vue plus objectif Faironet al.(2006). La plupart de messages courts présente des différences importantes en comparaison avec le langage standard. En effet, les utilisateurs essaient d’utiliser diverses formes courtes pour abréger les mots dans l’objectif de gagner du temps tout en faisant le moindre effort. Par ailleurs, un des obstacles auquel nous devons faire face avec les systèmes de traitement automatique du langage est la morphologie particulière des mots SMS (fusionnement de mots, formes abrégées imprévisibles, suppression de caractères, manque de ponctuation, etc.).

Après avoir exposé en détail la constitution de la base de données issue du projet alpes4science nous explorerons, dans un premier temps, dans ce chapitre les principales caractéristiques qui reposent sur le croisement de données socio-démographiques (partie 4.2) fournies au travers du questionnaire que les participants du projet ont complété lors de la collecte des messages. Ensuite, nous verrons les principaux éléments lexicométriques (partie 4.3) visant à définir le niveau de richesse lexicale sur l’ensemble du corpus et sur certaines partitions liées aux profils des participants. La distribution des catégories grammaticales, le type de clavier employé lors de la saisie des messages et les n-grammes seront exposés par la suite. A la fin, nous illustrerons l’analyse typologique (partie 4.4) des formes que nous trouvons dans le corpus de SMS en nous basant sur la typologie modifiée proposée par Panckhurst (2009).