• Aucun résultat trouvé

Constitution du corpus et Outils

3.4 Dépouillement du corpus

3.4.1 Introduction

En tenant compte des spécificités de la langue chinoise en matière d’écriture, de l’encodage, des signes de ponctuations, des lettres et des chiffres, etc., nous allons présenter dans cette partie le travail de traitement sur les données textuelles bruitées. En général, ces traitements s’axent sur trois grandes lignes : la gestion des éléments technodiscursifs (mots-dièse et arobases, liens html, etc.), la gestion des émoticônes et l’uniformisation des signes typographiques (les ponctuations, les lettres alphabétiques et les chiffres) du corpus.

3.4.2 Gestion des éléments technodiscursifs

Le travail de Paveau (2012, 2012b, 2013a) désigne les éléments technodiscur- sifs dans l’environnement du site web ou du réseau social. Il liste une série d’élé- ments technodiscusifs. Ces éléments incluent 1) les informations du compte de l’utilisateur telles que l’avatar de l’abonné, les noms et pseudos de l’abonné ; 2) la date de publication du message ; 3) le texte principal du message y com- pris la mention d’autres utilisateurs sous la forme de @+nom de l’abonné, les mots-dièse, et les liens HTML ; 4) la liste des opérations possibles signalées par des mots-consignes sous le texte, et assorties de leurs icônes : «Ouvrir ou

Afficher le média, Afficher la conversation, Voir le résumé ou Voir la photo, Répondre/Transférer/Favori/Plus» (cf. figures3.13 Exemple des mots-consignes de la page web du SOHUet figure 3.14 Exemple des mots-consignes de la page web du WEIBO). Notre tâche de gestion des éléments technodiscursifs consiste à identifier, puis éliminer ces éléments qui sont présents dans l’ensemble de notre corpus. L’élimination de ces éléments a pour objectif d’obtenir un corpus adapté au format d’importation dans l’outil textométrique, mais nous gardons toujours les statistiques et ces données pour les analyses sémiotiques du genre textuel du corpus dans les autres parties.

Nous avons repéré dans notre corpus trois types d’éléments technodiscursifs : 1) les liens HTML ; 2) les mots-dièse ou hashtag, utilisés dans les weibo pour créer des

topics de discussions ; 3) les mots-consigne et les arobases @. Ceux-ci apparaissent

dans les articles comme élément nécessaire de l’adresse mail, ou à l’intérieur du

l’inclure dans une conversation ou une activité, à l’inclure dans une conversation ou une activité, ou bien à transférer son message original. Nous avons éliminé ces éléments à l’aide d’expressions régulières.

3.4.2.1 Gestion des arobases @

Dans notre corpus les seules données à caractère potentiellement personnel sont les adresses mail et les pseudonymes des utilisateurs de WEIBO. Ces informations sont composées d’une suite de caractères alphanumériques ; les pseudonymes commencent par un @ (voir3.8 Exemple d’un weibo publié sur le site WEIBO40).

Pour protéger la confidentialité et anonymiser les weibo, nous avons enlevé les surnoms à l’aide de l’arobase initial et d’expressions régulières.

3.4.2.2 Gestion des mots-consigne

Nous repérons une série de mots-consigne dans la page de WEIBO. Ces mots- consignes se présentent souvent comme des expressions figées récurrentes (voir figures3.13 Exemple des mots-consignes de la page web du SOHUet3.14 Exemple des mots-consignes de la page web du WEIBO) :

– 转发 (transférer/transfert) ; – 回复 (répondre) ;

– 评论 (commenter/commentaire) ; – 分享到 (partager sur) ;

– 返回首页 (revenir à la page d’accueil) ; – 回到顶部 (revenir en haut de la page)

Comme ces mots-consignes ne sont pas liés à notre sujet d’étude, nous les avons enlevés. Si les autres éléments sont plus faciles à éliminer automatiquement avec des simples expressions régulières, 10% des mots-consigne doivent faire intervenir la supervision manuelle, car chaque site a ses propres mots-consigne, il est donc possible que certains mots aient échappé à notre nettoyage.

Fig. 3.14 – Exemple des mots-consignes de la page web du WEIBO

3.4.3 Gestion des signes d’émoticônes

« Une émoticône est une courte figuration symbolique d’une émotion, d’un état d’esprit, d’un ressenti, d’une ambiance ou d’une intensité, utilisée dans un dis- cours écrit41». L’utilisation des émoticônes s’avère une spécificité des weibo, où les

signes d’émoticônes sont autorisés et souvent utilisés pour dynamiser le message ou l’échange entre les internautes. Nous avons remarqué trois types d’émoticônes dans notre corpus lors de notre recherche :

1. l’émoticône de structure : [AAA] constituée d’un mot expressif ou d’une interjection et de crochets. La légende de ces émoticônes apparaissent dans les forums ou les réseaux sociaux lorsque les images ne se chargent pas ; Phrase originale : 今天又有雾霾 [哭].

Traduction : Encore la pollution de l’air aujourd’hui[snif].

2. l’émoticône Kaomojis : elle est constituée de signes de ponctuation, tels que :), avec parfois des lettres latines en capitale, comme par exemple :-D. Phrase originale : #smogday# 嗓子疼 :-(.

Traduction : #smogday# Mal à la gorge :-(.

41. Définition proposée parhttps://fr.wikipedia.org/wiki/%C3%89motic%C3%B4ne#cite_ note\protect\discretionary{\char\hyphenchar\font}{}{}1.

3. l’émoticône graphique sous forme d’images GIF42, statique ou animée : .

L’élimination des émoticônes a été réalisée avec deux méthodes : suppression avec des expressions régulières pour les émoticônes du type 1 et 2 et suppression manuelle pour le type 3 à cause de leur format image. Cependant, nous avons gardé les statistiques de ces signes pour l’étude du genre textuel dans le chapitre suivant (cf. section 4.6.3 Variables sémiotiquesdu Chapitre 4).

3.4.4 Uniformisation des signes typographiques

La représentation informatique du système d’écriture chinois diffère de celle qui est utilisée par le système d’écriture occidental, autant dans l’aspect gra- phique que par le système d’encodage utilisé. Dans le système d’écriture occi- dental, chaque lettre et signe de ponctuation occupe un seul octet. À l’inverse, les caractères chinois occupent soit 1 (caractère demi-chasse (半角 en chinois simplifié)) soit 2 octets (caractères pleine chasse (全角 en chinois simplifié)43.

Dans les fontes à chasse fixe, les caractères demi-chasse occupent la moitié de la chasse des caractères pleine chasse (voir figure 3.15 Lettres alphabétiques et chiffres pleine chasse (fullwidth) et demi-chasse (halfwidth)). Les caractères pleine chasse occupent deux colonnes chacun (appelés « cellule de rendu ») tandis que les caractères des écritures occidentales qui occupent 1 octet sont classés dans une colonne (appelé « demie cellule de rendu »)44 (cf. tableau 2 Tableau des Formes à demi et pleine chasse). Dans notre corpus chinois, le mixe de codage sur 1 ou 2 octets sur les signes alphabétiques, numériques ainsi que certaines ponctuations rend les derniers non-identifiables par nos outils de traitement, car ces outils sont programmés pour supporter la représentation sur un seul octet. Cette hétérogénéité entraînera une interprétation erronée des textes. Par consé- quent, il est nécessaire d’effectuer une opération d’uniformisation des codages afin d’homogénéiser ces éléments typographiques. Ces traitements permettent d’une part de rendre accessible notre corpus dans les outils techniques, de l’autre, de rendre le décompte statistique plus fiable. Pour ce faire, nous avons utilisé un 42. Le Graphics Interchange Format (littéralement « format d’échange d’images »), plus connu sous l’acronyme GIF, est un format d’image numérique couramment utilisé sur le web.

43. Définition proposée parhttps://zh.wikipedia.org/wiki/%E5%85%A8%E5%BD%A2%E5%92% 8C%E5%8D%8A%E5%BD%A2.

44. Source d’information : https://fr.wikipedia.org/wiki/Formes_%C3%A0_demi_et_ pleine_chasse. Page consultée en avril 2019.

script perl pour transcoder correctement ces signes typographiques.

Fig. 3.15 – Lettres alphabétiques et chiffres pleine chasse (fullwidth) et demi-chasse (halfwidth)

3.4.4.1 Homogénéiser la dénomination de PM2.5/pm2.5/pm 2.5 ->PM2o5

En plus du mélange des chasses des signes typographiques, l’écriture de la virgule fractionnaire chinoise en un point se confond avec la ponctuation «.» dé- signant le point final. Afin d’éviter ce type de confusion, nous avons homogénéisé toutes les virgules fractionnaires chinoise en lettre « o » latine en minuscule, et changé toute forme de pm en PM majuscule sans espace.