Annotation et encodage du corpus

pus pilote

4.4.2 Annotation et encodage du corpus

Restait encore le problème de l’encodage des données, en partie condi-tionné par le logiciel d’exploitation du corpus. En master, nous avions uti-lisé AntCont (Anthony, p. d.) ; ce logiciel ne paraissait toutefois pas adapté au projet de thèse, notamment parce qu’il n’était pas assez puissant. Nous avons testé WordSmith Tools (M. Scott, 2016), que nous avons rapidement abandonné car il ne reconnaissait pas (à l’époque tout du moins) les émojis, qui font partie des phénomènes que nous souhaitions étudier. La rencontre avec Bertrand Gaiffe, ingénieur de recherche à l’ATILF, a été décisive. Il a proposé d’utiliser le logiciel TXM, qui dispose de fonctionnalités puissantes et est relativement facile à utiliser. Il s’est ensuite chargé d’encoder les fi-chiers Word obtenus de façon à ce qu’ils puissent être exploités par TXM. Dans un premier temps, il les a convertis en documents TEI P5 XML (un format développé par la Text Encoding Initiative qui permet de décrire la structure des documents) grâce au site Oxgarage (Initiative, p. d.), un dis-positif de l’université d’Oxford. Ensuite, il a utilisé le langage informatique XSL pour annoter le corpus. Ce travail s’est étalé sur plus d’une année. Les données ont été recueillies d’avril à juillet 2017. Dès avril, les premiers tests, qui ont permis d’affiner l’annotation et d’éliminer les erreurs, ont été effectués sur des extraits du corpus. Une fois le corpus entièrement consti-tué, plusieurs versions ont été réalisées et testées. La dernière a été créée en janvier 2019.

Annotation

L’objectif principal du processus d’annotation était de conserver autant d’informations que possible. En effet, à ce stade de la thèse, le périmètre des analyses à effectuer n’était pas encore entièrement défini, et nous ne souhaitions pas supprimer des informations dont nous aurions pu avoir besoin par la suite.

Annotation des sous-corpus Chaque sous-corpus (correspondant à tous les commentaires d’une personne) porte comme nom l’identifiant du

Red-ditor. Il a été annoté avec toutes les informations démographiques perti-nentes pour nos analyses (identité de genre, âge, orientation sexuelle, etc.).

Annotation des métadonnées des commentaires La figure 4.5 pré-sente un commentaire mis en ligne sur Reddit (mais qui ne fait pas partie du corpus), avec les métadonnées que nous avons recueillies : titre du fil de discussion, pseudonyme de l’auteur·e du fil de discussion, pseudonyme de l’auteur·e du commentaire, nom du subreddit, date, et nombre de points de karma recueillis par le commentaire.

What would you do if you were born in Soudi

Arabia? par longernohuman dans AskWomen

[–]BdCnd[15 points] il y a une heure

I'd know how to spell Saudi Arabia. Corps du commentaire Titre du fil de discussion

Auteur·e du commentaire

“OP” (auteur·e du fil de discussion)

Points de karma du commentaire

Date du commentaire Nom du subreddit

Figure 4.5 – Capture d’écran d’un commentaire, avec explications sur ses métadonnées

Ces données ont été intégrées au corpus et annotées (à l’exception de la date, qui le sera ultérieurement). La capture d’écran présentée dans la figure 4.6 montre les balises créées par Bertrand Gaiffe pour annoter ces informations : « forum », « fil », « auteur », « score », « nbCommentaires », « createurFil » et « type ». La balise « div » définit le début d’un commentaire.

<div forum="AskWomen"

fil="What_s_a_personal_topic_that_s_easier_to_talk_about_with_ friends_than_your_SO_" auteur="F_020_170315" score="1"

nbCommentaires="14" createurFil="_dans_" type="commentaire">

Figure 4.6 – Capture d’écran des métadonnées d’un commentaire du corpus

Annotation du contenu des commentaires Les commentaires ont été annotés de façon à conserver un maximum d’informations sur leur mise en forme (gras, italique, texte barré, liens hypertexte, etc.). Nous avons tenté de supprimer les URLs quand il y en avait, mais l’opération n’a pas toujours été fructueuse. Nous avons également supprimé les éventuelles citations faites par les Redditors ; il est en effet possible sur Reddit d’utiliser une option de mise en forme qui indique que l’on cite un texte dont on n’est pas l’auteur·e, qu’il s’agisse d’un commentaire d’un autre Redditor ou de tout autre texte. La figure 4.7 présente un exemple de cette option de mise en forme, souvent utilisée par les Redditors ; la citation (« I own an escape room ») apparait en gris clair.

Escape The Room Employees, what is the weirdest thing you've seen someone do in one of the rooms? par Pops_Daddy dans AskReddit [–]thepeopleintheback1 point il y a 5 jours

I own an escape room

Ooooo

What's you're insurance like? It's gotta be crazy expensive. What's the return on investment?

Figure 4.7 – Capture d’écran d’un exemple de citation dans un commentaire

Le cas des émojis Les émojis ont fait l’objet d’un traitement particulier. En effet, TXM ne prend pas en charge les caractères dont le code Unicode est supérieur à 65 735 (à la date où nous écrivons ces lignes) . À partir d’une liste des codes Unicode (« Full Emoji List, v13.0 », p. d.), Bertrand Gaiffe a créé un script qui encode les émojis de façon à ce qu’ils puissent être exploités par TXM. La plupart des émojis n’apparaissent pas dans les outils de recherche du logiciel, mais il est possible de les trouver à l’aide de leur nom anglais.

Ponctuation Nous n’avons pas, comme cela se fait parfois, supprimé la ponctuation, qui était une de nos variables d’intérêt. Cela a une consé-quence importante : dans notre corpus, les signes de ponctuation sont consi-dérés comme des « tokens », c’est-à-dire des unités lexicales (ce que l’on considère généralement comme un « mot »). C’est la raison pour laquelle nous utilisons le terme « token » et non le terme « mot » dans les analyses. Ainsi, quand nous parlons de la fréquence d’un émoji ou d’une émoticône pour « 1000 tokens », il ne faut pas oublier que ces 1000 tokens comprennent les caractères de ponctuation.

Annotation morphosyntaxique L’annotation morphosyntaxique et en lemmes a été automatiquement effectuée lors de l’import du corpus dans TXM avec TreeTagger version 3.2 (H. Schmid, p. d.), un outil qui permet de lemmatiser un texte et d’annoter les partis du discours. Chaque token est ainsi accompagné d’une balise qui indique à quelle partie du discours il appartient (par exemple, « JJ » pour les adjectifs, « NP » pour les noms propres, « VVD » pour les verbes au passé, « RB » pour les adverbes, etc.), et d’une balise qui précise son lemme (« be » pour « was », « cat » pour « cats », etc.). Nous avons toutefois très peu eu recours à ces annotations dans nos analyses.

Erreurs

Malgré les nombreux tests effectués et les modifications apportées au corpus, des erreurs subsistent. Deux sous-corpus n’ont pas pu être inté-grés au corpus. Certaines URL n’ont pas été supprimées, et les dates des

commentaires n’ont pas été annotées.

4.5 Structure du corpus

Notre méthode de recueil des données sociodémographiques a dicté la structure du corpus. Contrairement à de nombreux grands corpus de Red-dit (par exemple ceux de Baumgartner, p. d. ou Farrell et al., 2019), qui sont structurés autour de subreddits et de fils de discussion, RedditGender est construit autour des profils des Redditors. Il contient donc uniquement les commentaires mis en ligne sur le site par chaque personne, et non pas l’intégralité des échanges ayant eu lieu dans un fil de discussion.

Cette structure présente à la fois des inconvénients et des avantages. Elle fournit une vue tronquée des interactions se déroulant sur Reddit. On sait, pour chaque commentaire recueilli, dans quel subreddit et dans quel fil de discussion il a été écrit. On ne sait pas, en revanche, quels commen-taires précèdent ou suivent les commencommen-taires du corpus. Comme nous sou-haitions étudier les procédés d’écriture, et non pas les interactions entre Redditors, cela ne nous a pas semblé être problématique. Il est de toute fa-çon généralement possible, en cliquant sur le lien correspondant à chaque fil de discussion contenu dans la version Word de notre corpus, d’accéder à l’intégralité des échanges (à condition que le commentaire ou le profil n’ait pas été supprimé depuis la création du corpus).

Les avantages de cette méthode l’emportent, pour notre étude, sur ses inconvénients. Tout d’abord, il aurait été impossible d’obtenir des données sociodémographiques sur tou·tes les Redditors ayant écrit un message dans un fil de discussion donné, car de nombreux·ses Redditors ne dévoilent pas d’informations sur leur identité. Ensuite, en utilisant les profils des in-ternautes, nous avons pu cibler celles et ceux qui avaient écrit un grand nombre de commentaires, ce qui nous a permis d’obtenir un aperçu assez large de la façon dont chaque personne utilise la langue du web.

Enfin grâce à cette structure, nous disposons non pas uniquement des commentaires mis en ligne par une personne dans un subreddit, mais aussi des commentaires qu’elle a publiés dans tous les subreddits auxquels elle a participé. Cela nous a permis d’étudier, en plus des phénomènes langagiers, les centres d’intérêt des Redditors.

4.6 Exploitation du corpus

4.6.1 TXM

TXM a été développé dans le cadre du projet de recherche « Fédéra-tion des recherches et développements en textométrie autour de la créaFédéra-tion d’une plateforme logicielle ouverte » financé par l’Agence Nationale de la Recherche française (ANR). Le logiciel permet de construire et d’analyser des corpus au format XML. Il a été créé afin de rendre la textométrie, ou analyse de corpus, plus accessible aux utilisateur·trices issu·es du domaine des sciences humaines et sociales (Heiden et al., 2010).

Outre sa simplicité d’utilisation, TXM a l’avantage d’être suffisamment performant pour analyser des corpus complexes et de grande taille. Cet outil open source articule plusieurs éléments : le moteur de recherche IMS Corpus Workbench, l’environnement de calcul statistique R, et un module d’importation de corpus XML-TEI (Heiden et al., 2010). Il est proposé sous deux formes : un logiciel à installer sur un poste local, compatible avec Mac, Linux et Windows, et une application en ligne. Nous avons utilisé le logiciel.

Le langage CQL

Dans TXM, les requêtes sont traitées avec le moteur de recherche CQP, ou « Corpus Query Processor », un composant logiciel développé à l’uni-versité de Stuttgart (Christ et al., 1999). Pour effectuer des recherches sur TXM, il faut donc utiliser le CQL, ou « Corpus Query Language », « un langage formel, avec un lexique et une syntaxe d’opérateurs qui forment un métalangage permettant de combiner des éléments pour la recherche de motifs structurés » (Manuel de TXM, 2018, p. 179). Des exemples de re-quêtes effectuées pour réaliser nos analyses sont présentés dans le chapitre suivant.

Limites de TXM

Malgré sa puissance et la richesse de ses fonctionnalités, TXM ne ré-pondait pas entièrement à nos besoins. Deux problèmes principaux se po-saient. Tout d’abord, le logiciel ne fournit que la fréquence brute d’un mot, c’est-à-dire le nombre de fois où il apparait dans un corpus, et non sa fré-quence relative (ou normalisée), c’est-à-dire le nombre d’occurrences d’un token pour, par exemple, 1000 ou 10 000 tokens. Disposer de la fréquence relative d’un token est indispensable pour pouvoir comparer des corpus de taille différente entre eux. Il est possible de calculer manuellement la fré-quence relative d’un mot à partir des informations fournies par TXM, mais cette méthode n’était pas envisageable au vu de la quantité de données que nous souhaitions analyser.

L’autre problème, c’est que, lorsque l’on effectue une requête dans un corpus avec TXM (par exemple, si on recherche toutes les occurrences de l’acronyme lol), le logiciel ne fournit qu’un résultat global. Il n’est pas pos-sible d’obtenir directement le nombre d’occurrences de lol dans chacun des 1044 fichiers dont notre corpus est composé. La seule solution est de créer 1044 sous-corpus, puis d’effectuer 1044 requêtes, ce qui est évidemment extrêmement fastidieux. Heureusement, TXM permet d’exporter les résul-tats des requêtes au format .csv, afin de les exploiter dans un autre logiciel. Nous avons opté pour R, un logiciel aujourd’hui largement utilisé en lin-guistique quantitative.

4.6.2 R

R est un langage de programmation et un logiciel libre dédié à la statis-tique et à la création de graphiques. Le langage R a été développé par Ross

Ihaka et Robert Gentleman à l’université d’Auckland, en Nouvelle-Zélande, à partir de 1993. La première version libre du logiciel est sortie en 1995. Il est depuis 1997 développé par une équipe d’une vingtaine de développeurs, la R Development Core Team. R est principalement inspiré par le langage S. Son nom est à la fois un clin d’œil aux prénoms de ses deux fondateurs et à S (« R FAQ », p. d.). Le logiciel permet de réaliser de nombreuses ana-lyses statistiques, dont, entre autres, les modèles de régression linéaires et généralisés, l’analyse factorielle, l’analyse de cluster ou encore les tests paramétriques et non paramétriques. R est également réputé pour la flexi-bilité et la puissance de son environnement graphique. Le logiciel s’utilise généralement à partir de l’interface utilisateur graphique gratuite RStu-dio.

R était en 2019 le 16^ème langage de programmation le plus utilisé au

monde (« TIOBE Index », p. d.). Le logiciel offre de nombreux avantages : il est gratuit et libre, et de qualité comparable aux autres logiciels de sta-tistiques payants, comme SAS, SPSS et Stata. Sa syntaxe est relativement simple (Baayen, 2008), et il est compatible avec Mac, Windows et Linux. De nombreux packages, créés par des statisticiens et des spécialistes de diverses disciplines, permettent de réaliser des tâches spécifiques. En jan-vier 2020, plus de 15 000 packages étaient ainsi disponibles (« The Compre-hensive R Archive Network », p. d.). Aujourd’hui, R est devenu un outil de référence dans de nombreux domaines de la linguistique, en particulier la linguistique de corpus et la linguistique computationnelle (Levshina, 2015). Nous avons utilisé la version 3.5.1 de R (R Core Team, 2018), avec la ver-sion 1.1.456 de l’environnement de développement RStudio (RStudio Team, 2016).

Dans le document lol thats how reddit talks;) : le site américain Reddit comme espace de variation de l’anglais : étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité (Page 133-138)