Importation des données dans R

pus pilote

4.6.4 Importation des données dans R

Les fichiers obtenus, correspondant chacun aux résultats d’une recherche de concordance, ont été analysés avec R. Avant de pouvoir réaliser des sta-tistiques, il a fallu transformer le format des données. Une fois importé dans R, le fichier .csv est converti en data frame (tableau de données)³. Ce

data frame a la forme des données originelles de TXM : à chaque ligne

cor-respond une occurrence d’une unité lexicale, accompagnée de son contexte et de son identifiant. Les Redditors n’ayant pas utilisé une seule fois l’unité lexicale recherchée ne sont pas inclus dans le data frame.

Pour réaliser nos analyses, nous avions besoin d’un format différent, avec un data frame composé de 1044 lignes, correspondant aux 1044 Red-ditors de RedditGender. Chaque ligne devait comporter l’identifiant de la personne, et le nombre de fois où elle a utilisé une unité lexicale donnée. Le contexte n’est pas nécessaire. Nous avons donc écrit un script R per-mettant de remanier les données. Dans un premier temps, les différentes 3. Nous utilisons le terme data frame car le logiciel R et sa terminologie sont en anglais.

graphies de chaque unité lexicale (avec ou sans majuscules) ont été normali-sées, c’est-à-dire mises en lettres minuscules. Cela permet à R de toutes les considérer comme des éléments identiques. Les colonnes « contexte droit » et « contexte gauche » ont ensuite été supprimées. Avec la fonction table(), nous avons calculé le nombre d’occurrences de chaque token dans chaque sous-corpus. Nous avons ainsi obtenu un objet R table, qui a été transformé en data frame. Ce data frame a ensuite été « collé » au data frame contenant les données sociodémographiques (âge, genre, etc.) avec la fonction merge(). Les observations manquantes, correspondant aux internautes n’ayant pas utilisé un token, ont été remplacées par des 0. Cette procédure a dû être effectuée pour la majorité des éléments étudiés dans cette thèse. Le script R a permis de le faire de façon quasi instantanée pour chaque élément d’in-térêt.

4.7 Mise à disposition du corpus et éthique

Un des objectifs de notre travail était de mettre le corpus RedditGender à disposition des chercheurs·e, afin qu’il puisse être utilisé pour d’autres études et pour rendre notre recherche reproductible. Toutefois, deux obs-tacles principaux se posent encore. Tout d’abord, en l’état actuel, notre cor-pus ne répond pas aux critères « FAIR », c’est-à-dire de « Findability, Acces-sibility, Interoperability, and Reusability » (Wilkinson et al., 2016), aujour-d’hui largement utilisés dans la communauté scientifique et décrits, pour leur application dans les corpus de CMC, par Frey et al. (2019). Ces critères ont été mis en place pour promouvoir une recherche transparente et repro-ductible, et pour partager des données (ici, un corpus) dont la création est coûteuse et chronophage.

Pour que RedditGender puisse être utilisé par d’autres chercheur·es, il faudrait, notamment revoir son annotation afin de la rendre plus trans-parente et cohérente, et fournir une documentation qui donne une sorte de « mode d’emploi » du corpus. Le problème principal n’est toutefois pas d’ordre technique, mais éthique. Il nous faudrait trouver une solution per-mettant partager nos données en respectant l’anonymat des internautes qui ont contribué, sans le savoir, au corpus. Il semble que RedditGender réponde aux exigences du RGDP ou Règlement européen sur la protection des données (« Le règlement général sur la protection des données - RGPD | CNIL », p. d.), car les données qu’il contient sont hébergées aux États-Unis, librement accessibles sur internet et ne permettent pas d’identifier les personnes.

Toutefois, même si les pseudonymes des Redditors sont anonymisés, ils peuvent facilement être retrouvés en effectuant une recherche de leurs com-mentaires sur Google. Le contenu des comcom-mentaires pourrait également servir à connaitre leur genre, leur orientation sexuelle ou leur ethnicité. Toutes ces données pourraient être utilisées par des individus malveillants pour harceler ou doxxer des internautes (révéler des informations privées dans le but de leur nuire). Le problème est particulièrement aigu pour les personnes transgenres et non binaires, qui peuvent vivre leur identité de

genre en tant que stealth (c’est-à-dire sans révéler leur statut transgenre), ou de façon secrète. Notre corpus préserve par ailleurs des commentaires et des comptes Reddit que les Redditors peuvent décider à tout moment de supprimer, pour effacer leurs traces sur Reddit.

Des solutions pourraient être envisagées pour éviter ces problèmes : mettre le corpus à disposition sur demande (et non librement), fournir les métadonnées uniquement aux chercheur·es, ne rendre disponible qu’une partie du corpus (uniquement les personnes cisgenres, par exemple), ou de-mander, a posteriori, le consentement des internautes. Toutes ces questions demandent encore réflexion. Pour préserver l’anonymat des personnes dont nous avons recueilli les commentaires, nous ne citons jamais leurs commen-taires tels quels ; nous paraphrasons, et (plus rarement) traduisons ce qu’ils ont écrit. De la même façon, nous ne citons jamais leurs pseudonymes. Les noms d’utilisateur·trices présentés dans notre étude des pseudonymes et cités en exemple ne sont pas ceux des Redditors de RedditGender.

tl ;dr

Nous avons utilisé, pour créer le corpus, la méthode de l’échan-tillon de convenance. Les Redditors n’ont pas été sélectionné·es au hasard, mais ont été choisi·es parce qu’ils et elles ont produit de nombreux commentaires sur le site, et parce qu’ils et elles ont révélé, par leurs commentaires ou leurs « flairs », des informations sociodémographiques. Nous avons diversifié l’échantillon en sur-représentant certaines catégories de façon à pouvoir réaliser des analyses statistiques dans une perspective intersectionnelle.

Nous avons construit le corpus en copiant les commentaires des Red-ditors sur des documents Word. Grâce à l’aide d’un ingénieur de re-cherche de l’ATILF, nous avons transformé ces documents en un cor-pus richement annoté. Celui-ci a été exploité avec le logiciel de tex-tométrie TXM. Les résultats des concordances ont été importés dans le logiciel de statistique R. La question du partage du corpus reste encore à l’étude à l’heure où nous écrivons ces lignes, à cause du ca-ractère sensible des données recueillies.

Dans le document lol thats how reddit talks;) : le site américain Reddit comme espace de variation de l’anglais : étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité (Page 140-143)