Autres critères de sélection

pus pilote

4.2.4 Autres critères de sélection

Nombre de tokens

La taille de chaque sous-corpus, en nombre de tokens (en linguistique de corpus, un token est défini comme étant « a single linguistic unit, most often a word », Baker et al., 2006) a été dictée par deux principes. Première-ment, nous avons décidé que les sous-corpus seraient tous d’une longueur équivalente, afin d’obtenir un corpus équilibré. Lorsque l’on crée un corpus, l’équilibre entre les échantillons est, avec la représentativité, un principe fondamental (même s’il s’agit plutôt en fait d’un « idéal », car difficile à atteindre, McEnery et Hardie, 2012). Nous souhaitions éviter à tout prix d’avoir, par exemple, des sous-corpus de 500, de 5000 et de 15 000 tokens, qui auraient rendu plus difficile la comparaison entre les individus.

Ensuite, il était nécessaire de disposer de sous-corpus relativement im-portants, pour deux raisons principales. La première découle de l’objectif de nos analyses linguistiques, qui était d’étudier 11 variables non standard.

Les phénomènes de la CMC étant relativement rares, obtenir des échan-tillons de grande taille pour chaque personne maximisait les chances d’ob-server l’utilisation (ou la non-utilisation) de ces variables dans chaque sous-corpus. La seconde est liée au fait que notre projet n’était pas uniquement d’ordre linguistique. Nous souhaitions également établir une cartographie des centres d’intérêt des Redditors ; cela n’était possible que si nous dis-posions de nombreux (plusieurs centaines) de commentaires par personne, afin d’avoir un panorama assez large de leurs parcours sur Reddit.

Nous avons choisi de récolter environ 15 000 tokens par sous-corpus. Nous nous sommes arrêtée sur ce chiffre de façon empirique ; il paraissait un objectif réaliste, au vu des premiers échantillons prélevés. Nous avons utilisé le logiciel Microsoft Word pour copier les échantillons, et les mots ont été comptés, lors de la construction du corpus, avec sa fonction « Statis-tiques » (les fonctionnalités avancées de Word ont permis d’isoler les méta-données du contenu des commentaires, et de prendre uniquement celui-ci en compte). Soulignons que, une fois annoté, le corpus a été analysé avec le logiciel TXM, qui n’a pas la même conception du « mot » (ou token) que Word, ce qui explique les différences entre le nombre de mots utilisé comme étalon pour prélever l’échantillon, et les nombres de tokens rapportés plus bas. Même si beaucoup d’internautes ont été exclus du corpus parce que leur historique ne contenait pas suffisamment de messages, il n’a pas été très difficile de trouver des Redditors ayant produit au moins 15 000 tokens de commentaires.

La question de l’authenticité Nous n’avons à aucun moment contacté les Redditors de notre corpus pour vérifier si les informations qu’ils et elles ont fournies sur le site sont exactes. Nous avons pris le parti d’accepter leurs déclarations pour argent comptant, en partant du principe que ce qu’ils disent d’elles et d’eux, sur Reddit, est ce qu’elles et ils sont sur Reddit. Il est évidemment possible que certain·es aient menti sur leur identité, ou aient modifié la réalité afin de protéger leur anonymat. Nous pensons toutefois que la façon dont nous avons sélectionné les internautes limite l’effet des éventuel·les « menteurs·ses ». Tout d’abord, nous avons choisi des comptes Reddit très actifs, et/ou actifs depuis plusieurs années. La longévité d’un compte est un signe d’implication et un marqueur de prestige dans une communauté en ligne (Huffaker, 2010). Privilégier ces comptes très actifs a ainsi diminué la probabilité d’inclure des throwaways (des comptes jetables, à la durée de vie limitée, → p. 89) et des comptes créés dans le but de faire du trolling (des éléments perturbateurs, susceptibles de mentir pour créer la controverse).

Ensuite, nous avons trouvé les Redditors sur des forums consacrés à des questions personnelles, principalement liées au genre. Dans ce type de forum, une certaine authenticité est attendue par la communauté (Berg-strom, 2011). Enfin, le fait que nous ayons inclus plus d’un millier de comp-tes Reddit dans notre corpus limite l’impact statistique des « menteurs·ses » ; par exemple, la présence éventuelle d’un homme disant être une femme (à des fins malhonnêtes, pour infiltrer des subreddits dédiés aux femmes)

n’impacte pas beaucoup nos résultats.

Fréquence de publication

Le critère temporel a également été pris en compte. Notre étude n’est pas diachronique, mais examine un « instantané » de Reddit. La langue de la CMC évoluant très vite, nous ne voulions pas intégrer des commentaires trop anciens, qui auraient pu biaiser les résultats des analyses. Par consé-quent, les Redditors qui ont produit des commentaires sur une durée trop importante (au-delà de deux ans) n’ont pas été intégré·es au corpus.

Un corpus de l’« Old Reddit »

La construction du corpus a commencé en mars 2017, deux mois avant le début de la phase de bêta-test (test de la première version) des nouveaux profils de Reddit (HideHideHidden, 2017). Seul·es les Redditors ayant conservé les « anciens » profils ont été intégré·es au corpus (Figure 4.2). Le code source d’un profil sur l’Old Reddit et sur le New Reddit est le même, mais, comme nous avons recueilli les données de façon « manuelle » (c’est-à-dire en faisant de simples copiés-collés sur un logiciel de traitement de texte), nous n’avons pas utilisé le code source des pages.

Figure 4.2 – Un profil sur l’Old Reddit

Pour pouvoir être traitées ensemble par le script écrit par l’ingénieur de recherche, les pages copiées devaient toutes avoir la même structure et contenir le même type d’informations. Or, les nouveaux profils diffèrent des anciens profils : on peut y ajouter un avatar, une bannière et un texte descriptif, et y poster directement des commentaires, sans passer par un subreddit (figure 4.3). La structure des pages est par ailleurs plus com-plexe : celles-ci ne montrent pas uniquement les commentaires écrits par les Redditors, mais aussi le ou les commentaires auxquels ils répondent.

Il y avait également un autre obstacle à l’intégration de nouveaux profils dans le corpus : le fait que l’outil « Never Ending Reddit » du plugin (module d’extension) Reddit Enhancement Suite ne fonctionnait pas (à l’époque) sur

Figure 4.3 – Un profil sur le New Reddit

les pages des nouveaux profils. Cet outil s’est avéré très pratique pour ef-fectuer des recherches dans les commentaires et trouver des informations personnelles, car il nous a permis de visualiser des centaines de commen-taires à la fois en « scrollant » tout simplement en bas de la page au lieu de cliquer à de multiples reprises pour afficher le contenu plus ancien.

Dans le document lol thats how reddit talks;) : le site américain Reddit comme espace de variation de l’anglais : étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité (Page 126-129)