• Aucun résultat trouvé

Actually I am European myself (UK, so kinda) but there are still issues

5.4.3 Procédés de réduction

Acronymes

La fonction « Index » de TXM a permis d’afficher une liste de tous les « types » présents dans le corpus. Ensuite, un relevé manuel de tous les acronymes apparaissant au moins 100 fois dans le corpus a été effectué, sans distinction. Cette étape a été réalisée deux fois, afin de limiter le risque d’oubli. Dans un second temps, il a fallu décider quels acronymes relèvent du Netspeak, et quels acronymes ne sont pas spécifiques à la langue du web. La distinction entre ces deux types d’acronymes n’était pas évidente. Afin d’y voir plus clair, nous avons classé les acronymes en plusieurs catégories. Voici les grands thèmes qui se sont dégagés, avec des exemples issus du corpus :

— Acronymes médicaux : AHDH (attention deficit hyperactivity

disor-der), GP (general practitioner, ASD (autism spectrum disordisor-der), IUD

(intrauterine device).

— Acronymes politiques : GOP (Grand Old Party, le parti républicain),

BLM (Black Lives Matter), DNS (Democratic National Committee).

— Lieux : SF (San Francisco), NY (New York), NZ (New Zealand) — Acronymes de la vie de tous les jours : BBQ (barbecue)

— Acronymes faisant référence à des personnes : MIL (mother in law),

SO (significant other)

— Acronymes de la vie des personnes transgenres et non binaires : afab (assigned female at birth), NB (non binary), HRT (hormone

replace-ment therapy)

— Acronymes techniques : USB (Universal Serial Bus), DVD (Digital

Versatile Disc)

— Acronymes du Netspeak : OMG (oh my god), idk (I don’t know), lol (laughing out loud)

— Acronymes de Reddit, généralement dérivés de noms de subreddits :

TIL (Today I Learned)

Le tri des acronymes a été compliqué par l’ambiguïté qui leur est propre. Un acronyme peut avoir plusieurs sources (Mattiello, 2013), ou peut avoir comme homographes un ou plusieurs mots «de dictionnaire. Il a été possible de traiter les cas d’homographie par un tri manuel des concordances, en s’appuyant sur le contexte pour inférer le sens de l’acronyme. Voici quelques exemples d’homographie notables :

— PM : private message, Prime Minister, post meridiem, ou encore

pro-ject manager

— rn : registered nurse, right now

— ATM : at the moment ; automated teller machine — ED : eating disorder ; education

— TIL : acronyme de Today I Learned (nom d’un subreddit) ; réduction de until

— SO : acronyme de significant other ; adverbe ou conjonction so Le cas de SO était particulièrement problématique, étant donné la fré-quence élevée du token dans le corpus (plus de 91 000 occurrences). Pour éviter les faux positifs, nous avons uniquement recherché les cas où SO ap-parait en lettres capitales, puis nous avons inspecté les concordances ma-nuellement pour enlever celles qui contenaient l’adverbe.

L’objectif de cette thèse étant d’étudier les éléments lexicaux typiques de l’anglais d’internet, nous avons uniquement analysé les acronymes référant à des expressions ou phrases, à des personnes, ainsi que le seul acronyme spécifique à Reddit ayant une fréquence supérieure à 100 (TIL). La plupart des acronymes cités dans la liste ci-dessus, qui font référence à des lieux, des termes techniques, médicaux, ou qui sont spécifiques à une population, comme les termes « transgenres » ont ainsi été exclus de l’analyse. Nous avons également pris en compte les différentes variantes typographiques des acronymes (par exemple LOL, lol, Lol, etc). Nous ne l’avons pas fait pour l’acronyme SO, pour les raisons pratiques expliquées ci-dessus.

Réductions

Les réductions ont été identifiées de la même façon que les acronymes, par l’examen de la liste de tous les types du corpus. Seules les réductions ayant une fréquence supérieure à 100 ont été incluses dans l’étude, afin de faciliter le recueil des données. Les formes complètes de ces abréviations ont également été extraites du corpus, pour comparaison.

Graphies phonétiques

Les graphies phonétiques ont été identifiées par l’examen de la liste des types contenus dans le corpus grâce à la fonction « Lexique » de TXM. L’opération étant chronophage, nous avons inclus uniquement les éléments ayant une fréquence supérieure à 100. Nous avons également généré des concordances des formes standard correspondantes (want to pour wanna,

par exemple). Les graphies standard correspondant aux graphies phoné-tiques ont également été extraites du corpus.

G-droppings

Les g-droppings du corpus ont été identifiés à l’aide de l’expression régu-lière [word="..*in"%c], qui a permis de rechercher tous les tokens compo-sés de trois lettres au minimum et se terminant par -in. Les concordances ont été classées par ordre alphabétique, puis triées manuellement afin d’éli-miner les tokens qui n’étaient pas des g-droppings. Les g-droppings ont tous été mis en minuscules afin de faciliter leur analyse. Nous avons ensuite re-cherché les formes standard des g-droppings identifiés.

Omissions d’apostrophe

Les omissions d’apostrophe ont été identifiées de la même façon que les réductions et les graphies phonétiques. Plusieurs cas d’homographie ont nécessité un examen manuel des concordances, pour éliminer les faux po-sitifs. C’était notamment le cas de its, qui peut être le résultat de l’omission de l’apostrophe de it’s ou le pronom possessif its. Des 10 518 occurrences de

its, la majorité (7457) a été identifiée comme étant des omissions

d’apos-trophes.

Les résultats des concordances de lets (omission de l’apostrophe de let’s ou verbe let conjugué à la troisième personne du singulier, de Id (I would/I

had ou ID, identity), Im (I am et acronyme d’instant message ou d’intra muscular) et Ill (I will et ill, malade) ont également été nettoyés

manuel-lement. Nous n’avons en revanche pas trié les résultats des concordances d’autres possibles omissions d’apostrophe, à cause du nombre important d’occurrences de leurs homographes. Cela a été notamment le cas de well (fréquence dans le corpus : 22 889), qui peut être le résultat de l’omission de l’apostrophe de we will, mais aussi un nom, un adjectif, un adverbe, une interjection ou un verbe. Were (fréquence dans le corpus : 26 187) posait un problème similaire, pouvant à la fois être l’omission de l’apostrophe dans

we are, ou la forme passée du verbe be à la deuxième personne. Certaines

contractions, qui semblent très rares et qui présentaient également des cas d’ambiguïté importante, n’ont pas été incluses. C’est le cas de hell (he will ou enfer), et shell (she will ou carapace). Nous avons écarté tous ces tokens. Pour des raisons pratiques, ce relevé ne comprend pas l’omission de l’apostrophe du possessif, comme dans my friends car pour my friend’s car. L’omission de l’apostrophe possessive est en effet difficile à identifier, pou-vant être confondue avec le pluriel. Les données analysées ne sont donc pas exhaustives. Une fois la liste des tokens à étudier établie, nous avons généré des concordances pour chacun de leurs équivalents avec apostrophe (I am pour Im, it’s pour its, will not pour wont, etc.), afin de pouvoir déterminer si l’omission d’apostrophe se produit à la même fréquence pour chaque forme standard.

Omission de la majuscule du pronom I

Toutes les occurrences de i minuscule ont été extraites du corpus, ainsi que les occurrences de I majuscule, à l’aide d’une simple recherche dans TXM.

tl ;dr

Ce chapitre a présenté trois types de variables :

— Les variables sociales : le genre, l’âge, l’ethnicité et l’orienta-tion sexuelle, que nous étudions dans cette thèse, mais aussi les pays et catégories socioprofessionnelles, qui pourront servir de base à de futures analyses.

— Les variables de la Reddidentité : l’âge Reddit, le karma de post et de commentaire, la modération de forums et les pseu-donymes, étudiés dans le chapitre 7.

— Les thèmes des subreddits, étudiés dans le chapitre 8.

— Les variables linguistiques : les procédés « d’ajout » (émoticônes, émojis, étirements de lettres, étirements de ponctuation, mots en majuscules et interjections), étudiés dans le chapitre 10, et les procédés « de réduction » (acronymes, réductions, graphies phonétiques, g-droppings, omissions d’apostrophe et omission de la majuscule du pronom personnel I), analysés dans le cha-pitre 11.

Nous avons montré que, dans certains cas, le recueil des données lin-guistiques a été simple et direct, mais que dans d’autres, il a néces-sité un travail de réflexion et de tri important, dû à l’importante va-riation orthographique typique de la CMC. Même si nos données ne prétendent pas à l’exhaustivité, elles nous donnent suffisamment de matière pour tenter de répondre à nos questions de recherche.