Les modèles linéaires généralisés - Les méthodes statistiques

Les méthodes statistiques

6.4.2 Les modèles linéaires généralisés

Le modèle linéaire généralisé (generalized linear model ou GLM) est une extension du modèle général. Il utilise une fonction de lien (link

func-tion) qui transforme l’étendue des valeurs prédites par le modèle linéaire

(de moins l’infini à plus l’infini) à une étude plus appropriée à la variable dépendante. Pour les données de comptage, l’étendue des valeurs prédites par un modèle linéaire généralisé va ainsi de 0 à l’infini. Pour les variables catégorielles binaires, les valeurs prédites vont de 0 à 1, et peuvent être interprétées comme des probabilités (Gries, 2013).

Il existe plusieurs types de modèles linéaires généralisés. Le choix d’un modèle s’effectue en fonction de la nature de la variable dépendante : de Poisson ou binomial négatif pour les variables numériques, logistique bi-naire pour les variables catégorielles à deux niveaux, et multinomial pour les variables catégorielles à plus de deux niveaux. Pour les variables nu-mériques, la dispersion doit également être prise en compte : modèle

zero-inflated pour les données contenant beaucoup de zéros, modèle binomial

négatif pour les données surdispersées, ou modèle Poisson généralisé pour gérer la sous-dispersion.

Modèle de Poisson

La régression de Poisson est une des distributions les plus communé-ment utilisées pour modéliser les fréquences et données de comptage. La distribution de Poisson a notamment pour caractéristiques le fait que les valeurs ne peuvent pas être inférieures à 0, une moyenne égale à la va-riance, et une asymétrie quand sa moyenne est faible (Zuur et al., 2015). Dans R, le modèle de Poisson est mis en œuvre de la façon suivante, avec la fonction glm :

glm(emoticons ∼ gender + age, family = “poisson”, data = RedditGender)

Modèle binomial négatif

La surdispersion est très courante dans les données de comptage. Elle est présente quand la variation des données est supérieure à la variation

attendue avec la distribution de Poisson. Le modèle négatif binomial est la solution la plus communément utilisée pour régler ce problème (Zuur et al., 2015). Il utilise un paramètre de dispersion qui permet de gérer la surdis-persion. Il existe plusieurs types de modèles binomiaux négatifs ; le plus courant utilise une distribution de mélange Poisson-gamma (Hilbe, 2011). La majorité des données de ce thèse étant surdispersées, nous avons prin-cipalement eu recours à des modèles binomiaux négatifs (sauf si précisé). Nous les avons créés avec la fonction glm.nb du package MASS (Venables & Ripley, 2002), comme ci-dessous :

glm.nb(emoticons ∼ gender * age, data = RedditGender)1

Modèle logistique binaire

La régression logistique binaire est utilisée pour analyser des variables catégorielles ayant deux niveaux (comme oui/non, graphie standard/graphie non standard, etc.). Cette méthode a une longue histoire en sociolinguis-tique, qui a été la première discipline linguistique à l’employer avec le pro-gramme « Variable Rule », mis au point dans les années 1970 et implementé dans plusieurs logiciels dont le célèbre Varbrul (Tagliamonte & Baayen, 2012). La régression logistique permet en effet d’étudier un type de ques-tion courante en sociolinguistique : les situaques-tions où les locuteur·trices ont le choix entre deux réalisations d’une forme qui a le même sens, et où ce choix est conditionné par des variables sociales ou contextuelles (Taglia-monte & Baayen, 2012).

Nous avons utilisé la régression logistique binaire sous sa forme clas-sique dans notre analyse des pseudonymes (→ p. 176), et sous forme de modèle à effets mixtes dans notre analyse de la variante de l’omission de l’apostrophe de it’s (→ p. 285). Nous avons utilisé la glm pour créer les mo-dèles logistiques binaires, avec ce type de formule :

glm(i ∼ gender * age, family = binomial, data = RedditGender)

Modèles de régression logistique mixtes Les modèles mixtes sont une méthode relativement récente, qui a vu le jour grâce aux progrès

in-formatiques rapides de la fin du 20ème siècle (Galwey, 2014). Un modèle

mixte fait la distinction entre deux types d’effets : les effets fixes et les effets aléatoires. Les effets fixes correspondent aux variables indépendantes que l’on souhaite étudier (par exemple, dans notre cas, le genre ou l’âge). Les effets aléatoires correspondent à une autre source de variation présente dans les données mais qui ne fait pas partie des questions de recherche que l’on a posées, et que l’on souhaite donc neutraliser (dans notre cas, les préférences individuelles des Redditors) (Brezina, 2018). Lorsque l’on a recueilli plusieurs observations par personne, les modèles mixtes repré-sentent une amélioration considérable par rapport aux modèles classiques. Ils permettent de neutraliser la variation individuelle, et d’isoler l’effet des variables sociolinguistiques d’intérêt (Brezina, 2018).

Nous avons utilisé des modèles logistiques mixtes dans les analyses où nous souhaitions comparer le choix des Redditors entre deux variantes d’une même forme, comme l’utilisation du I majuscule ou minuscule, ou l’omission de l’apostrophe de it’s. Pour ce faire, nous avons employé la fonc-tion glmer() du package lme4 (Bates et al., 2015), en utilisant les identi-fiants des Redditors comme un effet aléatoire. Nous avons également uti-lisé un effet aléatoire pour chaque observation (OLRE) dans un cas où nous avons rencontré une importante surdispersion (Harrison, 2014).

Modèles zero-inflated

Dans les cas où les données contiennent beaucoup plus de zéros que le nombre de zéros auquel on pourrait s’attendre étant donné la moyenne de la distribution, il est conseillé d’utiliser un modèle Poisson ou binomial né-gatif zero-inflated (Hilbe, 2014). Ce type de modèle fait la différence entre les « bons » et les « mauvais » zéros ; cette distinction vient de la recherche écologique, pour laquelle il est important de savoir d’où proviennent les ob-servations zéro (Hilbe, 2014, p. 198). En effet, certains zéros peuvent être dus à des erreurs. Hilbe donne l’exemple des chants d’oiseaux. Quand un·e scientifique compte le nombre de fois où une espèce d’oiseau chante, les observations zéros peuvent se produire pour deux raisons. Tout d’abord, il se peut que les oiseaux n’aient pas chanté au moment où l’enregistre-ment a été réalisé ; c’est ce que Hilbe appelle les « bons zéros ». Ensuite, il est possible que les chants n’aient pas été enregistrés parce que le ou la scientifique était au mauvais endroit ou au mauvais moment. Ce sont les « mauvais zéros » : les chants d’oiseaux auraient pu être enregistrés, car les oiseaux chantaient. La distinction entre les « bons » et les « mauvais » zéros est une « fiction mathématique » (Hilbe, 2014, p. 197), mais elle aide à l’interprétation des modèles zero-inflated. Dans notre cas, on pourrait dire que les « mauvais » zéros correspondent à des zéros obtenus non pas parce qu’une personne n’utilise pas tel ou tel procédé, mais parce que la façon dont les échantillons ont été constitués n’a pas permis de capter le ou les moments où elle les utilise.

Les modèles zero-inflated sont principalement utilisés dans le domaine de l’écologie, mais aussi de la santé et des transports (Hilbe, 2014). Ils com-mencent également à être utilisés en linguistique ; par exemple, Burch et Egbert (2020) ont utilisé des modèles zero inflated pour étudier la fréquence de certains mots dans le British National Corpus. Les modèles zero-inflated sont composés de deux parties. La première est binaire, et modélise d’un côté les zéros, qui deviennent des « 1 », et de l’autre les observations supé-rieures à zéro, qui deviennent des « 0 ». La seconde, ou count component, modélise toutes les observations (Hilbe, 2014). Dans nos analyses, nous commentons les résultats de la première partie, mais ne présentons que les résultats de la seconde partie du modèle, pour des raisons pratiques.

Dans le document lol thats how reddit talks;) : le site américain Reddit comme espace de variation de l’anglais : étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité (Page 173-176)