Interprétation des modèles linéaires généralisés

Les méthodes statistiques

6.4.7 Interprétation des modèles linéaires généralisés

Pour savoir comment il faut interpréter un modèle linéaire généralisé, nous présentons ici un exemple (sans interaction pour privilégier la sim-plicité, tableau 6.3), tiré du chapitre 2 de la partie 4 (→ p. 221). L’objectif n’est pas de donner un aperçu des résultats, sur lesquels nous reviendrons, mais d’expliquer comment les nombreux tableaux de régression présentés dans cette thèse doivent être lus.

Tableau 6.3 – Régression binomiale négative, exemple Variable dépendante : Émoticônes Intercept 0.001^∗∗(0.001, 0.001) Femmes cisgenres 1.811^∗∗(1.502, 2.183) Femmes transgenres 3.294^∗∗(2.501, 4.398) Hommes transgenres 2.085^∗∗(1.583, 2.784) Non-binaires 2.076^∗∗(1.575, 2.776) 21-30 ans 0.635^∗∗(0.498, 0.801) 31 ans et + 0.477^∗∗(0.372, 0.607) Observations 1,044 Log Likelihood −4,059.691 θ 0.640^∗∗(0.028)

Akaike Inf. Crit. 8,133.381

Note : ∗

p<0.05 ;^∗∗p<0.01

La constante ou intercept

Dans une régression linéaire, l’intercept (également appelé « constante ») représente la valeur prédite de la variable dépendante (ici la fréquence des émoticônes) à l’endroit où la ligne de régression traverse l’axe des ordonnées

y. En d’autres termes, il s’agit de la valeur prédite de la variable dépendante

quand toutes les variables sont à leur niveau de référence. Pour les va-riables numériques, il s’agit de la valeur prédite de la variable dépendante quand les valeurs des variables numériques sont égales à 0. Dans le cas des variables catégorielles, comme ici (et généralement dans cette thèse), le ni-veau de référence est déterminé par la personne qui réalise l’analyse. En général, on choisit le niveau de la variable où il y a le plus d’observations ou individus, ou le niveau qui fait le plus sens sur le plan théorique. Pour l’âge, la catégorie 1 (14 à 20 ans) est donc notre niveau de référence, même si elle contient moins d’individus que les autres niveaux (21 à 30 ans, et 31 ans et +). La variable « genre » comporte autant d’hommes que de femmes cisgenres (372). Dans le modèle présenté ici, les hommes cisgenres sont le niveau de référence, mais, dans d’autres modèles présentés dans la thèse, ce sont les femmes cisgenres. Le choix du niveau de référence n’a pas d’im-pact sur le modèle, mais uniquement sur la façon dont sont présentés et doivent être interprétés les résultats.

l’intercept indique le logarithme de la valeur prédite (ici, le logarithme de la fréquence des émoticônes). Il faut lui appliquer la fonction exponentielle (dans R, avec la fonction exp()) pour connaitre la valeur prédite (Faraway, 2016). L’intercept originel du modèle présenté dans le tableau 6.3 est de -0.6880 ; sa valeur exponentielle est de 0.001. Dans ce modèle, comme dans les autres modèles réalisés dans cette thèse (sauf exceptions, toujours pré-cisées), les coefficients et les intercepts sont présentés sous leur forme expo-nentielle. Ils peuvent donc être interprétés directement. Notons une autre spécificité de ce modèle, et de la majorité des modèles réalisés dans cette thèse ; par l’utilisation d’un offset, qui correspond au logarithme de nombre de tokens par sous-corpus, le modèle prédit non pas le nombre d’émoticônes dans un sous-corpus, mais le nombre d’émoticônes par token. La valeur ex-ponentielle du coefficient, 0.01, indique donc qu’un homme cisgenre produit 0.001 émoticône par token, ou 1 émoticône par 1000 tokens.

Significativité des effets

Dans la partie supérieure du tableau de régression, chaque ligne cor-respond à une catégorie, et à sa différence (ici dans la fréquence des émoti-cônes) par rapport au niveau de référence (ici, les hommes cisgenres). Les valeurs p, représentées sous forme d’astérisques, indiquent s’il y a une dif-férence significative entre le niveau de rédif-férence et les autres niveaux. On constate ici une différence significative entre les hommes cisgenres et tous les autres groupes.

Coefficients

Dans les modèles de régression généralisée, les coefficients sont repré-sentés sous forme de log odds ratios. Leur valeur exponentielle (présentée dans le tableau 6.3) correspond à des odds ratio. Ils peuvent être inter-prétés ainsi : un odds ratio de 1 signifie qu’il n’y a pas d’effet. Un odds

ratio supérieur à 1 indique une augmentation du phénomène étudié, et un odds ratio inférieur une diminution (Larmarange, p. d.). Dans le modèle

présenté plus haut (tableau 6.3), si on regarde les groupes de genre, on voit que tous les coefficients sont supérieurs à 1. Cela signifie que femmes cisgenres, femmes transgenres, hommes transgenres et personnes non bi-naires ont tous utilisé davantage d’émoticônes que les hommes cisgenres. La taille d’effet la plus forte est constatée quand on compare les hommes cis-genres aux femmes transcis-genres, qui produisent 3.3 fois plus d’émoticônes qu’eux. Les coefficients des groupes d’âges sont quant à eux inférieurs à 1, ce qui signifie que les Redditors de 21 à 30 ans et les Redditors de 31 ans et plus utilisent moins d’émoticônes que le niveau de référence de la variable « âge », c’est-à-dire les Redditors de 14 à 20 ans.

Intervalles de confiance

Les nombres indiqués entre parenthèses correspondent aux intervalles de confiance des coefficients. Ils sont également présentés sous leur

va-leur exponentielle ; cela signifie que les intervalles de confiance qui com-prennent le 1 (qui indique l’absence de différence entre deux groupes) ne sont pas significatifs.

Explorer d’autres comparaisons

Dans le modèle 6.3, les différentes catégories d’une variable (genre et âge) peuvent uniquement être comparées au niveau de référence de cette variable (hommes cisgenres et 14-20 ans). On ne peut donc pas savoir s’il y a une différence significative entre, par exemple, les femmes cisgenres et les femmes transgenres. Pour explorer d’autres contrastes, nous avons changé plusieurs fois le niveau de référence du modèle en utilisant la fonc-tion relevel().

6.5 Organisation des analyses linguistiques

Dans un premier temps, nous présentons une analyse descriptive de chaque variable dans le corpus entier (fréquence et différents types obser-vés pour les variables linguistiques, par exemple). Dans un second temps, nous proposons une analyse axée sur le genre et son interaction avec l’âge. Cette analyse commence avec la présentation des statistiques descriptives pour chaque groupe d’âge et de genre. Nous présentons ensuite un modèle de régression qui met en lumière les possibles effets de l’âge, du genre et de leur interaction, quand elle est significative.

Pour les variables linguistiques, nous proposons également une analyse qui intègre l’ethnicité, et qui est basée sur l’échantillon réduit décrit dans la section 5.1.7. Nous présentons des statistiques descriptives sous forme de boites à moustaches ou de mesures de tendance centrale et de dispersion. Vient ensuite un modèle de régression, créé en intégrant l’effet principal de l’âge et l’interaction du genre et de l’ethnicité. Nous n’avons pas intégré d’interaction à trois niveaux (genre, âge et ethnicité) aux modèles, à cause de la grande complexité de son interprétation. Cela signifie en effet compa-rer, par exemple, les femmes afro-américaines de 14 à 20 ans aux femmes afro-américaines de 21 à 30, puis aux femmes afro-américaines de 31 ans et plus, et ainsi de suite pour chaque groupe ethnique et chaque groupe de genre. Même si les interactions entre âge, genre et ethnicité peuvent exis-ter, il nous a semblé plus judicieux de nous cantonner à une interaction à deux niveaux, et de privilégier l’interaction du genre et de l’ethnicité (après nous être rendue compte, lors d’essais, que l’algorithme de sélection des va-riables préférait généralement cette interaction à celle de l’âge et du genre, sauf exception).

Pour certaines variables linguistiques, il nous a semblé pertinent de réaliser des analyses supplémentaires pour explorer les possibles effets d’autres variables. Nous avons ainsi intégré l’orientation sexuelle à notre étude des émoticônes (→ p. 225), et le genre assigné à la naissance des per-sonnes non binaires dans l’analyse de plusieurs variables, dont les émo-ticônes (→ p. 223), les étirements de lettres (→ p. 236), les étirements

de ponctuation (→ p. 241), et les g-droppings (→ p. 284). Ces analyses sont basées sur des échantillons réduits du corpus : 275 femmes cisgenres, 48 femmes transgenres, 256 hommes cisgenres et 68 hommes transgenres pour l’analyse de l’orientation sexuelle, et 98 personnes non binaires dont nous connaissons le genre assigné à la naissance.

Dans le document lol thats how reddit talks;) : le site américain Reddit comme espace de variation de l’anglais : étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité (Page 178-181)