• Aucun résultat trouvé

Analyse statistique de la distribution des ellipses dans les différents genres

Distribution des ellipses dans un corpus genré

2. Analyse statistique de la distribution des ellipses dans les différents genres

Pour interpréter les résultats d’une recherche menée sur corpus, il est possible de s’appuyer sur la vérification de l’ensemble du corpus, et/ou de sélectionner des échantillons suffisamment représentatifs du corpus source, pour les soumettre à une évaluation. Lorsque le phénomène étudié est fréquent ou rare dans un corpus de grande taille, vérifier une hypothèse le concernant devient vite difficile à réaliser, sauf à disposer d’importants moyens humains. D’un point de vue statistique, il existe des tests qui permettent d’évaluer la significativité des résultats obtenus et de mesurer la possibilité de les généraliser sur un corpus plus large128.

Notre analyse utilise le test du χ², qui permet de comparer des distributions d’effectifs (Poudat & Landragin 2017, 192-193). L’objectif de ce test est de déterminer si la différence entre deux distributions est statistiquement significative.

128 Nous remercions Rodrigo Wilkens pour son aide et pour ses conseils sur les questions statistiques ainsi que pour la relecture de ce chapitre.

Il consiste à comparer les effectifs réels observés (dans notre cas, le nombre d’occurrences des ellipses dans chaque genre) à des effectifs attendus sous l’hypothèse d’indépendance (dans notre cas, le nombre d’occurrences des ellipses dans chaque genre, s’il n’y avait aucune association entre le genre et la présence d’ellipses). Pour réaliser le test du χ², nous avons utilisé la fonction chisq.test du logiciel d’analyse statistique R129.

On considère l’hypothèse nulle H0 : la présence d’ellipses est indépendante du genre de texte. Si l’hypothèse nulle est rejetée, on peut considérer que la présence d’ellipses n’est pas indépendante du genre de texte. C’est ce que l’on appelle l’hypothèse alternative H1 : il y a une dépendance entre les ellipses et le genre.

Le résultat du test du χ² nous donne une p-value, qui correspond à la probabilité que le hasard puisse expliquer à lui seul une différence au moins aussi importante que celle qui a été constatée entre nos observations. Cette p-value sert donc à déterminer la significativité. On utilise généralement un seuil assez bas de 0,05 ou 0,01, voire 0,005 ou 0,001. On peut rejeter l’hypothèse nulle H0 (et donc considérer que la différence est statistiquement significative) si la p-value se situe en-deçà de ce seuil. Dans le cas contraire, on doit considérer H0 comme possible.

2.1. Test 1

Notre premier test vise à vérifier s’il existe une association entre la présence ou l’absence d’ellipses et le genre analysé. Pour ce faire, nous comparons le nombre de phrases annotées contenant au moins une ellipse au nombre de phrases sans ellipse dans chaque sous-corpus :

Conversationnel Littéraire Journalistique Promotionnel Politique

Présence d’ellipses 94 39 18 55 5

Absence d'ellipse 906 961 982 945 995

Tableau 14 : Présence / absence des ellipses dans chaque corpus

129https://www.rdocumentation.org/packages/stats/versions/3.6.1/topics/chisq.test (consulté le 23 juillet 2019 à 21:10).

Les effectifs attendus dans les différents genres sont les mêmes (44,2 pour ce qui concerne la présence d’ellipses et 955,8 pour ce qui concerne leur absence), puisque le même nombre de phrases a été annoté dans chaque cas (1000 phrases).

La p-value obtenue est inférieure à 2.2e-16, donc largement inférieure aux seuils de 0,01 ou 0,05 : on peut donc rejeter l’hypothèse nulle H0 et considérer que la présence ou non d’ellipses est bien liée au genre du corpus considéré.

Pour pousser plus avant cette analyse, nous analysons les résidus de Pearson (différence entre l’effectif observé et l’effectif attendu, divisée par la racine carrée de l’effectif attendu), afin de visualiser les informations qui contribuent le plus au χ² global. Les résidus de Pearson sont présentés dans le tableau ci-dessous :

Conversationnel Littéraire Journalistique Promotionnel Politique

Présence d’ellipses 7,974 0,493 -3,725 1,970 -5,726 Absence d'ellipse -1,674 -0,103 0,782 -0,414 1,202

Tableau 15 : Résidus de Pearson

Nous pouvons aussi visualiser ces valeurs sous forme graphique130 dans le corrélogramme131 ci-dessous :

130 La présentation de ces valeurs en tableau et en graphique permet une meilleure visualisation.

131 Visualisation disponible dans la librairie R corrplot qui « représente le graphique d’une matrice de corrélation […] La matrice de corrélation peut être […] réordonnée en fonction du degré de corrélation entre les variables ». Cette même visualisation peut être utilisée pour d’autres types de matrice, ce qui est notre cas ici.

http://www.sthda.com/french/wiki/visualiser-une-matrice-de-correlation-par-un-correlogramme (consulté le 15 juillet 2019 à 15:03).

Figure 19 : Corrélogramme des valeurs résidus de Pearson

Les résidus positifs sont en bleu et indiquent une association positive entre la ligne et la colonne correspondante. On constate ici une forte association positive entre la présence d’ellipses et le genre conversationnel, ce qui est conforme à nos observations.

Les résidus négatifs sont en rouge et indiquent une association négative entre la ligne et la colonne correspondante. On constate ici une forte association négative entre la présence d’ellipses et le genre politique (-5,726) et, dans une moindre mesure, le genre journalistique. Ceci confirme nos observations sur ces deux derniers genres, dans lesquels l’ellipse reste un phénomène très rare.

Ce que nous pouvons interpréter à la suite de ces résultats est le fait que la présence d’ellipses est une caractéristique du genre conversationnel tandis que leur très faible nombre d’occurrences caractérise les genres journalistique et politique. Le genre littéraire, quant à lui, ne présente pas de différences marquantes par rapport à ces derniers. Par ailleurs, dans la mesure où les styles des romans varient132, les données recueillies à partir de ce corpus sont hétérogènes.

132 Il convient d’ajouter que le style des auteurs, qu’ils soient hommes politiques, écrivains, journalistes, conférenciers ou scénaristes, n’a pas été contrôlé en amont, ce qui remet peut-être en question l’équilibre des échantillons, et, par conséquent, la représentativité des résultats.

2.2. Test 2

Le deuxième test que nous avons effectué vise à vérifier s’il existe une différence entre les types d’ellipse en fonction du genre. En d’autres termes, la manifestation des catégories d’ellipses diffère-t-elle en fonction du genre analysé ?

À cette fin, comparons le nombre d’occurrences de chaque type d’ellipse en fonction du genre (à titre de rappel, ci-dessous le nombre d’ellipses annotées) :

Après vérification, de nombreux effectifs attendus sont très faibles et inférieurs à 5, notamment pour les ellipses rares ({post-to}, {post-geni}, {post-quant}, {post-card}, {post-ord}), et pour certains genres (journalistique et politique), ce qui empêche l’utilisation du test du χ². Avant de poursuivre, il convient de souligner que l’utilisation du test χ² pourrait éventuellement être possible si l’on annotait davantage de données, ce qui pourrait augmenter les effectifs attendus et rendre les résultats exploitables.

Pour exploiter les données à disposition, nous avons remplacé χ² par le test exact de Fisher (fonction fisher.test dans R) dont l’utilisation donne une p.value aux alentours de 0.34133 : on ne peut donc pas rejeter l’hypothèse nulle H0 selon laquelle il n’y a pas de différence significative dans la distribution des types d’ellipses dans les différents genres. Pour visualiser ce résultat, nous utilisons le diagramme en

133 Nous avons utilisé la simulation Monte Carlo pour calculer les p.values. Nous indiquons une valeur approximative, celle-ci variant légèrement à chaque essai.

Type/Genre Conversationnel Littéraire Journalistique Promotionnel Politique

qs-frag 15 3 2 4 0 vs-tag 14 13 0 8 0 post-do 11 6 7 10 2 post-mod 15 7 1 5 0 post-be/have 16 6 4 9 1 post-to 7 3 1 2 1 post-wh 16 5 2 10 1 post-geni 1 1 0 1 0 post-quant 0 0 0 1 0 post-card 2 1 1 4 0 post-ord 0 0 0 1 0 Total 97 45 18 55 5

mosaïque qui est « une représentation de la distribution marginale du tableau croisé » (Le Guen 2003, 10). La surface des mosaïques y est proportionnelle aux effectifs observés. Le diagramme en mosaïque ci-dessous ne montre que peu d’informations intéressantes. Seuls les effectifs de la catégorie {vs-tag} dans le genre littéraire, et celui de {post-do} dans le genre journalistique sont plus importants qu’attendus.

Figure 20 : Mosaïque en diagramme pour comparer les types d’ellipse

Nous avons poussé plus avant cette investigation en nous focalisant sur les 3 genres contenant le plus d’ellipses (conversationnel, littéraire et promotionnel) afin de vérifier s’il existe une différence entre la distribution des ellipses à l’intérieur de ces différents genres et ainsi caractériser plus finement chaque genre.

Par ailleurs, pour éviter les effectifs attendus inférieurs à 5, nous regroupons, dans la table ci-dessous, le nombre d’occurrences des ellipses to}, geni}, {post-quant}, {post-card} et {post-ord} sous l’appellation « rare ».

Conversationnel Littéraire Promotionnel qs-frag 15 3 4 vs-tag 14 13 8 post-do 11 6 10 post-mod 15 7 5 post-be/have 16 6 9 post-wh 16 5 10 rare 10 5 9

Tableau 16 : Nombre d’ellipses après regroupement des ellipses rares

Le test du χ² ne permet pas de rejeter l’hypothèse nulle (p = 0.4618802). De la même manière, la comparaison 2 à 2 entre les divers genres ne fait pas apparaître de différences statistiquement significatives. On ne peut donc pas conclure définitivement, en l’état actuel de notre recherche, de l’utilisation de manière préférentielle de certains types d’ellipses dans certains genres.

Enfin, nous présentons les « boîtes à moustaches »134 qui sont utiles pour représenter la distribution de variables aléatoires quantitatives135 (dans notre cas, le nombre d’occurrences des ellipses). La figure (21) présente le nombre d’occurrences des ellipses par genre et la figure (22) le nombre d’occurrences par type d’ellipse. À l’intérieur de chaque boîte se trouvent 50% des données, avec une barre horizontale qui représente la médiane. 25% des données se trouvent donc au-dessus et aussi en-dessous de cette boîte. Enfin, les outliers sont représentés par un point en-dehors des « moustaches » : c’est le cas par exemple du point pour le genre journalistique qui correspond à l’ellipse {post-do} ou celui au-dessus de la boîte {qs-frag} correspondant au genre conversationnel (figures 21 et 22).

134 « La boîte à moustaches, une traduction de Box & Whiskers Plot, est une invention de TUKEY (1977) pour représenter schématiquement une distribution. Cette représentation graphique peut être un moyen pour approcher les concepts abstraits de la statistique » (Le Guen 2001, 1).

135 « Une variable aléatoire quantitative porte sur des grandeurs non numériques. L’étude de ce type de variable s’effectue par un tableau de dénombrement en donnée brute ou en pourcentage. » (Bourry & Saulnier 2009, cours en ligne)

http://unt-ori2.crihan.fr/unspf/2009_Angers_Boury_stats/co/Patrick_Saulnier_web.html (consulté le 16 juillet 2019 à 17:59).

Figure 21 : Distribution du nombre d'occurrences par genre

Afin de permettre une autre visualisation des résultats, les graphiques (23) et (24) qui suivent reprennent les mêmes informations et affichent en plus les niveaux de significativité pour la comparaison des moyennes136. Les moyennes de chaque groupe (types d’ellipse ou genre) sont comparées à la moyenne de l’ensemble des groupes à l’aide d’un test de Wilcoxon. Les niveaux de significativité sont indiqués par des caractères * ou ns :

- ns : p > 0.05 (donc non significatifs) - *: p <= 0.05

- **: p <= 0.01

La ligne en pointillés indique la fréquence moyenne (4).

Dans le graphique ci-dessous, seules les ellipses très rares ord} et {post-quant} se distinguent significativement des autres (*: p <= 0.05).

Figure 23 : Distribution du nombre d’ellipses par type avec niveaux de significativité

Pour ce qui est des genres, ce sont les genres conversationnel et politique qui se distinguent significativement des autres. Ce résultat rejoint les observations faites précédemment sur la présence d’ellipses dans le genre conversationnel et leur rareté dans le genre politique.

Figure 24 : Distribution des ellipses par genre avec niveaux de significativité