• Aucun résultat trouvé

Les méthodes statistiques

6.2.2 Analyse factorielle des correspondances simples

30 14 20 female mtf ftm nb

Figure 6.3 – Diagramme en mosaïque représentant la composition du cor-pus par effectifs de genre et d’âge, avec résidus de Pearson

6.2.2 Analyse factorielle des correspondances simples

Comme le diagramme en mosaïque, l’analyse des factorielle des corres-pondances simples (AFC, ou correspondence analysis en anglais) met en lumière les corrélations entre deux variables catégorielles de façon gra-phique (Salles, 2009). Elle établit donc des liens entre les catégories repré-sentées par les lignes d’un tableau et celles qui sont reprérepré-sentées par ses colonnes (Husson et al., 2011). L’AFC a été mise au point par le mathé-maticien et statisticien français Jean-Paul Benzécri dans les années 1960 (Yelland, 2010). Initialement développée pour analyser des données linguis-tiques (Murtagh, 2005), elle est aujourd’hui utilisée dans de nombreuses disciplines.

Une méthode qui permet de résumer des données complexes

Les tableaux de contingence qui sont composés d’un nombre réduit de colonnes et de lignes peuvent souvent être interprétés en réalisant des pour-centages, ou en créant un diagramme en barres. Par exemple, les effectifs des catégories du tableau 6.2 sont représentés par un diagramme en barres

dans la figure 6.4. Toutefois, quand un tableau de contingence contient de nombreuses lignes et colonnes, il devient difficile à interpréter.

Tableau 6.2 – Tableau de contingence représentant les fréquences d’usages métaphoriques et non-métaphoriques du verbe anglais see dans quatre re-gistres du VU Amsterdam Metaphor Corpus (Levshina, 2015, p. 215)

Academic Conversations Fiction News

Metaphoric 44 48 27 17

Non-metaphoric 26 135 98 19

Figure 6.4 – Diagramme en barres représentant les données du tableau de contingence ci-dessus (Levshina, 2015, p. 216)

L’analyse factorielle des correspondances réduit la dimension d’un ta-bleau de contingence en un nombre restreint de facteurs tout en conservant un maximum d’informations (Salles, 2009). Elle permet de visualiser les as-sociations (ou l’absence d’association) entre les lignes et les colonnes d’un tableau par une représentation graphique sur les plans factoriels. Cette méthode répond notamment aux problématiques rencontrées par les lin-guistes de corpus qui souhaitent analyser des tableaux de fréquences com-plexes pour mettre en lumière des liens entre des formes linguistiques et les contextes dans lesquels elles sont utilisées : la projection graphique des données facilite l’identification des associations (Glynn, 2014). Elle peut être considérée comme une extension du test du χ2, et ne doit être « mise en œuvre si et seulement si l’hypothèse d’indépendance entre les variables, par le test duχ2, est rejetée » (Salles, 2009, p. 135). Comme le test du χ2 peut uniquement répondre par oui ou par non à la question de l’indépen-dance (il n’indique pas où se trouvent les différences), l’analyse factorielle des correspondances est utile : elle met en valeur des relations complexes de similarités et de différences entre les variables (Brezina, 2018).

Une méthode exploratoire

L’analyse factorielle des correspondances simples est une méthode pu-rement exploratoire. Elle n’offre pas d’information sur la significativité des associations constatées (Glynn, 2014). Elle ne décrit que l’échantillon concer-né, et ne permet pas de savoir si ses résultats peuvent être généralisés à une population. Elle permet toutefois de révéler des tendances dans les données.

L’inertie

L’inertie est le terme utilisé pour désigner le degré de variation en ana-lyse factorielle des correspondances (Glynn, 2014). Elle est élevée quand les valeurs des lignes et des colonnes sont éloignées du profil moyen. Elle me-sure la qualité de la représentation graphique du tableau de contingence (Yelland, 2010). Plus l’inertie est élevée, mieux c’est. Une inertie de 55 % signifie qu’un graphique explique 55 % de la variation contenue dans les données. Ce niveau d’inertie peut paraitre faible, mais il est assez commun dans l’analyse factorielle des correspondances simples. Cela ne signifie pas que le graphique est une mauvaise représentation des données, mais tout simplement qu’il faut l’interpréter avec précaution (Yelland, 2010).

La représentation graphique

Les données du tableau de contingence sont projetées sur un espace bidimensionnel (biplot en anglais), sous forme d’un nuage de points repré-sentant les différentes catégories. Cette représentation graphique utilise

les distances du χ2 pour représenter la proximité ou l’éloignement entre

les catégories du tableau. Le nombre de dimensions possible, en analyse factorielle des correspondances simples, est égal au nombre de lignes ou de colonnes d’un tableau (en prenant le nombre le plus petit), moins 1. En général, les deux premières dimensions capturent un pourcentage élevé de la variation, et sont donc suffisantes (Glynn, 2014). Pour réaliser les gra-phiques, nous avons utilisé la fonction CA du package FactoMineR (Lê et al., 2008).

Interprétation des graphiques en nuage de points

La distance entre les différentes colonnes peut être interprétée directe-ment dans un graphique d’AFC : les catégories les plus proches sur le nuage de points sont celles qui ont des profils similaires, et il en va de même pour les lignes. En revanche, il n’est pas possible d’interpréter directement la distance entre les lignes et les colonnes. Pour cette raison, l’interprétation d’un nuage de points d’AFC est délicate (Levshina, 2015) : ce n’est pas parce qu’une colonne est située près d’une ligne dans le nuage de points qu’elles sont associées. Yelland (2010) décrit une procédure permettant d’interpré-ter les associations entre les colonnes et les lignes. Elle consiste à tracer des lignes reliant l’origine du graphique aux différents points. Si l’angle formé

par deux lignes reliant une colonne et une ligne est aigu, il y a une asso-ciation entre la ligne et la rangée. Si l’angle fait 90 degrés, il n’y a pas de relation. Si l’angle est obtus, il y a une association négative entre la ligne et la colonne.

La longueur des lignes doit également être prise en compte. Quand une ligne reliant une catégorie (ou colonne d’un tableau de contingence) à l’ori-gine du graphique est longue, cela signifie que cette catégorie est fortement associée à une ou plusieurs rangées du tableau. Quand elle est courte, l’as-sociation est faible. Il en va de même pour les rangées : une ligne longue indique une association forte à une ou plusieurs colonnes et une ligne courte une association faible (Bock, 2017). Dans l’exemple tiré de Yelland (2010) (figure 6.5), la lettre « Y » apparait plus fréquemment dans l’échantillon MT2 (composé de textes de Mark Twain) que la moyenne dans l’ensemble des échantillons figurant sur le graphique. L’association semble forte, car les lignes sont longues. La lettre « P » apparait en revanche moins souvent dans MT2 que dans la moyenne de l’ensemble des échantillons. Notons que l’on ne sait pas si « Y » est plus fréquent que « P » dans MT2.

Figure 6.5 – Interprétation d’un graphique d’AFC par l’examen des angles (Yelland, 2010, p. 17)

On peut également tracer sur le graphique une ligne qui passe par l’ori-gine et par le point que l’on souhaite étudier, puis tracer des lignes per-pendiculaires à cette ligne passant par les points correspondants aux ca-tégories des colonnes du tableau de contingence. Dans la figure 6.6, nous avons tracé des perpendiculaires bleu clair, qui rencontrent la ligne reliant MT2 à l’origine du graphe, du côté de l’origine du graphe. Cela signifie que les lettres « W » à « B », auxquelles elles sont reliées, apparaissent plus souvent dans MT2 qu’en moyenne dans l’ensemble des échantillons. Les perpendiculaires vertes qui rencontrent la ligne de l’autre côté de l’origine sont reliées à des points qui sont moins fréquents dans MT2 qu’en moyenne dans l’ensemble des échantillons. La position des intersections nous

ren-seigne également sur la fréquence d’une lettre au sein d’un échantillon. Plus l’intersection est éloignée de l’origine (mais du même côté que le point de l’échantillon), plus la lettre est fréquente dans l’échantillon. Plus elle est éloignée de l’origine, de l’autre côté du point de l’échantillon, moins la lettre est fréquente. Ici, « W » est plus fréquente dans MT2 que U ou G, par exemple.

Figure 6.6 – Interprétation d’un graphique d’AFC par l’examen des angles (nous avons ajouté les lignes colorées) (Yelland, 2010, p. 17)

6.3 Tests statistiques