• Aucun résultat trouvé

COMPARAISON ENTRE ANALYSE DE SIMILITUDE ET ANALYSE FACTORIELLE

On se propose d’étudier le rapport entre un ensemble de professions (lignes L1 à L8) et un ensemble d’adjectifs décrivant des traits de caractères (colonnes C1 à C8). On a pour cela interrogé 60 sujets23 à qui on a demandé d’associer chaque profession à deux adjectifs pour décrire un homme sympathique. On obtient le tableau de fréquences suivant (tableau 20) : par exemple le technicien (L6) a été associé 22 fois à l’adjectif intelligent (C5).

Tableau 20 : Homme sympathique : tableau de contingence.

C1 C2 C3 C4 C5 C6 C7 C8 C9 Total L1 19 9 9 26 10 16 19 4 8 120 L2 20 5 11 25 9 14 19 6 11 120 L3 20 3 9 25 15 13 10 13 12 120 L4 8 9 12 23 14 16 14 12 12 120 L5 10 5 8 26 19 13 11 13 15 120 L6 10 5 12 24 22 13 11 13 10 120 L7 3 18 13 11 25 11 12 20 7 120 L8 4 21 12 12 24 11 11 17 8 120 Total 94 75 86 172 138 107 107 98 83 960

L’analyse de ce tableau dit « tableau de contingence » se fait en utilisant la corrélation entre les colonnes. On obtient alors la matrice de corrélation suivante entre les adjectifs (tableau 21).

23 Exemple tiré de Maisonneuve, Recherches diachroniques sur une représentation sociale,1978 ; repris par Rouanet, H.,Le Roux, B., 1993

Figure 13 : Les 10 Valeurs de Schwartz : graphe au seuil de 0,27

Tableau 21 : Homme sympathique : matrice de corrélation.

C1 C7 C6 C4 C9 C3 C2 C5 C8

C1 *

C7 .53 *

C6 .55 .65 *

C4 .77 .34 .73 *

C9 .27 -.21 .27 .66 *

C3 -.63 -.09 -.33 -.70 -.59 * C2 -.74 -.14 -.52 -.93 -.71 .60 * C5 -.85 -.78 -.83 -.74 -.28 .47 .60 * C8 -.82 -.82 -.81 -.78 -.18 .50 .58 .92 *

Les adjectifs sont les suivants : C8 :compréhensif, C5 intelligent ; C2 généreux ; C3 gai ; C7 courageux ; C6 serviable ; C4 honnête ; C1 sérieux ; C9 discret.

Cette matrice met en évidence deux sous ensembles de variables : (C1,C7,C6,C4) et (C3,C2,C5,C8) très corrélées positivement et une variable intermédiaire C9 qui est proche de certains éléments du premier groupe. Entre ces deux groupes on ne trouve que des corrélations négatives.

L’analyse de similitude va représenter cela en dessinant un arbre maximum (figure 14) dont l’une des arêtes aura une valeur négative et en dessinant un graphe (au seuil 0,0 c’est à dire ne comprenant que les arêtes de valeur positive : figure 17) composé de deux cliques maximales mettant en évidence les deux groupes de variables déjà cités. On voit alors que la variable C9 forme aussi une clique avec les sommets (C1,C6,C4) elle est donc relativement bien associée au premier sous-ensemble de variables.

Figure14 : Homme sympathique :Arbre maximum

Figure 15 : Homme sympathique : ACP (cercle des

Figure 16 : Homme sympathique : AFC (comprenant les lignes et les colonnes)

On a effectué sur ce même tableau de données une analyse factorielle (ACP) et un analyse de correspondance (AFC). On obtient des résultats comparables mais avec certaines nuances. Dans les deux graphiques on voit une opposition entre (C1,C7,C6,C4) et (C3,C2,C5,C8). De même la colonne C9 se distingue un peu.

Mais on peut aussi remarquer que l’éloignement, dans le graphique de l’ACP, entre C2-C3 et C5-C8 ne correspond pas aux valeurs de la matrice des corrélations : C3 a pour valeur 0,60 tout comme C2-C5. On peut encore être surpris de l’éloignement de C7 avec C1, ils sont corrélés à 0,53 alors que C6 semble plus proche de C1 avec quasiment la même corrélation 0,55.

Dans le graphique de l’AFC on trouve aussi quelques différences : C3 est très éloigné de C2 et surtout C2 est encore plus loin de C5-C8 alors que leur corrélation est très forte (0,60 et 0,58). C1 est au bout du premier axe alors qu’elle forme avec C4,C6,C7 une clique dont les valeurs sont très fortes (supérieure à 0,53 sauf C4-C7 à 0,34).

Une première raison à ces différences est l’écart important entre les valeurs explicatives des deux premiers axes. Ils font respectivement 64% et 21% pour l’ACP, 75% et 16% pour l’AFC. Il faudrait écraser le second axe (par homothétie) pour donner une image un peu plus fidèle. Mais la raison principale des différences tient à l’accent mis dans ces analyses sur la prise en compte de toutes les valeurs de la matrice de corrélation(ou la matrice de la distance du Khi2 dans le cas de l’AFC). D’une certaine manière on donne autant d’importance aux faibles valeurs (ici en particulier aux valeurs négatives) qu’aux fortes valeurs. L’analyse de similitude raisonne, elle, « localement ». Autour d’un sommet (d’une variable) on prend en considération les valeurs les plus fortes (en particulier dans l’arbre maximum et dans les graphes seuil) sans se préoccuper de représenter graphiquement les valeurs les plus faibles. On raisonne en tenant compte du fait que la similitude entre deux variables i et j tient à certains rapports entre les adjectifs et les professions alors que la similitude de deux autres variables m et l tient à d’autres rapports. Il n’est pas nécessaire pour établir la ressemblance entre les deux premières variables de tenir compte des éléments qui font la ressemblance des deux autres. On peut en donner une idée de cette différence de traitement « local versus global » sur cet exemple même si les calculs dans cet exemple relativisent, en partie, la possibilité qu’a l’analyse de similitude de tenir compte des valeurs extrémales. En effet l’utilisation du coefficient de corrélation vise à résumer globalement l’ensemble des valeurs des colonnes du tableau de contingence prises deux à deux. Quand les données sont

Figure 17 : Homme sympathique : Graphe des arêtes positives (graphe-seuil, s = 0,001)

dichotomiques (0/1) les différences entre analyse factorielle et analyse de similitude sont bien plus importantes.

Nous allons transformer le tableau de données en calculant pour chaque case le rapport entre le nombre de choix observés et le nombre théoriques si les choix des diverses professions étaient comparables à celui de la population totale. Soit nmk le nombre de choix de la case Lm/Ck (par exemple la case L4/C3 contient 12 choix : cf. tableau 20). On calcule n’mk les choix théoriques correspondant à l’indépendance statistique : n'mk =(nm×nk) N.

Dans le cas de la case L4/C3 on calcule : n'43=(120×86) 960 ; n’43 = 10,75.

Le rapport n’mk / nmk est alors égal à 1,12. Il indique une case plutôt pleine.

On représente ces rapports dans le tableau suivant où on a réorganisé les colonnes pour faire apparaître les blocs de nombre supérieurs à 1,1 ; ces blocs indiquent une certaine conjonction entre les lignes et le colonnes. C’est cette conjonction qui est interprétée par les analyses factorielles ou de similitudes.

Tableau 22 : Homme sympathique : Tableau des rapports valeur observée sur valeur théorique.

C7 C1 C6 C4 C9 C3 C2 C5 C8

L1 1,42 1,62 1,20 1,21 0,77 0,84 0,96 0,58 0,33

L2 1,42 1,70 1,05 1,16 1,06 1,02 0,53 0,52 0,49

L3 0,75 1,70 0,97 1,16 1,16 0,84 0,32 0,87 1,06

L4 1,05 0,68 1,20 1,07 1,16 1,12 0,96 0,81 0,98

L5 0,82 0,85 0,97 1,21 1,45 0,74 0,53 1,10 1,06

L6 0,82 0,85 0,97 1,12 0,96 1,12 0,53 1,28 1,06

L7 0,90 0,26 0,82 0,51 0,67 1,21 1,92 1,45 1,63

L8 0,82 0,34 0,82 0,56 0,77 1,12 2,24 1,39 1,39

Ce tableau (22) a une certaine complexité. On comprend alors que tout résumé sera une approximation. Les analyses factorielles vont raisonner de manière globale. Ainsi on peut observer que dans le plan des deux premiers axes de l’AFC la profession L3 (les vendeurs) se trouve très proche des adjectifs C4 (honnête) et C9 (discret) comme le montre les deux valeurs 1,16 du tableau mais la distance importante sur ce plan de L3 avec C1 (sérieux) ne reflète pas, elle, la valeur la plus forte de la ligne C1-L3 (1,70). Cet adjectif (C1) est plus attiré par L1 et L2, eux même attirés par C7. Cette suite d’attirances est exprimée mathématiquement par le fait que chaque profession est au barycentre des éléments du second ensemble (des adjectifs) et réciproquement. C’est cette suite d’attirances qui détermine la position dans le plan des facteurs.

Dans l’analyse de similitude le raisonnement est local. Ainsi le groupe (C8, C5, C2, C3) n’a d’existence que grâce aux lignes L7 et L8 (Universitaires et Professions libérales) et cela malgré leurs divergences sur les lignes L5 et L6 (Employés et Techniciens). C’est sur les lignes L7 et L8 que ces quatre adjectifs ont leurs valeurs les plus fortes. De même le groupe (C7, C1, C6, C4) se définit grâce à ses valeurs fortes sur les deux premières lignes (Paysans et Ouvriers). La position de C9 proche de C4 dans le graphe est ici exprimée par leur proximité sur les lignes L2 à L6. Le graphe de similitude met en évidence la nette séparation entre les deux groupes de colonnes, en cela il remet en cause l’impression d’une possible diagonalisation que donne le tableau.

Comme l’écrit Alain Degenne24 on peut distinguer ces méthodes par une métaphore géométrique.

« Si l’on veut une métaphore géométrique de manière à comparer l’analyse de similitude et l’analyse factorielle, l’analyse factorielle détermine les meilleurs plans de projection d’un nuage de points de manière à le présenter sous différents points de vue, l’analyse de similitude recherche un meilleur itinéraire pour découvrir une topographie de ce nuage, vu en quelque sorte, de l’intérieur ».

Par l’analyse de similitude on évite les phénomènes d’homothétie (de taille) qui affecte l’analyse factorielle. Philippe Cibois25 les met bien en évidence, aussi a-t-il inclus dans ses programmes d’AFC (Tri-deux, Modalisa) la possibilité de représenter les premières valeurs de similitude, dessinant ainsi sur le plan factoriel un graphe-seuil.