• Aucun résultat trouvé

INTERET ET LIMITE DE L’ANALYSE DE SIMILITUDE

SIMILITUDE DOIVENT POUVOIR ETRE INTERPRETEES PAR LES SCIENCES SOCIALES

5.5 INTERET ET LIMITE DE L’ANALYSE DE SIMILITUDE

L’analyse de similitude fait partie des techniques d’analyse de données qui reposent sur l’idée d’association. Son raffinement permet de mettre en évidence, comme nous l’avons vu, des dimensions (des axes), des regroupements (amas ou classes), des sous-populations différenciées. Elle peut, sous certaines conditions, identifier les groupes de variables pouvant se conformer à certains modèles (échelle d’attitude, composantes connexes).

Elle ne couvre cependant pas la totalité du champ des phénomènes qui affectent les données.

Elle ne vise pas la causalité ou excelle l’économétrie car elle ne prend en compte qu’une notion plus pauvre : celle de ressemblance, celle d’aller ensemble. Elle ne détecte pas l’existence de variables que l’on peut qualifier de « synonymes » dans les questionnaires où l’on demande au sujet d’effectuer un choix dans une liste. Deux items de cette liste peuvent être alternatifs, les sujets choisissent d’utiliser l’un ou l’autre car ils ont quasiment le même sens pour eux. Pour les repérer il faut tenir compte du fait que ces items ne sont donc pas corrélés mais ont le même profil des coefficients de similitude vis à vis des autres variables. Enfin l’analyse de similitude ne rend théoriquement pas compte de la relation d’implication.

Nous développons un peu ce dernier point car il peut générer une certaine confusion dans l’usage de certains coefficients de similitude. L’analyse de l’implication est du ressort de l’analyse booléenne des questionnaires telle que l’a développé Claude Flament49. Cependant certains statisticiens ont développé des indices de similitude qui indiquent l’implication plus que la corrélation. C’est par exemple le cas de l’indice de Yule.

Dans l’exemple ci contre on voit qu’il y a une corrélation intéressante : le 18 de la case 0-0 est 2 fois supérieur à la valeur théorique dans les deux tableaux de croisement (45*2/100 = 9 et 30*30/100 = 9).

Cette identité est reflétée par la quasi égalité des Phi de contingence. Mais à coté de cela 18/20, dans le premier tableau, représente 90% du total vertical des réponses 0 à la variable B alors que 18/30 ne représente que 60% dans le second. C’est cette dernière information que reflète l’indice de Yule (ou l’indice H50).

Cependant ces indices ont un grave défaut : ils ne distinguent pas le cas où la variable A implique la variable B et le cas contraire où la variable B implique la variable A. En effet la similitude est symétrique alors que l’implication est par

49 Un programme informatique sur Mac a été réalisé par XXX à Grenoble.

50 H est calculé sur la case 1-1 : H = Observé / Théorique ; ici 53/55 = 0,96 versus 58/70 = 0,83 variable A implique quasiment la variable B (case 1-0 presque vide : 2) Ce n’est pas le cas dans ce second tableau (la case0-1 a pour valeur 12).

Tableau 41 : Exemple sur l’implication.

flèches).On trouve en Annexe 1 une note sur ces indices indiquant l’implication.

L’analyse de similitude ne peut projeter les variables et les sujets sur une seule figure comme dans le cas de l’analyse factorielle de correspondance. Certes l’analyse « duale » des variables et des sujets (lignes / colonnes) peut être faite en transposant le tableau des données mais on obtient alors deux graphes : celui des variables et celui des sujets. En outre la limitation des programmes ne permet pas de traiter des fichiers où le nombre de sujets dépassent 100. La limitation à 50 variables (au mieux 100 variables) ne tient pas aux seules capacités informatiques, elle a été volontairement limitée pour que l’analyse ne mélange pas des données de nature trop différentes. Il vaut mieux faire plusieurs analyses sur des groupes de variables exprimant une facette du phénomène analysé que de vouloir à tout pris corréler des données hétérogènes.

Cette question de la dualité des sujets et des variables peut être posée théoriquement à l’aide des hypergraphes et des treillis de Gallois. Les recherches que nous avons faites dans ce sens se heurtent à la difficulté de traiter l’aléatoire des réponses52. Actuellement Claude Flament explore une autre piste plus prometteuse : celle de la définition d’un individu typique. On définit la réponse majoritaire pour toutes les variables et on calcule la distance de chaque sujet à cette réponse majoritaire. On peut alors définir le groupe de sujets « conformes » et celui des sujets qui s’en éloignent significativement. En créant ces deux, ou plus, sous-populations ont peut faire pour chacune d’elle une analyse de similitude et comparer les graphes. La recherche de cette dualité se réfère à la distinction que nous avons faite à propos des indices de similitude : indice exprimant une majorité, indice exprimant une distance à l’indépendance statistique. Elle a l’avantage de ne tenir compte que de l’ensemble des variables analysées. La construction de sous-population à partir de variables externes (tel que l’âge, le sexe, le PCS …) correspond à une autre logique : celle d’une causalité entre variables « objectives » et variables exprimant un phénomène à expliquer. La recherche du croisement entre résultats collectifs (agrégation des réponses individuelles) et réponses individuelles demande un traitement approprié à chaque type de questionnaire.

On a, par exemple, réalisé des programmes informatiques particuliers pour certains questionnaires de représentations sociales (les questionnaires de mise en relation de notions ou les questionnaires de construction de groupe d’items53). Ils mettent toujours en évidence des schémas propres à des sous-populations minoritaires mais cohérentes dans leur manière de penser un phénomène social.

Quand on fait une analyse de similitude, et on peut dire la même chose de toute autre méthode d’analyse de données, il faut avoir conscience de ces limitations. Nous avons tout au long de ce livre montré à la fois l’intérêt de l’analyse de similitude, ce qu’elle mettait en évidence, la rigueur qu’elle exigeait, ce qu’elle ne pouvait pas faire. Ceci restant à l’esprit il convient d’en résumer l’esprit, son apport aux analyses de données.

51 C’est le cas dans l’analyse de l’inclusion du champ sémantique d’un mot dans celui d’un autre mot.

52 Flament, C., Degenne, A., Vergès, P., 1976.

53 cf. Annexe 2

Elle demande à l’analyste de prendre des décisions, de contrôler l’analyse tout au long de son parcours ; à aucun instant une boite noire ne délivre de résultats ;

Elle permet d’adapter les indices statistiques calculés à la forme des données et à la nature du phénomène recherché (majoritaire, spécificités liées à des sous-populations) ;

Elle traite localement les ressemblances, elle tient compte des valeurs les plus fortes sans être perturbée par les valeurs faibles statistiquement non significatives ;

Elle identifie l’existence de modèles formels et distingue ce qui peut être interprété comme des axes et ce qui est regroupement de variables.

La réalisation d’une analyse de similitude demande la puissance des moyens informatiques. Depuis toujours les programmes informatiques ont essayés de traduire les intuitions des chercheurs. Ils sont maintenant assez stabilisés54.

54 Ils peuvent être demandés à l’Association Internationale des Centres de Sémiologies (AICS) : La Farigoule, 845 Chemin Bouenhoure, 13090 Aix en Provence.

ANNEXE 1

1.1 Cas dichotomique « nominal ».

Coocurence : S1 = Cij. S2 =(Cij N)×100

Ni1 est le nombre de sujets codés 1 sur l’item i.

Nj1 est le nombre de sujets codés 1 sur l’item j.

Ni0 est le nombre de sujets codés 0 sur l’item i.

Nj0 est le nombre de sujets codés 0 sur l’item j.

Cij est le nombre de sujets codés 1 aux items i et j.

Zij est le nombre de sujets codés 0 aux items i et j.

Wij est le nombre de sujets codés 1 à l’item i et 0 à j.

Uij est le nombre de sujets codés 0 à l’item i et 1 à j.