• Aucun résultat trouvé

QUAND LES DONNEES N’ONT PAS GRAND CHOSE A DIRE

SIMILITUDE DOIVENT POUVOIR ETRE INTERPRETEES PAR LES SCIENCES SOCIALES

5.2 QUAND LES DONNEES N’ONT PAS GRAND CHOSE A DIRE

L’analyse de données donne toujours un résultat. Comme l’analyse factorielle donne toujours des axes et des positions sur le plan constitué par deux facteurs, l’analyse de similitude donne toujours un arbre, un filtrant, on peut toujours dessiner un graphe, même un peu complexe. Et pourtant il faut pouvoir repérer, accepter l’insignifiance de certaines données (insignifiance ou évidence, c’est la même chose au regard d’une théorie de l’information).

5.2.1 Quand tout est dit par le simple tri à plat.

Il est possible que la matrice de similitude ne fasse que refléter la fréquence ou la moyenne des variables. On se trouve souvent dans ce cas de figure avec les questionnaires de « caractérisation » (cf.

annexe 2) ayant la forme d’un « Q-sort rectangulaire ». Le questionnaire de caractérisation a été réintroduit dans les études de représentations sociales par Claude Flament (la première utilisation date de 1963, Fraisse, P. ed, 1963) pour rendre compte de l’hypothèse de l’existence d’une hiérarchisation collective des items : on veut situer les items sur une échelle d’importance au regard de l’objet étudié. Ce questionnaire vise à sélectionner les éléments qui ont une forte probabilité d’appartenir au noyau central de la représentation

Dans ce questionnaire on propose au sujet une liste d’items dont le nombre est un multiple de 3 (4 ou 5 selon les cas) : par exemple 12. On demande alors au sujet de choisir les 4 items les plus caractéristiques de l’objet étudié. Ce choix est contraint : il faut 4 items et non 3 ou 5. Ensuite on lui demande de choisir dans les 8 items restants les 4 les moins caractéristiques de l’objet étudié. Ici aussi le choix est contraint. Chaque item est alors codé de 1 à 3 : 3 s’il a été choisi comme caractéristique, 1 s’il a été choisi comme non caractéristique, et 2 s’il n’a pas été choisi par le sujet enquêté.

Ce choix contraint repose sur un modèle statistique équiprobable : la probabilité d’être codé 1 (ou 2 ou 3) est de 0,33. Cette équiprobabilité se traduit dans l’appellation « Q-sort rectangulaire ». Il diffère du Q-sort classique qui veut se rapprocher d’une loi de Gauss en constituant trois groupes inégaux d’items privilégiant la classe centrale : 3, 6, 3 par exemple. En effet ce qui nous intéresse ce n’est pas les items dont la distribution aurait leur mode dans la classe centrale, mais au contraire ceux qui ont une distribution très dissymétrique, privilégiant la dimension « caractéristique » ou « non-caractéristique ». Ce questionnaire permet d’obtenir des courbes de fréquences fortement dissymétriques, donc non gaussiennes.

Ce type de questionnaire a le grand privilège de nous donner, par la distribution des fréquences des items, une très bonne indication sur le rapport des items à l’objet représenté45. Mais les matrices de

44 On dit qu’une matrice est Robinsonnienne quand on peut trouver une unique chaine maximale régulière (aux ex-aequo près). Si on ordonne la matrice de similitude selon l’ordre de cette chaîne maximale, on observe que les valeurs de similitude sont décroissantes en ligne et en colonne à partir des valeurs de la diagonale (exemple au tableau 34). On peut appliquer cette notion aux sous-matrices.

45 Vergès, P., 1995

caractérisation sur « la vocation de votre banque ». Elle comportait 9 items. Le tableau suivant présente les résultats bruts de ce questionnaire.

Si on utilise l’indice de similitude calculé sur la distance euclidienne et si on ordonne les items par l’ordre des moyennes, on obtient une matrice dont les valeurs sont décroissantes en ligne et en colonne à partir de la valeur diagonale (matrice « Robinsonnienne », tableau 34). Ce résultat découle de la propriété

« majoritaire » de cet indice : il tient compte, plus que d’autres, de la fréquence des choix majoritaires.

Pour essayer d’obtenir une information plus complète on utilise un indice de corrélation (ici le Tau B de Kendall, figure 64), il est systématiquement très faible et le plus souvent négatif.

On a voulu vérifier si ces deux propriétés dépendaient uniquement des fréquences de chaque item.

Pour cela on a calculé une troisième matrice sur une population aléatoire de 1000 sujets ayant pour chaque item la même distribution que la population enquêtée. Elle a des valeurs systématiquement négatives (tableau 36).

46 Etude Paul Danloy & Cie, GIFRESH, commanditée par les Banques Populaires et le Crédit Mutuel en 1995 auprès de 504 personnes (méthode des quota), échantillon représentatif par quota de la population française.

Tableau 33 : Banque : tableau de la distribution des choix (en %)

Items le MOINS

Faciliter la solution des problèmes financiers des particuliers

24 27 49

Favoriser l’investissement des entreprises 19 47 34

Epauler les PME 21 52 27

Financer des travaux d’intérêt collectif 32 53 15

Promouvoir des réalisations sociales 40 46 14

Faire travailler l’argent de ses clients à son profit 47 24 29

On n’y sent pas un idéal, c’est une affaire de gros sous 66 20 14 Tableau 34 : Banque : indice de similitude : fonction de l’inverse de la Distance Euclidienne

Particul * Tableau 35 : Banque : indice de similitude : Tau B de Kendall

résultats des deux précédentes matrices : d’une part l’ordre Robinsonnien est ici bien moins net, d’autre part la corrélation entre la matrice aléatoire et la matrice utilisant le même indice de Kendall est négatif (-0,27).

L’analyse de similitude est donc informative mais elle n’apporte pas, ici, beaucoup de renseignements supplémentaires au regard de la hiérarchisation des items par leur distribution. Peut être on soupçonnera l’existence de sous-groupes aux représentations opposées, mais cette indication est déjà contenue dans le tableau des fréquences de choix.

Cette absence d’information est, ici, liée en partie à la forme du questionnaire. On en trouvera cependant un contre exemple dans l’étude sur l’Ecstasy qui utilise pourtant le même type de questionnaire : l’ordre de la matrice de similitude qui met en évidence l’existence de deux sous-populations, n’est pas du tout celui des fréquences des items. Il n’y a pas dans ce cas une dimension organisatrice mais d’une part une opinion générale s’exprimant par les fréquences et d’autre part l’existence de deux sous-groupes se distinguant sur certaines relations locales entre items.

5.2.2 La concentration des valeurs de similitude dans certaines plages de valeurs.

On a déjà vu qu’il n’était pas nécessaire de tenir compte de toute la préordonnance de similitude. Par exemple les valeurs négatives d’un coefficient de corrélation expriment plus une distance qu’une similitude. De même il est quelque fois possible de donner un seuil minimum à l’indice de similitude si celui-ci peut être l’objet d’un test statistique, comme celui de la nullité d’un coefficient de corrélation.

Mais bien souvent ce calcul n’est pas possible comme souvent avec les indices exprimant une fréquence, un poids.

Au delà de cette difficulté on est quelque fois confronté à une distribution des valeurs de la préordonnance posant problème. Quand cette distribution est fortement déséquilibrée, on observe une forte concentration des valeurs sur une plage assez réduite. Ceci est mis en évidence par le filtrant des cliques : on trouve entre deux seuils proches un grand nombre de cliques. Si cette plage se trouve à proximité de la dernière valeur de l’arbre maximum, on risque de tomber sur des données qui sont proches d’une variété aléatoire. Leur organisation par l’analyse de similitude n’est alors pas très éclairante et elle est sujette à une forte instabilité invalidant toute interprétation.

Dans l’exemple des 10 Valeurs de Schwartz, le grand nombre de cliques du filtrant (figure 10) se situant entre les seuils 0,13 et 0,11 relativise l’interprétation des sous-ensembles de cliques qui sont construites à ce niveau. Par contre les cliques de la zone supérieure du filtrant ne sont pas mises en cause.

Dans l’exemple des Douze pays (figure 52) la concentration des cliques dans la plage 417 – 428 pourrait aussi conduire à ne pas en tenir compte. Mais ici leur association à la partie supérieure du filtrant, montrant l’existence de zones isolées, lui conserve toute sa valeur.

Securité -18 * Tableau 36 : Banque : population aléatoire, indice de similitude : Tau B de Kendall

Une forte concentration des cliques dans une plage réduite de valeurs doit conduire l’analyste à envisager l’hypothèse d’une distribution quasi-aléatoire des valeurs des arêtes et à vérifier cette hypothèse ou à l’invalider.