• Aucun résultat trouvé

QUAND LES VALEURS DE SIMILITUDE DISENT DES EVIDENCES

SIMILITUDE DOIVENT POUVOIR ETRE INTERPRETEES PAR LES SCIENCES SOCIALES

5.3 QUAND LES VALEURS DE SIMILITUDE DISENT DES EVIDENCES

Les résultats de l’analyse de similitude dans certains questionnaires tiennent de l’évidence. C’est le cas lorsqu’on recherche la similitude entre les items d’une échelle de type Likert et que certains items ont une expression négative et d’autres une expression positive. C’est aussi le cas lorsque la fréquence des variables dichotomiques se trouve proche des deux extrémités de la plage de valeur [0 – 1]. Il faut se méfier de ces cas de figure et, si nécessaire, effectuer un recodage.

5.3.1 On doit quelque fois procéder à l’inversion de certaines échelles

Une recherche sur la représentation du politique et des hommes politiques a été conduite auprès d’étudiants47 à partir d’un questionnaire où il leur était demandé de donner leur avis sur des propositions en se situant sur une échelle en 6 points. On en présente ici un extrait. L’analyse de leurs réponses, utilisant le Tau de Kendall, donne un graphe qui pose problème : on y découvre deux groupes d’items qui font penser à l’existence d’un artefact, l’existence de phrases donnant une vision positive (à gauche du graphe de la figure 56) et la présence d’autres phrases donnant une vision négative de la politique (à droite du graphe de la figure 68).

47 Roussiau, N., Jmel, S., Saint-Pierre, J., 1997.

Figure 54 : filtrant des cliques d’un graphe non signifiant. Figure 55 : graphe non signifiant (au seuil 23).

On a alors décidé de retourner toutes les échelles des items ayant un score moyen inférieur à 3. Cette inversion a l’intérêt de gommer le sens des affirmations initiales du questionnaire : ainsi la phrase « M : réaliser les promesses faites aux électeurs est l’objectif que poursuivent les élus » a un score de 1,17. En retournant cette phrase elle aura un score de 4,83 et pourra être corrélée avec d’autres items donnant une vision négative de la politique telle que «N : les gens ne se sentent plus correctement représentés par les élus ».

En effectuant les inversions de certaines phrases on obtient la matrice suivante et son graphe au seuil de 0,05. On a indiqué par une astérisque les items dont les scores ont été recalculés (x = 6 – x).

Le premier graphe (figure 68) montre que les chercheurs ont mis dans le questionnaire des phrases évaluant différemment le domaine politique. Ce second graphe est plus intéressant il indique une vision massivement négative de la politique : on trouve une clique maximale forte de cinq éléments : « *F les partis n’agissent pas conformément aux vœux de leur électorat », «*M réaliser les promesses faites aux électeurs n’est pas l’objectif que poursuivent les élus » « N : les gens ne se sentent plus correctement représentés par les élus », « H les hommes politiques mentent plus souvent qu’ils ne disent la vérité », «I les partis sont devenus des organisations où la communication est bloquée ». Les autres items portent sur une deuxième dimension du politique sans grand rapport avec la précédente : l’intérêt de la politique, « *O la politique ne peut pas intéresser la majorité des gens », « C les jeunes sont les premiers concernés par la politique ». Enfin on trouve un

Figure 56 : Les jeunes et la politique : graphe-seuil à 0,05

N°: Items : Moyenne

Tableau 37 : Les jeunes et la politique : la matrice de corrélation (Tau de kendall)

Figure 57 : Les jeunes et la politique (certains items avec l’inverse de leur score initial) : graphe-seuil à 0,05

inférieur à 3, contrairement à la règle que l’on s’était imposée.

L’inversion de certains items a permis de ne pas se contenter de la simple vision évaluative (positif / négatif) du politique et d’identifier d’autres dimensions. La question du rapport entre ces dimensions peut alors être posée.

5.3.2 Quand les valeurs des indices de similitude évoluent dans des intervalles très différents entre les valeurs maximale, minimale et celle à l’indépendance statistique.

Les distributions que le spécialiste des sciences sociales observe, sont le plus souvent déformées par rapport aux distributions classiques (telle la courbe normale de Gauss) sur lesquelles sont appuyés les tests de signification. Pourquoi ne navigue-t-on pas dans un univers parfaitement gaussien ? Un raisonnement par l’absurde montre qu’on ne cherche pas à poser une question en Oui - Non pour obtenir 50% des réponses Oui et 50% des réponses Non. Au contraire on vise une distribution déséquilibrée. Ces distributions introduisent des biais dans l’analyse statistique. Mais en même temps elles sont porteuses de sens pour l’analyste, en particulier dans le champ des représentations sociales où l’on vise à identifier des éléments plus saillants que d’autres.

Nous prenons pour exemple une recherche conduite sous la direction de Claude Flament48, où étudiant la représentation sociale du travail féminin, il obtient les deux distributions suivantes en demandant au sujet de situer des caractéristiques du travail féminin sur une échelle en six points : on retiendra ici les distributions des mots plaisir et

rémunération.

Echelle de notation 1 2 3 4 5 6

Plaisir 0 3 7 9 18 45

Rémunération 0 0 4 8 28 42

Tableau 38 : Le plaisir et la rémunération, distribution des effectifs (n=82)

On s’aperçoit que la note de 6 a été donnée dans les deux cas par près de 50% des sujets et que par contre la note de 1 ou 2 n’a pratiquement pas été utilisée.

Le problème se complique encore lorsque l’on cherche à obtenir une information sur la corrélation entre deux

variables : ici Tau de Kendall. Or le fait que la distribution initiale de chaque variable ne soit pas Gaussienne, introduit un biais systématique. On peut mesurer ce biais mais comme il est différent pour chaque couple de variables on se trouve devant une difficulté pour comparer valablement les indices de corrélation entre plusieurs variables, or cette procédure est celle de construction de certaines matrices de similitude et des matrices de l’analyse factorielle.

La mesure de la corrélation que l’on peut obtenir dans le cas du croisement entre les items plaisir et rémunération ne va pas se situer entre -1 et +1 mais seulement entre - 0,60 et + 0,94. Il y a ici une

assez large, il n’en est pas de même si nous dichotomisons ces variables comme il est classique de le faire pour obtenir des tableaux de Burt utilisés par l’Analyse Factorielle de Correspondance. On créé alors trois variables pour chacun des items précédents (V1 à V3 et V4 à V6). On peut calculer pour chaque croisement entre ces variables les valeurs minimales et maximales du Phi.

Tableau 39 : Dichomisation des variables Plaisir et Rémunération.

Nouvelle variable Fréquence code 0 Fréquence code 1 Codes regroupés

Plaisir V1 72 10 1,2,3

Tableau 40 : Domaine de variation des variables dichotomiques.

Variables concernées ϕ minimum ϕ maximum

V1 x V4 -0,15 0,90

Ces corrélations ne peuvent pas prendre leur valeur sur la totalité l’intervalle [-1, +1], elle la prenne sur l’intervalle [Phi minimum, Phi maximum]. De plus les valeurs du Phi minimum et du Phi maximum sont différentes d’un croisement à l’autre (de -0,15 à -0,88 et de 0,36 à 0,92). Elles dépendent complètement des deux distributions marginales des variables que l’on croise. Plus ces distributions sont proches de l’équiprobabilité (50 / 50) plus le domaine est large : on constate une croissance du domaine de variation de V1 à V3 et de V4 à V6. Plus la distribution marginale est dissymétrique (par exemple V1 : 10 / 72) plus le domaine de variation du ϕ est dissymétrique par rapport au zéro de l’indépendance statistique (par exemple V1 x V4 : de -0,15 à +0,90). On peut alors se demander s’il est possible de comparer les trois corrélations de V1 avec V4, V5, V6 quand la première peut atteindre la valeur de 0,90, alors que la dernière ne peut atteindre que la valeur 0,36. On se trouve devant un biais systématique qui aura des conséquences non maîtrisées sur la préordonnance de similitude. Ce biais existe aussi avec les autres coefficients de similitude, on a déjà indiqué l’importance des fréquences de chaque variable dans le calcul de l’indice de cooccurrence.