• Aucun résultat trouvé

Les similitudes significativement différentes

CHAPITRE 4. FAIRE UNE ANALYSE DE SIMILITUDE : DEMARCHE PAS A PAS

4.5 LA COMPARAISON DE SOUS-POPULATIONS

4.5.2 Les similitudes significativement différentes

On va maintenant s’intéresser à chaque arête du graphe de chaque sous-population et on va se poser la question : sa valeur dans une sous-population donnée est-elle significativement différente des valeurs de la même arête dans les autres sous-populations ?

On doit ici distinguer deux cas de figure : les valeurs de similitude sont-elles des fréquences ou des coefficients assimilables à des coefficients de corrélation ? Dans le premier cas on peut utiliser un test de fréquence, dans le second il faut utiliser un test de coefficients de corrélation.

4.5.2.1 Comparaison des valeurs des arêtes dans le cas d’un indice de fréquence.

Pour pouvoir comparer les valeurs des arêtes dans différentes sous-populations il nous faut d’abord éliminer l’effet de taille : certaines sous-populations ont répondu de manière plus prolixe que d’autre.

Nous avons vu que le nombre moyen de relations données par sujet était bien différent de 11 ans à 18 ans.

A 11 ans on obtient un total de 2525 relations pour 355 élèves, à 15 ans il y a 3607 relations pour 404 élèves et en terminale 2710 relations pour 279 élèves. Si on veut par exemple comparer les fréquences d’apparition de l’arête Banques – Investissement à 11 ans (32) à 15 ans (104) et à 18 ans (47) il faut d’abord « redresser » ces nombres. On va chercher à calculer les fréquences de la relation Banques – Investissement de manière telle que le total de toutes les relations données par les élèves de 11 ans soit égal à celui des élèves de 15 ans et à celui des élèves de 18 ans. Pour cela on effectue le raisonnement suivant.

Il y a au total 8842 relations exprimées par l’ensemble des élèves de tous âges. Chaque sous-population devrait comporter le 1/3 de ces relations (ici on a 3 sous-sous-populations). Par exemple les élèves de sixième devraient avoir donné 8842 / 3 = 2947,33 relations or nous n’en avons que 2525. Il faut donc calculé un coefficient de redressement de : 2947,33 / 2525 = 1,167 que nous allons appliquer à toutes les valeurs des arêtes du graphe des sixièmes. Ici l’arête Banques – Investissement de la valeur 32 passe à la valeur 32 x 1,167 = 37,35. Un calcul du même type est effectué sur les deux autres sous-populations.

On obtient alors les valeurs suivantes : 37,35 (11ans) ; 84,97 (15 ans) ; 51,11 (18ans). Le total de ces relations est de 173,4340.

40 On obtient des valeurs décimales car elles sont obtenues par la calcul de redressement.

relation. On calcule alors, pour les élèves de sixième la fréquence de la valeur observée : 37,35 / 173,43 = 0,2154. Pour la comparer à la valeur théorique il faut calculer l’écart type de la distribution de la fréquence 0,33. Il est classiquement : σ = p×(1p) N avec p = 0,33 et N le nombre total de relations pour cette arête soit ici 173,43. On obtient σ = 0,0358. on peut alors calculer la valeur centrée réduite (le z-score en anglais) de la valeur observée : (0,2154 – 0,3333) / 0,0358 = -3,297. La valeur observée s’écarte fortement de la valeur attendue, elle est à plus de 3 écarts type, elle est donc bien inférieure à la valeur théorique. On applique ici le risque de 5% (z doit être supérieur à 1,64) ou le risque de 1% (z >

2,34). Le z-score de cette arête pour les élèves de troisième est, à l’inverse, significativement supérieure à la valeur théorique : 84,97 / 173,43 = 0,4899 et donc (0,4899 – 0,3333) / 0,0358 = 4,38. Cette valeur est bien supérieure à celle au risque de 1% (2,34).

On ne peut cependant pas calculer cette valeur centrée réduite pour toutes les arêtes dans la mesure où les arêtes de faible valeur ne nous intéressent pas et sont trop sensibles à ce type de calcul. On est donc conduit à choisir un seuil en dessous duquel on ne prendra pas en considération les arêtes dans une sous-population donnée. Ici nous avons pris le seuil de 16% qui se justifie comme nous l’avons dit plus haut.

On va alors représenter les arêtes significatives sur un graphe qui va mettre en évidence les spécificités de chaque sous-population (dans ces graphes les valeurs centrées réduites sont multipliées par 100).

Ces trois graphes sont assez parlant. A 11 ans on n’est sensible qu’à quelques relations portant sur le budget du jeune ou les discussions familiales : Achat – Commerce international (les produits importés), Epargne – Banque, Salaires – impôts. A 15 ans l’univers de l’entreprise (de la petite entreprise) est découpé en deux : production et profit – investissement. A 18 ans on découpe l’univers économique en secteurs constitués de liaisons très fortes autour des principaux agents. Les liaisons entre les agents sont privilégiées de manière très locale (très partielle) par les plus jeunes (11 et 15 ans). Cette analyse est relative, elle doit être conduite en parallèle avec les informations apportées par les graphes de l’analyse de similitude. Elle permet d’identifier ce qui, toutes choses égales par ailleurs, est spécifique de chaque sous-population.

Figure 51 : Représentations du circuit économique : graphe des arêtes significative des élèves à 11 ans

Figure 52 : Représentations du circuit économique : graphe des arêtes significative des élèves à 15 ans

Figure 53 : Représentations du circuit économique : graphe des arêtes significative des élèves à 18 ans

statistique, il est possible d’utiliser le test classique d’un indice de corrélation. On prend pour référence la moyenne des indices de similitude des différentes populations pour une arête (ij) donnée. On fait sur cette arête et pour chaque population (k) une transformation z de Fisher41 de chaque valeur Sijk :

) ) 1 ( ) 1 ((

log 2 1

Zijk = e +Sijk Sijk ; la variance de la distribution gaussienne de Zijk est égale à

) 3 /(

1

= N

σ avec N le nombre de sujet de la population k. On calcule de même la transformation Zijt de la moyenne des indices de similitude des différentes populations pour l’arête (ij). On peut alors calculer la valeur

σ Zijt ijk Zijk

S* = qui peut être interprétée sur la table de la distribution « normale ».

Comme précédemment on va construire le graphe des arêtes significatives pour chaque sous-population.

41 Gopal, K. Kanji, 1993