• Aucun résultat trouvé

UN PREMIER EXEMPLE D’ANALYSE DE SIMILITUDE

Nous reprenons l’exemple du paragraphe 1.2.1.3 Le questionnaire passé à 506 sujets représentatives de la population française visait à caractériser la « banque » par les termes d’une liste. Cette liste comprend un grand nombre de termes. Nous en extrayons ici six. Chaque terme est codé de 1 à 3 comme nous l’avons indiqué au paragraphe 1.3.2 (tableau 12). On calcule le Tau de Kendall pour chaque paire de terme17. On obtient une matrice de similitude qui présente, quand on organise ses lignes (et colonnes), une structure binaire : d’un coté on trouve une vision positive et de l’autre une vision plutôt négative (tableau 16). Comment l’analyse de similitude montre cela ?

17 Au paragraphe 1.3.1.3. nous n’avions conservé que l’information : « le mot est caractéristique de la banque ».

L’indice était alors soit la cooccurrence soit le phi de contingence (cf. tableau 11). Ici nous utilisons une information plus complète en utilisant la hiérarchie : le mot est non caractéristique (codé 1), le mot n’a pas été choisi ni comme non caractéristique ni comme caractéristique (codé 2), le mot est caractéristique (codé 3). On utilise alors le Tau de Kendall. On trouve en annexe 2 un exemple de questionnaire de caractérisation.

Nous associons à cette matrice un graphe valué donc complet. Pour résumer ce graphe en conservant les informations essentielles à la description de la structure des données nous allons, en premier, construire l’arbre maximum18 associé à cette matrice de similitude.

Pour cela nous ordonnons de manière décroissante (grâce à leur valeur) les arêtes du graphe.

L’ensemble de ces valeurs forme un préordre (il peut y avoir plusieurs arêtes de même valeur) ; on appelle Préordonnance de similitude la liste ordonnée associant les arêtes et leurs valeurs. Pour le graphe de cet exemple nous avons la préordonnance suivante (La première arête rejoint les sommets 1 et 2 et a la valeur 0,25).

On construit l’arbre maximum en parcourant la préordonnance de manière décroissante et en retenant les arêtes qui ne construisent pas un cycle avec les arêtes déjà retenues. Pour cela on utilise l’algorithme suivant.

Cet algorithme appliqué à la préordonnance des données « La Banque » construit l’arbre suivant:

étape valeurs liste « li » des arêtes arêtes retenues composantes connexes

0 0,25 1-2 1-2 (1-2) (3) (4) (5) (6)

0 0,21 4-5 ; 5-6 4-5 ; 5-6 (1-2) ; (4-5-6) ; (3) 1 0,15 4-6 non retenu car cycle (4,5,6)

2 0,12 1-3 1-3 (1-2-3) ; (4-5-6)

3 0,10 2-3 non retenu car cycle (1,2,3)

4 -0,14 2-4 2-4 (1-2-3-4-5-6)

18 On appelle arbre maximum l’arbre dont la somme des valeurs de ses arêtes est maximale.

1 : La Banque me fait Confiance : * 2 : On est en Confiance : .25 * 3 : Aide Problèmes Particuliers : .12 .10 * 4 : Découvert Rapporte à Banque : -.38 -.14 -.17 * 5 : Travailler à son Profit : -.16 -.16 -.23 .21 * 6 : On n'est qu'un Numéro : -.29 -.32 -.15 .15 .21 * Tableau 16 : La Banque : matrice de similitude (Tau de Kendall)

0,25 (12) ; 0,21 (45) ; 0,21 (56) ; 0,15 (46) ; 0,12 (13) ; 0,10 (23) ; 0,14 (24) ; 0,15 (36) ; 016 (25) ; -0,16 (1-5), -0,17 (3-4) ; -0,23 (3-5) ; -0,29 (1-6) ; -0,32 (2-6) ; -0,38 (1-4)

Tableau 17 : Préordonnance de similitude de l’exemple La Banque.

Algorithme de construction de l’arbre maximum.

a- étape k =1 : on retient les deux premières arêtes. On définit les composantes connexes au seuil de la deuxième arête.

On définit i=0.

b- étape « k » : on définit « vk » la valeur de l’arête suivante.

c- on établit la liste « lk » des arêtes ayant la même valeur « vk ».

d- on retient les arêtes de cette liste qui relient deux composantes connexes différentes de l’étape « k-1 ».

e- on reconstruit avec les arêtes retenues les composantes connexes de l’étape « k ».

f- s’il y a plusieurs composantes connexes on retourne en b (en se plaçant à la dernière arêtes de la liste « lk »).

g- les arêtes retenues après ce critère d’arrêt sont les arêtes de l’arbre maximum (et s’il y a des ex-aequo de la RAM, cf.

infra).

5 arrêt car il n’y a qu’une seule composante connexe.

Cette procédure est un peu semblable à celle de la construction d’un réseau électrique élémentaire.

On veut relier les différents groupes d’usagers (les composantes connexes) au moindre coût. La solution est un réseau qui a la forme d’un arbre (ici minimum). Si l’une des arêtes est coupée par une intempérie l’une des deux composantes connexes ainsi créées se trouve sans électricité.

Nous avons, pour les besoins de l’exemple19 modifié une valeur de la matrice de similitude. Il y avait en fait deux arêtes ayant même valeur –0,14.

Dans ce cas où deux arêtes (ici les arêtes 2-4 et 3-6) peuvent faire partie de l’arbre maximum, il y a deux arbres maximum possibles (3-1-2-4-5-6) ou (2-1-3-6-5-4). Et il n’est pas possible de choisir l’un ou l’autre de ces arbres car les sommes des valeurs de leurs arêtes sont identiques. Il faut alors dessiner sur un même graphe les deux arbres, tous les deux maximaux. Il nous faut accepter une modification de la définition première de la figure obtenue par l’algorithme : on appelle cette figure la RAM (Réunion des Arbres Maximaux).

Pour donner un peu de chair autour de ce squelette (la RAM de la figure 3) on va admettre toutes les arêtes supérieures à une certaine valeur-seuil. On définit alors une nouvelle notion : le Graphe-Seuil. Ici on dessine le graphe des arêtes positives (s0 = 0,0). Il complète la description de l’arbre. Il montre que ces données sont constituées de deux sous-ensembles correspondant à deux sous-graphes. L’opposition entre ces deux groupes de variables est bien indiquée par l’arête de valeur négative (-0,14)de l’arbre maximum qui réunit ces deux composantes connexes. On voit que la représentation de la banque (ici caricaturale pour les besoins de l’illustration) repose pour une partie de la population interrogée sur la confiance et pour une autre partie sur le profit que fait la banque avec l’argent de ses clients.

19 Cet exemple donne un cas particulier d’arbre : c’est une chaîne (de 6 à 3). On se trouve rarement dans ce cas de figure.

Figure 2 : La Banque : Arbre Maximal.

le Graphe-Seuil Gs0 au seuil s0 est tel qu’on efface les arêtes de valeur inférieure à un certain seuil s0. On ne garde que les arêtes supérieures ou égales à ce seuil.

Il est composé des arêtes (ij)tel que si valeur(ij)s0 alors

) 0

(ij Gs . Figure 3 : La Banque : RAM, Réunion des Arbres Maximaux.