• Aucun résultat trouvé

DESSINER UN GRAPHE DE SIMILITUDE NON ARBITAIRE

CHAPITRE 4. FAIRE UNE ANALYSE DE SIMILITUDE : DEMARCHE PAS A PAS

4.3 DESSINER UN GRAPHE DE SIMILITUDE NON ARBITAIRE

Il faut d’abord affirmer qu’il n’y a pas d’algorithme automatique permettant de dessiner le meilleur graphe possible. Le seul cas particulier où il et possible de définir la position de chaque variable, vis à vis de celles qui lui sont reliées, est celui où le graphe est planaire. Un graphe planaire est tel qu’il est possible de faire un dessin où les arêtes ne se croisent pas. La figure 36 montre un tel type de graphe. En théorie des graphes on dit qu’il est composé d’une base de cycle. Retenons simplement l’importance des cycles dans le dessin d’un graphe.

Ce « type idéal » de graphe est instructif. Il permet d’établir deux principes de construction d’un graphe de similitude. En premier seule la présence ou non des arêtes doit guider le dessin.

En second on va chercher à minimiser les croisement d’arêtes et à représenter le mieux possible les cycles. C’est ainsi qu’il n’est pas possible d’intervertir la position de l’Inde et du Congo sans introduire le croisement de deux arêtes (Congo – Brésil et Egypte – Cuba). De la

37 le terme de « Avril » pour désigner le programme dessinant les graphes (arbres maximum, 3-analyse, filtants) a une histoire. La première version de ce programme s’appelait « Mars » : sigle de Méthode d’Analyse des Représentations Sociales. La réécriture de ce programme a pris le nom du mois suivant : « Avril ». On doit en remercier Romain Zelinger qui, au laboratoire CNRS d’Ecully, a écrit ces deux programmes.

Figure 36 : Douze pays, exemple de graphe planaire.

des arêtes présentes, il est possible de refléter en partie la valeur de similitude des arêtes par une plus ou moins grande proximité géographique des sommets. Mais ce dernier principe ne peut être habituellement tenu que de manière locale, dans des zones de voisinage du graphe, il ne peut être un principe de calcul des positions de tous les sommets. Ici la longueur de l’arête Brésil – USA de valeur 5,39 est nettement plus grande que celle de l’arête France – Russie (5,06), en toute logique géométrique elle devrait être plus petite. L’important n’est pas là, il est plus important de montrer que le Brésil est relié à trois pays (Congo, Cuba, USA) et que la France est reliée aux USA et à la Russie. La position de ces pays dépendant de leurs relations à d’autres pays, l’ensemble du graphe se construit par cette suite de mise en relation, par une heuristique portant sur les arêtes. On ne trouve généralement pas une projection planaire de la matrice de similitude comme dans les méthodes MDS (si on se limite au deux premiers axes), on cherche alors à refléter, par le dessin, l’existence des arêtes, des cliques et des cycles.

Dans le cas général où le graphe n’est pas planaire on doit chercher à minimiser les croisements d’arêtes. Mais cette règle ne doit pas être absolue elle doit tenir compte d’abord des relations connexes et ensuite de l’existence de certaines configurations qui peuvent influencer l’interprétation des données.

Dans la figure 37 on ne peut pas situer différemment l’Egypte reliée à Cuba, le Brésil relié aux USA et à Cuba, la France reliée aux USA et à la Russie mais on pourrait très bien appliquer la règle de non croisement et situer la Yougoslavie au centre du triangle Cuba, Chine, Russie comme dans la figure 38. Ce dernier graphe a deux défauts : il ne respecte pas du tout la hiérarchie des valeurs de similitude au sein de la clique (Cuba, Chine, Russie, Yougoslavie), la Yougoslavie est très proche de la Russie (6,67) et moins des deux autres pays (5,06 et 5,11), mais surtout il semble donner à la Yougoslavie une place centrale, intermédiaire entre les trois autres pays alors que la 3-analyse (figure 40) comme le filtrant ne lui donne absolument pas ce rôle. On aurait pu mettre au centre la Russie ou Cuba mais dans ce cas on introduisait une multiplicité de croisements car ces deux pays participent à d’autres cliques du graphe : la Russie avec la France et les USA, Cuba avec l’Egypte et le Brésil. Seule la Chine pourrait se trouver au centre en respectant, localement, à peu près les valeurs de similitude (sauf avec la Yougoslavie) mais l’interprétation serait alors déséquilibrée. La position plus ou moins centrale d’un sommet dans une clique doit être justifiée d’abord par la valeur des arêtes de la clique maximale et ensuite par l’intérêt de cette position centrale dans l’interprétation des données (ici le débat pourrait être idéologique Russie / Chine!).

Figure 37 : graphe partiel de huit des douze pays.

Figure 38 : graphe partiel sans croisementde huit des douze pays.

maximale la plus longue et organiser le graphe autour de cette chaîne. Dans l’exemple des douze pays cela donnerait le graphe de la figure 39.

Mais dès qu’on introduit la 3-analyse puis les graphes-seuil en faisant varier le seuil on est obligé de modifier l’emplacement des différents sommets.

Le filtrant des cliques est alors un bon guide pour indiquer si tel ou tel sommet est entre tel ou tel autre ou si une clique construite à un seuil élevé n’a pas de descendance et doit avoir une position un peu isolée dans le graphe. Dans l’exemple des douze pays on est passé par les deux dessins des figures 40 et 41 avant d’arriver à une représentation satisfaisante.

Après la 3-analyse on aboutit à un graphe presque planaire mais qui modifie profondément la place des différents pays : l’arbre n’est plus une série de chaînes mais un grand cercle.

A un premier seuil de 5,00, correspondant à 25% des arêtes, il est toujours possible de tracer le graphe-seuil en se servant des positions définies dans le graphe de la 3-analyse. Mais on voit immédiatement que la clique maximale des pays communistes se trouve étirée.

Cependant cette base va s’avérer intéressante.

Figure39 : douze pays : arbre maximum

Figure 40 : Douze pays : graphe de la 3-analyse

des arêtes, cf. figure20). On y retrouve un axe composé de cliques se recouvrant partiellement (zigzag) allant d’Israël à la Chine en passant par le Japon, la France, l’Egypte et Cuba ; la Yougoslavie et la Russie faisant partie de toutes ces cliques. La situation intermédiaire du Congo et de l’Inde n’est cependant pas très en conformité avec leurs similitudes. Ils devraient être plus extérieurs mais sont, ici, dépendants de la position de l’Egypte.

Si on ne prend en compte que le premier tiers des arêtes, les cliques maximales (du filtrant de la figure 20 qui sont supérieures à 4,61) séparent nettement les pays de référence communiste des pays occidentaux développés et des pays en voie de développement. Entre ces trois entités bien identifiées on trouve des pays « intermédiaire » : la France et le Japon entre les pays occidentaux et le pays

communiste, le Brésil entre l’Amérique centrale de Cuba et l’Amérique du Nord des USA. On peut alors redessiner un graphe au seuil de 5,00 reprenant les positions de l’arbre maximum (figure 44) Ce graphe met mieux en évidence un certain isolement de l’Inde et du Congo et l’existence de trois entités, certes articulées, mais bien identifiées. La présentation de l’un ou l’autre de ces deux graphes (figure 41 ou figure 44) est alors une décision de l’analyste.

L’interprétation à partir des premières arêtes de la préordonnance est assez classificatoire et met en évidence de grands cycles. L’interprétation qui prend en compte l’essentiel des arêtes (60%) sera plus proche des résultats des méthodes factorielles ou MDS car, en tenant compte de toutes ces arêtes, elle se rapproche d’une interprétation globale et non plus locale des données. Une position intermédiaire qui tient compte du filtrant au seuil de 50% des arêtes (4,28) met en évidence des interprétations localisées comme nous avons pu en faire au paragraphe 2.4.

Pour conclure cette approche du dessin d’un, ou de plusieurs, graphes de similitude non arbitraires on peut avancer quelques principes généraux. Quand les données multiplient les cycles la 3-analyse est une bonne base. Quand les données sont bien décrites par l’arbre, il faut s’en rapprocher le plus possible. Quand les données se classifient on cherche plutôt à isoler les divers groupements. Et dans les cas complexes on essaye une série d’itérations : plusieurs présentations graphiques sont alors nécessaires pour mettre en

Figure 44 : Douze pays : graphe-seuil à 5,00 disposition de l’arbre maximum initial

Figure 43 Douze pays : graphe-seuil à 4,25 sur la base des positions de la 3-analyse.

Figure 45 : Douze pays : arbre maximum redessiné

modes d’organisation qui permettent d’interpréter les relations de similitude entre les données.