• Aucun résultat trouvé

L analyse des données par les graphes de similitude

N/A
N/A
Protected

Academic year: 2022

Partager "L analyse des données par les graphes de similitude"

Copied!
90
0
0

Texte intégral

(1)

L’analyse des données par les

graphes de similitude

Par Pierre Vergès, directeur de recherche au CNRS

et Boumedienne Bouriche, maître de conférence à l’IUT de Gap

Juin 2001

(2)

A Claude FLAMENT

l’inventeur de cette méthode

et toujours l’initiateur de son évolution

PROLOGUE

Origine

Les années soixante ont vu fleurir les interfaces entre sciences humaines et mathématiques. Dans cette effervescence Claude Flament avait le souci d’associer psychologie sociale et formalisation. Il explorait la théorie des graphes pour expliquer les biais de communication. Puis, associant sa pratique des analyses statistiques et les possibilités ouvertes par les mathématiques du discret, il invente l’Analyse de Similitude. Il fallait un « passeur » pour que l’analyse des données ne se réduise pas au labyrinthe de l’analyse vectorielle.

Cette méthode se développe avec la possibilité d’utiliser les ordinateurs. Le premier programme fut écrit en cobol (langage bien peu adapté !), puis en fortran pour les grosses machines IBM du CNRS, un détour par les premiers Apple1, enfin les programmes suivirent la puissance croissante des PC et du Turbo Pascal.

Parallèlement la méthode se développait, le trio des années soixante-dix2 visait une formalisation mathématique de plus en plus sophistiquée. Ils découvraient au passage l’arbre maximum, les cliques et le filtrant des cliques… Ils exploraient la possibilité d’utiliser la théorie des hyper-graphes. La pratique a aussi son rôle dans l’évolution de la méthode. Utilisée par de nombreux chercheurs, on découvrait les problèmes que posaient des données de formes bien différentes et des questionnaires toujours en évolution. L’analyse de similitude est restée fidèle à ses origines et s’est complexifiée. Le livre qui aurait du être écrit en 19723 serait bien différent du livre de l’an 2000. Ce dernier profite de tous ces moments où il a fallu remettre en cause les intuitions initiales, ou plus exactement les rapports entre propriétés mathématiques et interprétations par les sciences sociales. On avait fait, dans les années soixante-dix, un peu trop confiance aux mathématiques (comme d’autres ont fait trop confiance aux statistiques) pour dicter l’interprétation de l’analyste alors qu’il ne fallait que la guider, ou plus exactement s’interroger sur la traduction entre propriétés mathématiques et propriétés du social.

1 Sylvie Soukup et Alain Guénoche en furent les artisans.

2 Claude Flament, Alain Degenne, Pierre Vergès

3 Il en existe un manuscrit.

(3)

Une analyse et un analyste.

Cette méthode est une méthode générale d’analyse de données, elle est alternative ou complémentaire des classiques analyses factorielles ou de classification. Mais elle est aussi plus particulièrement adaptée à la théorie des représentations sociales, ce qui n’étonnera personne quand on sait le rôle que joue son inventeur dans le champ des représentations sociales. L’analyse de similitude a la grande qualité de ne pas éliminer l’analyste des différentes phases de l’analyse. A aucun moment il lui est proposé les résultats d’une boite noire. Au contraire l’analyse de similitude demande à l’analyste de prendre des décisions à chaque étape de la démarche. Elle propose des descriptions qui doivent être validées et peuvent même être quelque fois contradictoires à première vue. Elle pousse alors l’analyste à trouver son interprétation au croisement de deux informations différentes. Cet ouvrage montre comment à chaque instant la décision de l’analyste est réclamée. Aussi les différents chapitres de ce livre vont essayer d’éclairer cette décision.

Le premier chapitre pose la question de la mesure des similitudes entre les variables : la multiplicité des indices de similitude doit être expliquée et explorée. Le second chapitre présente les différents outils de la théorie des graphes permettant de traiter une matrice de similitude associée à un graphe. Ici on fait un détour par une formalisation mathématique. Celle-ci n’est pas très complexe même si on n’y est pas très habitué. Elle propose une analyse combinatoire des données où les seules entités sont « des points et des traits ». Le troisième chapitre montre les propriétés formelles que l’analyse de similitude peut mettre à jour. Le quatrième présente sur un exemple la démarche, pas à pas, de l’analyste et les décisions qu’il doit prendre. Ici se situe l’intérêt de l’analyse de similitude : l’analyste est maître des décisions qui vont orienter le traitement des données, comme il sera maître plus tard de leur interprétation. Le cinquième chapitre essaie de mettre en garde contre les fausses interprétations, les ambiguïtés qu’il faut lever et contre la croyance aveugle en la qualité des données. On se servira tout au long de ce livre d’exemples tirés des recherches de ces dernières années ; que les auteurs en soient ici remerciés. Ils ont utilisé des programmes informatiques sous Windows.

(4)

CHAPITRE 1. COMMENT SIMPLIFIER UNE MULTITUDE D’INFORMATIONS POUR METTRE DE L’ORDRE DANS LES DONNEES QUE VOUS VOULEZ TRAITER ?

1.1 DE LA RESEMBLANCE A LA SIMILITUDE.

Le point de départ de votre perplexité est le tableau des données. Il se présente le plus souvent sous la forme d’un tableau [X x Y], ou X représente un ensemble de variables (en colonne) et Y un ensemble de sujets (ou d’entités collectives, en ligne) sur lequel les variables prennent leurs valeurs4.

Les données de type [X x Y] se présentent sous la forme du classique tableau [Variables (ou questions) x Sujets]. On cherche alors à construire une tableau [X x X] indiquant la plus ou moins grande ressemblance entre les variables i et j de X.

La propriété de cette matrice de similitude [X x X]

est d’être symétrique : i ressemble à j comme j ressemble à i.

Pour cela il faut établir la similitude entre deux éléments i et j de X à l’aide de la ressemblance de leur profil de réponse aux éléments du second ensemble Y : les réponses des sujets à un questionnaire par exemple (tableau 1). Cette construction passe par le calcul d’un « indice de similitude » entre i et j de X, indice qui dépend d’un calcul sur les réponses de tous les sujets pour chacune des variables dans le tableau [X x Y].

Il n’y a pas qu’un indice de similitude, l’histoire de la statistique nous en décrit une profusion. Dans le tableau 2 on indique le nombre de fois où l’item i a été choisi en même temps que l’item j dans le tableau de la figure 1.

Le prototype de ces indices est le coefficient de corrélation linéaire. Il se calcule bien comme le montre sa formule en tenant compte de la plus ou moins grande proximité des profils des

4 Tout au long de ce livre nous utiliserons le terme de « sujet » pour désigner un élément de l’ensemble Y. Ce sujet peut être une personne ou un collectif : ville, entreprise, pays…. Nous utiliserons aussi le terme de « variable » pour désigner un élément de l’ensemble X. Il recouvre des réalités fort différentes : des questions, des modalités de réponses à une question, des mots d’un texte, des quantités (mesure de taille, de valeurs monétaires, des pourcentages …).

Sujets Item A Item B Item C Item D Item E Item F

01 0 0 0 1 1 0

02 0 1 0 1 0 1

03 1 1 0 0 0 0

04 1 0 0 0 1 0

05 0 1 1 0 0 0

06 0 1 0 1 0 0

07 0 0 0 0 1 1

08 0 1 0 1 0 0

09 1 0 1 0 0 0

10 0 0 0 0 1 1

11 0 0 1 1 0 0

12 1 1 0 0 0 0

13 0 0 1 0 1 0

14 0 0 0 1 1 0

Tableau 1 : tableau [X x Y]. : Chaque sujet pouvait choisir deux items de X parmi les 6 proposés (on a interrogé 14 sujets)

Items A B C D E F

A ** 2 1 0 1 0

B 2 ** 1 3 0 1

C 1 1 ** 1 1 0

D 0 3 1 ** 2 1

E 1 0 1 2 ** 2

F 0 1 0 1 2 **

Tableau 2 : tableau [X x X] des cooccurrences entre les items de la figure 1.

(5)

variables i et j mesurée ici par la covariance5 des valeurs prises par i et j dans le tableau [X x Y], covariance pondérée par un coefficient calculé sur les variances des deux variables :

) ( ) (

) ) (

,

( Var i Var j

ij CoVar j

i

r = × .

On se trouve aussi devant des données de type [X x X’] où l’ensemble X’ est identique à l’ensemble X. C’est le cas des matrices de transition entre la profession du père et la profession des enfants. Les deux ensembles X et X’ sont les mêmes (les catégories professionnelles, par exemple) mais ce tableau ne peut être interprété comme une matrice de similitude car la symétrie (i ressemble à j comme j ressemble à i) n’existe pas. Deux types d’opérations peuvent être envisagées pour construire la matrice [X x X]. Soit on effectue un calcul sur le profil en X’ des éléments de X (l’ensemble X’ se comporte en fait comme un ensemble Y). Soit on effectue un calcul visant à symétriser la relation (ij) entre les éléments de X quand la valeur de (ij) est la quantification d’une relation. La ressemblance entre les professions des pères en fonction de la ressemblance des profils des professions des enfants est un exemple du premier type. Le cas des matrices de flux entre des entités : par exemple la valeur des flux de migration entre les régions françaises6 est un exemple du second type. Comme le flux migratoire de i vers j n’est pas égal à celui de j vers i, on est obligé de symétriser la relation entre deux régions en ne tenant compte que de l’émigration (ou de l’immigration) ou en faisant la somme ou la différence des déplacements entrants et sortants.

Ce cas de figure se retrouve quand on analyse un questionnaire d’évocation : on a catégorisé les mots, observé la co-apparition de ces catégories chez un même sujet et calculé la cooccurrence d’une catégorie de mots avec une autre. Cette information n’est pas symétrique. On peut la symétriser par la définition d’un indice particulier. On retrouve ce problème dans l’analyse des citations d’auteurs dans un ensemble d’articles de revues scientifiques (qui cite qui ? tableau 3). On peut opérer de deux manières différentes : soit considérer les ressemblances entre les profils de deux auteurs, soit symétriser le nombre de citations entre deux auteurs (somme, différence …)

Les données qui sont directement du type [X x X]

sont rares, elles sont le plus souvent le résultat d’un calcul. On peut, par exemple, recueillir une matrice de corrélation déjà calculée (à l’aide d’EXCEL ou d’un programme d’analyse factorielle en composantes principales). On peut demander aux sujets d’une enquête d’établir des relations entre un ensemble de notions (cf. annexe 2). On verra plus loin (2.4) un questionnaire où on demande aux sujets d’évaluer sur une échelle de 1 à 9 la ressemblance entre les éléments i et j et cela pour toutes les paires possibles.

5 CoVar ij xik m xjk m N

k

j

i ×

= (( ) ( ))

)

( ; avec N le nombre de sujets, xik la kiem valeur de la colonne i et xjk la k-iem valeur de la colonne j et mi la moyenne des valeurs xik, mj la moyenne des valeurs xjk

6 Degenne, A., 1973.

Items A B C D E F G H I

A ** 15 10 30 45 22 16 50 24

B 25 ** 20 12 8 16 18 37 25

C 35 11 ** 43 16 19 28 34 12

D 40 28 33 ** 31 20 15 19 42

E 12 15 8 22 ** 25 10 7 8

F 58 46 24 33 14 ** 23 41 25

G 36 29 12 36 18 29 ** 28 17

H 22 25 15 7 12 34 15 ** 16

I 5 7 12 3 25 15 24 28 **

Tableau 3 : tableau [X x X’] : on a compté le nombre de fois où un auteur D a cité l’auteur F (ici 20 fois), le nombre de fois ou l’auteur F a cité l’auteur D est différent (33).

(6)

Chaque sujet produit une matrice [X x X]. On va alors calculer une agrégation de ces matrices : ici l’élément (ij) de la matrice [X x X] finale est la moyenne des scores obtenus pour chaque sujet. Quel que fois l’information initiale est, non une similitude, mais une distance tel le nombre de kilomètres entre la ville i et la ville j. On est alors conduit à calculer une fonction inverse de la distance pour obtenir une valeur de la proximité entre i et j.

Quel que soit le cas de figure [X xY], [X x X’] ou [X x X] on vise à construire une matrice carrée et symétrique de similitude [X x X] où les nombres indiquent le poids, la force de la ressemblance, de la relation entre les variables deux à deux. L’analyse de similitude sur l’ensemble Y est duale : on construit une matrice [Y x Y] en fonction des profils des sujets yY sur les variables iX . Pour cela il suffit de transposer la matrice initiale, c’est à dire de prendre en considération la matrice [Y x X] en lieu et place de la matrice [X x Y],

(7)

1.2 EXEMPLES DE CALCUL D’UNE SIMILITUDE.

1.2.1 Le choix de réponses dans une liste.

Dans un questionnaire sur l’image de la banque7 on demande aux sujets (506 sujets) de caractériser la banque en général en choisissant certains items dans une liste donnée(tableau 4).

On demande au sujet de choisir les 2 items les plus caractéristiques de la banque. On donne ici un extrait de ces données (tableau 5). On obtient un fichier où le premier sujet a choisi les items 1 et 3 et le deuxième les items 3 et 4 et le troisième les items 1 et 2 etc… On codera ces sujets en indiquant par un 1 les items choisis et par un 0 les items non choisis.

On peut alors calculer la ressemblance entre deux items par le nombre de sujets ayant choisi ensemble deux items. On obtient une matrice de cooccurrence (tableau 6) : ici le choix des items 1 et 2 a été effectué par 100 sujets sur les 506 interrogées (c’est le cas du troisième sujet par exemple). Le choix des items 1 et 4 n’a été effectué que par 29 sujets.

1.2.2 Le choix d’une réponse sur une échelle.

Dans un questionnaire posé à des élèves de terminale8 on présente un ensemble de phrases et on demande à l’élève de choisir une attitude vis à vis de chaque phrase. Attitude que l’on code de 1 à 5 (on ne tient pas compte des élèves ayant répondu 6).

1 2 3 4 5 6

Totalement En partie ni d'accord En partie Totalement Je ne

d'accord d'accord ni pas d'accord pas d'accord pas d'accord sais pas A- Le gouvernement devrait redistribuer les revenus au profit des moins favorisés.

B- Trop de gens comptent sur le gouvernement pour assurer leur bien être.

7 Etude Paul Danloy & Cie, GIFRESH, commanditée par les Banques Populaires et le Crédit Mutuel en 1995 auprès de 504 personnes (méthode des quota), échantillon représentatif par quota de la population française.

8 Etude Union Européenne Copernicus sur les connaissances économique des jeunes européens (jeunes de 17-18 ans en fin d’étude secondaire en Angleterre, France, Pologne, République Tchèque), 1995

Tableau 6 : Le calcul de la cooccurrence donne la matrice suivante :

1 : La Banque me fait Confiance : * 100 112 29 43 26 2 : On est en Confiance : 100 * 104 60 39 16 3 : Aide Problèmes Particuliers : 112 104 * 80 43 52 4 : Découvert Rapporte à Banque : 29 60 80 * 85 72 5 : Travailler à son Profit : 43 39 43 85 * 59 6 : On n'est qu'un Numéro : 26 16 52 72 59 * Tableau 5 : Fichier :

001 101000 002 001100 003 110000 004 . . . etc…

Tableau 4 : liste des items 1 : La Banque me fait Confiance 2 : On est en Confiance 3 : Aide Problèmes Particuliers 4 : Découvert Rapporte à Banque 5 : Travailler à son Profit 6 : On n'est qu'un Numéro

(8)

C- Le plus grand nombre n’obtient pas une juste part de la richesse de la nation.

D- Les aides sociales ne vont pas toujours à ceux qui en ont le plus besoin.

E- Une vraie coopération dans les entreprises est difficile parce que chefs d’entreprises et salariés n’ont pas les mêmes intérêts.

F- Les entreprises privées sont plus aptes que les entreprises publiques à résoudre les problèmes économiques de la France

On peut calculer un score moyen obtenu pour chaque phrase (tableau 7). Mais il est plus intéressant de calculer la similitude des réponses en comparant les notes données par chaque sujet aux différentes phrases. On calcule alors une corrélation entre ces phrases (ici l’indice de corrélation est le Tau de Kendall).

La phrase A est corrélée positivement à la phrase C (.26) et négativement à la phrase B (-.12) alors que leurs scores moyens sont proches.

Ces deux exemples montrent comment il est possible de passer d’un tableau [X x Y] à un tableau de similitude [X x X].

Nous allons maintenant étudier les différentes manières d’effectuer ce passage, en un mot de calculer un indice de similitude entre les variables.

Phrases Score moyen

A- Redistribuer Revenu 2.50 B- Compte sur Gouvernement 2.41 C- N'ont pas leur Part 2.13 D- Aide Sociale détournée 1.88 E- Difficiles Coopération 2.22 F- Privé mieux que Public 3.25

Tableau 7 : score moyen des items * A B C D E F

************************************

A * * -.12 .26 .08 .08 -.08 B * -.12 * -.01 .09 .11 .07 C * .26 -.01 * .17 .04 -.01 D * .08 .09 .17 * .05 .11 E * .08 .11 .04 .05 * -.01 F * -.08 .07 -.01 .11 -.01 *

Tableau 8 : Tau de Kendall

(9)

1.3 IL N’EST PAS POSSIBLE DE LIMITER LA SIMILITUDE A UN SEUL ET UNIQUE COEFFICIENT (coefficient de corrélation ou distance du Khi29) : POURQUOI ?

Il existe une première raison qui tient à la forme des données recueillies. Les données que l’analyse de similitude permet de traiter, sont de formes très différentes. Nous avons déjà vu qu’un tableau de données [X x Y] pouvait recouvrir plusieurs types de données différentes. Un questionnaire peut proposer une liste d’items et demander au sujet de choisir les items qu’il privilégie, les 1 indiquant le choix de l’item comme dans la figure 1 (le nombre d’items choisis peut être limité cf. annexe 2 les questionnaires de choix ou de caractérisation). Les variables i de X peuvent être des valeurs comme par exemple le nombre de pièces d’un appartement ou le salaire du chef de famille, ou encore dans le cas où le sujet est un sujet collectif : le nombre d’habitants d’une commune, le pourcentage de population au chômage etc…. On doit encore considérer un cas particulier : celui de la mesure de la position du sujet sur une échelle de réponses que l’on code de 1 à n (valeur maximale), par exemple on codera 5 l’accord total du sujet à une proposition et 1 le désaccord total, les valeurs intermédiaires permettant au sujet de moduler son opinion (cf. annexe 2 le questionnaire en échelle de « Likert »).

9 La distance calculée par le coefficient de corrélation est utilisée par les programmes d’ACP et celle du Khi2 par les programme d’AFC.

Les différentes structures mathématiques de mesure.

Binaire : une variable binaire ne peut prendre que deux valeurs : 0 ou 1. Cette variable est souvent obtenue par éclatement des modalités d’une variable nominale. Par exemple à la question sur sa profession le sujet doit se positionner non pas sur une échelle mais dans un univers de catégories dont chacune à un nom. Seule la catégorie choisie sera codée 1, les autres prennent la valeur 0. Si la question est dite « à choix multiple » on peut avoir plusieurs 1 correspondants aux différents choix. Dans tous les cas chaque modalité de réponse est une variable binaire.

Ordinale : une variable ordinale prend ses valeurs dans les nombres cardinaux (nombres entiers) au sein d’un intervalle ayant une valeur minimale et maximale : par exemple [-2, +2], seules les valeurs -2,-1,0,1,2 sont acceptables.

Cette échelle ne suppose pas qu’il existe une distance égale entre deux échelons. Elle indique simplement que si le sujet a été codé 2, il a exprimé un choix supérieur à celui qu’il aurait exprimé s’il était codé par une valeur inférieure comme 1 (ou -2). Elle indique aussi que ce choix 2 est « intermédiaire » entre le choix 1 et le choix 3.

Métrique : une variable métrique prend ses valeurs dans les nombres réels. C’est le cas du revenu d’un ménage, de la taille des élèves d’une classe, de la superficie d’une exploitation agricole, etc…Il est alors possible de calculer une distance métrique (euclidienne), d’effectuer les quatre opérations (+, -, x, /) et de la plonger dans un espace vectoriel.

(10)

Chaque type de donnée détermine l’usage de coefficients qui tiennent compte des propriétés de la mesure utilisée (binaire, ordinale, métrique). C’est ainsi que les chiffres codant les données de type binaire ne peuvent être considérés comme des réels. On ne peut pas les utiliser pour calculer un coefficient de corrélation, par exemple, il faut utiliser, comme nous le verrons plus loin, son correspondant pour les tableaux [0,1] : le Phi de contingence. De même lorsque les données sont ordinales le coefficient de corrélation que l’on doit utiliser est le Tau de Kendall qui ne tient compte que de la différence entre les ordres induits sur les sujets par les différentes variables. Seules les données métriques permettent les calculs les plus sophistiqués, analyse de corrélation, analyse matricielle, analyse de régression etc.…

Outre la forme des données il faut aussi tenir compte du travail des statisticiens. Ceux-ci ont multiplié les indices10 permettant une mesure de la similitude entre variables. Ces indices ont cependant quelques propriétés mathématiques communes. Ces propriétés dérivent du fait que, pour un coefficient de similitude donné, l’ensemble des valeurs calculées entre les éléments i et j de X peuvent être rangées de la plus grande à la plus petite. Cet ordre entraîne un ordre sur les couples (i,j). Comme il est possible que certains couples aient la même valeur (soient ex-aequo) on utilise la notion mathématique de Préordonnance. Les propriétés de cette Préordonnance de similitude sont décrites dans l’encart ci- dessous.

L’existence de cette diversité de la forme des données et de la multiplicité des mesures possibles (indices de similitude) donne toute sa souplesse et sa richesse à l’analyse de similitude. Elle prend en

10 Hubalek, Z., 1982 ; Cet auteur présente 43 mesures d’association (coefficients de similitude) dans le seul cas des variables dichotomiques. Il conclue son article par ces mots : « there is no absolutely general measure of the degree of dependance ».

La mesure binaire (ou dichotomique) [0,1] peut couvrir l’existence d’un ordre 0 < 1 ou seulement la présence d’un

« nom », d’une modalité. Le choix de l’indice doit tenir compte de ce fait.

Dans le premier cas on parlera d’une mesure dichotomique ordonnée permettant l’utilisation des indices relatifs à une mesure ordinale. C’est par exemple l’étude de l’équipement des villes en notant dans une liste fixée à l'avance quels sont les équipements collectifs possédés. Deux villes se ressembleront alors par les équipements qu'elles ont en commun mais également par ceux qui leur manquent simultanément. Dans le second cas la mesure dichotomique est associée à une variable binaire (le 1 exprimant la présence du « nom » et le 0 l’absence). Dans ce cas l’absence du « nom » n’a pas automatiquement un sens inverse à la présence de ce « nom ». Par exemple l’absence d’un mot dans une liste d’évocations spontanées peut signifier deux choses bien différentes : le sujet ne voulait pas l’évoquer ou tout simplement le mot ne lui est pas venu spontanément à l’esprit pour diverses raisons. Le zéro représente une diversité de situations alors que le 1 exprime uniquement le choix du sujet.

On peut se trouver dans des situations mixtes. Quand on demande au sujet de choisir trois items parmi une liste de 12, la probabilité du non-choix est bien supérieure à celle du choix (ici 0,75 contre 0,25). Il n’y a pas symétrie du 1 et du 0. Ici on peut décider de considérer soit seulement le choix (le 1), soit l’ordre 0 < 1.

Il existe encore un cas où ces deux valeurs [0,1] n’ont pas le même sens mais où cette propriété échappe souvent à la conscience de l’analyste, c’est la transformation d’une variable nominale ayant plusieurs modalités en une série de variables binaires comme dans le cas des catégories socioprofessionnelles. Le 0 n’indique pas l’absence d’une profession donnée mais le fait que le sujet appartient à une autre profession. Cette procédure dite « d’éclatement des modalités » est utilisée pour évaluer les effets de chaque item (ici de chaque profession). Cette procédure est, par exemple, obligatoire quand on construit un tableau de « Burt » en Analyse Factorielle de Correspondance, ou quand on utilise les procédures logistiques (Logit). Dans ces deux cas, les outils mathématiques utilisés font implicitement référence à une symétrie du 0 et du 1 alors qu’il n’en est rien.

(11)

compte non seulement les propriétés mathématiques des données mais aussi le parti pris de celui qui traite les données. A cette richesse correspond un impératif : l’analyste doit prendre des décisions qui influencent fortement le résultat des calculs. L’analyse de similitude ne fonctionne pas comme une boite noire fournissant un résultat unique, elle oblige l’analyste à préciser ce qu’il recherche et par quel moyen.

Quel sont ces décisions ?

Elles concernent d’abord la forme des données et par là même le choix d’une classe d’indices de similitude. L’analyste doit identifier la mesure (binaire, ordinale, métrique) qui est imposée par la forme des données. Il peut se trouver dans un cas mixte l’obligeant à un recodage. Il peut aussi être conduit à réduire la richesse de la mesure originale car elle dilue l’information pertinente comme un costume trop grand. C’est ainsi que l’on ramène l’information de l’âge (ou du revenu) exprimé en années (ou francs) à des classes d’équivalences ordonnées (les moins de 18 ans, les 18-24, les 25-40 etc…). On passe d’une mesure métrique à une mesure ordinale. De même on réduit souvent une échelle ordinale d’opinion (de type Likert) à une variable dichotomique (les opinions favorables prenant la valeur 1 et les défavorables la valeur 0). On fait aussi quelque fois l’opération inverse : considérer une mesure ordinale comme une mesure métrique (le calcul d’une moyenne sur une échelle de Likert par exemple). On doit alors agir avec une certaine prudence, c’est quelque fois acceptable même si ce n’est pas légitime.

Nous verrons plus loin que l’analyste sera obligé de prendre des décisions tout au long de la procédure d’analyse : choix de seuils, choix d’un mode de représentation des résultats etc… Le premier choix reste celui de l’indice de similitude.

1.4. LES CRITERES DU CHOIX D’UN INDICE DE SIMILITUDE.

Pour choisir l’indice de similitude qu’il convient de calculer il faut donc tenir compte de deux éléments :

a) la nature de la mesure où sont plongés les nombres que l’on trouve dans ce tableau {X x Y} : ont-ils une valeur « binaire », sont-ils des positions sur une échelle « ordinale » (dichotomique

Préordonnance de similitude

Soit X un ensemble {i,j …} et [X x X] l'ensemble des couples (i,j) d'éléments de X.

On appelle préordonnance de similitude sur X un préordre total sur X x X, vérifiant les conditions suivantes, quels que soit {i,j,k} éléments de X :

(i,j) = (j,i) : propriété qui traduit la symétrie de la relation de ressemblance.

(i,i) > (i,j) : propriété qui traduit que tout élément ressemble plus à lui même qu’à tout autre.

En outre si (i,j) > (i,k) i doit « ressembler » plus à j qu’à k.

Habituellement cette préordonnance est associée à une application S de X x X dans les nombres réels.

On a alors Sij > Skt Ù (i,j) > (k,t) Sij est appelé indice de similitude.

Nous avons vu que la préordonnance de similitude peut être obtenue de deux manières : Soit la préordonnance P peut être donnée presque directement par l'observation sur l’ensemble [X x X] ; dans ce cas on a obtenu une hiérarchie sur les paires ij. Soit, et c’est le cas le plus général, on doit construire la préordonnance à partir du calcul d'un indice de similitude S (appelé aussi coefficient de similitude).

Pour cela il faut établir une mesure de ressemblance sur l’ensemble X. Cette mesure suppose l’existence d’un second ensemble Y tel que l’on puisse construire un tableau rectangulaire [X x Y]exprimant les valeurs que prennent les éléments i (ou j) de X dans les référentiels y de Y. Les données servant à calculer l’indice de similitude sont alors présentes dans ce tableau rectangulaire.

(12)

[0,1] ou sur un intervalle [a,b]), sont-ils des nombres pouvant prendre théoriquement toutes les valeurs dans une large plage des nombres réels (le « continue » des mathématiciens) ;

b) la nature du calcul de l’indice de similitude. On distinguera, ici, deux classes d’indices : les indices exprimant une « majorité », ceux exprimant une « distance à l’indépendance statistique ».

On traitera en 5.5 les indices qui mesurent un degré « d’implication logique ». Ils n’ont pas la propriété de symétrie des indices de similitude mais permettent d’analyser les données dont les fréquences sont par trop inégales.

1.4.1. Indices de similitude dans le cas de données dichotomiques.

Le croisement de deux éléments i et j de X se présente classiquement par le tableau carré suivant : j = 0 j = 1 Total

i = 0 Zij Uij Ni0

i = 1 Wij Cij Ni1

Total Nj0 Nj1 N

Tableau 9 : le croisement dichotomique

La nature du calcul de l’indice de similitude.

a) Les indices qui vont mettre en évidence la grandeur, le poids des différentes variables. C’est le cas si on prend en considération la valeur absolu de xij d’un item i. On a alors plus de chance de trouver une similitude forte entre les items ayant une forte moyenne (ou fréquence) qu’entre ceux ayant une moyenne (ou fréquence) plus faible.

On peut alors parler de mise en évidence d’un effet tenant aux valeurs extrêmes et dans le cas des fréquences d’un effet majoritaire (ce que pense ou fait la majorité). On peut éviter en partie cela en effectuant une standardisation classique des données (z-score en anglais) : on calcule alors x'ij =(xijmoyenne(xij)) Variance(xij)

b) Les indices exprimant une distance à l’indépendance statistique vont au contraire tenir compte seulement des écarts à l’indépendance statistique. Or les items de poids faibles sont ceux qui permettent les plus forts écarts. Si par exemple on traite le choix de 2 items i et j tel que i a été choisi par 80% des sujets et j seulement par 30%, l’indépendance statistique de leur croisement est 24% (0,8 x 0,3). L’écart maximum est alors de 30% à 24% soit de 6% des sujets. Par contre si on croise l’item j ayant la même distribution avec un item i choisi par 20% des sujets l’indépendance statistique de leur croisement est 6% (0,2 x 0,3). L’écart maximum est alors de 20% à 6% soit de 14%

des sujets.

Indépendance statistique Cooccurrence maximum Indépendance statistique Cooccurrence maximum

j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot

i=0 14 6 20 i=0 20 0 20 i=0 56 24 80 i=0 70 10 80

i=1 56 24 80 i=1 50 30 80 i=1 14 6 20 i=1 0 20 20 Tot 70 30 100 Tot 70 30 100 Tot 70 30 100 Tot 70 30 100 Cas où i a la distribution 20 / 80 Cas où i a la distribution 80 / 20

Ici on sait que les indices de similitude vont mettre en évidence l’existence de sous-ensembles de variables qui sont corrélées grâce à l’existence de sous-populations de sujets, qui peuvent être peu nombreuses (cf. le 6% du premier cas ou le passage de 6% à seulement 20% dans le second cas) mais qui ont des profils comparables sur ce sous-ensemble de variables. Ces indices signalent qu’une partie des données forment une « distribution conjointe » : à une sous- population donnée correspond un sous-ensemble de variables. Ici on peut parler de « minorité cohérente ».

N est le nombre de sujets.

Ni1 est le nombre de sujets codés 1 sur l’item i.

Nj1 est le nombre de sujets codés 1 sur l’item j.

Cij est le nombre de sujets codés 1 aux items i et j.

Zij est le nombre de sujets codés 0 aux items i et j.

Wij est le nombre de sujets codés 1 à l’item i et 0 à j.

Uij est le nombre de sujets codés 0 à l’item i et 1 à j.

(13)

1.4.1.1 Cas des variables binaires.

Lorsque les variables sont binaires seules les informations concernant la présence (le 1) ont un sens.

On peut alors construire les indices suivants.

a) Le nombre de fois où i et j sont codés tous les deux 1 est appelé cooccurrence : S1 = Cij.

On peut aussi calculer un pourcentage S2 =(Cij N)×100.

Ces deux indices donnent la même préordonnance de similitude. Ils font apparaître ce que l’on peut appeler le phénomène majoritaire. En effet plus les items i et j sont présents (Ni1 et Nj1 grand) plus il y a de chance pour que Cij soit grand.

b) On peut, pour corriger cet effet majoritaire, établir un rapport entre Cij et C*ij, fréquence de la cooccurrence dans le cas de l’indépendance statistique entre i et j. C*ij=(NiNj1) N

On peut alors calculer leur rapport S3 =Cij C*ij qui est égal à S3 =(Cij×N) (NiNj1). On peut aussi calculer leur différence en pourcentage S4 =100×(CijC*ij) C*ij

On peut encore calculer l’indice de Forbes S5=(CijC*ij) (CijmaxC*ij) avec Cijmax la valeur maximum que peut avoir Cij ; cette valeur est en fait le minimum de [Nj1, Ni1].

Le domaine de variation de ces différents indices est fort différent : l’indice S3 varie entre 0 et une valeur maximale S3max quand Cij est maximum c’est à dire égal au minimum de [Ni1,Nj1]

alors : S3max= N max

[

Ni1,Nj1

]

; la valeur S3 = 1 indique l’indépendance statistique entre i et j ; entre 0 et 1 Cij est inférieure à la valeur attendue s’il y avait indépendance statistique, entre 1 et S3max Cij est supérieur à cette valeur. La valeur S4 = 0 indique l’indépendance statistique entre i et j, il en est de même pour S5 qui varie de 0 à 1 (quand Cij=Cijmax).

On montrera plus loin sur un exemple l’usage de ces deux types d’indices (cf. 1.3.1.3.).

1.4.1.2 Cas des variables dichotomiques ordonnées.

Lorsque les variables dichotomiques sont représentatives d’un ordre entre le 0 et le 1 on peut alors construire des indices où le 0 et le 1 tiennent des places symétriques.

a) Le nombre de fois où i et j sont codés tous les deux de la même manière est appelé cooccurrence symétrique : S6 =Cij+Zij

On peut aussi calculer un pourcentage S7 =((Cij+Zij) N)×100.

Ces deux indices donnent la même préordonnance de similitude. Ils expriment à l’évidence le poids de la diagonale de corrélation mais sans faire référence au calcul de la valeur théorique des cases Cij et Zij. On a ici aussi la mesure d’un phénomène majoritaire pouvant porter symétriquement sur la valeur 0 ou 1. L’indice S7 varie entre 0 et N, L’indice S8 varie entre 0 et 100.

b) Le Phi de contingence va, lui, signaler la corrélation et donc la comparaison des données à leur valeur théorique dans le cas de l’indépendance statistique, comparaison mise en évidence par la relation qui relie le Phi et le Khi2. La formule du Phi dérive de l’application du Tau de Kendall, au tableau à quatre cases. Il correspond bien à un ordre 0 < 1.

(14)

1 0 1 0

) (

) (

8 Nj Nj Ni Ni

Wij Uij Cij S Zij

×

×

×

×

= ×

=ϕ appelé Phi de contingence11.

On peut trouver dans la littérature tout un ensemble d’indices dont la formule dérive de celle du Phi de contingence. On en signalera un qui essaye de corriger le fait que le Phi ne varie pas entre –1 et +1 comme le voudrait la théorie mais entre une valeur maximale et une valeur minimale qui dépend des marges (cf. annexe 1). On calcule alors le « Phimax » pour la zone des corrélations positives et on établit le rapport Phi sur Phimax : S8bis = S8 / Phimax.

Le Phimax est obtenu en calculant le tableau donnant la corrélation maximale. Ce tableau maximise la valeur Cij. Alors Cij=minNi1,Nj1. Dans ce cas la valeur de l’indice varie, dans la zone des corrélations positives, entre 0 et +1 quelque soient les marges.

Il est aussi possible d’obtenir un indice variant de -1 à +1 en utilisant le Q de Yule

) (

) (

) (

) (

9 Zij Cij Uij Wij

Wij Uij Cij Q Zij

S × + ×

×

= ×

= . Cet indice est égal à 1 si Uij ou Wij est égal à 0 (une case anti diagonale vide). Il est égal à –1 si Zij ou Cij est égal à 0 (une case diagonale vide). Il est égal à 0 comme le Phi de contingence dans le cas de l’égalité des produits des valeurs des deux diagonales (nullité du numérateur). On est ici proche d’une mesure de l’implication plus que de la corrélation comme nous le verrons plus loin.

Un indice particulier est aussi souvent utilisé car il évite de prendre en considération la case Zij (absence de i et de j) : l’indice de communauté dit indice de Jaccard :S10 =Cij (Cij+Uij+Wij)

11 Le Phi est égal à la racine carrée du Khi2 total du tableau divisé par N. On calcule ainsi le Khi2

ij C

ij C Cij ij

W ij W Wij ij

U ij U Uij ij

Z ij Z Khi Zij

* )

* (

* )

* (

* )

* (

* )

*

( 2 2 2 2

2

+

+

+

= ; avec Z*ij, U*ij, W*ij, C*ij les valeurs

théoriques dans le cas de l’indépendance statistique entre i et j calculées grâce aux marges du tableau : N

Nj Ni ij

Z* =( 0× 0) ; U*ij=(Ni0×Nj1) N ; W*ij=(Ni1×Nj0) N ; C*ij=(Ni1×Nj1) N.

(15)

1.4.1.3. Exemple de l’utilisation des deux types d’indices dans le cas du choix dichotomique.

Nous reprenons ici le questionnaire sur l’image de la banque présenté en 1.2.1.

L’item 2 (On est en Confiance), par exemple, a été choisi par 189 sujets interrogées, l’item 3 (Aide Problèmes Particuliers) a été choisi par 247 sujets. Le tableau de croisement de ces deux items est le suivant :

On a trouvé 104 sujets ayant choisi à la fois l’item 2 et l’item 3. la cooccurrence est donc de 104. Le calcul du Phi de contingence entre l’item 2 et l’item 3 est alors :

) 189 317 247 259 ( ) 85 143 ( ) 104 174 (

×

×

×

×

× soit 0,09.

La matrice des Phi de contingence montre que la population enquêtée se compose de deux sous- populations : l’une voit la banque sous un jour favorable (aide, confiance), la seconde pense qu’elle vit sur le dos de ses clients. Les deux sous-ensembles d’items caractérisant ces deux sous-populations sont assez exclusifs les corrélations sont toutes négatives dans le rectangle en bas et à gauche du croisement des items 1,2,3 avec les items 4,5,6. Quelle est l’importance de ces deux sous-populations ? La matrice des cooccurrence nous donne une première indication les sujets favorables sont plus nombreuses que les consuméristes12, leurs cooccurrences sont plus fréquentes (de 104 à 112 versus de 59 à 85). Cette matrice module aussi la réalité d’une nette division en deux de la population. En effet le fait que « le découvert rapporte à la banque » soit fortement associé à « l’aide aux problèmes rencontrés par les particuliers » montre qu’il n’existe pas majoritairement une vision tranchée. On le montre aussi quand 52 sujets associent ce dernier item au fait de « n’être qu’un numéro ». L’interprétation par un seul de ces indices nous apparaît alors mutilante.

12 On peut aussi le montrer en observant simplement les fréquences de ces items : 40,4%, 37,4%, 49%, 40,4%, 29%, 27% : les deux derniers items sont nettement minoritaires.

Le calcul de la cooccurrence S1 = Cij donne la matrice suivante : 1 : La Banque me fait Confiance : * 2 : On est en Confiance : 100 * 3 : Aide Problèmes Particuliers : 112 104 * 4 : Découvert Rapporte à Banque : 29 60 80 * 5 : Travailler à son Profit : 43 39 43 85 * 6 : On n'est qu'un Numéro : 26 16 52 72 59 * Le calcul du phi de contingence S8 donne la matrice suivante

1 : La Banque me fait Confiance : * 2 : On est en Confiance : .19 * 3 : Aide Problèmes Particuliers : .10 .09 * 4 : Découvert Rapporte à Banque : -.43 -.12 -.15 * 5 : Travailler à son Profit : -.13 -.13 -.24 .24 * 6 : On n’est qu'un Numéro : -.25 -.31 -.12 .16 .20 * Tableau 11 : La Banque : matrices de similitude.

0 1 Total item 2

0 174 143 317

1 85 104 189

Total item3 259 247 506 Tableau 10 : On indique le choix de l’item par la valeur 1.

(16)

1.4.2. Indices de similitude dans le cas de données ordinales.

Dans le paragraphe précédent on a réduit l’information obtenue au questionnaire « banque » à la seule présence du choix des items « caractéristiques » alors que l’information initiale était plus complexe : le sujet devait choisir, parmi les 6 items, les deux items les plus caractéristiques de la banque, puis les deux items les moins caractéristiques de la banque, il restait alors deux items non choisis. On peut donc classer, pour chaque sujet, les items sur une échelle de trois degrés : caractéristique (3), non choisi (2), moins caractéristique (1). Le croisement de deux items prend alors la forme d’un tableau 3 x 3.

Le tableau 13 montre, par exemple, le croisement de l’item 2 (On est en Confiance), avec l’item 3 (Aide Problèmes Particuliers

Plus généralement le croisement de deux variables i et j se présente sous la forme d’un tableau, le plus souvent carré, mais pouvant être aussi rectangulaire si le nombre de modalité n’est pas le même pour i et j.

Tableau 13 : Croisement des variables i et j.

Variable i \ j échelon 1 échelon 2 etc…k échelon max Total i

échelon 1 n11 n12 n1k n1m n1t

échelon 2 n21 n22 n2k n2m n2t

etc…q nq1 nq2 nqk nqm nqt

échelon max Nm1 nm2 nmk nmm nmt

Total j nt1 nt2 ntk ntm N

a) Le calcul qui mettra en évidence le phénomène de concentration des réponses sur les mêmes valeurs pour les deux variables suppose que les variables aient la même échelle (même nombre d’échelons). Dans ce cas on va faire la somme de toutes les cases où il y a concordance entre les échelons des deux items : S nkk N

m k

k

=

=

=

1

11 . Cet indice est très sensible aux situations majoritaires.

Cet indice ne met en évidence que l’importance de la non préférence d’un item sur l’autre. Il ne tient pas compte de l’ordre des échelons : 1 est plus proche de 2 que de 3 par exemple. Pour prendre en compte ce fait on peut construire des indices qui commencent par calculer une distance. Mais ce faisant on introduit une propriété supplémentaire : on ne peut faire ce calcul qu’en supposant l’équidistance entre les modalités de 1 à 2, de 2 à 3 etc...

) 1 1 (

12 × −

×

=

∑∑

m N

nqk k q

S k q dite similitude calculée à partir de la

« distance city-block »

1 2 3 Total Item 2

1 35 22 41 98

2 49 68 102 219

3 36 49 104 189

Total item3 120 139 247 506

Tableau 12 : La Banque : Croisement des classements des items 2 et 3.

Ici il y a 49 sujets ayant considéré que l’item 3 n’est pas caractéristique de la banque (codé 1)et dans le même temps ces sujets n’ont pas choisi l’item 2 : il n’est ni caractéristique ni non caractéristique (codé 2).

(17)

On peut aussi calculer une fonction inverse de la distance euclidienne :

) 1 (

) ( 1

2

13 × −

×

=

∑∑

m N

nqk k

q

S k l

Christian Guimelli a voulu faire un indice variant entre –1 et +1, le 0 devenant une sorte de point neutre séparant les faibles et les fortes similitudes13. Il calcule S14 =2(S12 −0,5). Cet indice veut se référer analogiquement aux questionnaires où on demande aux sujets de se positionner sur un intervalle de [–m à +m]. En fait c’est une simple transformation linéaire de l’indice S12 « city block »

b) Les indices de similitude, qui tiennent compte de l’indépendance statistique, qui respectent la propriété de préférence et qui ne font pas implicitement l’hypothèse d’équidistance entre les échelons, ont été créés par Kendall. Cet auteur propose deux indices dit Tau b (S15) dans le cas d’un tableau non carré (si le nombre maximum d’échelons n’est pas le même pour les items i et j) et Tau c (S16) qui correspond aux tableaux carrés (cf. annexe 1).

13 Guimelli, Ch., 1998

(18)

1.4.3. Indices de similitude dans le cas de données métriques.

On se trouve devant un tableau [X x Y] pouvant prendre des valeurs dans les réels.

Tableau 14 : Tableau des données métriques

Sujets

Variable a

Variable p

Variable l

Var max Total

01 n1a n1p n1l n1mv n1

02 n2a n2p n2l n2mv n2

03 n3a n3p n3l n3mv n3

k nkp nkl nk

max nmsa nmsp nmsl nms

Total na np nl nmv N

Avec =

p

nkp

nk et =

k

nkp

np et =

p

np N

a) Dans le cas où toutes les variables ont le même intervalle de définition (par exemple les variables sont toutes des pourcentages) on peut calculer un indice mettant en évidence les effets de taille (l’importance des différents nkp) : on calcule une fonction inverse de la distance euclidienne entre la colonne p et l par exemple =

k

nkl nkp

S17 1 ( )2.

b) La distance à l’indépendance statistique est bien représentée par le coefficient de corrélation de Bravais – Pearson que nous avons déjà présenté : S18 = r. Cet indice varie de –1 à +1.

On peut aussi calculer la distance dite du Khi2, distance proposée par J.P.Benzécri et utilisée dans les Analyses Factorielles de Correspondance :

2

1

19 1 ⎟⎟

⎜⎜

×

==

= nl

nkl np nkp N S nk

m k

k

(19)

1.4.4. Indices de similitude dans le cas particulier des tableaux de données relationnelles (tableaux carrés).

Ces tableaux comportent le même nombre de lignes et de colonnes. Si les cellules du tableau sont déjà les valeurs d’un indice de similitude (corrélation par exemple) on se contente de considérer ce tableau comme une matrice de similitude [X x X]. Dans le cas contraire on se trouve devant le tableau suivant [X x X’] où nlp n’est pas égal à npl.

Tableau 15 : tableau des données relationnelles.

Var a Var p Var l Var m

Var a * nap nal nam

*

Var p npa * npl npm

*

Var l nla nlp * nlm

*

*

*

Var m nma nmp nml *

a) Pour faire apparaître les effets de taille on utilisera l’analogue de la cooccurrence S20 = npl + nlp.

b) La référence à une valeur d’indépendance statistique conduit à calculer une distance à une valeur théorique. Si les valeurs npl représentent la valeur d’une relation (non symétrique) on est conduit à la comparer au calcul de la valeur théorique relative à la somme de la ligne p et de la colonne l (indice S21 de l’annexe 1)

(20)

CHAPITRE 2 LES PROPRIETES FORMELLES AU SEIN DE LA MATRICE DE SIMILITUDE.

La matrice [X x X] où on rassemble les indices de similitude est constituée de m×(m−1) 214 valeurs avec m le nombre de variables étudiées. Si m est égal à 25 cela nous donne 300 valeurs, s’il est égal à 50 on obtient 1 225 nombres. Il faut donc se donner un moyen pour résumer ces données en perdant le minimum d’informations.

14 La matrice a (m x m) valeurs, comme elle est symétrique chaque valeur apparaît 2 fois, comme on ne tient pas compte des valeurs de la diagonale, on aboutit à cette formule.

Principales définitions de la théorie des graphes non orientés.

On appelle Graphe G = (X, U) le couple constitué par un ensemble Xet une famille U de paires d’éléments de X

[X X]

U , , On dit que X est l’ensemble des sommets{i} et U l’ensemble des arêtes {u}, u = (ij) avec i,jX. On dit que les sommets i et jsont les extrémités de l’arête (ij).

On appelle GA sous-graphe de G le graphe engendré par AX dont les sommets i,jAX et les arêtes (ij)U.

On appelle graphe partiel de G engendré par V U le graphe (X, V)dont les sommets sont tous ceux de X et les arêtes (ij)V.

Un graphe est complet si toute paire (ij) est arête du graphe : U

ij j

i

, :( ) .

Une clique est un sous graphe complet du graphe G.

On appelle chaîne la séquence (ul, u2, ... uq) d’arêtes de G telle que chaque arête de la séquence ait une extrémité en commun avec l'arête précédente (sauf u1), et l'autre extrémité en commun avec l'arête suivante (sauf uq). Nous ne considérons ici que les chaînes élémentaires c'est-à-dire celles où tous les sommets sont différents. On appelle chaîne maximale une chaîne élémentaire à laquelle on ne peut pas ajouter une nouvelle arête.

On appelle cycle une chaîne élémentaire (u1…,uq) tel que u1 = (ij) et uq = (ki). La longueur d'une chaîne ou d'un cycle est égale au nombre d'arêtes figurant dans cette chaîne ou ce cycle.

On dit qu'un graphe est connexe si pour toute paire de sommets (ij) distincts il existe une chaîne reliant ces deux sommets. On montre que si G

= (X,U) n'est pas connexe, on peut trouver une bipartition de X en X1 et X2 de telle sorte qu'aucune arête n'ait une extrémité en X1 et l'autre en X2.

Une composante connexe est un sous-graphe connexe tel qu’on ne peut y ajouter un autre sommet sans perdre la propriété de connexité.

On appelle arbreun graphe connexe et sans cycle. On montre qu'un arbre a (n-1) arêtes si n est le cardinal de X. On appelle arbre d'un graphe G connexe un graphe partiel de G qui est connexe et sans cycle.

On appelle matrice associée à un graphe la matrice dont les valeurs (ij) = 0 si (ij)G et égale à 1 si (ij)G. On peut étendre cette définition aux graphes valués. Ces graphes sont complets et chaque arête (ij)à la valeur de la cellule (ij) de la matrice.

Un graphe c’est des points et des traits les reliant. Dans la figure 6 on compte 6 sommets de a à f reliés par des arêtes que l’on écrit : (ad), (db), (ac) etc…

Si on élimine certains sommets et les arêtes qui y aboutissent on obtient un sous-graphe.

S’il existe toujours une arête entre deux sommets quelconques d’un sous-graphe on dit que c’est une clique.

Si on garde tous les sommets d’un graphe et que l’on élimine certaines arêtes on obtient un graphe partiel.

Si on va d’un sommet (d’une variable) à un autre sommet par un parcours empruntant des arêtes toutes différentes on a défini une chaîne.

Si à partir d’un sommet on parcourt une chaîne qui nous ramène sur le sommet de départ on parle d’un cycle.

Si un groupe de sommets est tel que l’on peut toujours trouver une chaîne pour joindre deux sommets quelconques de ce groupe, il est appelé composante connexe.

Si on affecte une valeur à ces traits on obtient une représentation graphique donnant la même information que la matrice de similitude : des variables et des valeurs de similitude entre chaque paire de variables qui deviennent, dans la théorie des graphes, des sommets et des arêtes valuées (un graphe valué).

(21)

Pour cela nous utiliserons la théorie des graphes15. Elle nous permet de dire qu’à toute matrice symétrique, telles que nous les avons construites avec les divers indices de similitude, correspond un graphe valué non orienté. Les objets mathématiques que propose la théorie des graphes sont en effet appropriés à la description des similitudes. Il est alors possible de nous appuyer sur les outils que nous donne cette théorie pour construire des « représentations graphiques » les plus fidèles possible.

Quelles différentes organisations d’un ensemble de variables cherche-t-on à décrire ?

Les représentations graphiques qui sont, ici, utilisées ne relèvent pas d’une représentation

« approchée » des distances exprimées par la matrice de similitude (au sens d’une représentation géométrique comme dans l’AFC) mais visent une représentation exprimant par des traits les liaisons (les proximités) entre variables. On obtient une représentation plus topologique que géométrique.

a) En premier on veut savoir si ces variables s’organisent autour de dimensions. L’analyse factorielle nous propose des axes géométriques (le plus souvent dans un espace Euclidien). Ici nous utiliserons la notion de chaîne qui informe sur l’intermédiarité et une notion plus polymorphe celle d’arbre comme ensemble de chaînes maximales. Ce dernier donne une structure16 à l’ensemble des variables. On voit sur l’exemple pourtant simple de la figure 1 qu’un arbre peut montrer l’existence de plusieurs dimensions

b) Cet arbre est un peu squelettique. Il met bien en évidence une dimension principale allant de a à f mais il ignore les cycles (a,c,d,b,a) et (c,b,e,c). Si les données ne sont pas correctement décrites par un (ou des) axe mais forment un (ou des) cycle(s) il faut abandonner l’idée d’une seule dimension explicative. Les cycles s’interprètent souvent comme le produit de deux dimensions. Dans une étude sur les exploitations agricoles on obtenait un cycle qui passait des indicateurs relatifs aux grandes exploitations céréalières à ceux des grandes exploitations viticoles puis des petites exploitations viticoles pour se terminer par ceux des petites exploitations céréalières. On pouvait alors mettre en évidence l’existence de deux critères indépendants : grand / petit et viticole / céréalier. On verra plus loin un cycle s’appuyant sur deux oppositions : pays en voie de développement versus pays développés et pays occidentaux versus pays sous influence communiste (cf. 2.4).

c) La recherche de classifications est aussi un mode classique de traitement des données. Un ensemble d’algorithmes vise à construire des classes (Classification

15 Théorie défini par Koening, 1925 et introduite en France par Berge, 1970

16 Cette structure est minimale car on ne peut lui enlever une arête sans détruire la connexité et donc l’arbre.

Soit la ressemblance établit par un seul sujet entre les variables a à f :

Sommets a b c d e f a *

b 0 *

c 1 1 *

d 1 1 0 *

e 0 1 1 0 *

f 0 0 0 0 1 *

On peut extraire de ce graphe l’arbre ci-dessus.

Cet arbre montre trois chaînes maximales (a,d,b,e,f) allant de a à f ainsi que (a,d,b,c) et (c,b,e).

Figure 1 Exemple

Références

Documents relatifs

pour les formes obtuses, elle se rattache au nombre de Reynolds, Aux courbures intermé- diaires, par exemple avec le calibre 1/8, tes deux règles s'appliquent, et Von peut obtenir

 Une similitude indirecte transforme les angles orientés en leurs opposés 2° Propriétés. Les similitudes conservent les angles géométriques, le parallélisme, le

Nous sommes alors en présence soit de l’identité si b est nul, et alors tout point du plan est fixe, soit d’une translation non triviale et alors aucun point n’est fixe2.

Théorème : Toute similitude qui admet deux points fixes A et B est soit l'identité, soit la réflexion d'axe AB

Cependant, il reste la situation réelle dans laquelle le carré moyen de l’interaction est plus petit que le carré moyen de l’erreur (l’interaction est donc non significative).

On utilise ce théorème pour calculer les invariants de similitude de M (la matrice de l’exercice), en calculant les facteurs invariants de M − XI 5 comme décrit après le

• Dans le champ Niveau de confiance inscrire la probabilité que la moyenne de la population appartienne à l'intervalle dont les bornes sont données par Limite inférieure et

L’analyse de similitude, telle qu’elle est classiquement pratiquée (cf. DEGENNE et VERGES, 1973), recherche l’arbre maximum de similitude - ce qui suppose que