R EVUE DE STATISTIQUE APPLIQUÉE
G ENANE Y OUNESS G ILBERT S APORTA
Une méthodologie pour la comparaison de partitions
Revue de statistique appliquée, tome 52, n
o1 (2004), p. 97-120
<http://www.numdam.org/item?id=RSA_2004__52_1_97_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE MÉTHODOLOGIE POUR LA COMPARAISON DE PARTITIONS
Genane
YOUNESS*,
Gilbert SAPORTA*** Université Pierre et Marie Curie et ISAE-CNAM, BP Il 4661,
Beyrouth,
Liban,genane99@hotmail.com
** Chaire de Statistique
Appliquée-CEDRIC,
CNAM, 292 rue Saint-Martin, 75003 Paris, France,saporta@cnam.fr
RÉSUMÉ
Nous proposons une
méthodologie
pour comparer despartitions
d’un même ensemblede données. Nous
présentons
tout d’abordquelques
mesures decomparaison
de deux classifi- cations d’un même ensemble de données : l’indice de Rand, sous sa forme brute oucorrigée,
ainsi que sa version
asymétrique, puis
deux autres indices : lepremier
estinspiré
du test de MacNemar et le second de l’indice de Jaccard. On
présente
les écritureslogiques
et relationnelles de ces indices ainsi que leurs distributionsd’échantillonnage
sous unehypothèse
nulle d’ab-sence de liaison. Pour étudier la stabilité des classes on utilise ensuite un modèle
particulier
de
mélanges
de distributions, lesprofils
latentsqui
sert à simuler des données que l’on classe selon deux groupes de variables.Mots-clés : Classes latentes, K-means, Indices d’associations, Tests statistiques, Partitions ABSTRACT
We propose a
methodology
forcomparing
twopartitions
of the same data set. Thestudy begins by presenting
some measures ofcomparison:
the Rand’s measure of association, theasymmetric,
and the corrected one. We alsostudy
two other indices: the first is based on anadaptation
of Mac Nemar’s test, the secondbeing
Jaccard’s index. We present thelogic
formbased on
pair comparisons
for this indexes as well as theirsampling
distribution under theassumption
ofindependence. Stability
of classes is studiedby simulating
datacoming
from alatent
profile
model which is aparticular
modal of a mixture distribution and wepartition
themaccording
to 2 groups of variables.Keywords :
Latent class, K-means, Indicesof association,
Statistical test, Partitions1. Introduction
Quand
ondispose
de deuxpartitions
effectuées sur les mêmesindividus,
parexemple
avec deuxjeux
de variables ou bien avec deuxalgorithmes,
laquestion
se posenaturellement de savoir si ces deux
partitions
sont en accord ou bien si elles diffèrentsignificativement,
en un sens àpréciser.
Une manière d’aborder ceproblème
consisteà calculer un indice de concordance entre
partitions
et à définir une valeurcritique
au-dessus ou en
deçà
delaquelle
on conclura que les deuxpartitions
sont ou nonconcordantes.
À
l’indice bien connu deRand,
nous proposonsd’ajouter
deux indicesinspirés
du test de Mac Nemar et de l’indice de Jaccard. Une versionasymétrique
deRand
[CHAV 01] ] sera
utilisée pour lacomparaison
departitions emboîtées,
avec des nombres différents de classes.Il faut alors
connaître,
au moinsapproximativement,
la distribution deproba-
bilités de ces indices. Mais sous
quelle hypothèse?
Cettequestion
ne semble curieu- sement pas avoir été traitée dans lalittérature,
en tous cas pas sous deshypothèses
réalistes
[SAP 97], [SAP 02].
Eneffet,
les rares travaux connus et récents[IDR 00],
concernent la distribution de l’indice de Rand sousl’hypothèse d’indépendance.
Or cette
hypothèse
n’est évidemment paspertinente
pour laquestion posée,
car lanon-indépendance
nesignifie
pas nécessairement une forte concordance.La difficulté est de
conceptualiser
unehypothèse
nulle d’identité de deuxpartitions.
On se trouve dans une situation voisine de celle où on voudrait tester que deux variablesnumériques
sontidentiques :
or si p ==1,
on sait bien que r == 1 eton n’a donc pas de test utile de
l’hypothèse
nullequi
se trouverejetée
dès que r 1.Notre
approche
consiste à étudier la distribution des indices d’associations enengendrant
par simulation despartitions qui
devraient êtreproches
car issues d’un même modèlesous-jacent :
nous utiliserons pour cela un modèle de classes latentesrégissant
la distribution de k variables. Nouspartageons
ensuite arbitrairement les k variables en deux groupes et nous comparons lespartitions engendrées
par une méthodeclassique
de nuéesdynamiques
sur chacun de ces groupes de variables.2. Indices de
Comparaison
departitions
Comparer
deuxpartitions
revient d’une certainefaçon
à comparer deux varia- blesqualitatives
et onpourrait
penser à utiliser des indices de liaison bien connus comme le chi-2 et ses dérivés(phi-2
dePearson,
V de Cramer ouT2
deTschuprow).
Ces indices
qui
mesurent l’écart àl’indépendance
sont en fait moins bienadaptés
àla mesure de la liaison que ceux fondés sur les concordances entre
paires
d’unitésstatistiques,
et c’est pour cela que nous ne les utiliserons pas.2.1. Notations
Pi
etP2
sont deuxpartitions
des mêmes individus(ou
deux variablesqualita- tives).
N
désigne
le tableau decontingence associé, Ki, K2
les tableauxdisjonctifs
associés à
Pl et P2 ;
On a : N =Ki K2.
Chaque partition Pk
serareprésentée
par un tableau relationnelCk
dansl’espace
des
individus,
de dimension n x n, dont le termegénéral cfi’
est défini par :k - 1
si i et i’ sont deux individus dans la même classe de lapartition Pk Ckii’
= 0 sinonOn a
Ci
=K1K’1
On associe au tableau C son tableau
complémentaire,
notée C dont le termegénéral
est défini par :si i et i’ sont deux individus dans la même classe de la
partition Pk
sinonNous posons :
n = nombre d’individus
p = nombre de classes de la
partition Pl
q = nombre de classes de la
partition P2
Lorsque
l’on croise deuxpartitions,
on va s’intéresser auxpaires
d’individusqui
restent ou ne restent pas dans les mêmes classes. On a(n2) paires
d’individusreprésentés
par les 4types
suivants :a : le nombre de
paires
dans une même classe dePl
et dans une même classede P2
b : le nombre de
paires séparées
dansPl
etséparées
dansP2
c : le nombre de
paires séparées
dansPl
et dans une même classe deP2
d : le nombre depaires
dans une même classe dePl
etséparées
dansP2
On noteraégalement
A = a + b(nombre
totald’accords)
et D = c + d(nombre
total de
désaccords)
On
peut aussi,
au lieu de considérer lesQ) paires (i, i’)
considérer lesn2 paires (i, i’) (où (i, i’)
estdistinguée
de(i, i)
et où l’oncomptabilise
les npaires (i, i)).
Sia’, b’, c’,
d’désignent
leséquivalents
de a,b,
c,d,
on a alors :2.2. Formules de linéarisation
Le tableau de
contingence
croisantPl
etP2
est de dimension p x q. Il est caractérisé par son termegénéral :
nuv = l’effectif de la case
(u, v)
il est lié aux termes
généraux
des tableauxdisjonctifs
associées àPl
etP2
par la formule suivante :Les tableaux relationnels
C1
etCZ
fournissent la même information que le tableau decontingence
croisant lespartitions Pl
etP2.
Les formules de passage
contingences-paires
ont étéproposées
et démontréespar Kendall
[KEN 61]
et Marcotorchino[MAR 84], rappelons
cellesqu’on
va utiliser :2.3. Indice de Rand
symétrique
Dans le but de comparer deux
partitions
de taille p et q, l’indice d’accord leplus
utilisé est l’indice de Rand. Cet indice brut de Rand
(semblable
au taux de Kendallpour les variables
ordinales)
est lepourcentage global
depaires
en accord :On
peut
montrer que :L’indice de Rand écrit sous sa forme
contingentielle
selon Marcotorchino[MAR
91] où
on considère toutes lespaires,
ycompris
cellesidentiques
est :Il
prend
ses valeurs entre 0 et1;
il estégal
à 1lorsque
les deuxpartitions
sontidentiques.
En utilisant les formules de
linéarisation,
ELAyoubi (N.) [MAR 91] a
montré que cette dernière version de Rpeut
être écrite sous la forme relationnelle suivante :C’est avec cette formulation relationnelle
qu’Idrissi [IDR 00]
a étudié la normalitéasymptotique
de R’ sousl’hypothèse d’indépendance.
Parexemple
si les A-classes
(dans
le cas où les deuxpartitions
ont même nombre declasses p
== q =k) sont équiprobables
on trouve que suitc1ii,c2ii,
+c-1ii,c-2ii,
une loi de Bernoulli deparamètre :
1 - 2 k
-f-2 k2
on en déduit :A. Idrissi affirme ensuite que le coefficient de Rand
empirique
entre deux variablesqualitatives
à k modalitéséquiprobables
calculées sur n observations suitasymptoti- quement
une loi normale de variance :Cette
expression
de la variance supposel’indépendance
des cii’, cequi
estinexact en raison des contraintes de transitivité
(cik = cii’ci’k)
et n’est vraiequ’approximativement pour k grand (il n’y
a même pas normalitéasymptotique
pour despartitions
en deuxclasses).
2.4. Indice de Rand
corrigé
selon Huber et ArabiePour deux
partitions aléatoires,
la valeurespérée
de l’indice de Rand n’est pas nulle. L’indice de Randajusté proposé
par[HUB 85]
a pour formegénérale :
Cet indice
qui peut
être auplus égal
à1, prend
donc la valeur 0quand
l’indice= indice
espéré.
Avec une
hypothèse
de distributionhypergéométrique,
on montre que l’indice de Randcorrigé
estégal
à :L’indice maximum
Rmax
étantégal
à1,
tandis que l’indiceespéré Resp
s’obtienten
remplaçant
dansl’expression
de R nuv parnu.·n.v n
Onpeut
noterqu’on
auraitobtenu le même coefficient
RC,
si on avait fait le calcul àpartir
de R’.L’indice de Rand brut est souvent
plus
élevé que celuicorrigé.
Hubert et Arabieaffirment que la correction
augmente
la sensibilité de cet indice.L’espérance
de l’indicecorrigé
est nullelorsque
les accords entre les deuxpartitions
sont dus au hasard.Cependant
cet indicecorrigé peut prendre
des valeursnégatives lorsque
lespartitions
sont peu liées.2.5. Indice de Rand dans sa version
asymétrique
Dans le cas où on a deux
partitions
d’un même ensemble d’individus mais avec des nombres de classesinégaux,
on utilisera l’indice de Randasymétrique proposé
par
[CHAV 01].
Cet indice
asymétrique
évalue dansquelle
mesure unepartition Pl (
souventexperte)
est« plus
fine »qu’une partition ’P2. Lorsque
lapartition experte
estengendrée
par une variable
qualitative,
onpeut simplement
vouloirqu’une
classe de lapartition
obtenue contienne tous les
objets
d’une ou deplusieurs
classes de lapartition
expertePl. Pl
aura alors engénéral plus
de classes queP2
et il sembleplus
naturel d’utiliser des critères decomparaison
nonsymétrique.
On considère les deux
partitions Pl
etP2
de n individus dont le nombre de classes dePl
estsupérieur
au nombre de classes deP2. Pl
estplus
fine queP2 si, lorsque
deux éléments sont classés ensemble dansPl,
ils le sontégalement
dansP2 :
Vu =1, ...,p,
3v tel quePu
CP2v, Pu’ (respectivement P2v) désignant
lauème (respectivement Veme)
classe dePl (respectivement P2).
On cherche ainsi à mesurer l’inclusion de la
partition Pl
dans lapartition P2.
Nous
présentons
une écrituresimple
où nous considérons toutes lespaires
ycompris
cellesidentiques.
Ce critère de Rand
asymétrique,
notéRA,
est défini par :Ce critère
prend
ses valeurs dans[0,1].
SiVu, 3v
tel que’Pu’
CP;,
alorsRA = 1.
En considérant toutes les
paires d’individus,
ycompris
cellesidentiques
onpeut
écrire cette version de lafaçon
suivante :Notons que dans le cas où les deux
partitions
ont même nombre declasses,
l’indice de Randasymétrique
n’est paségal
à l’indice de Rand brut.Comme nous avons vu, il est difficile de déterminer les cas où R et RA sont nuls.
Le critère de Rand
asymétrique corrigé
utilise aussi la normalisationRA - RAesp
et vaut donc :
En notant :
Nuv
= nuv = nombre d’individusqui
sont dans les classes u dePl
et v deP2 Nu.
= nu. = nombre d’individusqui
sont dans les classes u dePl
Nuv =
nu. - nuv = nombre d’individusqui
sont dans la classe u dePl
et nesont pas dans la classe v de
P2
Nuv = n.v -
nuv = nombre d’individusqui
sont dans la classe v deP2
et nesont pas dans la classe u de
Pl
on obtient l’écriture suivante :
qui peut
être réécrite par les formules decomparaison
parpaires :
Sous
l’hypothèse d’indépendance
etd’ équiprobabilité
on trouveque E (RA’) =
1 - 1 p + 1 pq.
2.6. L’indice dérivé de Mac Nemar
Le test de Mac Nemar est un test
non-paramétrique
bien connu utilisé pour vérifierl’égalité
de deuxproportions
dans des échantillonsappariés (par exemple pourcentage
d’individus favorables à une certaineopinion
avant etaprès
une cam-pagne).
Si a
désigne
le nombre d’individusqui
ontgardé
la mêmeopinion favorable,
avant et
après, b
le nombre d’individusqui
ontgardé
la mêmeopinion défavorable,
cet d les effectifs de ceux
qui
ontchangé d’avis,
lastatistique
de testcorrespondant
àl’hypothèse
nulle selonlaquelle
leschangements d’opinion
dans un sens ou d’autre sontéquiprobables
est :Me
suitapproximativement
une loi normaleN(0,1)
sousHo.
En
adaptant
le test de Mc Nemar à l’ensemble despaires d’individus,
on aune nouvelle
façon
de mesurer la concordance entre deuxpartitions, qui
revient à sedemander si les
paires qui
sontséparées
le sont parhasard,
donc on étudie le désaccord entre lespaires
d’individus. Cet indice est d’autantplus proche
de zéro que les deuxpartitions
ne différent que « par hasard » : sous réserve que c et d ne soient pastrop grands,
ce sera un indice d’accord.On montre facilement que :
on en déduit la forme relationnelle de cet indice :
2.7. Indice de
Jaccard
L’indice de Jaccard est un coefficient d’association connu pour étudier la similarité entre
objets
pour des données binaires deprésence-absence.
Le tableau binaire suivant
représente
unexemple
deprésence-absence
de deuxindividus i et i’
quelconques
à m critères différents :On
peut
former alors le tableau suivant :où
11(i, i’)
= nombre de critères oupropriétés
que i et i’possèdent
simultanément01(i, i’)
= nombre depropriétés
que i nepossède
pas maisque i’ possède 10(i, i’)
= nombre depropriétés que i’
nepossède
pas mais que ipossède 00(i, i’)
== nombre depropriétés
que i et i’ nepossèdent
pas.L’indice de Jaccard est :
Cet indice varie de 0 à 1 et ne tient
compte
que des associationspositives (présences simultanées).
Par
analogie
avec ce cas, on définit l’indice de Jaccard d’accord entre deuxpartitions
par :on trouve alors que l’indice s’écrit :
Par les formules de passage on trouve la forme relationnelle de cet indice en
utilisant les formules de passage
contingence-paires :
3.
Méthodologie
de simulation3.1. Un modèle de classes latentes
Il faut maintenant définir ce que l’on entend par « deux
partitions
sontproches » :
notre
approche
consiste à dire que les individusproviennent
d’une mêmepartition
commune, dont les deux
partitions
observées en sont des réalisations bruitées.Le modèle de classes latentes est bien
adapté
à cetteproblématique
pourengendrer
despartitions.
Notonsqu’il
a été utilisé récemment pour la recherche departitions
consensus par Green etKreiger [GRE 99].
Plusprécisément,
commenous utiliserons des variables observées
quantitatives,
ils’agit
d’un modèle deprofils
latents selon la
terminologie
de Bartholomew et Knott[BAR 99].
On pourra consulteravec
profit l’ouvrage
édité parHagenaars
et McCutcheon[HAG 02].
TABLEAU 1
Les méthodes de variables latentes
L’hypothèse
de base estl’indépendance
des variables observées conditionnel- lement aux classes latentes :Les 7rk sont les
proportions
desclasses,
x est le vecteur aléatoire des variables observées dont lescomposantes xi
sontindépendantes
danschaque classe, f (x)
est la densité de x, et
fk(xj/k)
la densitéde xi
dans la classe k. On sait que ce modèle souffre deproblèmes
sérieuxd’identifiabilité,
mais ici il n’est utilisé que pourengendrer
des données et non pour estimer desparamètres.
Il suffit alors degénérer
des distributions
indépendantes
danschaque classe, après
avoir tiré le numéro de classe dechaque
observation selon une multinomiale deprobabilités
7rk.3.2.
L’algorithme
Pour obtenir des
partitions « proches », qui
ne diffèrent l’une de l’autre que defaçon aléatoire,
on va construire des échantillons artificiels issus d’un modèle à k classes latentes et décrits par p variablesnumériques,
que l’on supposera par commoditénormales,
mais d’autres distributions sont bien sûrpossibles.
Onpartage
ensuite arbitrairement les p variables en deux groupes et on effectue deuxpartitions
enk classes des n individus selon ces deux groupes de variables à l’aide d’une méthode
classique (les
k-means ou nuéesdynamiques.) Normalement,
ces deuxpartitions
doivent être peu
différentes,
on calcule alors l’indice de Rand dans toutes sesversions,
l’indice dérivé de MacNemar,
et l’indice de Jaccard.On obtient un échantillon de valeurs de ces
indices,
sousl’hypothèse
de« partitions proches »
en itérant Nfois,
cequi permet
d’étudier leur distribution.L’algorithme
se déroule de lafaçon
suivante pour une des N itérations :2022
Tirage
des effectifs des classes latentes selon une loi multinomialeM(n; 03C01,...,03C0k)
2022 Pour
chaque classe, tirage
de p variables normalesindépendantes (c’est
l’hypothèse
fondamentale del’indépendance
locale du modèle des classeslatentes).
2022 Obtenir une
partition Pl
sur pl variables etP2
sur les autres p - pl variables2022 Calcul des indices de
comparaison
departitions.
3.3. Résultats
expérimentaux
Nous avons
appliqué
laprocédure précédente
en nous limitant à 4 classes latenteséquiprobables,
1000 individus et 4 variables.Les
paramètres
des distributions normales ont été choisis de telle sorte que pourchaque
variablej,
la valeur absolue de la différence entre les moyennes de la distribution normale de deux classes différentes soitplus grande
d’une fois et demiede son écart
type :
|mkj - mk’j | > 1.503C3j ~j
=1, 2, 3, 4
et Vk etk’
=1, 2, 3, 4
mkj et mk’j étant les moyennesrespectives
de la variable xj dans les classes k etk’,
et aj l’écart
type
de xj.Le nombre d’itérations N vaut 1000.
Nous
présentons
dans la suite les résultats de nos simulations selon 2 choix deparamètres (effectuées
avec lelogiciel S-Plus).
3.3.1. Premier choix
Le
premier
choix deparamètres
des 4 variables normalesindépendantes
pourchaque
classe estprésenté
dans le tableau suivant :TABLEAU 2
Les distributions par classe du
premier
choixPour une des 1000
itérations,
lafigure
suivante donne larépartition spatiale
dans le
plan
des deuxpremières
composantesprincipales :
FIGURE 1
Répartition
des classes dupremier
choix3.3.2. Le critère
symétrique
de RandDans la
suite,
nousprésentons
notre démarche par l’utilisation de l’indice de Rand et celuicorrigé. Après
avoir tiré les effectifs des classes latentes selonune loi multinomiale et tiré 4 variables normales
indépendantes,
on effectue deux classifications par la méthode desk-means,
l’une P avecXi
etX2 l’autre Q
avecX3 et X4.
On calcule les valeurs des indices de Rand R’ et celui
corrigé pendant
ce calcul.FIGURE 2
Distribution de l’indice de
Rand(R’)
et de RandCorrigé(RC)
Ces
configurations
se sontreproduites
àchaque jeu
desimulations,
pour desparamètres
différents des lois normales. Notons que dans le casprécédent,
toutesles valeurs observées du coefficient de Rand sont
supérieures
à0.7,
alors quel’espérance
de R’ sousl’hypothèse d’indépendance
est de0.625,
cequi
montre bien lecaractère
inadapté
de celle-ci. Avec 1000observations,
onrejetterait l’indépendance
si R’ > 0.65 au
risque
de 5 % mais cela ne suffit pas pour montrer que les deuxpartitions
sont« proches ».
On ne
peut cependant
proposer de seuil designification
pour chacun descoefficients,
car les distributionsdépendent
non seulement du nombre declasses,
de leursproportions
mais aussi de leurséparabilité qui
est liée auxparamètres
desdistributions normales.
On remarque que les deux indices ont une distribution de même allure
(Fig. 2).
Mais n’oublions pas que l’indice de Rand dans son cas
corrigé peut
avoir des valeursnégatives.
Nous
représentons
dans lafigure
3 la densité de la différence(R’ - RC)
de cesdeux indices.
La différence entre l’indice de Rand R’ et celui
corrigé
par Hubert[HUB 85]
est très
proche
d’une distribution normale de moyenne de 0.19.FIGURE 3
Densité de la
différence
entre l’indice deRandR’
et celuicorrigé
3.3.3. Les indices dérivés de Mc Nemar et de Jaccard
Comme l’indice de Rand donne la même
importance
auxcouples
d’individusqui
sont dans la même classes de deuxpartitions, qu’à
ceuxqui
ne sont pas dans lamême classe pour les deux
partitions (accord négatif),
on utilise la même démarcheen calculant les indices de Mc Nemar et celui de Jaccard pour 1000 simulations.
FIGURE 4
Distribution de l’indice de Mc Nemar et de Jaccard
L’indice de Mc Nemar est à
majorité
distribué autour de zéro montrant ainsique pour un
risque
de 5 %l’hypothèse
nulle est vérifiée. La distribution de l’indice de Jaccardprésente
des valeurssupérieures
à 0.4 dont la valeur laplus fréquente
estde 0.63. On remarque encore ici une bimodalité
surprenante.
3.3.4. Le critère
asymétrique
de RandLa même
procédure
est utilisée pour trouver les variables normalesindépen- dantes,
en effectuant deux autres classifications : lapremière partition Pl
deXl, X2
et
X3
formée de 6classes,
et la deuxièmepartition P2
deX4
formée de 3 classes par la méthode des k-means.Dans ce cas, on cherche à évaluer dans
quelle
mesure les classes dePl
sont incluses dans celles deP2.
On calcule alors l’indice de Randasymétrique
RA’ etcelui
corrigé
aussi 1000 fois.On trouve les résultats suivants :
FIGURE 5
Distribution de l’indice de Rand
asymétrique
et de Randcorrigé
On remarque que les valeurs de l’indice de Rand
asymétrique
RA’ sontsupérieures
à 0.92. Par contre celui de Randasymétrique corrigé prend
ses valeurs àpartir
de 0.36.FIGURE 6
Répartition
de la densité de ladifférence
de l’indice de Randasymétrique
RA’ et de Randcorrigé RAC
La
représentation graphique
de la densité de la différence entre l’indice de Randasymétrique
et celuicorrigé (RA’ - RAc)
est donnée dans lafigure
6.La différence de RA’ et
RAC
estapproximativement
une distribution normale de moyenne 0.435.Afin de comparer l’indice de Rand brut
R’
et celui de Randasymétrique RA’,
on
représente
la distribution de Rand brutR’
pour cette mêmepartition (Figure 7) :
FIGURE 7
Distribution de l’indice de Rand R’
des partitions asymétriques
Contrairement à ce
qu’on
a trouvé dans les résultats despartitions symétriques,
on a une distribution modale dans tous les cas de l’indice de Rand. Cela revient à conclure que ces distributions
dépendent
du nombre de classes danschaque partition.
3.4. Deuxième choix
de paramètre
Le
graphique
suivant dans leplan
des deuxpremières composantes principales
montre la
répartition spatiale
d’une des 1000 itérations.FIGURE 8
Répartition
des classes du deuxième choixTABLEAU 3
Les distributions par classe du deuxième choix
Afin de tester
l’algorithme
dans différents choix deparamètres
de distributionsnormales,
on a choisi un cas où les classes sont nettementséparées.
On trouve unedistribution de Rand R’ non bimodale
(Figure 9)
et de valeurégale
à 1. Il est clair que la distribution de l’indice de Randdépend
de laséparation
desclasses,
de nombred’individus et du nombre de classes.
3.5. Autres choix de
paramètres
On
présente
maintenant d’autres simulations de l’indice de RandR’
avec 4nouveaux choix de
paramètres
des distributions normales pour les 4 variables à 4 classes latenteséquiprobables.
Les deuxpartitions Pl
deXl, X2, et P2
deX3, X4
sont formées
toujours
par la méthodes de k-means. Le nombre d’itérations N vaut 500.FIGURE 9
Distribution de l’indice de Rand brut R’ et R selon le deuxième choix de
paramètres
TABLEAU 4
Le choix de
paramètres
par classes pour 4 nouveaux casTABLEAU 5
La moyenne de l’indice de Rand R’ selon les distributions par classe de 4 nouveaux choix
En effectuant 500
itérations,
l’indice deRand R’ prend
des valeurs de moyennes 0.9 même si laséparation
des classes n’est pas trèsgrande (cas
1 et2)
donc cet indicedépend
deplus
du nombre de classe et du nombre d’individus.3.6. Variations du nombre de classes
Pour 1000
itérations,
et pour untype
de choix deparamètres,
on cherche lamoyenne de l’indice de Rand
R’,
de Mc Nemar et deJaccard,
en faisant varier le nombre de classes k de 3 à 5. On trouve les résultats suivants :TAB LEAU 6
Moyennes
des indices selon le nombre de classes latentes k en 1000 itérationsFIGURE 10
Distribution de l’indice de Rand brut R’ selon les nouveaux choix de
paramètres
FIGURE 11
Distribution de l’indice de Rand brut
R’,
de l’indice de Jaccard et de Mc Nemar dans le cas de 5 classes
Les moyennes de l’indice de Rand R’ et de l’indice dérivé de Mc Nemar croissent
lorsqu’on augmente
le nombre de classes latenteséquiprobables.
Par contrel’indice de Jaccard varie en sens inverse du nombre de classes. Cela
peut
êtrenormal,
car en
augmentant
le nombre declasses,
lespaires
d’individus(i, i’) qui
sont dansune même classe dans la
première partition
ont peu de chance de rester ensemble dans la deuxièmepartition.
Pour un cas choisi du nombre de classe
(k = 5),
on trouve la bimodalité de la distribution de Rand àpartir
de 0.86. Les valeurs observées de l’indice de Jaccard sontsupérieures
à 0.45. Pourtant les valeurs lesplus fréquentes
de l’indice de Mc Nemar sont à zéro.3.7.
Comparaison
entre la moyennethéorique
et
expérimentale
de l’indice de Rand R’L’espérance théorique
de l’indice de Rand selon Idrissi sousl’hypothèse d’indépendance
est donnée par la valeur suivante :En
changeant
le nombre de classes k d’unepartition,
on trouve pour 1000 itérations les moyennes de l’indice de Rand par simulation en utilisantl’algorithme proposé :
TABLEAU 7
Moyenne théorique
et moyenneexpérimentale
de l’indice de Rand R’selon le nombre de classes k en 1000 itérations
La moyenne de Rand
théorique
croît avec le nombre declasses,
mais ce n’estpas
toujours
le cas pour la moyenneexpérimentale
trouvée par simulation.La différence entre les valeurs
théoriques
etexpérimentales
croit de -23 % à -9 %lorsque
le nombre de classes despartitions augmente,
mais elle décroît envaleur absolue.
3.8. Sur la bimodalité
On a pu remarquer le caractère bimodal de la distribution du coefficient de Rand brut
R’
avec un mode secondairecorrespondant
à environ 10 % des caslorsque
laséparation
des classes n’est pasgrande.
Cephénomène peut
en faits’expliquer
par lecaractère
non-optimal
de la méthode de classification utilisée : on sait que les k-means fournissent une solutiondépendant
du choix initial des centres. Or laprocédure
utiliséedans S+ fait une classification
hiérarchique
ascendante avant de lancer les k-means etpart toujours
de la même initialisation obtenue àpartir
d’une coupure en k classesde l’arbre
hiérarchique.
En modifiant le choix initial des centres par laprocédure
FASTCLUS de SAS nous avons pu obtenir des
partitions
finales différentes(souvent
meilleures au sens de
l’inertie)
et uneaugmentation
de l’indice de Rand. Enappliquant
une deuxième fois la méthode des k-means aux 10 % de valeurs
correspondant
aumode
secondaire,
on a pu obtenir uneaugmentation
sensible de R’.FIGURE 12
Distribution de l’indice de Rand R’ en
appliquant
une etdeux fois
les k-means4. Discussion
L’utilisation d’un modèle de classes latentes a
permis
d’aborder leproblème
de la
proximité
de deuxpartitions.
Celle-cipeut-être
mesurée par l’indice de Rand brut oucorrigé,
ainsi que par sa versionasymétrique
et par les deux indices dérivés de Mac Nemar et celui de Jaccard.On a fait deux choix de
paramètres
des variables normales pour comparer les résultats trouvés.L’indice de Rand dans sa version
utilisée,
donne la mêmeimportance
auxcouples
d’individusqui
sont dans la même classe dans les deuxpartitions, qu’à
ceuxqui
ne sont pas dans la même classe pour les deuxpartitions (accord « négatif »),
cequi
est contestable. D’où l’utilisation des autres indices decomparaison.
L’indice de Mc Nemar s’intéresse auxcouples
d’individusqui
ontchangé
de classes(désaccord).
L’indice de Jaccard mesure l’accord
positif
despartitions.
La distribution de ces
indices, qui
est très différente de celle obtenue sousl’hypothèse d’indépendance,
n’a été étudiée que par simulation et dans des casparticuliers.
Il est clair que ces distributionsdépendent
du nombre de classes despartitions,
des nombres d’individus et de laplus
ou moinsgrande séparation
desclasses,
etc. cequi empêche
de donner des bornes universelles. Des études parbootstrap
oupermutations
aléatoirespermettraient
de trouver des bornes ad hoc.Références
[BAR 99]
BARTHOLOMEW D.J.,
KNOTTM.,
Latent Variable Models and FactorAnalysis, Arnold, London,
1999.[CHAV 01]
CHAVENT M. etal.,
« Critère de Randasymétrique », Congrès de la SFC,
Pointe àPitre,
décembre 2001.[DAY 83]
DAYW.H.E,
« The Role ofComplexity
inComparing
Classifications »,Mathematical
Biosciences, 66,
97-114,
1983.[GRE 99]
GREENP.,
KREIGERA.,
«A Generalized Rand-Index Method for ConsensusClustering
ofSeparate
Partitions of the Same DataBase »,
Journalof Classification, 16, 63-89,1999.
[HAG 02]
HAGENAARSJ.A.,
MCCUTCHEON A.I.editors, Applied
LatentClass
Analysis, Cambridge University Press,
2002[HUB 85]
HUBERTL.,
ARABIEP., « Comparing partitions
», Journalof
Classi-fication, 2, 193-198, 1985.
[IDR 00]
IDRISSIA.,
Contribution àl’unification
de critères d’association pour variablesqualitatives,
Thèse de doctorat de l’Université de Paris6,
2000.[KEN 61]
KENDALLM-G,
STUARTA.,
The AdvancedTheory of Statistics,
Vol2, Griffin, Londres,
1961.[MAR 84]
MARCOTORCHINOJ.F.,
Utilisation desComparaisons
par Paires enStatistique
desContingences (Partie II), Étude
du CentreScientifique
IBM
France,
NoF069,
1984.[MAR 91]
MARCOTORCHINOJ.F.,
EL AYOUBIN., « Paradigme logique
desécritures relationnelles de
quelques
critères fondamentaux d’associa-tion »,
Revue deStatistique Appliquée, XXXIX , 2, 25-46,
1991.[MILL 86]
MILLIGANG.W.,
COOPERM.C.,
«Astudy
of thecomparability
of external criteria for hierarchical cluster
Analysis »,
Multivariate BehaviorResearch,
vol.21, 441-458,
1986.[SAP 97]
SAPORTAG.,
«Problèmes Posés par laComparaison
de Classifica- tions Dans desEnquêtes
Différentes »,53ème
session de l’Institut In- ternational deStatistique, Istanbul,
août 1997.[SAP 02]
SAPORTAG.,
YOUNESSG., «Comparing
twopartitions:
someproposals
andExperiments », Proceedings in Computational Statistics,
W. Härdle