R
G. C ELEUX
Classification et modèles
Revue de statistique appliquée, tome 36, n
o4 (1988), p. 43-57
<http://www.numdam.org/item?id=RSA_1988__36_4_43_0>
© Société française de statistique, 1988, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CLASSIFICATION ET MODÈLES
G. CELEUX INRIA Dornaine de Voluceau, 78153 Le
Chesnay
Cedex FranceRÉSUMÉ
On établit les liens entre des critères
classiques
de classification et des modèles destatistique
inférentielle. Le critère d’inertie interclasse pour des donnéesquantitatives
estassocié aux
mélanges gaussiens.
Le critère d’information mutuelle et le critèredu X2
pour des donnéesqualitatives
sont associés au modèle des classes latentes. Cetteprésentation
inférentielle de critères
largement répandus
de classification permet uneanalyse précise
deleurs
propriétés,
de leurs imites et de leurschamps d’application.
Mots clés:
Classification,
Inertie interclasse,Mélange gaiissieil, Informaton mutuelle, X2,
Modèledes classes latentes.
ABSTRACT
We establish the relations between some well-known criteria for
clustering
and somestatistical models. The criteria for continous data are associated with Gaussian mixture. The Kullback information criterion and the
X2
criterion for discrete data are associated with the latent classes model. Thispresentation
ofclustering
criteria in an inferencial framework allows us tostudy
in aprecise
way the features and limits of manytechniques
of numerical classification.Keywords:
Clustering,
Inertia, Gaussian mixture, Kullbackinformation, X2
criterion, Latent classes model.1. Introduction
Les méthodes
d’analyse
des données ont été conçues dans un cadregéomé- trique
sansréférence, en général,
à des modèlesprobabilistes. Depuis quelque temps,
un nombre croissant d’auteurs s’intéressent aux
rapports
de ces méthodes à des mo-dèles
probabilistes.
Le numérospécial
"Lancaster- Toulouse"de la R.S.A. Vo1.35 n° 3(1987) témoigne
bien de cette tendance. Cette orientation de la recherche per- met bien souvent depréciser
de manièrerigoureuse
leschamps d’application
de tech-niques largement répandues
et constitue une voieprivilégiée
pour l’évaluation de la stabilité et de la validitéd’analyses statistiques multidimensionnelles,
unequestion
elle aussi d’actualité.
Dans cet
article,
nous établissons les liens étroits existants entre les critères lesplus classiquement
utilisés en classification et des critères de vraisemblance utiliséspour l’identification de
mélanges
de distributions deprobabilité. Précisément,
nousdonnons la
signification
du critère d’inertieinterclasse,
utilisé pour la classification d’individus décrits par des variablesquantitatives,
pour le modèle demélanges gaussiens,
et lasignification
du critère duX2, utilisé
pour la classification d’individus décrits par des variablesqualitatives,
pour le modèle des classes latentes. Cetteprésentation
inférentielle de critères traditionnels de classificationpermet
uneanalyse précise
despropriétés,
des limites et desproblèmes
deprotection
desméthodes
optimisant
ces critères.2. Identification d’un
mélange
fini par la classificationSoit un échantillon E =
(x1,... ,xN )
d’une variable aléatoire(v.a.)
X à valeursdans
Rd ,
dont la loi admet la densité :avec
f (., a)
est une densité deprobabilité appartenant
à une familleparamétrée
dedensités
dépendant
duparamètre a
deRS(S
>1).
Pk est la
probabilité qu’un point
de l’échantillon suive la loi de densitéf (., ak)
On
appelera les Pk, k = 1,
K lesproportions
dumélange
fini.Le
problème
consiste à estimer le nombre K decomposants
et lesparamètres
inconnus
(qk = (pk, ak), k = 1, K)
au vu de l’échantillon E. Ils’agit typiquement
d’un
problème
d’estimation deparamètres.
Les méthodes lesplus
efficaces pour le résoudre recherchent de manière itérative les estimateurs du maximum de vraisemblance desparamètres (cf. Everitt,
Hand(1981), Celeux,
Diebolt(1986),
Celeux
(1987)). Ici,
nous ne traiterons pas de cetteapproche
"estimation" duproblème.
Nous nous concentrerons surl’approche
"classification" de l’identification d’unmélange.
Cette
approche (Scott, Symons(1971),
Schroeder(1976))
consiste à redéfinir leproblème
de la manière suivante :Rechercher une
partition
P =(Pi,... PK),
K étantsupposé
connu, telle quechaque
classePk
soit assimilable à un sous échantillon suivant la loif (., ak).
Dans ce
cadre,
lesalgorithmes
utilisés sont detype
NuéesDynamiques (Schroeder (1976))
et visent à maximiser le critère de vraisemblance classifiantea
désignant (a1,...,aK)
et la fonctionL(Pk,ak)
étant la vraisemblance du sous échantillonPk
suivant la loif (., ak).
Lalgorithme
se déroule ainsi. Apartir
d’unepartition
P° en K classes del’échantillon,
onapplique
successivement deuxfonctions g
et hjusqu’à
obtentiond’une
partition
stable.g,
appelée
fonction dereprésentation,
est définie par :avec ak : estimation du maximum de vraisemblance du
paramètre
de la densitéassociée au sous échantillon
Pk.
h, appelée
fonctiond’affectation,
est définie par :avec
On montre facilement que cet
algorithme
fait croître le critère àchaque
itération. Deplus,
sousl’hypothèse
que la famille de densitésf (x, a)
est bornéesupérieurement
pour tout x et pour tout a, la suite de itérés
(an , Pn)
est stationnaire et atteint sonétat stationnaire en un nombre fini d’itérations. A la convergence, on obtient une
partition
P et une estimation desparamètres (al,..., aK).
Il est à noter que cetalgorithme
nes’attaque
pas directement à l’estimation desproportions
dumélange.
Toutefois,
à la convergence, il fournit commesous-produit
une estimation naturelle des(pk, k
=1, K)
par lesquantités (card Pk N, k
=1, K).
3.
Mélanges gaussiens
et classification de donnéesquantitatives
Pour obtenir une
partition
en K classes d’unepopulation
de N individus(x1,...,xN)
décritspar d
variablesquantitatives (xi
EIRd, i
i =1, N),
lapratique
la
plus
courante consiste à minimiser l’inertie intraclasse de lapartition, l’espace (Rd
étant muni d’unemétrique
euclidienneM,
par unalgorithme
itératif(Nuées Dynamiques, algorithme
detransferts, ...).
Suivant le choix deM,
le critère àoptimiser prend
une formeparticulière.
Dans ceparagraphe,
nous allons voir que les critères d’inertie lesplus
utiliséspeuvent s’interpréter
comme des vraisemblances classifiantes induites par desmélanges
finis de loisgaussiennes.
Dans le cas d’un
mélange gaussien,
lesparamètres (ak, k = 1, K)
s’écriventak =
(mk, 0393k)
avec Mkespérance
ducomposant
numéro kTk :
matrice variance ducomposant
numéro k.Le critère de vraisemblance classifiante s’écrit :
Irk |désignant
le déterminant de0393k.
Donc maximiser
W (a, P)
revient à minimiser le critère :que nous considérons dans la suite.
Nous allons voir ce que devient ce critère selon différentes
hypothèses
sur lesmatrices variance des
composants
dumélange.
Premier cas
0393k
=r,
Vk =1, k ;
F étantsupposé
connu. Le critère à minimiserdevient,
àune constante
près :
r étant
symétrique,
il existe une matrice T telle que r = TT’. Par lechangement
de
variable y - T-lx,
onpeut
se ramener au cas où r = I. Donc le critèrepeut
s’écrire :La
partition
étantfixée,
l’estimateur du maximum de vraisemblance de nlk est la moyenneempirique mk
de la classePk (son
centre degravité)
et le critère s’écrit alors :v
Il
s’agit
du critère de la version laplus simple
et laplus
utilisée des NuéesDynamiques (algorithmes
des "centres mobiles" ou de"réallocation-recentrage").
Cette
présentation explique
clairement lefait,
constatéexpérimentalement,
que cet
algorithme
ait tendance à donner des classessphériques
de même volume.Deuxième cas
0393k = r,
Vk =1, K;
0393supposé
inconnu. Dans ce cas, lapartition
étantfixée,
l’estimateur du maximum de vraisemblance de r est W où :
Le critère à minimiser devient :
Il se réduit donc à une constante
près (et puisque ln(x)
est une fonction croissantedex)à:
Ce critère de classification a été
proposé
parFriedman,
Rubin(1967)
et Govaert(1975)
sans aucune référence au modèlegaussien.
Le but de ces auteurs étaitpré-
cisément de proposer un
algorithme
detype
NuéesDynamiques capable
de recon-naître des classes
ayant
le mêmetype
dedispersion
maispossédant
des directionsd’allongement inconnues,
ces classes n’étant pas nécessairement assimilables à dessphères.
Pour cefaire,
ils utilisent àchaque
itération lamétrique
M =|W|1/p W -1,
en
justifiant
ce choix par desarguments géométriques.
Troisième cas
Les
rk
sont différents entre eux et inconnus. Achaque étape,
lapartition
étantfixée,
les estimateurs du maximum de vraisemblance desrk
sont lesVk = Wk
avec :
Le critère à minimiser devient :
il se réduit donc à une constante
près
à :Par
ailleurs,
le critère del’algorithme
des distancesadaptatives (Govaert (1975))
élaboré dans un cadre
géométrique
pourpermettre
de reconnaître des classes de"formes" différentes est :
En
effet,
àchaque
classePk
cetalgorithme
associe lamétrique |Wk|1/dW-1k pour
laquelle
on mesure la distance dechaque point
à son centre degravité.
Le critèrepeut
s’écrire :il devient à une constante
multiplicative près
Les deux critères ne sont pas
identiques,
mais sont trèsanalogues.
Enpratique,
lesdeux méthodes donnent des résultats
quasi identiques (cf.
Govaert(1975)).
Nous venons de voir que les
algorithmes
departitionnement
utilisant uncritère d’inertie
peuvent
seprésenter
comme des méthodes pour identifier unmélange gaussien
à l’aide d’uneclassification,
cequi
apermis
de mettre en évidenceleurs
principales caractéristiques.
Un autrepoint
mérite d’être noté. Le critère de vraisemblance classifiante ne tient pascompte
des différentesproportions
Pk. Enconséquence,
il amène à traiter lescomposantes
àparts égales quelles
que soient les valeurs des vraisproportions
et a ainsi tendance àproduire
des classes d’effectifségaux.
Ils’agit,
enpratique,
d’une descaractéristiques
laplus
nette de cetype d’algorithme.
Cette
caractéristique
a incitéSymons (1981)
à proposer un critère différent de la vraisemblance classifiante pour l’identification d’unmélange gaussien
par classification. Partant du fait que leproblème
de classification revient à estimer les Nparamètres
inconnus(o(i),
i =1, N)
aveco(i)
= numéro ducomposant dont xi
estissu,
il écrit la vraisemblance de l’échantillonsachant q = ((pk,mk,0393k), k= 1, K)
et o =
(o(i), i
=1, N), (au
facteur(203C0)-N/2 près) :
avec nk = card
Pk.
A
partition fixée,
il s’ensuit que les estimateurs du maximum de vraisemblance desparamètres q
sont :Suivant les trois cas
distingués précédemment,
il est facile de voir que maximiser la vraisemblance revient à minimiser les critères suivants :Premier cas :
0393k = r,
Vk =1, K;
T connu; on supposera, sans restreindre lagénéralité,
que F estégale
à I.Deuxième cas :
fk = F,
Vk =1, K;
F inconnuTroisième cas : les
Tk
sont différents entre eux et inconnusFondamentalement,
ces critères différents desprécédents
par l’introduction du terme -203A3Kk=1
l cardPk~n(card Pk).
En
pratique, Symons
note que ces critères ont moins tendance que lesprécé-
dents à fournir des classes d’effectifs
égaux
mais ont tendance à surestimer l’effectif desgrandes
classes. En conclusion de sonétude,
il s’interdit de recommander cetype
de critèreplutôt
que le critère de vraisemblance classifiante et invite lespraticiens
àfaire leur choix sur la base de
comparaisons
de résultats.4. Modèles de classes latentes et classification de données
qualitatives
Pour obtenir une
partition
en K classes d’unepopulation
de N individus décritspar des variables
qualitatives,
une méthodeclassique
consiste à raisonner àpartir
dutableau de données mis sous forme
disjonctive complète
et à chercher lapartition
des individus
qui,
croisée avec lesvariables,
maximise leX2
decontingence.
Celarevient à rechercher la
partition
d’inertie interclasse maximum pour lamétrique
du
X 2.
Dans cettesection,
nous allons voir que cette méthodepeut s’interpréter
comme une méthode d’identification du modèle des classes latentes. Pour mettre ce fait en
évidence,
nous étudierons aupréalable
les liens entre le modèle des classes latentes et la classification par maximisation d’un critère d’information.En
4.1.,
nous fixons les notations. En4.2.,
nousprésentons
le modèle des classes latentes en nous focalisant surl’approche
classification de ce modèle. En4.3.,
nous établissonsl’équivalence
entre cetteapproche
et la classification par maximisation de l’information mutuelle. En 4.4. nous en déduisons les liens avec la classification par maximisation du critèredu ~2
et commentons ces résultats.4.1. Notations
Soit N individus décrits
par d
variablesqualitatives.
Soit mj le nombre de modalités d’unevariable j ;
soit m le nombre total de modalités(m
=03A3dj=1 mj ).
SoitX le tableau des données mises sous forme
disjonctive complète,
à Nlignes
et m colonnes.
On
note xj~i
le termegénérique
du tableaux.x{ vaut
1 si l’individu iprésente
la modalité ~ de la
variable j
et 0 sinon. On pose :De
plus,
siPk
est une classe d’unepartition
P =(Pl, ... , PK)
desindividus,
on note4.2. Le modèle des classes latentes
L’hypothèse
du modèle des classes latentes(cf.
Goodman(1974),
Eve-ritt
(1984))
est la suivante : il existe une variablequalitative ("cachée")
à K moda-lités,
telle que conditionnellement à la connaissance de l’une de ces modalités les d variables soient mutuellementindépendantes.
Les
paramètres
de ce modèle sont lesfréquences
relatives(pk, k
=1, K)
des Kmodalités de la variable cachée ou latente et les
probabilités (aj~k, ~
=1, mj;j = 1, d ;
k =
1, K) que xj~i
= 1 sachant que l’individu iprésente
la modalité k de la variable latente. On a bien sûr03A3mj~=1 aj~k =
1 pourtoutj = 1, d
et pour tout k =1, K.
Ce modèle revient à supposer
(cf.
Everitt(1984))
que les N vecteurs binaires àm coordonnées décrivant les individus sont un échantillon du
mélange
de densités :avec
où
avec
f(x,ak)
est la densité d’une loi multinomiale multivariée deparamètre
ak .Ainsi
l’approche
naturelle pourajuster
le modèle consiste à estimer lesparamètres
dumélange.
A ce propos, notons que l’intitulé du modèle esttrompeur :
les
paramètres
du modèle des classes latentes ne sont pas des classes. Les classes que l’onpeut
déduire de l’estimation desparamètres
dumélange
en sont unsous-produit.
Par contre, pour
l’approche
classification àlaquelle
nous nous intéressonsici,
ce sont les estimés de ces
paramètres qui
sont unsous-produit
de ladécomposition
en classes de l’échantillon.
Le critère de vraisemblance classifiante s’écrit :
A
partition P fixée,
la recherchedes ak
maximisantLk
seramène,
du fait que les d lois multinomiales sont mutuellementindépendantes,
à la recherchedes ajk
=(aj1k, ..., ajmk) qui maximise Lkj=03A3mj~=1 xj~k~n (aj~k)
sous la contrainte03A3mj~= 1 aj~k=
1.Le
lagrangien
de ceproblème
s’écrit :De
03A3mj~=1 aj~k
= 1 on tire A = nk ~aj~03BB=xk nk
.Autrement dit ak est le centre de
gravité
dePk.
Il s’ensuit que le critère de vraisemblance classifiante s’écrit :
4.3.
Classification
par maximisation del’information.
Linformation mutuelle du tableau X s’écrit par définition
(cf.
Benzécri(1973)) :
Elle se
simplifie
en(du
fait quexj~i
= 0 ou1)
Soit P =
(P1,..., PK )
unepartition
des individus. Considérer P comme un résumé de l’informationapportée
par les données revient à substituer au tableaule tableau
Linformation conservée par P s’écrit donc :
Dans ce
cadre,
il est naturel(cf.
Benzécri(1973))
de rechercher lapartition qui
maximise l’information H
(P).
Par des transformations
géométriques simples,
on obtient queH(P)
s’écrive :Il s’ensuit que maximiser
H(P)
revient à maximiserOr,
à la constantemultiplicative 1 ~n2 près,
cettequantité
est la vraisemblance classiiianteC (a, P)
duparagraphe
4.2.On voit donc que rechercher la
partition
P en K classes maximisant le critère d’information mutuelle revient à identifier un modèle de K classes latentes sousl’approche
"classification".4.4. Classes latentes et critère du
X2
Le critère d’information mutuelle est peu utilisé en classification
malgré
soncaractère
naturel,
on luipréfère
le critèredu X2qui
s’écrit pour unepartition
P =(P1,...,PK)
Benzécri
(1973)
enexprime
très bien la raison :l’expérimentation
montre quel’emploi
du critère d’information ou du critèredu x2
conduitpratiquement
auxmêmes classifications et le deuxième critère induit des calculs
beaucoup plus simples.
Ce
comportement quasi identique
des deux critères aégalement
étésouligné
par Govaert(1983).
Il a introduit dans son programme de classification simultanée deslignes
et des colonnes d’un tableau de nombrespositifs
par maximisation duX2, le
calcul de l’information conservée à
chaque
itération. Sur les nombreuxexemples qu’il
a
analysés,
il a constaté que l’information croissaitsystématiquement.
D’après
les résultats duparagraphe 4.3,
onpeut
donc affirmer que,pratique-
ment, rechercher la
partition
maximisant la vraisemblance classifiante associée au modèle des classes latentes revient à rechercher lapartition
maximisant le critèred 2
Cette
analogie appelle plusieurs
commentaires :1)
Le modèle des classes latentesexige
l’estimation d’ungrand
nombre deparamètres (K 03A3dj=1 1 (mj - 1)
+ K -1) .
Pour cetteraison,
il est surtout utilisé pour des tableauxcomportant
peu de variables ou sur des tableaux de données binaires.Dans ce dernier cas, le modèle
sous-jacent
des classes latentes pour la classificationrevient à travailler sur le tableau binaire
dédoublé, pratique
courantequi
a l’intérêtde rendre les résultats
indépendants
ducodage
initial en 0 et 1(cet
intérêt devientun défaut pour
l’analyse
des données deprésence-absence, quand
seule laprésence
apporte
del’information).
2)
Chercher unepartition de X2
maximumrevient, implicitement,
à rechercher à mettre àjour
une structure en classes tellequ’à
l’intérieur dechaque
classe lesvariables observées soient
indépendantes (hypothèse
forte que Benzécri(1976) juge
peu
acceptable)
et suivent une loi multinomiale.3)
Les auteursqui
se sont intéressés au modèle des classes latentesétaient,
de
fait,
dans un cadrequi
leur apermis d’analyser
laqualité
de leurs résultats.Leurs travaux
peuvent
être mis àprofit
pour proposer des outils d’évaluation d’unepartition
obtenue par unalgorithme
de classification maximisant le critère duX2.
Notons tout d’abord
qu’il
est raisonnable de demander un nombre de classesK ~ (03A0dj=
1 mj +1) 1(m - d
+1).
Ils’agit
en effet d’une condition nécessaire pour que le modèle des classes latentes soit identifiable : le nombre des valeurspossibles
doit être
supérieur
au nombre deparamètres
à estimer.D’autre
part,
les outils d’évaluation du modèleproposés
par Goodman(1974) s’adaptent
sans modification.Ainsi,
onpeut
étudier si les estimés desparamètres
déduits de la
partition
constituent une solution localementoptimale (c’est-à-dire
une solution
unique
dans un certainvoisinage).
Pourcela,
il suffit que le Jacobien du modèle soit deplein
rang pour cette solution.Pour choisir entre
plusieurs partitions proposées
parl’algorithme
de classifi- cation(à
nombres de classes différents parexemple),
onpeut
utiliser lastatistique du X2
suivante basée sur lerapport
de vraisemblance :formule où
f~1 est
lafréquence
observée de l’évènementx1~1 i
-1,..., xd~d i
- 1et
F~1,...,~d représente
lafréquence
déduite de l’estimation du modèle pour le même évènement.Sous
l’hypothèse
que la structure latente estimée est la bonne cettestatistique
suit une loi
du ~2
àmj - K 03A3dj=1 1 (mj - 1) degrés
de liberté.Il
s’agit
d’une mesure de laqualité d’ajustement
du modèle induit par lapartition
à évaluer. Son bon usage est nous semble-t-il le suivant(cf.
Goodman(1974)) :
on retient lapartition
deplus petit
nombre de classespossible qui
fournitune bonne
qualité d’ajustement.
En effetplus
onaugmente
le nombre de classesplus l’ajustement
aura tendance à êtrebon,
maisplus
le modèle seracompliqué
et difficileà
exploiter.
4) Aitkin,
Francis etRaynal (1987)
avaient mis en évidence àpartir
de donnéesréelles la similitude des résultats des Nuées
Dynamiques
sur variablesqualitatives
avec le critère
du X2
et le modèle des classes latentes. Notons toutefois que, pour identifier le modèle des classeslatentes,
ils avaient directement estimé lesparamètres
du modèle par
l’algorithme
EM(Dempster, Laird,
Rubin(1977))
au lieu de seplacer
comme nous l’avons fait ici sous
l’approche
classification. Nous revenons sur cetaspect dans la section suivante.
5. Limites de
l’approche
classification pour lesmélanges
Dans ce
qui précède,
nous nous sommesplacés
dans le cadre desmélanges
pour évaluer les
caractéristiques
de différents critères de classification.Inversement, quelles performances peut-on
attendred’algorithmes
de classification pour l’estima- tion desparamètres
d’unmélange?
Nous avons vu que
l’approche
classification duproblème
demélanges
nes’attaque
pas directement à l’estimation desparamètres
dumélange.
D’un
point
de vuethéorique, l’approche
classification recherche des estima- tions desparamètres
dumélange
et desparamètres
de classification(o(i),
i =1, N).
Ainsi le nombre de
paramètres
à estimeraugmente
indéfiniment avec la taille de l’échantillon. Enconséquence,
les estimateurs de cesparamètres
ne sont pas conver-gents.
Deplus
lebiais,
induit par cetteapproche,
pour lesparamètres (ak,
k =1, K) peut
êtreimportant.
Cela est dû au fait que lesalgorithmes
departitionnement
cons-truisent des classes dont les
enveloppes
convexes sontdisjointes
et de ce fait estiment lesparamètres (ak, k
=1, K)
sur la base de sous échantillonstronqués
des compo- sants dumélange.
Deplus,
un théorème(Bryant,
Williamson(1978))
montre que ce biais subsisteasymptotiquement.
Théorème :
Notons a =
(a1,...,ak) et k(a,x) = min{k, 1 ~
kK/f(x, ak) ~ f (x, aj )
pourtout j = 1, K}.
Sous des
hypothèses
deréglilarité
etl’hypothèse
sensible suivanteSoit
M(a) = E(~nf(X,ak(a,x)),
alorsM(a)
a ununique
maximum en a = ao.Alors la suite des itérés de
l’algorithme
des NuéesDynamiques
a" converge p.s. vers aolorsque
N tend versl’infini.
Les auteurs
indiquent
que, en toutegénéralité,
ao est différent des vraisparamètres
a* dumélange.
Il est clair que
l’hypothèse
d’ununique
maximum au n’est certainement pas vérifiée pour de nombreuxmélanges. Cependant,
dans le mêmearticle,
desexemples
où cette
hypothèse s’applique
sontdonnées,
cequi permet
de bien mettre en évidence le biais del’approche
classification.Afin de réduire ce
biais,
des tentatives d’utilisation del’approche
classificationavec le critère de vraisemblance classifiante ont été faites en utilisant les
probabilités
a
posteriori (tk(xi), k = 1, K ;
i =1, N) d’appartenance
despoints
de l’échantillonaux
composants
dumélange plutôt
que d’affecter unilatéralement cespoints
à l’undes
composants (cf.
Cazes(1976)).
En fait
l’étape
de calcul des tk(Xi),
les ak étantfixés,
conduit àprendre,
pour tout i =1, N, tk(xi)
= 1 ou 0. C’est donc à tort queAitkin,
Francis etRaynal (1987)
affirment
qu’une
version des NuéesDynamiques prenant
encompte
lesprobabilités
d’affectation des
points
aux classes est similaire àl’algorithme
EM pour l’estimation desparamètres
d’unmélange.
En
effet,
le critère à maximiser s’écrit alors :où
Létape
de calcul destk(xi)
consiste àmaximiser,
pour tout i =1, N, l’expression
or
avec tn vérifiant :
Vk ’:f m f(xi,ak)~f(xi,am).
La borne de
03A3Kk=1 tk(xi)~nf(xi, ak)
est donc atteintepour tk (Xi)
= 1 si k = m,0 sinon.
Maintenant
quelle
est la nature de ce biais? Il est très difficile derépondre
à cette
question
en toutegénéralité.
Dans le cas desmélanges gaussiens, qui
nousintéressent
particulièrement ici,
onpossède
des éléments deréponse
assezprécis.
- Marriott
(1975)
a montré que les différences entre moyennes ont tendance à êtresurestimées,
les variances sousestimées et les différences entreproportions
sousestimées.
- Nous avons montré
(Celeux (1987))
queasymptotiquement,
pour unmélange gaussien
réel à deuxcomposants
de mêmesvariances,
l’écartpositif
entre laprobabilité
de mauvaise classification parl’approche
classification et laprobabilité
demauvaise classification par
l’approche
estimation croîtlorsque
pl(oup2) s’éloigne
de 1/2.
-
Bryant
et Williamson(1985)
ontmontré,
àpartir
desimulations,
que pour que le biais soitsupportable
il faut d’unepart
que lescomposants
dumélange
soientbien
séparés (en particulier
que les moyennes soient biendifférentes)
et d’autrepart
que lesproportions
dumélange
soient du même ordre.En ce
qui
concerne lesmélanges
associés au modèle des classeslatentes,
nousn’avons,
à l’heureactuelle, guère
d’élémentparticulier
pour l’évaluation du biais.Il est vraisemblable que les conditions énoncées ci-dessus pour que le biais soit
supportable
restent valables. Deplus,
paranalogie
avec le casgaussien,
onpourrait
penser que
l’approche
classification ait tendance à surestimer les différences entre lesprobabilités
multinomiales voire àexagérer
lesprobabilités
extrêmes(proches
de0 ou de
1). Lexemple
suivant ne confirme pas cette intuition.Nous avons
repris
des données traitées par Goodman(1974)
parl’algorihme
EM. Il
s’agit
de 216 individus caractérisés par 4 variables binaires. Lesfréquences
observées sont :
Goodman propose une structure latente à 2
composants
dont lesparamètres
sont :
Par les Nuées
Dynamiques
avec la distance duX2, la partition
en deux classesla meilleure induit la structure latente suivante :
Les résultats sont assez similaires. La différence la
plus
sensible concernel’estimation de la
probabilité ait (0.769
contre1.000). Effectivement,
les NuéesDynamiques
ontexagéré
la valeur de cetteprobabilité;
mais ce n’est pas le cas, bienau
contraire,
pour lesprobabilités a211
etai.
Références
M.
AITKIN,
B.FRANCIS,
et N. RAYNAL(1987).
- Une étudecomparative d’analyses
descorrespondances
ou de classifications et des modèles de variables latentes ou de classeslatentes,
R.S.A. Vol. 35 n° 3.J.P.
BENZÉCRI (1973) .
- Théorie de l’information et classificationd’après
untableau de
contingence. L’Analyse
desdonnées,
tome1,
Dunod.J.P.
BENZÉCRI (1976).
2014 Histoire etpréhistoire
del’analyse
desdonnées,
Cahiersde
l’Analyse
desdonnées,
Vol.1,
n° 1 à 4.P. BRYANT et J.WILLIAMSON
(1978).
-Asymptotic
behaviour of classifiation ML estimates.Biometrika,
65.R CAZES
(1976) .
-Décomposition
d’unhistogramme
encomposantes
gaus- siennes.R.S.A.,
Vol.24,
n° 1.G. CELEUX et J. DIEBOLT
(1986).
-L’algorithme
SEM : unalgorithme d’apprentissage probabiliste
pour la reconnaissance demélange
de densités.R.S.A.,
Vol.34,
n° 2.G. CELEUX
(1987).
- Reconnaissance demélanges
de densité deprobabilités
et
applications
à la validation des résultats en classification. Thèse d’état.Université Paris
9-Dauphine.
A.
DEMPSTER,
N. LAIRD et D. RUBIN(1977).
2014 Maximum likelihood estimation fromincomplete
data via the EMalgorithm (with discussion), JRSS,
B. 39.
B. EVERITT
(1984).
- An introduction to latent variable models.Chapman
andHall.
B.
EVERITT,
D. HAND(1981).
- Finite mixture distributions .Chapman
andHall.
H. FRIEDMAN et J. RUBIN
(1967).
- On some invariant criterion forgrouping
data.
JASA,
62.L. GOODMAN
(1974) .
2014Exploratory
latent structure modelsusing
bothidentifiable and unidentifiable models.
Biometrika,
61.G. GOVAERT
(1975) .
- Classification avec distancesadaptatives.
Thèse 3ecycle.
Université Paris 6.
G. GOVAERT
(1983).
- Classification croisée. Thèse d’état. Université Paris 6.F. MARRIOTT
(1975).
-Separating
mixtures of normaldistributions, Biometrics,
62.
A. SCHROEDER
(1976) .
-Analyse
d’unmélange
de distribution deprobabilité
de même
type. R.S.A.,
Vol. 24 n° 1.A. SCOTT et M. SYMONS