R EVUE DE STATISTIQUE APPLIQUÉE
A NNE S CHROEDER
Analyse d’un mélange de distributions de probabilité de même type
Revue de statistique appliquée, tome 24, n
o1 (1976), p. 39-62
<http://www.numdam.org/item?id=RSA_1976__24_1_39_0>
© Société française de statistique, 1976, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
39
ANALYSE D’UN MÉLANGE DE DISTRIBUTIONS
DE PROBABILITÉ DE MÊME TYPE(1)
Anne
SCHROEDER Iria-Laboria(Rocquencourt)
On a
présenté
dans des articlesprécédents (DIDA Y,
SCHROEDER -1974)
unalgorithme itératif
de reconnaissance descomposants
d’unmélange
de densités deprobabilité qui
utilise des méthodes d’estimationclassiques.
Intervient en
particulier
celle du maximum de vraisemblancequi
permetl’optimisation
d’un critère de vraisemblance.Dans ce
papier,
la méthode estgéneralisée
defaçon
àpouvoir optimiser
ce même critère dans des
mélanges
de distributions dont lesparamètres
inconnus ne
peuvent
être calculés par le maximum devraisemblance,
parexemple
lesmélanges
de lois Gamma.Enfin
uneapplication
en modélisation desystèmes informatiques
est brièvementprésentée.
Pages
1. Introduction ... 40
1.1. Le
problème ...
401.2. Différentes
approches ...
401.3.
Approche proposée ...
412.
L’algorithme proposé ...
432.1. Schéma
général ...
432.2. Schéma
simplifié ...
452.3.
Propriétés ...
462.3.1.
Convergence ...
462.3.2. Estimation de la distribution
globale ...
482.4. Choix
particuliers
de méthodes d’estimation et critères associés ... 482.4.1. Méthode du maximum de vraisemblance ... 48
2.4.2. Variante liée à la méthode des moindres
carrés...
503. Cas
particuliers
de deux familles de distributionsusuelles ...
513.1. Lois
gaussiennes multidimensionn elles ...
513.2. Lois
Gamma...
55(1) Article remis en Janvier 1975, révisé en Décembre 1975
Revue de Statistique Appliquée, 1976 vol. XXIV n° 1
Pages
4. Une
application :
aide à la modélisation desystèmes informatiques ..
605.Conclusion ... 60
Bibliographie...
61* *
*
1 - INTRODUCTION 1.1. - Le
problème
Une des tâches courantes de la
statistique
consiste à déduire d’un échan- tillon observé -une distribution deprobabilité
sur lapopulation-mère
dont cetéchantillon est tiré. Cette estimation
peut
être un but ensoi,
maisn’est,
la
plupart
dutemps, qu’un
intermédiaireindispensable
pour pousserplus
avant
l’analyse statistique
par des tests, l’établissement d’unmodèle,
etc.Compte
tenu, soit de la naturephysique
duphénomène observé,
soit de l’échantillonlui-même,
onpeut
être conduit au choix d’une loi de distri- bution detype
connu(binomiale, r, gaussienne
à une ouplusieurs dimensions, Wishart, etc.).
Mais bien souvent, l’existence de
plusieurs
sources aléatoires àl’origine
du
phénomène,
ou bien l’observation d’unhistogramme
manifestement multi- modalindiquent
que la distribution de lapopulation-mère peut
être unmélange
de lois deprobabilité simples
etrégulières.
Se pose alors leproblème
d’estimer à
partir
d’un échantillonfini,
lesparamètres
des différentes distri- butions intervenant dans lemélange.
Si on suppose connus le nombre k de
composants
dumélange
et lafamille de lois de
probabilité (f03BB/03BB~L) à laquelle appartiennent
les distri- bution des différentscomposants,
la densité dumélange peut
s’écrire :xj =
valeur duparamètre
X dontdépend
la famille(f03BB),
pour leje composant.
où
Pj = probabilité
apriori d’apparition
due composant.
et le
paramètres
inconnus à estimer sont les(Pj / 1k) et
les(03BBj/1 ~j~k).
1.2. - Différentes
approches
Il existe un
grand
nombre detechniques
pour estimer lesparamètres
d’un
mélange.
Les
plus classiques
sont destechniques d’estimation, qui, posant
apriori
le modèle(1),
estiment directement lesparamètres
à l’aide d’estimateurscalculés sur les
observations ; plus récemment,
ont été mises aupoint
destechniques
detype bayesien, d’apprentissage,
etc.qui procèdent
parapproxi-
mations
successives,
liées à l’introduction des observations pour estimer lesparamètres.
Sauf mention expresse, ces méthodes
requièrent
l’entrée du nombrede
composants.
Les
techniques
dupremier type
ne diffèrent que par la méthode d’esti- mationqu’elles
utilisent : méthode des moments(PEARSON (1894))
avecestimateurs du maximum de vraisemblance
(RAO (1948)
DAY(1969))
dux2 minimum,
etc. Laplupart
d’entre elless’appliquent
auxmélanges gaussiens
et sont souvent restreintes aux distributions unidimensionnelles.Citons par
exemple :
RAO(1948), qui
résoud le cas demélanges
à 2 compo- sants, BATTACHARYA(1967) qui
donne une méthodegraphique
d’évaluation du nombre decomposants mais,
d’unepart,
nécessite un trèsgrand
nombre d’observations(# 10 000)
et d’autrepart, requiert
que les distributions-mères soient relativementséparées.
Uneprésentation générale
de ce genre de méthode est donnée dans DOROFEYUK(1971).
Une
approche
sensiblement différente duproblème
de l’estimation du modèle(1)
est celle de COOPER et COOPER(1964) :
lesparamètres
inconnusdu modèle sont calculés à
partir
des moments de la distributionglobale
observée.
Chez tous les auteurs, l’extension des méthodes au cas multidimensionnel nécessite de nombreuses
hypothèses supplémentaires :
parexemple,
DAY(1969)
et COOPER et COOPER(1964)
n’abordent sur leplan pratique
que le cas de deux distributions ne différant que par leurs moyennes.Les
approches
du secondtype
sont diverses : laplupart
d’entre ellesse rattachent aux
techniques
d’estimationbayesienne :
PATRICK et HANCOCK(1966),
PATRICK et COSTELLO(1970),
AGRAWALA(1970).
Leshypo-
thèses nécessaires diffèrent de l’une à l’autre mais sont en
général
très contrai-gnantes.
YOUNG et CORRALUPI(1970) présentent
unalgorithme d’approxi-
mation
stochastique
basé sur un critèred’information ;
bienqu’exclusivement applicable
auxmélanges gaussiens unidimensionnels,
cetalgorithme
sembletrès
performant
et al’avantage
de ne pas demander que soit fixé le nombre decomposants
dumélange
contrairement à l’ensemble des autres méthodes.L’ensemble de ces méthodes
d’approximation permet
de formaliser leproblème
de la résolution desmélanges
en termesd’apprentissage
avec ou sansmaître
(AGRAWALA (1970),
PATRICK(1972),
DUDA et HART(1973).
Pour le cas
particulier
desmélanges gaussiens
unidimensionnels J.P. BENZECRI propose une méthode basée sur une série de déconvolutions sucessives(cf. (2))
realisée et testée par P. CAZES.1.3.
Approche proposée
Dans la
pratique,
choisir la famille(f03BB/03BB
EL)
est assezsimple :
loisgaussiennes lorsqu’on
a peu d’information apriori,
maisbeaucoup
d’observa-tions ;
loisr, x2
oulog-normale lorsque
lephénomène
est essentiellementpositif
ou l’échantillon nettementasymétrique,
etc.Au
contraire,
choisir le nombre decomposants peut
êtrebeaucoup plus
délicat. La connaissance que l’on a de la nature duphénomène
observéindique parfois
cenombre,
mais laplupart
dutemps,
iln’y
a pas de moyen de la connaître apriori.
Même dans le casunidimensionnel,
l’observation d’unhistogramme
est évidemment insuffisante.Par
rapport
à ces deuxchoix, l’algorithme
de reconnaissance des compo- sants d’unmélange
que nous proposonsprésente
une certainegénéralité
car, d’unepart
la famille de densités cherchée est laissée au choix de l’utilisateur et d’autrepart
larapidité
des calculspermet
del’appliquer plusieurs
foisen se fixant des nombres de
composants
différents et encomparant
ensuite les estimations obtenues pourchaque
essai.Il
s’agit
d’unalgorithme
itératif détectantparallèlement
unepartition
en classes de l’échantillon observé et des distributions associées à ces classes.
Cette idée de la recherche simultanée d’une
partition
et de"noyaux"
caractéristiques
des classes de cettepartition
a été initialement utilisée enclassification
automatique
nonhiérarchique :
ils’agit
de la méthode des NuéesDynamiques
dûe à E.DIDAY ;
les noyaux sont alors des éléments d’un échantillon à classer. DIDAY expose la méthode en(8)
et propose l’utilisation du même schéma avec des noyaux de diverstypes
en vue de résoudre desproblèmes spécifiques :
parexemple,
enprenant
comme noyaux les élémentsprincipaux
d’inertie desclasses,
la méthode fournira desanalyses
factorielles locales à forte inertie(Analyse
FactorielleTypologique (11)) ;
si les noyaux sont des
polynômes d’interpolation
d’unpoint
moyen desclasses, l’algorithme permet
de reconstituer les donnéesmanquantes
d’un tableau en tenantcompte
des donnéesprésentes
pour regrouper les observationsen classes et réduire ainsi le nombre
d’interpolations
àeffectuer, (lissage typologique, développé
par Y.OK).
Pour aborder le
problème
desmélanges
de distributions deprobabilité,
le même schéma sera à nouveau utilisé en
prenant
cette fois comme noyaux des distributions deprobabilité.
Dans un
premier temps
nous avions étudié une formeparticulière
del’algorithme
utilisant la méthode d’estimation du maximum de vraisem- blance etoptimisant
un critère de vraisemblance«10), (11)).
Dans(22),
cette variante est
replacée
dans un contexteplus général qui permet
d’étendre la méthode à d’autrestechniques
d’estimation liées àl’optimisation
d’autrescritères ; l’aspect pratique
y estégalement plus largement développé.
Dans ce
papier,
nous nousplacerons
à un nouveau niveau degénérali-
sation : une
étape
du schéma introduit par E. DIDAY etrepris
en(22)
consiste àchaque
itération à passer d’unepartition
à un ensemble de noyauxen
optimisant
la fonction critère choisiequi
est fonction ducouple (partition,
ensemble de
noyaux) ; ici,
cetteétape
n’estplus
uneoptimisation
maisseulement une amélioration du critère et les
propriétés
de convergence sont démontrées sous cette nouvellehypothèse.
Comme on le verra dans lasuite,
cette modification
élargit
considérablement lespossibilités d’application
del’algorithme ;
une transformation "améliorante" estbeaucoup plus
facile àdéfinir
qu’une
transformationoptimale. (Cette
extension àégalement
étéutilisée en classification avec distances
adaptatives
par GOVAERT(9)).
L’application
immédiatequi
en sera faite sera celle del’analyse
desmélanges
de distributions Gamma avecoptimisation
d’un critère de vraisem- blance.Trouver,
pour un échantillondonné,
lesparamètres
d’une distribution Gammaqui
améliorent sa vraisemblance parrapport
à desparamètres
antérieursest en effet facile alors que ne l’est pas l’estimation de ces
paramètres
par le maximum de vraisemblance.En
entrée,
on demande :- l’échantillon à
analyser (taille
et dimensionquelconques)
- la forme de la famille des lois de
probabilité
cherchées(lois gaussiennes,
lois
multinomiales,
lois gamma, éventuellement famille exponen-tielle, etc.).
- le nombre de
composants
recherchés dans lemélange.
En
sortie,
on obtient unepartition
de l’échantillon en k classes et k lois deprobabilité qui
leur sont attribuées.Dans un
premier paragraphe,
onindiquera
le schémagénéral
del’algo-
rithme de reconnaissance des
mélanges proposé.
Sespropriétés
seront ensuitedonnées
précisément.
Puis deux casparticuliers
d’estimation seront étudiés.Enfin,
on examinera lecomportement
del’algorithme
pour deux familles de distributions usuelles. et onprésentera
uneapplication
eninformatique.
2 - L’ALGORITHME PROPOSE 2.1. - Schéma
général
Soient
E,
sous ensemble fini deRq,
l’échantillon dont ondispose,
et(fx/X
GL)
la famille des densités deprobabilité
àlaquelle
on suppose que les distributions des différentscomposants appartiennent ;
À est un’paramètre
réel ou vectoriel et L son espace de définition - L C Rs -
(par exemple
si(f03BB/03BB
EL)
est la famille des distributionsgaussiennes
surRq,
X =(03BC,03A3)
où03BC E Rq est le vecteur moyen de la distribution et E est sa matrice de covariance.
E E & = espace des matrices réelles
symétriques
définiespositives
de rang q - alors L = Rq x E CRq(q+3)/2).
On notePk
l’ensemble despartitions
de Een k
classes,
etLk l’ensemble
desk-uples
d’éléments de L .L’algorithme
se déroule alors de lafaçon
suivante : Partant d’uneparti-
tion initiale
quelconque (Po1, P’,..., Pok)
EPk
deE,
ou bien d’unquelconque k-uple
de valeurs duparamètre
inconnu(03BBo1, 03BBo2, ... , 03BBok),
onapplique
successi-vement les deux fonctions suivantes
jusqu’à
l’obtention d’éléments stablesde
Lk
etPk :
.puis
Plus
précisément
f et g sont définies comme suit :avec L =
(03BB1 ,..., 03BBk)
et P =(P1, ... , Pk)
tels qued
i,
1 ~ i ~ k :Pi
est l’ensemble des observationsqui
sontplus "proches"
de la loi
f03BBi
que de toutes les autres(avec
choix duplus petit
indice en casd’égalité éventuelle).
Il faut pour
cela,
se donner une fonction D mesurant la "distance"d’une
observation x E E à une distributionf03BB :
Le choix de cette fonction
peut
se faire de diversesfaçons
selonl’optique statistique
danslaquelle
on seplace :
Une observation x
peut
être considérée comme"proche"
de la valeurdu
paramètre inconnu,
si la valeurfA (x)
estgrande,
ou bien si x estproche
del’espérance mathématique
def03BB,
etc.(Différents
choix de D seront vus en détail auparagraphe 2.3).
Alors :
avec
Notons R la fonction suivante :
(J(E)
est l’ensemble desparties
deE)
alors,
tel que, pour tout i
(1
1 ik),
ui "améliore" la "ressemblance" dePi
à sadistribution
fli,
au sens suivant :(s’il
n’existe pasde 03BCi ~ Ai
vérifiant cetteinégalité stricte,
ongardera
03BCi =Xi)
Le critère alors
optimisé
sera fonction de lapartition
P* et duk-uple
L*de
L,
obtenus à la convergence, et aura la forme :on
appellera (v.) = (Ln, Pn)
la suite descouples
deLk
xPk
fournis parl’algorithme
et(un)
celle des valeursprises
par le critère sur les(vn) :
tels que :
2.2. - Schéma
simplifié
Il arrivera que l’on soit
placé
dans le casparticulier
où D est telle que : pour tout A CE,
il existe un minimumunique
en X à la fonctionalors la fonction g
peut
faire mieuxqu’ameliorer,
elleminimise,
et nedepend
alors que de la seule
partition,
c’est-à-dire :Le schéma
(2)
del’algorithme prend
alors la formesimplifiée
suivante :Dans ce cas, les
paramètres 03BBi
sont donc estimés àpartir
des k classesPi
considérées commeéchantillons ;
selon le choixqui
aura été fait pour la fonctionD,
la fonction g définira une certaineprocédure
d’estimation.On verra dans le
paragraphe
2.4.quelques techniques
usuelles d’estimation pouvant ainsi êtreutilisées,
chacune de ces méthodes étant associée àl’opti-
misation d’un critère
statistique
différent.2.3. -
Propriétés
del’algorithme
2.3.1. -
Convergence Définition
1 :Une suite
(L’ , P" )
deLk
xPk
sera dite convergente si elle eststationnaire,
c’est-à-dire si il existe un entierM,
tel que :Définition
2 :Dans le cas
particulier
où R(03BB,A) = 03A3
D(x,X)
admet pour toutxEA
A C
E,
un minimumunique
enÀ, (cf.
schémasimplifié 2.2)
on diraqu’un (L, P)
est non-biaisé pour les fonctions f et g, s’il est tel que. :C’est-à-dire que
chaque Pi
est constituée des éléments de E lesplus proches de Xi
au sens deD,
tandis que lesXi
sont tel que :Les deux théorèmes suivants assurent la convergence de
l’algorithme
général :
Théorème 1 :La suite réelle
(un) = (W (vn))
décroît et converge vers un minimum local u*.Démonstration :
Pour démontrer la décroissance de
(un),
W(Ln, Pn) ~ W (Ln-1,Pn-1),
on vérifiera successivement les deux
inégalités :
et
et
Comme pn = f
(Ln), chaque partie Pf
estprécisément composée
deséléments x de E tels que :
avec j
i en casd’égalité,
d’où immédiatementl’inégalité a).
et
Comme Ln = g
(Ln-’ , pn- 1), l’inégalité b)
résulte directement de la dé- finition de g.(un)
est doncdécroissante,
comme elle est deplus
réelle etpositive,
donc bornée
inférieurement,
sa convergence est assurée.De
plus,
E étantfini,
les espacesPk
et g(Lk
xPk)
le sont aussi(pour
unL°
fixé)
et donc les suites(un)
et(vn)
nepeuvent prendre qu’un
nombre fini de valeurs.Comme
(un)
converge, elle atteint donc sa limite :Théorème 2 :
La suite
(vn)
converge dansLk
xPk
et atteint sa limite(L*, P*).
Démonstration :
Il a été vu au théorème 1 que la suite
(un) = (W (L’, Pn))
est station-naire,
on a donc :et encore,
d’après
la doubleinégalité a)
etb)
du théorème 1 :la
première égalité
s’écrit aussi :Or,
comme L" = g(L"-1 , pn-1)
on sait que les(03BBni/1
ik)
sont tels que :avec
égalité
si et seulement siÀf = Àr-
1 cequi
est donc iciprécisément
le cas
puisque
les sommes de cesquantités
sontégales.
Enconséquence :
La suite
(vn )
est donc bien stationnaire : elle converge enatteignant
sa limite
(L* , P*).
(CQFD)
De la stationarité de
(vn),
on déduit immédiatement le résultat suivant : Corollaire :Dans le cas
particulier
du schémasimplifié 2.2,
la limite(L* , P*)
de(v n)
est un élément non-braisé.
2.3.2. - Estimation de la distribution
globale
Notons d’abord que le critère W
(L, P)
que nous cherchons à minimiser passe par un minimum local aucouple (L* , P*)
non-biaisé obtenu à la conver-gence de
l’algorithme.
Cetoptimum
localdépend
évidemment de lapartition
initiale
quelconque P°.
En
pratique, il
sera utile deprocéder
àplusieurs tirages
aléatoires pour P° etd’interpréter
lescouples (L* , P*)
obtenus en fonction des valeurs corres-W
(L*,P*)
du critère.(On
trouvera dans(22)
desprécisions
sur de telstirages
et sur leursfréquences d’apparition)
Supposons
que E soit un échantillonreprésentatif
d’une distribution demélange
surRq,
de densité :où les
Pi sont
desparties disjointes
de Rq et lesf03BBi
des densités deprobabilité dépendant
deparamètres Xi
E Rs. Ceci revient à supposer que les observations sont issues de kphénomènes
aléatoires deprobabilités
apriori Pi ayant
chacun une loi de
probabilité
différentef03BBi.
Sous ces
hypothèses, l’algorithme proposé
donne la solution suivante : lesfÀ.
i sont données par L* et les Prob(x
EPi)
estimées par lesfréquences
1 Pt |
Noù | P*i | =
card(P*i).
2.4. - Choix
particuliers
de méthodes d’estimation et critères associésFinalement,
toute forme del’algorithme
est entièrement définie par la donnée d’uneapplication
D - on remarque d’ailleurs facilement que le fait deprendre
D à valeurs dans R+ n’est pas strictementnécessaire ; il
suffiten réalité pour démontrer les
propriétés
de convergence, de s’assurer quel’espace
des valeurs est un sous-ensemble borné inférieurement de R.2.4.1. - Critère de vraisemblance
Soit D : E x L - R
(x,03BB) ~ D (x,03BB) = Log[f*/f03BB (x)]
Cette définition
exprime qu’une
observation x sera d’autantplus proche
du noyau À que la densité
f03BB
seragrande
en x.Pour que cette définition conduise à un ensemble de valeurs pour D
qui
soit bornéinférieurement,
il faut choisir la constante f* defaçon
à ce que :où
L’ est
tel que : g(Pk) = (L’)k, c’est-à-dire
oùL’ est
lapartie
de L compo- sée des valeurs de Xqui peuvent
être obtenues àpartir
de g comme élément d’unk-uple
de g(Pk).
Par
conséquent,
l’existence de f* estéquivalente
au fait que la fonction gqui
sera déduite deD,
est définiepartout
surPk
et nepeut
conduirequ’à
desvaleurs bornées pour les densités
f03BB.
Ce choix pour la fonction D entraîne pour
f,
la définition suivante :ou
x étant affecté à la classe de
plus petit
indice en casd’égalité}
D’autre
part :
prend
la forme : R(X, A)
= cste -Log V03BB (A)
siV x (A)
note la vraisemblance del’échantillon,
A pour la densitéf03BB.
Pour les distributions
fx qui
admettent pour À un estimateur du maximum de vraisemblance au vu de l’échantillonA,
pour tout A CE,
on se trouvedonc dans le cas
d’application
du schémasimplifié (3)
et la fonction gprend
la forme :
P ~ g
(P)
=(À1 ’
...,03BBk)
où Vi/1
1 ik , Xi
est l’estimé de X par le maximum de vraisemblance au vu de l’échantillonPi.
Le critère à minimiser est alors :
Se trouvant dans les conditions
d’application
des théorèmes 1 et 2 et du corollaire de2.3.1.,
onpeut
énoncer :Théorème 3
Pour les distributions admettant des estimateurs du maximum de vraisem- blance pour leurs
paramètres inconnus,
et pour tout sous-échantillon deE, l’algorithme
défini ci-dessus par les fonctions f et g converge en faisant croître leproduit
des vraisemblances des classesPi
pour les distributionsfÀ. qui
leur sont associées.
Le
couple (L* , P*)
obtenu à la convergence est un élémentnon-biaisé ;
c’est-à-dire que lesXi
sont estimés par le maximum de vraisemblance àpartir
des échantillons
Pt
et que ceux-ci sont eux-mêmes constitués des observations tiréesplus
vraisemblablement de la distributionf*03BBi que
des(k-1)
autres.2.4.2. - Une variante liée
à
la méthode des moindres carrés Soit maintenantavec
où :
M est une
métrique
sur Rq et m03BBl’espérance mathématique
de la loi deprobabilité f03BB ;
m03BB estsupposée
elle-même fonction duparamètre
inconnu X.Avec ce choix pour
D,
on considère que la distance d’une observationx à un
noyau X
nedépend
que de la distance de x à la moyennethéorique
de
f03BB,
au sens d’une certainemétrique
M à déterminer. Ils’agit
d’unehypothèse statistique classique
tresrestrictive,
maisqui peut
êtrejustifiée
dans certainscas.
Alors,
la fonction fprend
la forme suivante :où
en cas
d’égalité}
ce
qui signifie
quechaque
x est affecté à la classe dont ilapproche
leplus
la moyenne
théorique
au sens de M.i
n’est autre que la
dispersion quadratique
de A autour de m03BB au sens de M.Pour A
fixé,
R(X,A)
passe par un minimumlorsque
m03BB est le centre degravité
de A et X est défini ainsi sanséquivoque
dès que m03BB est fonctioninjective
de À. On est alorsplacé
dans le cadre du schéma 2.2 et g est définie par : g : P ~ g(P) = (À1
...Àk)
tel que, pour touti,
1 ik, Ai
vérifie :~ 03BBi
est l’estimateur de À au sens des moindres carrés pour l’échantillonPi
et la
métrique
M.Et le critère à minimiser n’est autre que :
somme des
M-dispersions
dechaque
classePi
autour de la moyennethéorique
de la distribution
fÀ. correspondante.
Bien que
placée
dans uneoptique
trèsdifférente,
cette variante estéquivalente -
d’unpoint
de vuetechnique -
aux méthodes de classification dite "du centre degravité" (cf. (8))
On
pourrait également prendre :
où la
métrique M03BB
serait elle-même fonction duparamètre
X.L’algorithme,
dans ce cas,
regrouperait
les éléments de E au vu de leur distance aux moyen-nes m03BB pour les
métriques M03BB,
différentes selon les classes et selon len°
de l’itération du processus. Un telprocédé
de classification avec distanceadaptive
est
présenté
dans(9).
3 - CAS PARTICULIERS DE DEUX FAMILLES DE DISTRIBUTIONS USUELLES.
3.1. - Lois
gaussiennes
multidimensionnelles.La famille
analysée
est alors(f03BB /03BB
EL)
avec :avec
où
{03BC
E Rq est le vecteur moyenne de ladistribution, V,
sa matrice de variance-covariance(q
xq)
Et les fonctionsD,
f deviennent :- f : L H P est telle que, pour tout i
k,
on ait :La famille des distributions
gaussiennes
admet pour sesparamètres
inconnus des estimateurs du maximum de vraisemblance conduisant à des densités bornées sauf sur les échantillons
engendrant
dans Rq un sous-espace de dimension(dim (Pi))
inférieure à la dimension de leurs matrices de covarianceplus
1(en particulier si | Pi | q
+1),
caralors,
detV = 0.a)
Si on faitl’hypothèse
quel’algorithme
ne conduira pas à de tellesparties,
0,1 estplacé
dans le cas du schémasimplifié
décrit en2.4.1.,
et lafonction g est donnée par :
- g : P H L
est
telle que, pour tout ik,
Mi etVi
sont les estimations par le maximum de vraisemblance de la moyenne et de la matrice de variance- covariance de l’échantillonPi.
On sait que ces estimations sont
uniques
et valent :Le théorème 3 assure la convergence de
l’algorithme
vers un minimumlocal de la fonction critère :
Faire
l’hypothèse qu’on
ne rencontrera au cours du déroulement del’algorithme,
aucunepartie
de dimension inférieure à une valeur donnée n’est absolument pasjustifiable théoriquement ;
on vérifie toutefoisqu’elle
est vérifiée dans la
plupart
desexpériences.
b)
Si on ne fait pas cettehypothèse,
la formegénérale
del’algorithme peut s’appliquer
pourpermettre d’optimiser
le même critère de vraisemblance : les fonctions D et f restentinchangées,
la fonction d’estimation g devient :où
et
tels que, pour tout i
(1
1 ik) :
Si
et si :
alors
Si
Remarque :
Les
lignes
de niveau despoints équidistants d’un bij
au sens de D sont lesellipsoïdes d’équiprobabilité
de la distributiongaussienne
deparamètres (03BCi , Vi) qui
a pouréquation :
Les
propriétés géométriques
des solutions fournies dans ce cas sont détaillées dans(11)
et(22).
En ce sens,
l’algorithme peut
être utilisé en classificationautomatique
pour reconnaître les formes
ellipsoïdales.
Exemples d’application
à des données construites par simulation :a)
150points
deR2
simulés de trois distributionsgaussiennes
bidimen-sionnelles
équiprobables (cf. fig (a))
deparamètres :
Après
5tirages initiaux,
letirage ayant
donné la meilleure valeur du critère(W
=850.)
aapporté
les résultats suivants en 10 itérations(cf.fig. (b)) :
Fig (a) - Données initiales
b)
Un échantillon artificiel unidimensionnel a été construit de lafaçon
suivante :
(cf. fig (c))
50
points
tirés de la loinormale III
=0,
ai 150
points
tirés de la loi normale U2 =3,
02 = 2 50points
tirés de la loinormale 03BC3 = - 5,
03 = 2Fig (b) - Ellipsoïdes
d’équiprobabilité
(95%)
obtenues.Moments
empiriques
des 3 échantillons ainsi obtenus :Résultats fournis par
l’algorithme
avec k = 3 etaprès
4 itérations pour atteindre la convergence :Fig (c)
3.2. - Lois Gamma
Considérons maintenant la famille
(fÀ lÀ
EL)
suivante :avec
et où r est la fonction eulérienne usuelle :
- Si
j3
estentier,
la distributionf03BB s’appelle
loid’Erlang (alors
et on remarque que c’est la somme
de (3 exponentielles négatives.
Remarque :
La famille des distributions Gamma
peut
être définie pour tout(3 positif;
toutefois selon que
j3
est inférieur ousupérieur
à1,
les densités considérées sont d’allures bien différentes et nous nous restreindrons donc à une seule de ces deux sous-familles. En outre, leproblème
concretqui
est àl’origine
de ce travail sur les
mélanges
de Gamma(cf. 4.)
est en réalité une recherche de distributionsd’Erlang, physiquement interprétées
comme sommesd’expo- nentielles ;
il est donc naturel pour cetteapplication
de se limiter au casoù
03B2
> 1.On verra dans la suite l’utilité
technique
de cettehypothèse.
En choisissant à nouveau
d’optimiser
un critère devraisemblance,
onprendra
pour D et f les mêmes fonctionsqu’au paragraphe précédent :
D (x,03BB)= Cste + Log 0393(03B2) -03B2 Log03B1 - (03B2-1) Log(x-03B3)+03B1(x-03B3)
f
(03BB1 ... , 03BBk)
=(P1 ,..., Pk )
où pour touti,
Pi
={
xEE/v j =1= i, f03BBi (x) > fj (x) avec j
> i en casd’égalité}
Le
problème
reste de trouver une fonction g :Lk
xPk - Lk qui
améliorela vraisemblance et
qui
donne auxparamètres
des valeurs ne conduisantqu’à
des densités bornées
(03B3 + ~ , 03B1 + ~,
103B2+~)
Notations :
L =
(À1 Xk)
ELk
s’écrira :Nous proposons la fonction g suivante
qui
consiste à améliorer la vrai- semblance en deuxétapes
et dont on vérifiera aisémentqu’elle remplit
lesconditions
requises :
tel que :
Plus
précisément,
on a :d’où,
si x > 03B3 pour tout x EPi :
Quantité
dont on cherche le maximum pourIl n’existe pas de maximum exact en ’Y sur
on
prendra
donc :où e
(> 0)
est une constante à determiner(qui
soit parexemple
de l’ordrede la
précision
de la machineutilisée ;
il ne faut pasperdre
de vue que, de toutesfaçons,
le fait d’obtenirexactement 03B2
= 1 n’est vrai quemoyennant
la discrétisation introduite par l’utilisation ducalculateur).
-
Si (3i
>1,
alors :de plus :
et :
La dérivée de la fonction de vraisemblance de y est donc strictement décroissante de
a | Pi |
à - ~ etadmet,
parsuite,
un zérounique qui
corres-pond
à un maximum de la vraisemblance.Dans ce cas,
7{
est l’estimé par le maximum de vraisemblancede 03B3
au vu de l’échantillon
Pi
et à(03B1i03B2i)
fixés.C’est-à-dire que
(03B1i, 03B2i)
est lecouple
estimé de(a, j3) par le
maximumde vraisemblance au vu de l’échantillon
Pi
et à 03B3i fixé.Ce
couple
est obtenu ainsi :d’où :
et
- Ces deux dérivations sont bien valides
puisque j3
1 etLe
couple (â , 03B2)
maximisant la vraisemblance devra donc vérifier :Les conditions
d’application
des théorèmes de convergence étantremplies, l’algorithme
décrit tend à maximiser leproduit
des vraisemblances des classesPi
pour les distributionscorrespondantes f...
1Exemple d’application
On considère un échantillon de 200 valeurs simulées de la
façon
suivante :100
points
tirés d’une loi Gamma deparamètres :
03B11 =
1/3 {31
= 1/ 03B31 = 0100
points
tirés d’une loi Gamma deparamètres :
03B11 = 1
03B21
= 603B31 = 3
La
figure (d)
suivante montre les deuxhistogrammes
observé(en
traitplein)
et estimé(en pointillé)
pour le meilleur de 10tirages
aléatoires initiaux.Fig (d)
Les estimations individuelles des
paramètres
ne sont pas bonnes cequi
n’est pas très étonnant étant donnée la méthode d’estimation utilisée àchaque
pas
qui
n’a aucune despropriétés classiques. Cependant, l’algorithme
a fourniune combinaison de Gamma
qui ajuste globalement l’histogramme
observéde
façon
admissible.Résultats :
| Pl
78 03B11 = .8{31
= 1.3 YI = .4| P2
122 a2 = .4{32
= 1. 6 72 - 4.9 Deuxièmeexemple : (Fig. (e)) :
Echantillon initial :
Meilleur de 5
tirages :
Fig (e)
Remarque :
Dans la mesure où le maximum de vraisemblance pose des
problèmes
pour l’estimation des
paramètres
des distributionsGamma,
onpourrait
choisir la fonction D et parsuite,
les fonctionsf, R,
g defaçon
à ce que la méthode d’estimation définie par g,soit,
parexemple
celle des moments.La méthode des moments
présente
en effetl’avantage
de donner des esti- mateurs des troisparamètres 03B1,03B2,03B3
très faciles à calculer àpartir
des troispremiers
momentsempiriques
d’un échantillon A de n observations :où :
Toutefois nous n’avons pas retenu cette
possibilité
à cause del’impré-
cision de l’estimation par les moments ; en
effet,
les estimés fournis sont fluctuants tant que l’échantillon n’est pas de trèsgrande taille,
cequi
estextrêmement
gênant
dans le cas d’unalgorithme
itératif où les classespeuvent
varier considérablement de taille d’une itération à l’autre.L’optimisation
en deuxétapes
de lavraisemblance,
telle que nous l’avonsprésentée plus haut,
estbeaucoup plus
satisfaisante sur cepoint
et s’estmontrée
plus
efficace sur des échantillons simulés.4 - UNE APPLICATION : AIDE A LA MODELISATION DE SYSTEMES
INFORMATIQUES. (cf. (15))
De
façon générale, l’objet
de la modélisation est de fournir unedescrip-
tion
mathématique
du fonctionnement d’unsystème physique quelconque (stock
demarchandises, système informatique, système biologique,... ).
Le modèle
permet,
connaissant les valeursprises
par un certain nombre deparamètres d’entrée,
de calculer des valeursprobables
pour d’autres para- mètres(de sortie).
Dès que le
système analysé
est un peucomplexe,
les modèles utilisés sont detype stochastique,
c’est-à-dire que les entrées comme les sorties nesont
plus
les valeursnumériques
certaines desparamètres,
mais leurs distri- butions deprobabilité.
En modélisation de
systèmes informatiques,
un certain nombre de travauxthéoriques permettent
d’utiliser des modèles de réseaux à files d’attente où lestemps
de servicepeuvent
êtresupposés
distribués comme desmélanges
de distributions
d’Erlang ((4), (6))
ou même defaçon quelconque
dans lecas
d’approximation
par un processus de diffusion(14).
Notre
application
a consisté à utiliserl’algorithme présenté
dans cetarticle sur un échantillon de mesures
prélevées
sur unsystème
réel pour calculer des distributions effectives pour lestemps
deservice ;
ces formulespeuvent
servir ensuite dans des modèlesmathématiques
et aussi dans des simulations pourgénérer
des échantillons.Le
problème informatique
et les résultats sontprésentés
en détail dans(15).
5 - CONCLUSION
Le
problème
de la reconnaissance descomposants d’un mélange
s’il est constammentposé
dans lapratique,
est encore loin d’être résolu defaçon générale. L’algorithme
que nous proposonsprésente
vis-à-vis destechniques
existantes une certaine
souplesse
dans le choix du nombre decomposants,
dutype
de lois recherché dans lemélange
et dans la dimension de la popu- lation observée. Il resterait à étudier des variantespermettant d’optimiser
descritères
statistiques
habituels tels que leX2
ou la distance deKolmogorov-
Smirnov entre distribution observée et distribution estimée.
Pour
analyser
desmélanges
de distributions detypes
différents(par exemple,
normales etLog-normales...)
onpeut
utiliser le mêmeschéma ;
il suffit de se donner en
plus
une mesure de "ressemblance" entre un échan- tillon et une forme de distribution. Il conviendraitd’approfondir
le casoù cette ressemblance serait
précisément
liée à la vraisemblance(cf. (16)).
BIBLIOGRAPHIE
(1)
AGRAWALA A.K.(1970) - "Learning
with aprobabilistic
teacher" - IEEE Trans. onInformation theory -
vol. IT16, n°4 -
(2)
BENZECRI J.P.(1972) -
"LaRégression"
Laboratoire deStatistique Mathématique -
Université Paris VI.(3)
BHATTACHARYA C.G.(1967) -
"Asimple
method of résolution of adistribution into
gaussian components"
Biometrics - March.(4)
BUZEN J.P.(1971) - "Queuing
network models ofmultiprogramming"
Ph. D. thesis - Harvard.
(5)
COOPER D.B. et COOPER P.W.(1964) -
"Nonsupervised adaptive signal
detection andpattern recognition" Information
and Control -n°
7 - p. 416 à 444.(6)
COX D.R.(1955) -
"A use ofcomplex probabilities
in thetheory
of Stochastic Processes" Proc. Camb. Phil. Soc. - 51.
(7)
DAY N.E.(1969) - "Estimating
thecomponents
of a mixture of normal distributions" Biometrika - vol. 56 -n°
3 - p. 463 à 467(8)
DIDAY E.(1972) -
"Nouvelles méthodes et nouveauxconcepts
en classificationautomatique
et reconnaissance des formes" Thèse d’Etat - Université Paris VI.(9)
DIDAY E. et GOVAERT G.(1974) - "Classification
avec Distanceadaptative" Compte
rendu à l’Académie des Sciences - Paris - Série A - t. 278 - p. 993 à 995 -(10)
DIDAYE.,
SCHROEDER A.(1976) -
"A newapproach
in mixeddistributions detection" RAIRO - Recherche
Operationnelle -
vol.10,
n°
6.(11)
DIDAYE.,
SCHROEDER A. et OK Y.(1974) -
"TheDynamic
Clusters Method in PatternRecognition" Proceedings of
IFIPCongress -
Stockholm.(12)
DOROFEYUK A.A.(1971) -
"Automatic Classificationalgorithms"
Auto-mation and remote control
(review)
vol. 32 -n°
12 - Part 1 - p. 1928 à 1958 - Dec.(13)
DUDA R.O. et HART R.E.(1973) -
"Pattern Classification and SceneAnalysis" Wiley
N.Y.(14)
GELENBE E.(1974) -
"Onapproximate computer systems
models"International
Workshop
onComputer
architectures and networks modell-ing
and evaluation - North Holland Pub.C°
(15) LEROUDIER J.,
SCHROEDER A.(1975) - "A
statisticalapproach
to the estimation of service times distributions for
operating systems modelling" -
E.Gelenbe,
D. Potier(Eds.)
InternationalComputing Symposium
1975 -(North -
Holland Publ.C°)
(16)
LINDSEY J.K.(1974) - "Comparison
ofProbability distributions"
J.R.Statist. Soc. B
n°
1 - p. 38 à 47.(17) -
PATRICK E.A.(1972) -
"Fundamentals of PatternRecognition"
Prenti-ce Hall inc. - N.J.
(18)
PATRICK E.A. et COSTELLO J.P.(1970) -
"Onunsupervised
estimationalgorithms"
IEEE Trans. onInformation theory
vol. IT 16 -n°
5 - p. 556 à 569 -(19)
PATRICK E.A. et HANCOCK J.C.(1966) - "Nonsupervised sequential
classification and
recognition
ofpatterns"
IEEE Trans. onInformation Theory -
vot. IT 12 -n°
3 p. 362 à 372 -(20) PEARSON
K.(1894) -
"Contributions to the mathematictheory
of evolution" Philos. Trans. Soc. -n°
185(21 ) RAO
C.R.(1948) -
"Utilization ofmultiple
measurement inproblems
of
biological
classification" J.R. Statist. Soc.B. - vol
X -n°
2 - p. 159 à 193.(22)
SCHROEDER A.(1974) -
"Reconnaissance desComposants
d’un mélan-ge".
Thèse de 3ecycle - Université
Paris VI(23)
YOUG T.Y. et CORALUPPI G.(1970) -
"Stochastic estimation of amixture of normal
density
functionsusing
an information criterion".IEEE Trans. on