R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
Décomposition d’un histogramme en composantes gaussiennes
Revue de statistique appliquée, tome 24, n
o1 (1976), p. 63-82
<http://www.numdam.org/item?id=RSA_1976__24_1_63_0>
© Société française de statistique, 1976, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
63
DÉCOMPOSITION D’UN HISTOGRAMME EN COMPOSANTES GAUSSIENNES *
P.
CAZES
Laboratoire de
Statistique
Université Pierre et Marie Curie(Paris VI)
1 - POSITION DU PROBLEME
Le
problème
de ladécomposition
d’unhistogramme
encomposantes gaussiennes
a faitl’objet
d’une abondante littérature. De nombreuses méthodes ont étéproposées
pour résoudre ceproblème qui
est d’unegrande importance pratique.
Certaines de ces méthodes sont relativement
complexes,
comme laméthode des moments, ou la méthode du maximum de
vraisemblance,
ouexigent
un nombre trèsimportant d’observations,
comme des méthodesd’estimation stochastique.
D’autres méthodesplus simples
etplus opération-
nelles essentiellement
graphiques
ont étéemployées
avec succèsquand
lescomposantes
sont bienséparées.’
Dans le cas où les
composantes
sont malséparées,
et où le nombred’observations
est relativementfaible,
les méthodesprécédentes
ne sont pasappropriées.
Ceci nous a amené à essayer de résoudre ce
problème
dedécomposition
par deux méthodes : la
première proposée
par J.P.Benzécri, (cf (1))
et baséesur une série de déconvolutions
successives,
et la secondeproposée
par AnneSchroeder, (cf (9))
et basée sur un processus itératifinspiré
de la méthode des nuéesdynamiques (cf (6)).
Nous exposons ces deux
techniques, après
avoir formulé mathémati- quement ceproblème
de recherche decomposantes gaussiennes
etrappelé
les
principes
ainsi que les limites des méthodesdéjà employées.
Dans une dernière
partie,
nous comparons sur deuxexemples
les résultats trouvés avec ces deuxtechniques,
et la méthodegraphique
deBhattacharya (cf (2)).
Il - FORMULATION
MATHEMATIQUE
DU PROBLEMESoit Z une variable aléatoire continue de densité f
(z).
On suppose que la densité de Zpeut
se mettre sous la forme :* manuscrit remis le 15.7.74, révisé en mars 1975.
Revue de Statistique Appliquée, 1976 vol. XXIV n° 1
avec
Décomposer
Z suivant sescomposantes gaussiennes
consiste à rechercher lesystème
des nombresEn d’autres termes, on suppose
qu’on
a unepopulation
formée de r souspopulations,
lagrandeur
mesurée z suivant dans laième
souspopulation
une loi normale de moyenne mi et d’écart
type
ai’ laproportion
de cetteième
souspopulation
dans lapopulation
totale étantégale
à pi.On remarque que si au
voisinage
de z, seule lacomposante
i a une influencenon
négligeable,
on a :L’équation (2b)
est à la base de la méthode de H.J. Buchanan-Wollaston-Hodgeson,
méthode améliorée par Tanaka(cf
IV1),
tandis que la relation(2c)
est à la base de la méthode deBhattacharya (cf
IV2).
Supposons
que l’on range lescomposantes
de tellefaçon
queai 2 03C322 ... al r
et si
* désigne
lesymbole
duproduit
deconvolution,
on a :~ 03C32 03C321 :
f(z)
=S{
pi ~(z - mi ; o? - 02) *~ (z , 03C32)
1 i =1 , r} (3)
avec obtention d’un
pic
de Dirac en m si02 = 03C321.
La formule(3)
est à la base de la méthode par déconvolutions successives(cf V).
D’un
point
de vuepratique,
on ne connait pas la densité de Z : Z n’estconnu que par un N échantillon de réalisations
indépendantes.
On pourra alors si on connait le nombre de
composantes
r, rattacherchaque
observation à une classe par uneprocédure
de reconnaissance desformes,
d’où l’on déduira pourchaque
classe des estimateurs de la moyenne et de l’écarttype
de cetteclasse,
le nombre d’observations tombant dans cette classepermettant
de calculer laproportion
de cette classe dans la popu- lation totale. Cetteprocédure
utilisée par A. Schroeder estdéveloppée
en VI.On
peut également employer
si le nombre d’observations est trèsimportant
une
procédure
d’estimationstochastique
où l’on fait rentrer les observationsau fur et à mesure du déroulement de
l’algorithme, jusqu’à
cequ’il
y ait stabilisation des estimations desparamètres
que l’on recherche(cf (11)).
Les deux méthodes
précédentes
tiennentcompte
de l’individualité dechaque observation,
sans recours àl’histogramme empirique
de Z.On
peut
aussi à l’aide del’histogramme empirique
deZ,
estimer f : Si l’ondécoupe
l’intervalle de variation de Z en n classesI1 , 12,..., In,
et si
qj désigne
le nombre d’observations de Zappartenant
à la classeIj, li
étantde
longueur li,
on posera :f
(z)
est une foisfixés I1, I2,
... ,In,
l’estimateur du maximum de vraisem- blance de f(z),
et l’on rechercherar, {Pi, mi, 03C3i|
i= 1,r}
tels queavec
Pour ne pas alourdir les
notations,
etpuisqu’aucune
confusion n’està
craindre,
nous noterons f(z)
au lieu def (z),
r au lieu der
etc.On
peut
alors formuler lesystème précédent
sous une formelégèrement
différente :
trouver r,
{Pi’ mi/ai 1 i
=1 , r}
tels que :zj désignant
le centre de l’intervalleL.
111 - METHODES D’ESTIMATION
CLASSIQUE
Il
s’agit
essentiellement de la méthode du maximum devraisemblance,
et de la méthode des moments. Pour
appliquer
cesméthodes,
il faut supposerconnu le nombre de
composantes
dumélange.
Par ailleurs si lescomposantes
sont de variance
inégale,
ces méthodes devenant fortcomplexes,
ou mêmeimpraticables (cas
de la méthode du maximum devraisemblance,
la vraisem- blanceprésentant plusieurs singularités, correspondant
au cas où les variances des différentescomposantes s’annulent)
n’ont pas à notre connaissance été utilisées.Day (5)
aemployé
ces deux méthodes dans le casplus général
d’unmélange
de loisgaussiennes
à pdimensions,
ensupposant toujours
quechaque composante
a même matricevariançe.
Lesystème
deséquations
de vraisem- blance estcomplexe
et nepeut
se résoudre que par uneprocédure
itérative(par exemple
uneprocédure
degradient réduit),
même dans le cas unidimen-sionnel
(p
=1 ) qui
est le seul casqui
nous intéresse ici.Dans le cas où l’on a deux
composantes
de même variancea2,
de moyen-nes
respectives
ml et m2, d’effectifs ni et n2’ Preston(8)
fournit uneabaque qui
àpartir
du coefficient dedissymétrie
etd’aplatissement permet
de calculer lesquantités 03C1 = n1/n2
et 5 =(m2 - m1)/03C3,
d’ou l’onpeut
déduire ml, m2 ,n1 n2 , et a à
partir
des deuxpremiers cumulants,
et donc des estimations de toutes cesquantités
enremplaçant
coefficients de K. Pearson et cumulants par leurs valeursempiriques.
Nous n’en dirons pas
plus
de tellesméthodes,
dont l’intérêtpratique
est
réduit, puisqu’elles
ne sont bienadaptées qu’au
cas où l’on a unpetit
nombre de
composantes (2,
3 aumaximum)
de varianceégale
IV - LES METHODES
GRAPHIQUES
Ces méthodes
plus
ou moinsempiriques
et faciles à mettre en oeuvresupposent
que lescomposantes
sont bienséparées,
i.e.qu’au voisinage
dumode d’une
composante,
les autres ont un effetnégligeable.
Elles ontl’avantage
de ne pas supposer la connaissance a
priori
du nombre decomposantes,
ni de faire
l’hypothèse
que cescomposantes
ont même variance. Nous expo-serons trois de ces méthodes.
IV. 1 - La méthode de
Buchanan-Wollaston, Hodgeson,
Tanaka(cf (3)
et10))
Les
composantes
étantsupposées
bienséparées,
il y a autant de compo- santes quel’histogramme expérimental comporte
depics.
Il suffit doncd’ajuster
surchaque pic
une loi normale.Si
Sj désigne
lafréquence
relative des observationsqui
sont tombées dans lajeme
classe del’histogramme (Sj
=qj/N
avec les notations duII),
classe decentre
Zj
etd’amplitude lj’
et dansl’hypothèse
où enz.,
seul intervient defaçon
nonnégligeable
laième composante,
ona d’après
les relations(1 )
à(4) :
Au
voisinage
deZj , tj
est une fonctionparabolique
deZj ;
il suffira doncsur la courbe donnant t en fonction de z,
d’ajuster
auvoisinage
duieme
modeune
parabole
pour obtenir lescaractéristiques
pi , mi , ai de lacomposante
associée.Après
avoir ainsiajusté graphiquement
tous les modes de la courbepré- cédente,
si la somme despourcentages
trouvés n’est pas voisine de100,
on enlève l’influence des
composantes détectées,
et l’on recommence le processus sur la courbe résiduelle ainsi obtenue.IV. 2 - La méthode de
Bhattacharya (cf (2))
Cette méthode est basée sur le fait
déjà signalé
que la dérivéeloga- rithmique
u de la densité y = f(z)
d’une variable aléatoire normale Z est unefonction linéaire de z, et donc au
voisinage
d’unpic
del’histogramme,
oùseule la
composante
i a uneinfluence,
on a,d’après
les formules(1)
à(4), l’histogramme
étantdécoupé
en tranchesd’égale amplitude
h :qj (resp. sj) désignant toujours
le nombre des observations(resp. la fréquence
relative des
observations)
tombant dans lajeme
classe del’histogramme.
On aura donc autant de
composantes
que legraphe
de u en fonction de zcomportera
deportions
de droite depente négative,
l’intersection de laième
portion
de droitenégative
avec l’axe des z, et lapente
de cette droite permet- tant de définir moyenne et variance de laième composante.
Une des méthodes
proposées
parBhattacharya
pour estimer le pour-centage
pi de cettecomposante
est de faire lerapport
Vi/N
eq ,où : - vi
est lenombre d’observations
qui
sont tombées dans la zoneAi
où seule la compo-sante i a une influence
(zone qui correspond
à laième portion
de droite depente négative
sur legraphique précédent) - 03B1i = ~(z - mi;03C32i)
d zN
désignant toujours
le nombe totald’observations,
N ci i est donc le nombre d’observationsqui
seraient tombées dans la zone di,
si l’on avaiteu
qu’une
seulecomposante,
de moyenne mi’ et d’écarttype
ai.Si la somme des
pourcentages
obtenus sur lescomposantes
déceléesest inférieure à
100,
on recommence le processusaprès
avoir retiré ces compo- santes.IV. 3 - La méthode de
Harding
et Cassié(cf (4)
et(7))
Dans cette méthode on utilise le fait que si on
adopte
en ordonnéesune échelle
galtonnienne (i.e.
une échelle où la valeur de p, pappartenant
à l’intervalle ouvert]0, 1 [,
estportée proportionnelle
à u tel quela fonction de
répartition
d’une loi normale de moyenne m, et d’écarttype
o est une
droite,
la droite deHenry,
la moyenne m étant l’abscisse associée à une ordonnée p de 50%,
et l’écarttype
a étant tel que la distanceséparant
les abscisses d’ordonnées
respectivement égales
à 5%
et 95%
estégale
à2 x
1,645
0 =3,29
a.Avec l’échelle
précédente
enordonnée,
on obtient pour la fonction derépartition
d’unmélange
decomposantes gaussiennes
assezséparées, une
courbe
qui
a autant depoints
d’inflexionqu’il
y a decomposantes.
Le
point
d’inflexion leplus
basPl (i.e.
d’ordonnée pl laplus faible) correspond
à la fin de l’influence de lapremière composante
et au début de l’influence de laseconde ;
pi donne lepourcentage
de lapremière
compo- sante dumélange.
Multipliant
toutes les ordonnées p par100/p1,
pour lespoints
situésen dessous de
Pl,
on obtient la droite deHenry
associée à lapremière
compo- sante, d’où l’on déduit moyenne et écarttype
de cettecomposante.
Après
avoir éliminé cettecomposante,
on recommence le processusqui
revient donc à isoler les droites deHenry
associées àchaque composante.
Dans le cas où il y a une
légère
interférence entre deuxcomposantes
successives i et i -f-1,
ce dont onpeut s’apercevoir,
siaprès
correction despoints
situés au dessous dupoint
d’inflexionPi
associé à lacomposante i,
on obtient une courbe différant
systématiquement
d’unedroite,
on diminuelégèrement
lepourcentage
estimé de lacomposante i,
et pour construire la droite deHenry
associée à lacomposante
i +1,
au lieu departir
dePi,
et de ne considérer que les
points
situés entrePi
etPi. 1
,Pi+
,désignant
lepoint
d’inflexion situé immédiatementaprès Pi,
onpart légèrement plus
bas que
Pi.
On voit que cettefaçon
deprocéder
est assezempirique,
et de-mande,
comme le disent les auteurs du savoir faire et del’expérience.
V - LA METHODE DES DECONVOLUTIONS SUCCESSIVES
(cf (1))
V. 1 -
Principe
On a vu en II que si
l’on rangeait
lescomposantes
de telle sorte queci 03C322
...Qr
la densité f(z)
donnée par(1) pouvait
encore s’écrire pour03C32
C
_
où g * ~
désigne
leproduit
de convolution des fonctions g et ’P, et ou l’ona
posé:
Pour
02 = ai,
on obtient unpic
en ml, i.e. une masse de Diracplacée
en ce
point.
Pour
a2
>U2 1 la
déconvolution n’estplus possible.
On cherchera donc à déconvoler f par des lois normales centrées de variance
a2 croissante,
et l’on s’arrêteraquand
on ne pourraplus déconvoler,
et que l’on a obtenu un
pic. Après
retrait de cepic,
on a la fonction(en
posant ’P(z -
ml ;o)
== 6(z - ml )
masse de Diracplacée
enml ) :
et l’on recommence le processus sur gl
(z)
que l’onpeut
déconvoler par des lois normales de variance03C42 r2
=Q2 - 03C321 ;
l’on obtient unpic
pourT2 = T2
en m2 que l’on
retire,
et l’on réitère le processus sur la fonction g2 restante.On a
alors ;
soit
V. 2 - Réalisation de la déconvolution.
Le
problème
est le suivant :connaissant les fonctions f
et t/J qui
sont des densités deprobabilité, dans
le cas
qui
nousintéresse,
l’on désire déterminer la fonction h(qui
est aussiune densité de
probabilité)
telle que :soit
h sera estimé par sa valeur en p
points
vl , V2 ,...vp ,
cequi
revient a suppo-ser que l’on a divisé l’intervalle où h est non nul en p intervalles
disjoints
consécutifsI’1, 1; , ... , I.
et que danschaque intervalle,
h est constant.(5)
s’écrit :Si les fonctions f
et V1
sontparfaitement
connues, on déterminera leshi
defaçon
à ce quel’approximation
de f(z) par 03A3{hi ~i (z) 1
i =1 , p}
soit lameilleure dans la
métrique
duX 2 de
centre f(z),
i.e. de telle sorte que :soit
minimum,
en serappelant
que h étant une densité deprobabilité
leshi
d.oivent être
positifs,
et tels que(il
idésignant
lalongueur
del’i),
cequi
revient à minimiser une forme qua-dratique
deshi
sous les contraintesprécédentes.
Dans le cas où la fonction f
(z)
est estimée à l’aide d’unhistogramme,
ce
qui
revient àdécouper
l’intervalle de variation de z en n intervalles consé- cutifsdisjoints, Il , I2 ,
... ,In,
on ad’après (5),
enposant
où
(v*i , zt) désigne
unpoint
intérieur durectangle l’i
xIj, l’i (resp lj)
étant lalongueur
de1
i(resp. Ij).
vi(resp. zp désignant
le centre del’i (resp. Ij),on
a
approximativement, puisque hi =
h(vi) :
Posant :
(7) peut
s’écrire :ej désignant
l’erreur faire en assimilant les membres extrêmes de(7).
La détermination de
bi
sera faite de telle sorte que dans R" muni d’unemétrique convenable,
levecteur é
decomposantes { ej ) j = 1 , n}
soit denorme minimum.
Choisissant la
métrique
duX2
de centreF (vecteur
decomposantes { Fj 1 j = 1 , n})
on. est donc ramené à minimiser :sous les contraintes
Posant :
on est donc ramené à minimiser
avec
On résoudra
(9)
à l’aide d’un programme derégression
souscontraintes, imposant
aux coefficients derégression
d’êtrepositifs
et de somme 1.V. 3 - Réalisation
pratique
de l’estimation descomposantes
dumélange L’histogramme
dont on recherche lescomposantes gaussiennes,
compor- tant nclasses,
le nombre p depoints
où l’on estime la déconvolée de cethistogramme
par une loigaussienne
doit êtreplus petit
ouégal
à n.On choisit en
général
n = p, cequi permet
d’avoir le mêmedécoupage
pour
l’histogramme
et les différentshistogrammes
résiduels lors du processus itératif de déconvolution décrit auV 1,
mais le programme mis aupoint permet également
de choisir des valeurs de pplus petites
que n. On est néan- moins assez limité dans ce dernier cas, si le nombre decomposantes
est assez élevé(supérieur
à3),
et si le nombre de classes del’histogramme
estplus petit
ouégal
à20,
cequi
est le cas engénéral ;
eneffet, après
avoir retirél’influence de la
première composante, l’histogramme
résiduel n’aplus
que nI = pcomposantes ;
continuant le processus dedéconvolution,
enimposant
un
découpage
de la déconvolée en PIclasses,
piplus petit
que ni , on obtien- dra doncaprès
détectionpuis
élimination de la deuxièmecomposante,
unhistogramme
à n2 - Pl 1 classes avec n2 = p 1n1 = p
n ; ainsi au fur et àmesure de l’estimation des
caractéristiques
dechaque composante, puis
deson
élimination,
le nombre de classes del’histogramme
résiduel diminue.En ce
qui
concerne l’écarttype
dechaque composante,
son estimationest assez aisée par le
principe
même del’algorithme, puisque
l’on s’arrête de déconvolerquand
il y a une différencesignificative
entrel’histogramme
et
l’histogramme
reconstitué.Par contre, le
pic
que l’on obtient surl’histogramme
déconvolépeut
ne pas être très net. En outre pour éliminer l’influence de la
composante décelée,
on retire lepic
de cethistogramme,
cequi
revient à enlever de cethistogramme
lapartie
où se trouve lepic ;
cefaisant,
on retireégalement
l’influence des autrescomposantes
sur cettepartie
del’histogramme ;
onsurestime donc le
pourcentage
despremières composantes
parrapport
auxsuivantes,
et l’on diminue laprécision
de l’estimation descomposantes,
au fur et à mesure du déroulement de
l’algorithme,
sauf si lescomposantes
sont bien
séparées.
Remarque :
Nous avons
également programmé
une variante de cette méthode dedéconvolution,
variante où l’on essaied’approcher
f(z)
par une sommepondérée
de lois normales de même écarttype,
et de moyenneségalement espacées:
cette
approximation
n’étantpossible
que pour03C32 03C321 ;
faisant croîtreQ2,
onobtiendra dans l’estimation des pi un
pic
pour02
=U2
Après
correction par déconvolution de cepic
on continuera le processus.Cette méthode
ayant
donné des résultatsvoisins,
un peu moins satis- faisants dans la détermination despics
d’ordresupérieur
ouégal
à2,
que la méthodeexposée
en détailci-dessus,
nous n’en dironsplus
rien ici.VI - LA METHODE BASEE SUR LA RECONNAISSANCE DES CONSTI- TUANTS DU MELANGE
(cf (9))
Soit zi , Z2 ... , zN le N échantillon de réalisations de la variable aléa- toire Z que l’on sait être un
mélange
de r loisgaussiennes,
r étant connu.Supposons
deplus
que l’on sache àquelle
loigaussienne, parmi
les rprécédentes, appartienne chaque
observation.Si ni
(1
1 c i cr) désigne
le nombre d’observations issues de lareclasse, ni/N
sera uneapproximation
dupourcentage
pi de cettecomposante,
tandisque la moyenne et la variance
empirique
de cette classe seront des estimateurs(les
estimateurs du maximum devraisemblance)
de la moyenne et de la variance de cettecomposante :
Pi désignant
l’ensemble des observationsappartenant
à laième
classe.On voit que le
système 03B8 = {mi, 03C321 |
i =1 , r}maximise,
connaissant l’affectation dechaque observation,
la vraisemblance L du Néchantillon,
ou son
logarithme :
avec
Remarquons
que W(03B8 , P) peut
se mettre sous forme :où
pij
vaut 1 siZj appartient
à laième classe,
0 sinonétant la densité de la loi normale de moyenne mi et de variance
0;
On a vu que si P est
donné, 03B8
minimiseW ;
nous poserons :Supposons
maintenant que l’on connaisse 03B8 et que l’on désire affecter àchaque
observationZj
uneprobabilité Pij d’appartenance
à laième
classe(1 i r ; 1 j N).
La méthode de maximum de vraisemblance revenant à maximiser pour
chaque observation j
conduit à
affecter j
à la classe i(j )
pourlaquelle
sa vraisemblance estmaximale,
i. e.pij = 03B4i (j)i =
1 si i(j)
=i,
0 sinon.La
partition P
ainsi obtenue maximisedonc,
0 étantdonné, parmi
toutes les
partitions possibles (et
mêmeparmi
tous lessystèmes
dedegré d’appartenance possible pij)
la vraisemblance du N -échantillon,
i.e. minimise W(e , P).
Nous poserons
Des résultats
précédents,
l’onpeut
déduire un processus itératif permet- tant d’estimer lescaractéristique {mi , 03C32i, pi |
i ==1,r}
des rcomposantes gaussiennes
que l’on recherche.0
Se donnant une
partition
initiale en rclasses, P quelconque,
on en déduitl’estimateur
du maximum de vraisemblance 6 g(P) associé
à cettepartition.
A
6,
onpeut
fairecorrespondre
lapartition
P = h(0) qui
affectechaque
observation à la classe pour
laquelle
sa vraisemblance est maximale.De
façon générale,
àl’étape
n, on aura :n n
La suite un = W
(03B8 , P)
ainsi construite est une suitefinie, puisqu’on
aun nombre fini N
d’observations,
et donc un nombre fini(2N - 1 )
departi-
tions
P,
et de valeurs de 03B8 = g(P) associées,
décroissante parconstruction, puisque :
Elle converge donc vers une valeur u*
qui
est atteinte pour lecouple (03B8* P*)
vérifiant :Il faut noter que la valeur u* = W
(0*, P*) =
W(03B8* , h (03B8*))réalise
un minimum local de la
fonctôon
u(0)
= W(0 ,
h(03B8)),
minimumqui dépend
donc de la
partition
dedépart
P.On aura donc intérêt à faire
plusieurs
essais en choisissant despartitions
initiales
différentes,
et engardant
lecouple (03B8* , P*)
donnant laplus
faiblevaleur de
W (0*,P*).
Ce processus itératif correspond au processus itératif employé en classification
automatique dans la méthode des nuées
dynamiques, 8
jouant le rôle des noyaux.0
Remarquons qu’au
lieu departir
d’unepartition
P pour débuterl’algo- rithme,
onpeut
démarrer avec unsystème 03B8
decaractéristiques
des rloisgaussiennes,
parexemple
unsystème 03B8
déduit par d’autresméthodes,
commeles méthodes
graphiques.
Nous
désignerons
parRI
laprocédure qui
vient d’êtreexposée,
pourla différencier de la
procédure R2 qui
en est unevariante,
etqui
estexposée
ci-dessous dans la remarque
b)
n. b.
a) L’algorithme
que l’on vient de décrire est trèsgénéral,
car il ne faitaucune
hypothèse
sur la forme L de la vraisemblance dumélange étudié ;
ils’applique
donc àn’importe quel mélange
de lois de mêmetype,
parexemple
des lois gamma, ou des lois normales multidimensionnelles.
b)
Au lieu d’affecterchaque individu j
à uneclasse,
onpeut
lui affecterune
probabilité d’appartenance pij
à la classei,
parexemple
on
n’optimise plus, e
étantfixé,
W(03B8 , P)
où Pdésigne
ici lesystème
des{pii |
i r ; 1j N},
mais l’onpeut
par ceprocédé
reconnaître despopulations
trèsimbriquées,
et obtenir un meilleurajustement
de l’histo-gramme
expérimental
desZj.
Dans ce cas, pour passer de P à
03B8,
on posera :Nous
désignerons
parR2
cetteprocédure.
VII - EXEMPLES D’APPLICATION VII. 1 - Premier
exemple
Cet
exemple
a étéemprunté
àBhattacharya (cf (2)) :
ils’agit
d’unmélange
artificiel de trois loisgaussiennes
dont on al’histogramme qui comporte
18 classes(cf
tableau1).
On a
respectivement appliqué
la méthode deBhattacharya,
la méthode des déconvolutionssuccessives,
et la méthode du VI d’A. Schroeder(procé-
dure
R1).
Dans ce dernier cas, on a simulél’histogramme qui comporte
12.927 individus en faisantl’hypothèse
que danschaque
classe del’histo-
gramme, les observations ont une distribution uniforme. On a
également
fait des essais d’une
part
en ne simulantl’histogramme qu’avec
6.460individus,
dans le cas où l’onapplique
le processus itératif duVI,
en affectant desprobabilités d’appartenance (procédure R2),
d’autrepart
en divisant l’histo-gramme en 9 et 6 classes
respectivement,
i.e. enprenant
un pasrespectivement
double ou
triple
du pas initial.Tableau 1
Histogramme
d’unmélange
artificiel de 3populations gaussiennes
Dans ce dernier cas la méthode de
Bhattacharya
ne fournitqu’une
seulecomposante,
tandis que la méthode par déconvolutions successivess’applique mal,
le nombre de classes del’histogramme
étanttrop petit
pour que l’on obtienne despics
nets et facilement estimables.Ce n’est que dans ce dernier cas
(histogramme
à 6classes,
simulé sur 6.460individus)
que le processusR2
du VI avec affectation deprobabilités
s’est stabilisé en moins de 50
itérations,
aussi nous ne donnerons les résultats relatifs à cettefaçon d’opérer
que dans ce cas là.Tableau 3
Résultats obtenus dans
l’exemple
1(histogramme
à 6composantes).
* valeurs à multiplier par
12 927 6 460
= 2,00 pour les comparer avec les précédentes.Ri
procedure de VI (sans affectation de probabilités)R2
" " " (avec " " " )Les tableaux 2 et 3 résument les résultats obtenus.
Les
composantes
étant bienséparées,
on a obtenu par la méthode du VI les mêmes résultats que l’onparte
departitions
initialesdifférentes,
ouque l’on
parte
des valeursthéoriques
ou des valeurs trouvées parBhattacharya
pour le
système 03B8
des{ mi , 03C32i | 1
i =1 , r}
Pour comparer la
qualité
des estimationsobtenues,
on a calculé leX 2 d’ajustement :
où
Nj
estl’approximation
deNj
réalisée enremplaçant l’histogramme expé-
rimental par le
mélange gaussien estimé,
et n le nombre de classes de l’histo- grammeZj désignant
le centre de lajeme
classe del’histogramme expérimental.
Dans le cas de
l’histogramme
à 18classes,
l’on voit que le meilleurajustement
est réalisé par la méthode deBhattacharya,
cequi
estnormal, puisque
lescomposantes
étant bienséparées, l’ajustement graphique
estmeilleur ;
par contre avecl’histogramme
à 9classes,
la méthode par déconvo- lutions estplus précise.
En
employant
laprocédure R2
duVI,
on n’a pasobtenu,
comme on l’adéja
ditplus haut,
la convergence en 50itérations,
dans le cas d’un histo-gramme à 18 ou 9
classes,
etl’ajustement
obtenuaprès
ces 50 itérations était moins bon que dans le cas où l’on n’affecte pas deprobabilités.
Par contre dans le cas de
l’histogramme
à 6classes,
laprocédure R2
aconvergé,
et fourni unajustement
meilleur que celui obtenu sans affectation deprobabilités (cf
tableau3).
Remarque :
Nous avons obtenus des résultats et des conclusions similaires avec un second lot de données
(histogramme
à 21classes)
fourni parBhattacharya,
et où il y avait 5
composantes gaussiennes
bienséparées.
VII. 2 - Second
exemple
On a simulé sur 200
observations,
unmélange
de deux loisgaussiennes
decaractéristiques
La méthode de
Bhattacharya (avec
unhistogramme
à 10classes)
nepermet
pas de déceler les deuxcomposantes.
La méthode par déconvolutions successives
(toujours
avec un histo-gramme à 10
classes)
trouve bien lepremier pic,
mais elle surestime sonimpor-
tance, et en fait on trouve deux autrespics.
C’est la méthode du VI
(procédures RI
etR2) qui
a fourni les meilleursrésultats.
Quand
on demande deuxcomposantes,
laprocédure Ri
1 fournitplusieurs
résultats suivant lepoint
dedépart
choisi. Par contre, laprocédure R2
atoujours convergé
vers le mémerésultat,
etl’ajustement
obtenu est meil-leur que ceux obtenus avec
Ri
Si l’on
impose
3classes,
que l’onparte
de lapartition
P obtenue àpartir
des observationsrangées
par valeurs croissantes et divisées en troisclasses
d’égal
effectif(valeurs
faibles - valeurs moyennes - valeursfortes)
ou des résultats obtenus à
partir
de P avec laprocédure RI,
laprocédure R2
donne le même résultat.
Par contre, la
procédure RI
donne des résultats différents que l’onparte
deP,
ou des résultats issus deR2,
la valeur du critère u*(cf VI)
étant sensiblement la même dans les deux cas,l’ajustement
étant meilleurlorsqu’on part
de P.Les résultats obtenus avec ces deux
procédures
ne donnent en fait que 2classes,
la troisièmeayant
unpourcentage négligeable (1 %) ; l’ajustement
et les résultats obtenus sont encore les meilleurs
quand
onapplique
laprocé-
dure
R2
Signalons qu’en partant
d’unsystème
deprobabilités d’appartenance Pij,
on aobtenu,
au bout de 50itérations,
avec laprocédure R2 (qui
n’apas
convergé
dans cecas),
un meilleurajustement
que ceuxprécédemment obtenus,
alorsqu’en
fait les résultats obtenus sont moinsbons,
les troiscomposantes
ainsi estimées étant enproportions
sensiblementégales.
Les différents résultats obtenus sont résumés sur le tableau 4.
VII. 3 -
Quelques
remarquespratiques
etméthodologiques
Le programme utilisant la méthode de
Bhattacharya
est trèsrapide,
maisil semble
plus précis
encored’opérer graphiquement
pour mieuxintégrer
visuellement les zones où l’on a des
points répartis
sur une droite depente négative (cf
IV2).
En ce
qui
concerne le programme basé sur la méthode desdeconvolutions,
il semblequ’il
failleprendre
comme critère d’arrêt desdéconvolutions,
non pas un seuil pour le
X2 d’ajustement (i.e.
pour laquantité
T introduiteen
VII 1 ),
mais le moment où cex2
au lieu de croîtreregulièrement,
fait unsaut
important.
Eneffet,
si l’on a un trèsgrand
nombre Nd’observations,
ce
X2 (qui
esthomogène
àN)
sera trèsélevé,
et très vitesignificatif,
alorsque s’il y a peu
d’observations,
ceX2
sera faible.Par ailleurs si l’on n’a pas un
pic
trèsnet,
la rechercheautomatique
dupic
estdélicate,
et il sera nécessaire de vérifier lepic adopté,
et le cas échéantde repasser le programme en
adoptant
un autrepic ;
laprocédure
n’est doncpas
complétement automatique.
Dans ce cas l’estimation de lacomposante gaussienne
associée estdouteuse ;
ceci seproduit
pour lespics
d’ordresupérieur,
et il vaudra mieux alors se contenter despremières composantes déjà estimées,
même sil’histogramme
résiduel ne se réduit pas à zéro.En ce
qui
concerne lesprocédures RI
etR2,
elles ont étéprogrammées
en un seul sous programme
(la procédure RI
étant un casparticulier
de laprocédure R2).
Si laprocédure R2
ne se stabilise pas, on choisira commeestimation celle
qui
fournit le meilleurajustement,
cequi
seproduit
engénéral
dès lespremières
itérations du processus.Du
point
de vueméthodologique,
on pourraopérer
comme suit :1)
Onapplique
laprocédure (sans
affectation deprobabilités),
i.e. laprocédure RI,
en démarrant sur lapartition
P obtenue àpartir
des individusM
C3 0
*E3
Jg
rq
rangés
par valeurscroissantes, puis
divisés en r classes de mêmeeffectif,
si l’on recherche r
composantes.
2)
Onapplique
laprocédure (avec
affectation deprobabilités),
i.e. laprocédure R2,
enpartant
du résultat du1)
3)
Onapplique
cette mêmeprocédure R2
enpartant
de lapartition
P4)
Onapplique
laprocédure R1,
enpartant
du résultat du 3.L’on retient alors les résultats
correspondant
au meilleurajustement.
Il faut néanmoins remarquer que cette
façon
deprocéder
ne conduitpas forcément à la meilleure
solution,
enparticulier
si le nombre r de compo- santeschoisi,
estplus
fort que le nombre réel.Pour essayer de déterminer r, on
peut
d’abord faire r =1,
et effectuerun test
classique
de normalité. Si ce test estsignificatif,
on entame laprocédure
avec r =
2, puis
r =3, ...
etc, et l’on s’arrêteraquand
lex2 d’ajustement
sera inférieur à un seuil donné.
VII. 4 - Conclusion
Des deux
exemples
que nous avonsexposés,
et d’ungrand
nombre d’essais que nous avonseffectués,
il semble ressortir laphilosophie
suivante :Si les
composantes
sont bienséparées,
visibles à l’oeil nu sur l’histo- gramme, les méthodesgraphiques
semblent lesplus
naturelles et lesmeilleures,
car elles fournissent un excellent
ajustement.
Si les
composantes
sont bienimbriquées,
la méthode par déconvolutions successivespermet
d’estimer avecprécision
lepremier pic (moyenne
etécart
type) ;
par contre, comme elle surestime sonimportance,
la recherche despics
suivants estdélicate,
et leur estimation est mauvaise*.C’est la méthode de reconnaissance des formes du VI
(combinaison
desprocédures RI
etR2) qui
semble laplus adaptée, quand
lescomposantes
sont bien
imbriquées,
etqu’on
connait leur nombre.BIBLIOGRAPHIE
[1] BENZECRI
J.P. - Larégression (publication
du Laboratoire deStatistique Mathématique)
1970[2] BHATTACHARYA -
Asimple
method of resolution of a distribution into Gaussiancomponents (pp 115-135) Biometrics,
Mars 67[3] BUCHANAN-WOLLASTON
H.G. et HODGESON W.G. - A new method oftreating frequency
curves infishery statistics,
with some résults.j.
Cons.4, (pp 207-225),
1929* En fait cette méthode semblerait plus applicable, si on avait des Tistogrammes ayant 40 ou 50 classes, auquel cas on aurait probablement des pics plus nets, mais il est
rare qu’on ait assez d’observations pour obtenir un histogramme à 40 ou 50 classes
précis ; même si c’était le cas, le temps de calcul deviendrait prohibitif,
puis qu’à
chaque déconvolution, on ferait une régression sous contrainte avec 40 ou 50 coefficients à estimer.[4]
CASSIE R.M. - Some uses ofprobability
paper for thegraphical analysis
of
polymodal frequency
distributions. Aust.j.
Mar. Freshw. Res.5, (pp 513-522).
1954[5] DAY
N.E. -Estimating
thecomponents
of a mixture of normal distri- butions. Biometrika 56.3(pp 463-474)
1969[6] DIDAY
E. - Une nouvelle méthode en classificationautomatique
etreconnaissance des formes : la méthode des nuées
dynamiques ; R S A,
volXIX, n° 2,
1971[7] HARDING
J. F. 2014 The use ofprobability
paper for thegraphical analysis
ofpolymodal frequency
distributions.J. Mar. biol. Ass. U.K. 28(pp 141-153).
1949
[8] PRESTON
E.J. - Agraphical
method foranalysis
of statistical distri- butions into normalcomponents.
Biometrika40, (pp 460-464).
1949[9]
SCHROEDER A. - Reconnaissance descomposants
d’unmélange.
Thèsede
3° cycle,
ParisVI,
Mai 1974[10] TANAKA
S. - A method ofanalysing
apolymodal
distribution and itsapplication
to thelenght
distribution of thePorgy,
Taius tumifroms(J.
etS.).
J. Fish. Res. Bd Can.19, (pp 1143-1159)
1962[11] YOUG
T.Y. et CORALUPPI G. - Stochastic Estimation of a mixture of normaldensity
functionsusing
an information criterion. IEEE Transon