HAL Id: hal-00235656
https://hal.archives-ouvertes.fr/hal-00235656
Submitted on 4 Feb 2008
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
EM : complexifier le modèle ou estimer de manière robuste
Christophe Saint-Jean, Carl Frélicot, Bertrand Vachon
To cite this version:
Christophe Saint-Jean, Carl Frélicot, Bertrand Vachon. EM : complexifier le modèle ou estimer de manière robuste. RFIA 2000, Feb 2000, Paris, France. pp.139–148. �hal-00235656�
EM : complex models vs robust estimation
C. Saint-Jean
C. Frelicot B. Vachon
L3I - UPRESEA 1216
Avenue de Marillac
17042La Rochelle Cedex 1
fcsaintje,cfrelico,[email protected]
Resume
Notre etude compare deux strategies liees a la max-
imisation delavraisemblancevial'algorithme EM.La
premiereconsisteautiliserdesmodelestheoriquesplus
complexes qu'a l'habitude, la seconde en l'integration
d'estimateursrobustesdansl'etapedemaximisationde
l'algorithme. Nousavonsappliquecesdeuxtechniques
separement puis conjointement dansle cadre de don-
neesbruitees pour en tester la robustesse. Nous pro-
posonsegalement unmodele hybride eten presentons
lesresultats.
Mots Clef
Classication,Caracterisationetevaluationdeperfor-
mances,EM,Robustesse,M-estimateur.
Abstract
Our study compares two strategies relatedtothe like-
hood maximization via the EM algorithm. The rst
one consistsinusing theorical models which aremore
complexthanusualones. Thesecondisbasedoninte-
gration of robustestimators inthe maximization step
ofthealgorithm. Wehaveappliedthesetwotechniques
separately then jointly within the framework of noisy
data in order to test theirs robustnesses. Finally, we
introduce a hybrid model for a class and present the
resultsinthis paper.
Keywords
Clustering,Characterizationandevaluationofperfor-
mances,EM,robustness,M-estimator.
CetravailestnanceparleConseilGeneraldelaCharente-
Maritime
1 Introduction
Lastatistique connaitaujourd'hui unvifsuccesdans
des domaines tres divers. Elle trouve aussi bien
son application dans des domaines traditionnels tels
que l'analyse economique que dans des processus
industriels (Ex: detection automatiseededefautsde
fabricationparanalysed'images). De nombreuxlogi-
cielsissus delarecherchesontmaintenantaccessibles
par Internet. Parmi ceux-ci, citons EMMIX de G.
McLachlanet D.Peel[MP98] ouencoreMCLUSTde
C.Fraleyet A.Raftery[FR98b].
Laclassication(appeleeencorecategorisation)apour
objectifdemettre enevidence desrelationsentre des
objets decrits par un certain nombre de variables et
delesregrouperenentiteshomogenessuivantunecer-
tainemesuredesimilarite.
Dansnotrecas, lesattributsdecrivantlesobjetssont
uniquementdetypenumeriqueetl'onnotera:
x
i
=(x 1
i
;:::;x P
i )
T
levecteurattributpourlei-emeobjet.
Notreechantillon estconstituedeNdescriptions:
=fx
1
;x
2
;:::;x
N g
Lorsqu'onseplacedupointdevuemodeledemelange,
onconsidereleselementsdel'echantilloncommeles
realisationsd'un vecteur aleatoireX dedimension P
issuesdeC composantes deparametres
i
(i21;C).
Ladensitedemelangeenx s'ecritdeslors:
f(x;)= C
X
i f(x;
i )
i
eme composante ( P
k
i=1
i
= 1) et =
(
1
;:::;
C
; T
1
;:::; T
C )
T
lesparametresdumodele.
Dans le cas d'unecomposante normaleindicee pari,
lesparametressont
i
=(
i
;
i )
T
ou
i
representele
vecteurmoyenneet
i
lamatricedecovariance.
Onsouhaite modeliserladensitede probabilitedeX
al'aided'unmodeledeparametreenseservantde
sesrealisations(et eventuellementdeconnaissances a
priorisupplementaires).
Unedemarcheclassiqueconsisteatrouveruneestima-
tion
^
dequi maximiselavraisemblance
L()=P(j)= N
Y
i=1 C
X
j=1
j f(x
i
;
j )
ensupposantlesrealisationsdeX independantes.
Malheureusement, il arrive souvent que les donnees
quenousayonsatraitersoientbruitees.
Ondenitgeneralementlebruitcommeunedistortion
d'unmodelehypothetiquetheorique. Ilprovientaussi
bien de pertubations dans l'acquisition des donnees
(defaillance d'un capteur ou conditions exterieures)
quede pertubations lieesau transportet austockage
desdonnees(Ex. : Compressionpourlesimages). Un
algorithmeestrobuste s'ilestpeusensibleaubruit.
Jusqu'a recemment, les algorithmes de classica-
tion n'integraient directement que peu ou pas de
techniques robustes pour cause de co^ut de calcul.
Aujourd'hui, l'augmentation de la puissance des
machinespermet leurutilisation.
Dans ce papier, nous nous demandons s'il est
preferable de complexier le modele theorique d'une
classeouderobustierl'estimationdesparametresde
modeles plus simples pour tenir compte des donnees
bruitees.
A la section 2, nous rappelons les fondements
de l'algorithme EM. Nous donnerons les bases de
l'estimation robuste a l'aide des M-estimateurs a la
section3. Nouspresenteronsensuitelesresultatsque
nousavonsobtenussurdiversjeuxdedonnees(section
4) avantdeconclureensection5.
2 EM
2.1 Cadre general
L'algorithme EM est une technique iterative de
maximisation de la vraisemblance en presence de
donnees incompletes. On l'attribut generalement a
Dempster, Laird et Rubin [DLR77] m^eme s'il y aeu
anterieurementquelquestravauxconnexes[DH73].
des donnees relativement au modele de parametre
s'ecrit:
L()=P(j)
Cette maximisation etant diÆcile a realiser di-
rectement, on introduit une variable aleatoire Z
correspondant aux donnees cachees ou manquantes.
L'idee de cet algorithme est faciliter le processus
d'optimisation en utilisant une estimation de ces
donneesmanquantes.
AulieudemaximiserL(),onmaximiseiterativement
l'esperance conditionnelle de la vraisemblance com-
pletequi s'ecrit:
L
c
()=P(X;Zj)
L'algorithmeEMalternesuccessivementdeuxphases:
-E-Step
Calcul de l'esperance conditionnelle de la vraisem-
blancecomplete:
Q(j (t)
)=E[L
c
()j;
(t)
]
ou est un ensemble de realisations de X et (t)
l'estimationdesparametresal'instantt. Cetteetape
revient a engendrer une distribution de probabilite
pourZ.
-M-Step
MaximisationdeQ(j (t)
):
Q (t+1)
=argmax
Q(j (t)
)
On cherche a maximiser l'estimation de la vraisem-
blanceobtenuedansl'etapeprecedente.
L'unedesproprietesdecetalgorithmeestd'ameliorer
lavraisemblanceL()apreschaqueiterationjusqu'a
stabilite. Lelecteur interessetrouveradesdetails sur
laconvergencedeEMdans[DLR77]et[Wu83].
Cetalgorithmepossededeuxinconvenientsmajeurs. Il
estfortementdependantdel'initialisation (0)
etcon-
vergeversunextremumlocalquirisqued'^etreeloigne
de l'extremum global. De plus, il peut se reveler
co^uteux en temps machine pour des applications de
tailleimportante.
2.2 Utilisation en classication
L'algorithmeEMestabondammentutiliseenclassi-
cationdanslecadred'unmodeledemelange([MP98],
s'ecrit:
logL()= N
X
i=1 log
C
X
j=1
j f(x
i
;
j )
On considere la donnee incomplete comme la classe
d'appartenance de chacun des elements a classier.
Onecritpourl'elementx
i :
z
ij
=
1 six
i
appartientalaclasseC
j
0 sinon
Generalement,lesz
i
=(z
i1
;:::;z
iC
)sontpris comme
des realisations independantes suivant une distribu-
tionmultinomialeMult
k
(1;)ou=(
1
;:::;
C )
T
.
Sous ces conditions, la log-vraisemblance complete
s'ecrit:
logL
c ()=
N
X
i=1 C
X
j=1 z
ij log(
j f(x
i
;
j
)) (1)
L'algorithmeEMrepetedeuxphases:
E-Step (Expectation Step):
Oncalculel'esperanceconditionnelledelogL
c :
Q(j (t)
)=E[LogL
c
()j;
(t)
] (2)
CommeLogL
c
estunefonctionlineairedesz
ij ,cecal-
cul se limite a remplacer les z
ij
par leur esperance
conditionnelle:
E[z
ij j;
(t)
]=
j f(x
i
; (k )
j )
P
C
l=1
l f(x
i
; (k )
l )
Les z
ij
sont les probabilites a posterior-
id'appartenancedel'elementx
i
alaclasseC
j .
M-Step (Maximization Step): Dans cettephase,
on recherchela valeurde qui maximise (2). Cette
etape depend completement du modele de classe
choisi.
2.3 Cas d'un melange gaussien
Nous allons expliciter le calcul dans le cas d'un
melangegaussien.
Rappellons tout d'abord l'expression d'une densite
gaussiennemulti-dimensionnellededimensionP:
f(x;
j )=
1
(2) P=2
p
j
j j
e 1
2 (x j)
T
1
j (x j)
(3)
ou
j et
j
sontrespectivementlevecteurmoyenneet
lamatricedecovariancedelaj-emegaussienne.
placerlesz
ij
parleursestimations:
^ z
ij
=
j f(x
i
;
j )
P
C
l=1
l f(x
i
;
l )
La phase de maximisation quant a elle releve de
l'estimationde:
^
j
: Estimation de la probabilite a priori de la
j-emeclasse
^
(k +1)
j
= P
N
i=1
^ z
ij
N
(4)
^
j
: Estimationdelamoyennedelaj-emeclasse
^
(k +1)
j
= P
N
i=1
^ z
ij x
i
P
N
i=1
^ z
ij
(5)
^
j
: Estimationdelamatricedecovariancedela
j-emeclasse
^
(k +1)
j
= P
N
i=1
^ z
ij (x
i
^
(k +1)
j )(x
i
^
(k +1)
j )
T
P
N
i=1
^ z
ij
(6)
3 Robustesse et m-estimateur
3.1 Cadre general
On souhaite estimer un parametre a = (a
1
;:::;a
m )
representant un echantillon. Soit e
i
l'ecart entre la
donneeobserveeg
i
etlaprevisiondecettedonnee^g
i :
e
i
=g
i
^ g
i (a)
Cettevariable e suit une loide distribution J. Notre
objectif est de minimiser l'erreur sur l'ensemble des
donnees. Danslecasoul'echantillonestindependant,
onpeututiliserlamethodedumaximumdevraisem-
blancequi revientamaximiser:
N
Y
i=1 J(e
i
) (7)
Dans le cas mono-dimensionnel et si l'on fait
l'hypothesequeesuituneloinormale,onaboutitala
methodedesmoindrescarresdeLegendre.Parcontre,
si l'on suppose que e suit une loi exponentielle alors
onretrouvel'estimateurmedian.
On peut transformer la maximisation de (7) par la
minimisationd'unefonctiondeco^ut:
C(a)= N
X
( g
i
^ g
i (a)
i
) (8)
avec = log(J ) et
i
une ponderation de l'erreur
(incertitude). Laminimisationde(8)s'eectueparla
resolutiond'unsystemedemequationsdierentielles:
@C(a)
@a
k
= N
X
i=1 1
i (
g
i
^ g
i (a)
i )
@g^
i (a)
@a
k
=0 (9)
avec = d
dx
(x). Ce systeme n'a pas de solution
generale et il convient de l'etudier selon la fonction
. Parlasuite,nousnoteronsw(x)= (x)
x
lafonction
depoids.
3.2 Quelques estimateurs
NousallonsmaintenantpresenterquelquesM-estima-
teurs. Le graphique associe a chacun des modeles
represente la fonction de poids en relation avec
l'erreur.
Modelede Legendre
(x)=x 2
(x)=2x
w(x)=2
L-estimateur(Mediane)
(x)=jxj
(x)=sgn(x)
w(x)= 1
jxj
Modelede Cauchy/Lorentz
(x)= c
2
2
log(1+( x
c )
2
)
(x)= x
1+(
x
c )
2
w(x)= 1
1+(
x
c )
2
(x) = (
x 2
2
sijxjc
cjxj c
2
2 sinon
(x)=
x sijxjc
csgn(x)sinon
w(x)=
1sijxjc
c
jxj sinon
3.3 Estimationrobustedesparametres
d'un modele gaussien
Certainsdesestimateursquenousvenonsdepresenter
possedentunefonctiondepoidsdontlaformerappelle
celled'unegaussienne. Ainsilesdonneessurlesquelles
l'erreurest faible inueront d'autant plus sur le cal-
cul. Aucontraire,unedonneeavecuneerreurfortene
jouerapasungrandr^ole.
Nousallonsmaintenantevoquerlecasdel'estimation
robuste de la moyenne et de la matrice de covari-
ance dans le cadre de l'etape de maximisation dans
l'algorithmeEM.
Estimation robuste de la moyenne. La
proceduredecriteicieectue uneestimation iterative
delamoyennem. Envoicilefonctionnementgeneral.
Dansunpremiertemps, oncalculelamoyennearith-
metique surlesdonnees. Ensuite,onaecteunpoids
p
i
achaquex
i
en fonctiondeladistancede celui-cia
la moyenne precedemment calculee. On reestime la
moyenne en tenant compte des poids aectes par la
formule:
^ m=
P
N
i=1 p
i x
i
P
N
i=1 p
i
(10)
Onrecommence l'operationtant quel'estimateur n'a
pasconverge. Onnotem (t)
l'estimationdelamoyenne
al'iterationt.
t 1;
m (0)
= P
N
i=1 z
i x
i
P
N
i=1 z
i
;
repeter
pouriallantde 1aN faire
e
i
d(x
i
;m (t 1)
);
w
i
(ei)
ei
;
m (t)
P
N
i=1 w
i z
i x
i
P
N
i=1 w
i z
i
;
t t+1;
jusqu'aCondition d'arr^et;
Algorithme1: Estimationrobute delamoyenne
modeles quenousavonspresentesprecedemment. Le
calcul duresidue
i
faitintervenirunefonctiondedis-
tance entre ladonnee x
i
et lamoyenneestimeem^ (t)
.
Onprend generalementladistancedeMahalanobis:
d
M (x
i
;
j )=
q
(x
i m
j )
T
1
j (x
i m
j )
avec
j
uneclassegaussiennedeparametres(
j
;
j ).
3.4 Estimation robuste de la matrice
de covariance
On peut imaginer coupler le procede ci-dessus avec
le calcul de la matrice decovariance . Eneet, on
prendraitlam^emeponderationquecelleobtenuedans
lamoyennequidonnerait:
^
(t)
= P
N
i=1 w
i z
i (x
i
^ m
(t)
)(x
i
^ m
(t)
) T
P
N
i=1 w
i z
i
Onpermetdecettefaconuneremiseajouralavolee
delamatricedecovariancedontontientcomptepour
lecalculdeladistancedeMahalanobis.
3.5 Remarques
Lacomplexitedul'algorithmedecalculdelamoyenne
passe de O(n) a O(kn) ou k designe le nombre
d'iterationseectuees.
On peut egalement remarquer que les fonctions de
poidssontsymetriquesetmonotonesdecroissantessur
[0;+1[. Dans le cas de notre estimation iterative,
cela implique que plusl'on eectue d'iterations, plus
l'estimation repose sur un petit nombre de valeurs.
Ainsi, ce que l'on gagne en robustesse est perdu en
precision. Pourcetteraison,onborne habituellement
le nombre d'iterations. Le test de convergence peut
^
etreunecombinaisondeplusieurstypes:
1. t<t
max
2.
jm^ (t)
^ m
(t+1)
j
^ m
(t)
<
3. Tauxmaximald'elimination<
max
ouestle
pourcentagedes donnees quiontunpoids quasi-
nul.
Nous avons utilise une combinaison de 1 et 3 avec
max
=50%.
4 Comparaison des deux s-
trategies
Nous souhaitons determiner s'il convient d'employer
des modeles plus complexes, ou s'il est preferable de
baseestrelativementetroite. Ainsi,unedonneesituee
a3 fois l'ecart-type aune probabilite apriori quasi-
nulle(0.0044)d'^etreissuedecette celle-ci. Defait, si
apresuncertainnombred'iterationsdeEM,lemodele
est perturbe par des donnees bruitees, l'algorithme
risquede seretrouverpiegedans un extremum local
eloignede extremumglobal. Notre idee est d'utiliser
desmodeles plussouples.
4.1 Modeles testes
Voicilesmodelestestes:
1. Melangedegaussiennes.
Chaqueclasseestmodeliseeparuneloinormale.
Lesparametressont estimesparlesformules (3)
a(5).
f(x;)= C
X
i=1
i N(x;
i
;
i )
N represente la densite gaussienne multi-
dimensionnelle(3).
2. Melangedegaussiennes+uneuniforme.
Onrajoutea1uneloiuniformepourmodeliserle
bruitdemaniereglobale.
f(x;)=U(x;H)+ C
X
i=1
i N(x;
i
;
i )
U represente la loi uniforme appliquee dans
l'hyper-cubeHenglobantlesdonnees.
3. Melangedegaussiennesavecestimationrobuste.
f(x;)= C
X
i=1
i
N(x;
i
;
i )
ou
i et
i
sont lesestimations robustesrespec-
tivesdes vecteursmoyennes et lamatrice de co-
variancedelai-emecomposante.
4. Melangede gaussiennes avec estimation robuste
+uniforme.
f(x;)=U(x;H)+ C
X
i=1
i
N(x;
i
;
i )
5. Nousproposonsune modelisationintra-classedu
bruit. Chaqueclasseestmodeliseepar:
f(x;)= C
X
i=1
[(1 )N(x;
i
;
i
)+N(x;
i
;c
i )]
On choisirade preference petit et c grand(cf.