EM : complexifier le modèle ou estimer de manière robuste

(1)

HAL Id: hal-00235656

https://hal.archives-ouvertes.fr/hal-00235656

Submitted on 4 Feb 2008

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

EM : complexifier le modèle ou estimer de manière robuste

Christophe Saint-Jean, Carl Frélicot, Bertrand Vachon

To cite this version:

Christophe Saint-Jean, Carl Frélicot, Bertrand Vachon. EM : complexifier le modèle ou estimer de manière robuste. RFIA 2000, Feb 2000, Paris, France. pp.139–148. �hal-00235656�

(2)

EM : complex models vs robust estimation

C. Saint-Jean

C. Frelicot B. Vachon

L3I - UPRESEA 1216

Avenue de Marillac

17042La Rochelle Cedex 1

fcsaintje,cfrelico,[email protected]

Resume

Notre etude compare deux strategies liees a la max-

imisation delavraisemblancevial'algorithme EM.La

premiereconsisteautiliserdesmodelestheoriquesplus

complexes qu'a l'habitude, la seconde en l'integration

d'estimateursrobustesdansl'etapedemaximisationde

l'algorithme. Nousavonsappliquecesdeuxtechniques

separement puis conjointement dansle cadre de don-

neesbruitees pour en tester la robustesse. Nous pro-

posonsegalement unmodele hybride eten presentons

lesresultats.

Mots Clef

Classication,Caracterisationetevaluationdeperfor-

mances,EM,Robustesse,M-estimateur.

Abstract

Our study compares two strategies relatedtothe like-

hood maximization via the EM algorithm. The rst

one consistsinusing theorical models which aremore

complexthanusualones. Thesecondisbasedoninte-

gration of robustestimators inthe maximization step

ofthealgorithm. Wehaveappliedthesetwotechniques

separately then jointly within the framework of noisy

data in order to test theirs robustnesses. Finally, we

introduce a hybrid model for a class and present the

resultsinthis paper.

Keywords

Clustering,Characterizationandevaluationofperfor-

mances,EM,robustness,M-estimator.

CetravailestnanceparleConseilGeneraldelaCharente-

Maritime

1 Introduction

Lastatistique connaitaujourd'hui unvifsuccesdans

des domaines tres divers. Elle trouve aussi bien

son application dans des domaines traditionnels tels

que l'analyse economique que dans des processus

industriels (Ex: detection automatiseededefautsde

fabricationparanalysed'images). De nombreuxlogi-

cielsissus delarecherchesontmaintenantaccessibles

par Internet. Parmi ceux-ci, citons EMMIX de G.

McLachlanet D.Peel[MP98] ouencoreMCLUSTde

C.Fraleyet A.Raftery[FR98b].

Laclassication(appeleeencorecategorisation)apour

objectifdemettre enevidence desrelationsentre des

objets decrits par un certain nombre de variables et

delesregrouperenentiteshomogenessuivantunecer-

tainemesuredesimilarite.

Dansnotrecas, lesattributsdecrivantlesobjetssont

uniquementdetypenumeriqueetl'onnotera:

x

i

=(x 1

i

;:::;x P

i )

T

levecteurattributpourlei-emeobjet.

Notreechantillon estconstituedeNdescriptions:

=fx

1

;x

2

;:::;x

N g

Lorsqu'onseplacedupointdevuemodeledemelange,

onconsidereleselementsdel'echantilloncommeles

realisationsd'un vecteur aleatoireX dedimension P

issuesdeC composantes deparametres

i

(i21;C).

Ladensitedemelangeenx s'ecritdeslors:

f(x;)= C

X

i f(x;

i )

(3)

i

eme composante ( P

k

i=1

i

= 1) et =

(

1

;:::;

C

; T

1

;:::; T

C )

T

lesparametresdumodele.

Dans le cas d'unecomposante normaleindicee pari,

lesparametressont

i

=(

i

;

i )

T

ou

i

representele

vecteurmoyenneet

i

lamatricedecovariance.

Onsouhaite modeliserladensitede probabilitedeX

al'aided'unmodeledeparametreenseservantde

sesrealisations(et eventuellementdeconnaissances a

priorisupplementaires).

Unedemarcheclassiqueconsisteatrouveruneestima-

tion

^

dequi maximiselavraisemblance

L()=P(j)= N

Y

i=1 C

X

j=1

j f(x

i

;

j )

ensupposantlesrealisationsdeX independantes.

Malheureusement, il arrive souvent que les donnees

quenousayonsatraitersoientbruitees.

Ondenitgeneralementlebruitcommeunedistortion

d'unmodelehypothetiquetheorique. Ilprovientaussi

bien de pertubations dans l'acquisition des donnees

(defaillance d'un capteur ou conditions exterieures)

quede pertubations lieesau transportet austockage

desdonnees(Ex. : Compressionpourlesimages). Un

algorithmeestrobuste s'ilestpeusensibleaubruit.

Jusqu'a recemment, les algorithmes de classica-

tion n'integraient directement que peu ou pas de

techniques robustes pour cause de co^ut de calcul.

Aujourd'hui, l'augmentation de la puissance des

machinespermet leurutilisation.

Dans ce papier, nous nous demandons s'il est

preferable de complexier le modele theorique d'une

classeouderobustierl'estimationdesparametresde

modeles plus simples pour tenir compte des donnees

bruitees.

A la section 2, nous rappelons les fondements

de l'algorithme EM. Nous donnerons les bases de

l'estimation robuste a l'aide des M-estimateurs a la

section3. Nouspresenteronsensuitelesresultatsque

nousavonsobtenussurdiversjeuxdedonnees(section

4) avantdeconclureensection5.

2 EM

2.1 Cadre general

L'algorithme EM est une technique iterative de

maximisation de la vraisemblance en presence de

donnees incompletes. On l'attribut generalement a

Dempster, Laird et Rubin [DLR77] m^eme s'il y aeu

anterieurementquelquestravauxconnexes[DH73].

des donnees relativement au modele de parametre

s'ecrit:

L()=P(j)

Cette maximisation etant diÆcile a realiser di-

rectement, on introduit une variable aleatoire Z

correspondant aux donnees cachees ou manquantes.

L'idee de cet algorithme est faciliter le processus

d'optimisation en utilisant une estimation de ces

donneesmanquantes.

AulieudemaximiserL(),onmaximiseiterativement

l'esperance conditionnelle de la vraisemblance com-

pletequi s'ecrit:

L

c

()=P(X;Zj)

L'algorithmeEMalternesuccessivementdeuxphases:

-E-Step

Calcul de l'esperance conditionnelle de la vraisem-

blancecomplete:

Q(j (t)

)=E[L

c

()j;

(t)

]

ou est un ensemble de realisations de X et (t)

l'estimationdesparametresal'instantt. Cetteetape

revient a engendrer une distribution de probabilite

pourZ.

-M-Step

MaximisationdeQ(j (t)

):

Q (t+1)

=argmax

Q(j (t)

)

On cherche a maximiser l'estimation de la vraisem-

blanceobtenuedansl'etapeprecedente.

L'unedesproprietesdecetalgorithmeestd'ameliorer

lavraisemblanceL()apreschaqueiterationjusqu'a

stabilite. Lelecteur interessetrouveradesdetails sur

laconvergencedeEMdans[DLR77]et[Wu83].

Cetalgorithmepossededeuxinconvenientsmajeurs. Il

estfortementdependantdel'initialisation (0)

etcon-

vergeversunextremumlocalquirisqued'^etreeloigne

de l'extremum global. De plus, il peut se reveler

co^uteux en temps machine pour des applications de

tailleimportante.

2.2 Utilisation en classication

L'algorithmeEMestabondammentutiliseenclassi-

cationdanslecadred'unmodeledemelange([MP98],

(4)

s'ecrit:

logL()= N

X

i=1 log

C

X

j=1

j f(x

i

;

j )

On considere la donnee incomplete comme la classe

d'appartenance de chacun des elements a classier.

Onecritpourl'elementx

i :

z

ij

=

1 six

i

appartientalaclasseC

j

0 sinon

Generalement,lesz

i

=(z

i1

;:::;z

iC

)sontpris comme

des realisations independantes suivant une distribu-

tionmultinomialeMult

k

(1;)ou=(

1

;:::;

C )

T

.

Sous ces conditions, la log-vraisemblance complete

s'ecrit:

logL

c ()=

N

X

i=1 C

X

j=1 z

ij log(

j f(x

i

;

j

)) (1)

L'algorithmeEMrepetedeuxphases:

E-Step (Expectation Step):

Oncalculel'esperanceconditionnelledelogL

c :

Q(j (t)

)=E[LogL

c

()j;

(t)

] (2)

CommeLogL

c

estunefonctionlineairedesz

ij ,cecal-

cul se limite a remplacer les z

ij

par leur esperance

conditionnelle:

E[z

ij j;

(t)

]=

j f(x

i

; (k )

j )

P

C

l=1

l f(x

i

; (k )

l )

Les z

ij

sont les probabilites a posterior-

id'appartenancedel'elementx

i

alaclasseC

j .

M-Step (Maximization Step): Dans cettephase,

on recherchela valeurde qui maximise (2). Cette

etape depend completement du modele de classe

choisi.

2.3 Cas d'un melange gaussien

Nous allons expliciter le calcul dans le cas d'un

melangegaussien.

Rappellons tout d'abord l'expression d'une densite

gaussiennemulti-dimensionnellededimensionP:

f(x;

j )=

1

(2) P=2

p

j

j j

e 1

2 (x j)

T

1

j (x j)

(3)

ou

j et

j

sontrespectivementlevecteurmoyenneet

lamatricedecovariancedelaj-emegaussienne.

placerlesz

ij

parleursestimations:

^ z

ij

=

j f(x

i

;

j )

P

C

l=1

l f(x

i

;

l )

La phase de maximisation quant a elle releve de

l'estimationde:

^

j

: Estimation de la probabilite a priori de la

j-emeclasse

^

(k +1)

j

= P

N

i=1

^ z

ij

N

(4)

^

j

: Estimationdelamoyennedelaj-emeclasse

^

(k +1)

j

= P

N

i=1

^ z

ij x

i

P

N

i=1

^ z

ij

(5)

^

j

: Estimationdelamatricedecovariancedela

j-emeclasse

^

(k +1)

j

= P

N

i=1

^ z

ij (x

i

^

(k +1)

j )(x

i

^

(k +1)

j )

T

P

N

i=1

^ z

ij

(6)

3 Robustesse et m-estimateur

3.1 Cadre general

On souhaite estimer un parametre a = (a

1

;:::;a

m )

representant un echantillon. Soit e

i

l'ecart entre la

donneeobserveeg

i

etlaprevisiondecettedonnee^g

i :

e

i

=g

i

^ g

i (a)

Cettevariable e suit une loide distribution J. Notre

objectif est de minimiser l'erreur sur l'ensemble des

donnees. Danslecasoul'echantillonestindependant,

onpeututiliserlamethodedumaximumdevraisem-

blancequi revientamaximiser:

N

Y

i=1 J(e

i

) (7)

Dans le cas mono-dimensionnel et si l'on fait

l'hypothesequeesuituneloinormale,onaboutitala

methodedesmoindrescarresdeLegendre.Parcontre,

si l'on suppose que e suit une loi exponentielle alors

onretrouvel'estimateurmedian.

On peut transformer la maximisation de (7) par la

minimisationd'unefonctiondeco^ut:

C(a)= N

X

( g

i

^ g

i (a)

i

) (8)

(5)

avec = log(J ) et

i

une ponderation de l'erreur

(incertitude). Laminimisationde(8)s'eectueparla

resolutiond'unsystemedemequationsdierentielles:

@C(a)

@a

k

= N

X

i=1 1

i (

g

i

^ g

i (a)

i )

@g^

i (a)

@a

k

=0 (9)

avec = d

dx

(x). Ce systeme n'a pas de solution

generale et il convient de l'etudier selon la fonction

. Parlasuite,nousnoteronsw(x)= (x)

x

lafonction

depoids.

3.2 Quelques estimateurs

NousallonsmaintenantpresenterquelquesM-estima-

teurs. Le graphique associe a chacun des modeles

represente la fonction de poids en relation avec

l'erreur.

Modelede Legendre

(x)=x 2

(x)=2x

w(x)=2

L-estimateur(Mediane)

(x)=jxj

(x)=sgn(x)

w(x)= 1

jxj

Modelede Cauchy/Lorentz

(x)= c

2

log(1+( x

c )

2

)

(x)= x

1+(

x

c )

2

w(x)= 1

1+(

x

c )

2

(x) = (

x 2

2

sijxjc

cjxj c

2

2 sinon

(x)=

x sijxjc

csgn(x)sinon

w(x)=

1sijxjc

c

jxj sinon

3.3 Estimationrobustedesparametres

d'un modele gaussien

Certainsdesestimateursquenousvenonsdepresenter

possedentunefonctiondepoidsdontlaformerappelle

celled'unegaussienne. Ainsilesdonneessurlesquelles

l'erreurest faible inueront d'autant plus sur le cal-

cul. Aucontraire,unedonneeavecuneerreurfortene

jouerapasungrandr^ole.

Nousallonsmaintenantevoquerlecasdel'estimation

robuste de la moyenne et de la matrice de covari-

ance dans le cadre de l'etape de maximisation dans

l'algorithmeEM.

Estimation robuste de la moyenne. La

proceduredecriteicieectue uneestimation iterative

delamoyennem. Envoicilefonctionnementgeneral.

Dansunpremiertemps, oncalculelamoyennearith-

metique surlesdonnees. Ensuite,onaecteunpoids

p

i

achaquex

i

en fonctiondeladistancede celui-cia

la moyenne precedemment calculee. On reestime la

moyenne en tenant compte des poids aectes par la

formule:

^ m=

P

N

i=1 p

i x

i

P

N

i=1 p

i

(10)

Onrecommence l'operationtant quel'estimateur n'a

pasconverge. Onnotem (t)

l'estimationdelamoyenne

al'iterationt.

t 1;

m (0)

= P

N

i=1 z

i x

i

P

N

i=1 z

i

;

repeter

pouriallantde 1aN faire

e

i

d(x

i

;m (t 1)

);

w

i

(ei)

ei

;

m (t)

P

N

i=1 w

i z

i x

i

P

N

i=1 w

i z

i

;

t t+1;

jusqu'aCondition d'arr^et;

Algorithme1: Estimationrobute delamoyenne

(6)

modeles quenousavonspresentesprecedemment. Le

calcul duresidue

i

faitintervenirunefonctiondedis-

tance entre ladonnee x

i

et lamoyenneestimeem^ (t)

.

Onprend generalementladistancedeMahalanobis:

d

M (x

i

;

j )=

q

(x

i m

j )

T

1

j (x

i m

j )

avec

j

uneclassegaussiennedeparametres(

j

;

j ).

3.4 Estimation robuste de la matrice

de covariance

On peut imaginer coupler le procede ci-dessus avec

le calcul de la matrice decovariance . Eneet, on

prendraitlam^emeponderationquecelleobtenuedans

lamoyennequidonnerait:

^

(t)

= P

N

i=1 w

i z

i (x

i

^ m

(t)

)(x

i

^ m

(t)

) T

P

N

i=1 w

i z

i

Onpermetdecettefaconuneremiseajouralavolee

delamatricedecovariancedontontientcomptepour

lecalculdeladistancedeMahalanobis.

3.5 Remarques

Lacomplexitedul'algorithmedecalculdelamoyenne

passe de O(n) a O(kn) ou k designe le nombre

d'iterationseectuees.

On peut egalement remarquer que les fonctions de

poidssontsymetriquesetmonotonesdecroissantessur

[0;+1[. Dans le cas de notre estimation iterative,

cela implique que plusl'on eectue d'iterations, plus

l'estimation repose sur un petit nombre de valeurs.

Ainsi, ce que l'on gagne en robustesse est perdu en

precision. Pourcetteraison,onborne habituellement

le nombre d'iterations. Le test de convergence peut

^

etreunecombinaisondeplusieurstypes:

1. t<t

max

2.

jm^ (t)

^ m

(t+1)

j

^ m

(t)

<

3. Tauxmaximald'elimination<

max

ouestle

pourcentagedes donnees quiontunpoids quasi-

nul.

Nous avons utilise une combinaison de 1 et 3 avec

max

=50%.

4 Comparaison des deux s-

trategies

Nous souhaitons determiner s'il convient d'employer

des modeles plus complexes, ou s'il est preferable de

baseestrelativementetroite. Ainsi,unedonneesituee

a3 fois l'ecart-type aune probabilite apriori quasi-

nulle(0.0044)d'^etreissuedecette celle-ci. Defait, si

apresuncertainnombred'iterationsdeEM,lemodele

est perturbe par des donnees bruitees, l'algorithme

risquede seretrouverpiegedans un extremum local

eloignede extremumglobal. Notre idee est d'utiliser

desmodeles plussouples.

4.1 Modeles testes

Voicilesmodelestestes:

1. Melangedegaussiennes.

Chaqueclasseestmodeliseeparuneloinormale.

Lesparametressont estimesparlesformules (3)

a(5).

f(x;)= C

X

i=1

i N(x;

i

;

i )

N represente la densite gaussienne multi-

dimensionnelle(3).

2. Melangedegaussiennes+uneuniforme.

Onrajoutea1uneloiuniformepourmodeliserle

bruitdemaniereglobale.

f(x;)=U(x;H)+ C

X

i=1

i N(x;

i

;

i )

U represente la loi uniforme appliquee dans

l'hyper-cubeHenglobantlesdonnees.

3. Melangedegaussiennesavecestimationrobuste.

f(x;)= C

X

i=1

i

N(x;

i

;

i )

ou

i et

i

sont lesestimations robustesrespec-

tivesdes vecteursmoyennes et lamatrice de co-

variancedelai-emecomposante.

4. Melangede gaussiennes avec estimation robuste

+uniforme.

f(x;)=U(x;H)+ C

X

i=1

i

N(x;

i

;

i )

5. Nousproposonsune modelisationintra-classedu

bruit. Chaqueclasseestmodeliseepar:

f(x;)= C

X

i=1

[(1 )N(x;

i

;

i

)+N(x;

i

;c

i )]

On choisirade preference petit et c grand(cf.