Algorithme EM

L’algorithme espérance-maximisation (Expectation-maximisation algorithm) abrégé EM a

été introduit par Dempster, Laird et Rubin en 1977 [55]. C’est un algorithme qui permet

de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le

modèle dépend de variables latentes non observables (données incomplètes). On utilise souvent

l’algorithme EM pour la classiﬁcation de données, l’apprentissage automatique, ou la vision

artiﬁcielle. On peut également citer son utilisation en imagerie médicale dans le cadre de la

reconstruction tomographique. L’algorithme d’espérance-maximisation comporte :

• ^{une étape d’évaluation de l’espérance (E), où l’on calcule l’espérance de la vraisemblance}

en tenant compte des dernières variables observées,

• ^{une étape de maximisation (M), où l’on estime le maximum de vraisemblance des}

para-mètres en maximisant la vraisemblance trouvée à l’étape E.

On utilise ensuite les paramètres trouvés en M comme point de départ d’une nouvelle phase

d’évaluation de l’espérance, et l’on itère ainsi.

L’application de l’algorithme EM est réalisée dans les situations où l’on dispose de données

incomplètes et par conséquent l’estimation du maximum de vraisemblance est rendue diﬃcile

par l’absence d’une partie des données. Bien que l’algorithme EM est souvent appliquée avec

succès, il peut dans certaines situations être lent à converger ou ne pas converger [56].

Snyder & Miller [20] ont proposé la description suivante de l’algorithme EM dans le cas de

processus stochastique. L’algorithme espérance-maximisation (EM) est basé sur les concepts

d’un espace de données incomplètes N

, un espace de données complètes N, et un chemin

h:N →N

.

L’espace de données incomplètes est l’espaceN

dans lequel les données mesurées prennent leurs

valeurs. L’espace de données complètes N est un espace hypothétique qui parvint à atteindre

deux objectifs : 1) rendre les étapes espérances et maximisation de l’algorithme EM

analytique-ment ﬂexible ; et 2) faire les calculs nécessaires à l’algorithme EM pour produire des résultats

numérique des estimations. L’espace de données complètes pour un problème donné n’est pas

unique, et l’algorithme EM qui en résulte peut être plus ou moins complexe en fonction du

choix eﬀectué. Souvent, un choix approprié est suggéré par une compréhension des mécanismes

de déformation et du bruit relatif aux données mesurées sur l’espace de données incomplètes.

Pour le chemin deN àN

, l’espace de données complètes est plus grand que l’espace de données

incomplètes c’est à dire que les données complètes doivent déterminer les données incomplètes.

Il doit y avoir une fonction connue h(.) dont le chemin va des données complètes aux données

incomplètes. Il s’agit généralement d’une application avec de nombreux points deN qui donne

le même point dansN

. Cette fonction des données incomplètes est déterminée parh(N) = N

,

sur les valeurs que les données incomplètes N peuvent avoir.

Notons l’ensemble de paramètres qui doivent être estimés par θ, et supposons que ce vecteur

appartient dans un ensemble de valeurs de paramètres possiblesi.e Θ_⊆R

ⁿ

. Une estimation de

θ est appelé recevable que si elle est dans Θ. Les paramètres θ peuvent être non aléatoires, ou

ils peuvent être aléatoires. Nous allons utiliser la méthode du maximum de vraisemblance pour

l’estimation des paramètres non aléatoires, et pour les paramètres aléatoires, nous supposons

qu’il existe une densité de probabilité a priori connue λ(θ), et nous utilisons l’estimateur du

maximum a posteriori(MAP).

Deux fonctions de log-vraisemblance sont importantes pour l’estimation des paramètres θ à

partir des données mesurées qui appartiennent à N

lorsque l’algorithme EM est utilisé. La

II.3 Algorithmes pour le calcul des estimateurs

log-vraisemblance des données incomplètes pour l’estimation de paramètres non aléatoires

L

id(

N

(t)_|θ) = log[f(N

(t)_|θ)], où f désigne la densité des données incomplètes en fonction

des paramètres, c’est la log-vraisemblance que nous avons utilisé jusqu’à présent dans

l’estima-tion des paramètres. Le maximum de vraisemblance qui estime ˆθ ≡ θ^ˆ(N

(t)) est une fonction

de vecteur à valeur admissible de données incomplètesN

(t) qui maximise la log-vraisemblance

des données incomplètes

ˆ

θ = arg max

θ∈Θ

[L

id(

N

(t)_|θ)].

Si les paramètres sont aléatoires, alors la quantité logf(θ) doit être ajoutée à log[f(N

(t)_|θ)]

dans la formation de la log-vraisemblance des données incomplètes.

La deuxième log-vraisemblance qui est aussi importante. C’est la log-vraisemblance de données

complètes qui est déﬁnie par L

cd(

N(t)_|θ) = log[g(N(t)_|θ)], où g désigne la densité de données

complètes en fonction des paramètres.

L’algorithme EM est itératif. Il part d’une valeur initiale ˆθ

(0)

, où il genère une séquence

d’esti-mateurs ˆθ

(1)

,_θˆ

(2)

, . . . ,_θˆ

(k)

, . . . de façons que la séquence correspondante à log-vraisemblance de

données incomplets est croissante L

id(

N

(t)_|θ^ˆ

(0)

) _≤ L

id(

N

(t)_|θ^ˆ

(1)

) _≤ L

id(

N

(t)_|θ^ˆ

(2)

) _≤ . . . ≤

L

id(

N

(t)_|θ^ˆ

(k)

)_≤. . .. Deux étapes sont nécessaires à chaque étape de l’itération pour atteindre

l’étape suivante, une espérance (E-étape) et maximisations (M-étape).

E-étape.Détermination de l’espérance conditionnelle de la log-vraisemblance des données

com-plètes,

Q(θ|θ^ˆ

⁽^k⁾

) =E[L

cd(

N(t)_|θ)_|N

(t),_θˆ

(k)

], (II.4)

et compte tenu des données incomplètes on suppose que θ= ˆθ

(k)

.

M-étape. Détermination du paramètre d’ordrek+ 1 qui maximise Q(θ|θ^ˆ

(k)

),

ˆ

θ

⁽^k⁺¹⁾

= arg max

Il est établi dans le théorème suivant que l’application répétée des étapes E et M produit une

suite croissante de log de vraisemblance de données incomplètes.

Théorème II.3. – (Snyder & Miller [20])

Soit la suite {θ^ˆ

(k)

:k: 1,2, . . .}déﬁnie à partir des étapes E et M (II.4) et (II.5). Alors, la suite

correspondante des log-vraisemblances des données incomplètes {L

id(

N

(t)_|θ^ˆ

(k)

) :k = 1,2, . . .}

est croissante.

4 Une illustration de l’algorithme EM

Dans cette partie, nous présentons une application de l’algorithme EM pour estimer les

paramètres d’une loi exponentielle tronquée à partir de l’observation de données groupées. On

compare les résultats obtenus avec ceux obtenus en appliquant un algorithme d’optimisation

classique.

On considère une suite de variables aléatoires X

, . . . , X

i.i.d de loi exponentielle de

para-mètreθ. On rappelle l’expression de la densité de la loi de X

f(x

i) =

¹

θ ^e

−xi/θ

1

R+

(x

.

On note I

= [t

j−1

, t

], j = 1, . . . , M + 1 un découpage de R

⁺

tel que t

= 0, t

M+1

= +_∞

Pour j = 1, . . . , M + 1, on note K

la v.a. nombre de durées se réalisant dans l’intervalle

I

. K

= Pn

i=1

1 (x

i) et

PM

j=1

k

= n. Calculons la loi du vecteur (K

, . . . , K

;K

M+1

) où

K

M+1

=n−P

j=1

K

j. Nous notons par

B(n, p) la loi binomiale de paramètres n et p.

On note : p

=P(X

≤t

), pour j = 1, . . . , M.

On a :K

∼B(n, p

). On peut alors calculer la loi deK

|K

=k

, ; c’est une loi binomiale de

paramètres

n−k

, P(X

≤t

|X

> t

)

.

Or

P(X

≤t

|X

> t

) = ^P⁽^X

≤t

)₋P(X

≤t

)

P(X

> t

) ⁼

p

−p

1₋p

.

II.4 Une illustration de l’algorithme EM

D’une manière générale, la loi de K

| K

_j₋₁

= k

_j₋₁

, . . . , K

₁

= k1 est une loi binomiale de

paramètres

n−^Pj

ℓ=1⁻¹

k

ℓ

, P(X

≤t

| X

> t

j−1

)

où P(X

≤t

|X

> t

j−1

) = ^p

−p

j−1

1₋p

_j₋₁

, pour

j = 1, . . . , M.

On peut donc exprimer la loiQdu vecteur (K

, . . . , K

;K

M+1

) en eﬀectuant le produit de ces

lois conditionnelles. Il vient :

Q = P(K

=k

)Y

^M i=2

P(K

=k

/K

i−1

=k

i−1

, . . . , K

=k

)

= C

^k1 n

p

^k1 1

(1₋p

)

n−k1

×C

^k2 n−k1

p

−p

1₋p

!k

1₋p

!n

−k1−k2

...

× C

^kM n−

P

M₋1 j=1 kj

p

−p

M−1

1₋p

M−1

!k

1₋p

M−1

!n

−

P

M−1 j=1 kj

= ⁿ^!

k

!(n−k

)!^p

k1 1

(1₋p

₁

)

n−k1

× _k ⁽ⁿ⁻^k

^)!

!(n−k

−k

)!)

p

₂

−p

₁

1₋p

!k

1₋p

₂

1₋p

!n

−k1−k2

...

× ⁽ⁿ⁻

PM

−1 j=1

k

)!

k

!(n−P

M j=1

k

j)!

p

−p

M−1

1₋p

M−1

!k

1₋p

M−1

!n

−

^P

^M_j₌₁kj

En eﬀectuant les simpliﬁcations, on obtient l’expression suivante :

Q= ⁿ^!

k

!. . . k

!(n−^PM

j=1

k

j)!

^p

k1 1

(p

−p

)

. . .(p

−p

M−1

)

×⁽¹−p

)

n−

P

M j=1kj

.

Autrement dit, (K

, . . . , K

;K

M+1

) suit une loi multinomiale de paramètre :

(n, p

, p

−p

, . . . , p

−p

M−1

,1₋p

).

On notera :

Dans le document Inférence statistique sur le processus de Mino (Page 48-53)

L’algorithme espérance-maximisation (Expectation-maximisation algorithm) abrégé EM a

été introduit par Dempster, Laird et Rubin en 1977 [55]. C’est un algorithme qui permet

de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le

modèle dépend de variables latentes non observables (données incomplètes). On utilise souvent

l’algorithme EM pour la classiﬁcation de données, l’apprentissage automatique, ou la vision

artiﬁcielle. On peut également citer son utilisation en imagerie médicale dans le cadre de la

reconstruction tomographique. L’algorithme d’espérance-maximisation comporte :

• une étape d’évaluation de l’espérance (E), où l’on calcule l’espérance de la vraisemblance

en tenant compte des dernières variables observées,

• une étape de maximisation (M), où l’on estime le maximum de vraisemblance des

para-mètres en maximisant la vraisemblance trouvée à l’étape E.

On utilise ensuite les paramètres trouvés en M comme point de départ d’une nouvelle phase

d’évaluation de l’espérance, et l’on itère ainsi.

L’application de l’algorithme EM est réalisée dans les situations où l’on dispose de données

incomplètes et par conséquent l’estimation du maximum de vraisemblance est rendue diﬃcile

par l’absence d’une partie des données. Bien que l’algorithme EM est souvent appliquée avec

succès, il peut dans certaines situations être lent à converger ou ne pas converger [56].

Snyder & Miller [20] ont proposé la description suivante de l’algorithme EM dans le cas de

processus stochastique. L’algorithme espérance-maximisation (EM) est basé sur les concepts

d’un espace de données incomplètes N

, un espace de données complètes N, et un chemin

h:N →N

.

L’espace de données incomplètes est l’espaceN

dans lequel les données mesurées prennent leurs

valeurs. L’espace de données complètes N est un espace hypothétique qui parvint à atteindre

deux objectifs : 1) rendre les étapes espérances et maximisation de l’algorithme EM

analytique-ment ﬂexible ; et 2) faire les calculs nécessaires à l’algorithme EM pour produire des résultats

numérique des estimations. L’espace de données complètes pour un problème donné n’est pas

unique, et l’algorithme EM qui en résulte peut être plus ou moins complexe en fonction du

choix eﬀectué. Souvent, un choix approprié est suggéré par une compréhension des mécanismes

de déformation et du bruit relatif aux données mesurées sur l’espace de données incomplètes.

Pour le chemin deN àN

, l’espace de données complètes est plus grand que l’espace de données

incomplètes c’est à dire que les données complètes doivent déterminer les données incomplètes.

Il doit y avoir une fonction connue h(.) dont le chemin va des données complètes aux données

incomplètes. Il s’agit généralement d’une application avec de nombreux points deN qui donne

le même point dansN

. Cette fonction des données incomplètes est déterminée parh(N) = N

,

sur les valeurs que les données incomplètes N peuvent avoir.

Notons l’ensemble de paramètres qui doivent être estimés par θ, et supposons que ce vecteur

appartient dans un ensemble de valeurs de paramètres possiblesi.e Θ⊆R

. Une estimation de

θ est appelé recevable que si elle est dans Θ. Les paramètres θ peuvent être non aléatoires, ou

ils peuvent être aléatoires. Nous allons utiliser la méthode du maximum de vraisemblance pour

l’estimation des paramètres non aléatoires, et pour les paramètres aléatoires, nous supposons

qu’il existe une densité de probabilité a priori connue λ(θ), et nous utilisons l’estimateur du

maximum a posteriori(MAP).

Deux fonctions de log-vraisemblance sont importantes pour l’estimation des paramètres θ à

partir des données mesurées qui appartiennent à N

lorsque l’algorithme EM est utilisé. La

II.3 Algorithmes pour le calcul des estimateurs

log-vraisemblance des données incomplètes pour l’estimation de paramètres non aléatoires

L

N

(t)|θ) = log[f(N

(t)|θ)], où f désigne la densité des données incomplètes en fonction

des paramètres, c’est la log-vraisemblance que nous avons utilisé jusqu’à présent dans

l’estima-tion des paramètres. Le maximum de vraisemblance qui estime ˆθ ≡ θˆ(N

(t)) est une fonction

de vecteur à valeur admissible de données incomplètesN

(t) qui maximise la log-vraisemblance

des données incomplètes

ˆ

θ = arg max

[L

N

(t)|θ)].

Si les paramètres sont aléatoires, alors la quantité logf(θ) doit être ajoutée à log[f(N

(t)|θ)]

dans la formation de la log-vraisemblance des données incomplètes.

La deuxième log-vraisemblance qui est aussi importante. C’est la log-vraisemblance de données

complètes qui est déﬁnie par L

N(t)|θ) = log[g(N(t)|θ)], où g désigne la densité de données

complètes en fonction des paramètres.

L’algorithme EM est itératif. Il part d’une valeur initiale ˆθ

, où il genère une séquence

d’esti-mateurs ˆθ

• ^{une étape d’évaluation de l’espérance (E), où l’on calcule l’espérance de la vraisemblance}

• ^{une étape de maximisation (M), où l’on estime le maximum de vraisemblance des}

appartient dans un ensemble de valeurs de paramètres possiblesi.e Θ_⊆R

(t)_|θ) = log[f(N

(t)_|θ)], où f désigne la densité des données incomplètes en fonction

l’estima-tion des paramètres. Le maximum de vraisemblance qui estime ˆθ ≡ θ^ˆ(N

(t)_|θ)].

(t)_|θ)]

N(t)_|θ) = log[g(N(t)_|θ)], où g désigne la densité de données

,_θˆ

, . . . ,_θˆ

(t)_|θ^ˆ

) _≤ L

(t)_|θ^ˆ

) _≤ L

(t)_|θ^ˆ

) _≤ . . . ≤

(t)_|θ^ˆ

)_≤. . .. Deux étapes sont nécessaires à chaque étape de l’itération pour atteindre

Q(θ|θ^ˆ

N(t)_|θ)_|N

(t),_θˆ

M-étape. Détermination du paramètre d’ordrek+ 1 qui maximise Q(θ|θ^ˆ

Soit la suite {θ^ˆ

(t)_|θ^ˆ

¹

θ ^e

= +_∞