• Aucun résultat trouvé

Analyse bay´ esienne d’un probl` eme ` a donn´ ees manquantes

Dans le document en fr (Page 89-93)

tion3.2.2(page34) pour la r´esolution d’un probl`eme `a donn´ees manquantes. Nous d´ecrivons une interpr´etation fonctionnelle diff´erente de cet algorithme propos´ee par Neal et Hinton (1998), de type Maximization-Maximization, et montrons comment elle s’adapte `a un probl`eme `a donn´ees manquantes coupl´ees dans un cadre bayesien.

De mani`ere g´en´erale, on consid`ere pour un probl`eme `a donn´ees manquantes :

– Un ensemble des donn´ees observ´ees y = {y1, . . . , yN} mod´elis´ees comme la r´ealisation d’un champ al´eatoire Y = {Y1, ..., YN},

– Un ensemble des donn´ees manquantes z = {z1, . . . , zN} consid´er´ees comme la r´ealisation d’un champ al´eatoire cach´e Z = {Z1, ..., ZN},

– Des param`etres θ ∈ Θ r´egissant la distribution jointe p(y, z|θ) et mod´elis´es comme des valeurs d´eterministes inconnues (cas standard) ou comme la r´ealisation d’un champ al´eatoire Θ (cas bayesien).

L’objectif est de calculer une estimation des donn´ees manquantes Z. Dans un cadre de segmentation non-supervis´ee les param`etres θ ne sont pas connus et il est n´ecessaire de les estimer. Une approche courante est d’estimer ces param`etres selon le principe de maximum de vraisemblance :

ˆ

θ = arg max θ∈Θp(y|θ)

Comme pr´esent´e dans la section 3.2.2 (page 34), l’algorithme EM est `a l’origine un algorithme g´en´eral pour estimer la solution du maximum de vraisemblance pour les probl`emes `a donn´ees manquantes. Dans un cadre bayesien, il peut ˆetre adapt´e pour estimer la solution du maximum a posteriori. L’algorithme EM est g´en´eralement pr´esent´e comme une proc´edure it´erative compos´ee de deux ´etapes : l’´etape E (Expectation) dans laquelle est mis `a jour le calcul de l’esp´erance de la log-vraisemblance compl`ete, et l’´etape M (Maximisation) qui consiste `a maximiser cette esp´erance selon les param`etres θ.

Une fois le param`etre θ estim´e, la segmentation est r´ealis´ee en maximisant la probabilit´e a posteriori p(z|θ, y).

5.2.1

Interpr´etation fonctionnelle de EM

Nous introduisons dans cette section une vision fonctionnelle plus g´en´erale de EM propos´ee par

Neal et Hinton (1998). Nous d´esignons par D l’ensemble des distributions de probabilit´e sur z. L’algorithme EM pour l’estimation par maximum de vraisemblance est ´equivalent `a la maximisation altern´ee par rapport `a θ ∈ Θ et par rapport `a q ∈ D d’une fonction F d´efinie par :

F (q, θ) = X z∈Z q(z) log p(y, z|θ) q(z)  = X z∈Z

log p(y, z | θ) q(z) + I[q], 5.1 avec I[q] = −IEq[log q(Z)] l’entropie de q (IEq fait r´ef´erence `a l’esp´erance selon q). C’est une interpr´etation Maximization-Maximization de l’algorithme EM : l’´etape E est ´equivalente `a la maximisation selon les distributions q, l’´etape M `a la maximisation selon les param`etres θ.

Estimation par maximum a posteriori.

Lorsqu’une connaissance a priori sur les param`etres θ est disponible (connaissance de la distri- bution p(θ)), on remplace l’estimation par maximum de vraisemblance par une estimation par maximum a posteriori (MAP) :

ˆ

θ = arg max θ∈Θp(θ|y) .

L’interpr´etation fonctionnelle de EM peut ˆetre utilis´ee pour estimer ce MAP. Cela revient alors `a remplacer la fonction F (q, θ) (Equation5.1) par :

FMAP(q, θ) = X z∈Z

D´emonstration

On d´esigne par KL(q, p) la divergence de Kullback-Leibler entre q et la distribution conditionnelle p(z|y, θ), donn´ee par :

KL(q, p) =X z∈Z q(z) log  q(z) p(z|y, θ)  . La vraisemblance p(y|θ) et la fonction F (q, θ) sont alors li´ees par :

log p(y|θ) = F (q, θ) + KL(q, p)

En utilisant l’´egalit´e log p(θ|y) = log p(y|θ) + log p(θ) − log p(y) (r`egle de Bayes) on d´emontre que : log p(θ|y) = F (q, θ) + KL(q, p) + log p(θ) − log p(y) .

La fonction KL(q, p) ´etant positive ou nulle, une borne inf´erieure de log p(θ|y) est alors donn´ee par L(q, θ) :

L(q, θ) = F (q, θ) + log p(θ) − log p(y) .

La maximisation de L(q, θ) alternativement selon q et θ conduit `a une suite {q(r), θ(r)}

r∈N v´erifiant

L(q(r+1)

, θ(r+1)) ≥ L(q(r), θ(r)). La maximisation selon q correspond `a l’´etape E de EM pour l’es- timation du maximum de vraisemblance et conduit `a q(r)(z) = p(z|y, θ(r)). On a par la suite L(q(r)

, θ(r)) = log p(θ(r)|y) et donc log p(θ(r+1)|y) ≥ log p(θ(r)|y) : la suite {θ(r)}

r∈Nfait donc croitre

la distribution a posteriori de p(θ|y) `a chaque ´etape et est analogue `a une ´etape M g´en´eralis´ee.

L’estimation est r´ealis´ee via la maximisation altern´ee selon q et θ de FMAP(Equation5.2). D´emarrant

d’une valeur initiale (q(r), θ(r)) ∈ D × Θ, il s’agit de les mettre `a jour it´erativement selon : q(r+1)= arg max q∈D FMAP(q, θ (r)) = arg max q∈D X z∈Z

log p(z|y, θ(r)) q(z) + I[q] 5.3 θ(r+1)= arg max θ∈Θ FMAP(q (r+1), θ) = arg max θ∈Θ X z∈Z log p(θ|y, z) q(r+1)(z) . 5.4 D´emonstration

En d´ecomposant la d´efinition de FMAP (5.2) avec la r`egle de Bayes : FMAP(q, θ) =X

z∈Z

log p(y, z|θ) q(z) + log p(θ) + I[q]

=X

z∈Z

log p(z|y, θ) q(z) +X

z∈Z

log p(y|θ) q(z) + log p(θ) + I[q]

=X

z∈Z

log p(z|y, θ) q(z) + log p(y|θ)X

z∈Z

q(z) + log p(θ) + I[q] OrP

z∈Zq(z) = 1, et les termes log p(θ) et log p(y|θ) ne d´epend pas de q. Donc :

arg max q∈D FMAP(q, θ (r) ) = arg max q∈D X z∈Z

log p(z|y, θ(r)) q(z) + I[q] De mˆeme : FMAP(q, θ) =X z∈Z q(z) log p(y, z|θ) q(z)  + log p(θ) =X z∈Z q(z) log p(θ|y, z) +X z∈Z q(z) log p(y, z) −X z∈Z q(z) log p(θ) −X z∈Z q(z) log q(z) + log p(θ) En omettant les termes qui ne d´ependent pas de θ :

FMAP(q, θ) =X

z∈Z

q(z) log p(θ|y, z) − log p(θ)X

z∈Z q(z) + log p(θ) =X z∈Z q(z) log p(θ|y, z) 74

Donc : arg max θ∈Θ FMAP(q (r+1) , θ) = arg max θ∈Θ X z∈Z log p(θ|y, z) q(r+1)(z)

On remarque dans (5.3) et (5.4) que l’estimation ne fait intervenir que les mod`eles conditionnels p(z|y, θ) et p(θ|y, z). Or la d´efinition de ces mod`eles conditionnels est n´ecessaire et suffisante `a la d´efinition de la distribution p(z, θ|y) comme on peut le v´erifier avec la relation :

p(z, θ|y) = p(z|y, θ) X z∈Z p(z|y, θ) p(θ|y, z) !−1 .

En cons´equence, il n’est pas n´ecessaire de d´efinir le mod`ele joint complet p(z, θ, y) pour segmenter l’image. La distribution conditionnelle p(z, θ|y) contient toute l’information n´ecessaire, il n’est pas n´ecessaire de sp´ecifier p(y).

5.2.2

Estimation d’un mod`ele `a donn´ees manquantes coupl´ees

Le cadre d´ecrit dans la section pr´ec´edente pr´esente une interpr´etation fonctionnelle de EM pour calculer l’estimation MAP des param`etres d’un probl`eme `a donn´ees manquantes (Y, Z). Nous proposons maintenant d’adapter ce cadre pour estimer les param`etres d’un probl`eme dans lequel deux types de donn´ees diff´erentes sont manquantes et coupl´ees.

On consid`ere deux ensembles de donn´ees manquantes coupl´ees d´esign´ees par t et s, de sorte que z = (t, s). La notation D d´esigne alors l’ensemble des distributions de probabilit´e q(T ,S)sur (T, S). R´esoudre exactement l’optimisation (5.3) sur l’ensemble D n’est en g´en´eral pas calculable en pra- tique `a cause des d´ependances introduites.

Approximation de type Variational EM.

Nous consid´erons une variante de EM dans laquelle l’´etape E n’est pas calcul´ee de mani`ere exacte. La maximisation (5.3) est r´esolue sur une classe restreinte de distributions de probabilit´es ˜D : nous nous limitons `a l’ensemble des distributions qui se factorisent, de sorte que q(T ,S)(t, s) = qT(t) qS(s) o`u qT (resp. qS) appartient `a l’ensemble DT (resp. DS) des distributions de probabilit´e sur T (resp. sur S). Cette variante, de type variational EM (Jordan et al.,1999), conduit `a une approximation de l’´etape E par :

(q(r+1)T , q(r+1)S ) = arg max qT,qS

FMAP(qTqS, θ(r)) .

Mise `a jour it´erative de q(r)T et q(r)S .

L’hypoth`ese de factorisation permet de d´ecomposer l’optimisation en deux ´etapes que l’on baptise E-T-step et E-S-step. A l’it´eration r, les estimations courantes sont qT(r), q(r)S et θ(r), et l’´etape E devient :

E-T-step : qT(r+1)= arg max qT∈DT

FMAP(qT q

(r) S , θ

(r)) E-S-step : q(r+1)S = arg max

qS∈DS

FMAP(q(r+1)T qS, θ(r)).

Ces deux mises `a jour conduisent `a une suite {q(r)T , qS(r), θ(r)}r∈Nv´erifiant FMAP(q(r+1)T qS(r+1), θ(r+1)) ≥ FMAP(qT(r)qS(r), θ(r)). La variante variational EM s’apparente alors `a la famille des proc´edures Gene- ralized Alternating Minimization (GAM), pour laquelle des outils de d´emonstration et des r´esultats de convergence sont disponibles (Byrne et Gunawardana,2005).

Algorithme EM pour un probl`eme `a donn´ees manquantes coupl´ees.

Finalement, les trois ´etapes de mises `a jour de EM pour un probl`eme `a donn´ees manquantes coupl´ees sont :

E-T-step : q(r+1)T = arg max qT∈DT IEqT[IEq(r)S [log p(T|S, y, θ (r))]] + I[q T]     5.5 E-S-step : q(r+1)S = arg max

qS∈DS IEqS[IEqT(r+1)[log p(S|T, y, θ (r))]] + I[q S]  5.6 et

M-step : θ(r+1) = arg max θ∈Θ IEq (r+1) T q (r+1) S [log p(θ|y, T, S)] . D´emonstration

Pour la formule (5.5), on r´e´ecrit l’expression (5.2) de FMAP avec la r`egle de Bayes et z = (t, s) sous la forme :

FMAP(q, θ) = X

z∈Z

q(t, s) log p(t|s, y, θ) + X

z∈Z

q(t, s) log p(s, y|θ) + log(θ) + I[q] = IEq[log p(T|S, y, θ)] + IEq[log p(S, y|θ)] + log(θ) + I[q] .

On a grˆace `a l’approximation q(t, s) = qT(t) qS(s) :

FMAP(qTqS, θ) = IEqT[IEqS[log p(T|S, y, θ)]] + IEqS[log p(S, y|θ)] + log(θ) + I[qTqS]

= IEqT[IEqS[log p(T|S, y, θ)]] + I[qT] + G[qS] ,

o`u G[qS] = EqS[log p(S, y|θ)] + log(θ) + I[qS] ne d´epend pas de qT, conduisant `a :

q(r+1)T = arg max

qT∈DT

IEqT[IEq(r)S [log p(T|S, y, θ (r)

)]] + I[qT] .

La formule (5.6) se d´emontre de mani`ere exactement identique en utilisant la sym´etrie en T et S. La formule (5.7) se d´emontre de mani`ere directe `a partir de (5.4) avec z = (t, s).

On remarque comme dans la Section5.2.1(page75) que les mises `a jour d´ecrites par (5.5), (5.6), et (5.7) ne font apparaˆıtre que les distributions conditionnelles p(t|s, y, θ), p(s|t, y, θ) et p(θ|t, s, y). Leur sp´ecification est donc n´ecessaire et suffisante pour l’estimation. Il n’est pas n´ecessaire de d´efinir le mod`ele joint complet p(t, s, y, θ) pour segmenter l’image, et donc pas n´ecessaire de sp´ecifier p(y). De plus, l’avantage d’´ecrire le mod`ele coop´eratif sous la forme des distributions conditionnelles p(t|s, y, θ) et p(s|t, y, θ) est de permettre de d´efinir naturellement la coop´eration entre t et s.

Dans le document en fr (Page 89-93)