Analyse épitomique basée EM (Expectation Maximization) [Jogic,

1.4 Conclusion

2.1.1 Analyse épitomique basée EM (Expectation Maximization) [Jogic,

La théorie de l'analyse épitomique basée EM a été initialement introduite dans la littérature pour modéliser des images en vue de leur segmentation [JFK03] ou clusterisation [KWR06]. L'épitome d'une image est considéré ici comme une image résumé contenant les caractéristiques essentielles de texture et de forme de l'image pour sa reconstruction. Plus précisément, l'épitome est déni comme un modèle de probabilité basé patch qui est appris sur un nombre élevé de patches d'entrainement issus de l'image d'entrée. Ce modèle d'épitome a également été étendu au domaine de la vidéo an de traiter des problèmes de super-résolution, d'interpolation vidéo, d'inpainting ou encore de denoising [CFJ05]. Cette représentation épitomique a aussi été exploitée pour des applications telles que la reconnaissance de localisation [NKCW08,NKCW09] et la reconnaissance faciale [CYL+₁₀_].

Nous allons maintenant décrire plus en détail le principe de fonctionnement de l'algorithme EM de façon générale et ensuite voir comment cet outil est appliqué pour l'extraction d'un épitome.

28 Techniques de construction d’image “résumé”

2.1.1.1 Principe de l'EM

L'EM [DLR77] est un algorithme d'apprentissage semi-supervisé qui permet d'estimer le maximum de vraisemblance des paramètres θ d'une loi de probabilité pθ(z) associée à des données observées zo et à des données manquantes zm(également appelées des données cachées). Plus précisément, cette technique se base sur l'utilisation de la fonction de vraisemblance de l'ensemble complet des données z = (zo, zm)pour déterminer des estimateurs en dépit du fait que les données observées sont incomplètes. L'expression de la fonction de vraisemblance de l'ensemble complet des données z est donnée par :

L(θ|z) = L(θ|zo, zm) = p(zo, zm|θ) (2.1) Etant donné que les données cachées ne sont pas connues, l'algorithme EM se base sur l'hypothèse que les données manquantes zm sont tirées à partir de l'estimation des paramètres du modèle de l'itération précédente. L'EM vient donc calculer l'espérance de la fonction de vraisemblance (ou du log-vraisemblance) des données complètes z par rapport aux données manquantes zmen prenant en compte les données observés zoet les paramètres courants du modèle θt:

Q(θ, θt) = Ezm[log(pθ(zo, zm))|θt, zo] (2.2) Cette espérance peut également s'écrire sous la forme :

Q(θ, θt) = Z

log(pθ(zo, zc)).pθt(zc|zo) dzc (2.3) Cette fonction étant déterministe, l'EM maximise cette espérance pour estimer de nou- veau les paramètres du modèle θt+1.

L'EM opère donc par itérations successives de deux étapes :

• l'étape d'estimation (E-step) : qui consiste à évaluer l'espérance du log-vraisemblance Q(θ, θt)à l'aide des données observées et des paramètres disponibles. Cette étape permet ainsi d'estimer les données manquantes.

• l'étape de maximisation (M-step) : qui consiste à estimer la maximisation de vraisemblance des paramètres en maximisant l'espérance déterminée à l'étape E :

θt+1= arg max θ

Q(θ, θt) (2.4)

Les itérations successives de ces deux étapes font augmenter la vraisemblance des para- mètres et permet à l'algorithme de converger vers un maximum local de la fonction Q(θ, θt). On peut noter cependant que l'initialisation des paramètres du modèle pour amorcer l'algorithme a un impact direct sur le comportement de l'EM. Le processus de fonctionnement de l'EM est résumé dans l'algorithme 2.1. Notons que le critère d'arrêt de cet algorithme est en général soit la stationnarité de la vraisemblance soit un nombre maximal d'itérations xé initialement ou bien les deux critères à la fois.

Nous allons maintenant présenter comment un modèle épitomique est appris à partir d'un algorithme de type EM dans [JFK03].

2.1.1.2 Description du modèle épitomique de type EM

Nous commençons par présenter les annotations utiles pour la bonne compréhension de l'algorithme d'extraction d'épitome à partir de l'outil EM. On suppose que l'image en entrée

Résumé d’image au sens de l’épitome 29

Algorithme 2.1 : Principe de fonctionnement de l'algorithme EM. Initialisation : t = 0, paramètres θ0

while Q(θt+1, θt) − Q(θt, θt−1) < do E-step : calcul de Q(θt, θt−1) M-step : θ∗ _{= arg max}

θQ(θ, θt) θt+1= θ∗

t := t + 1 end

Estimée du maximum de vraisemblance θmv= θt+1

Figure 2.1 Modèle épitomique basé EM

X de taille NxM pixels est représentée par un ensemble de patches {Zk}Pk=1 prédéni. Chaque patch contient les pixels issus d'un sous-ensemble de coordonnées de l'image Sk. On suppose ici que les patches sont de formes carrées de taille KxK. Notons cependant que la forme des patches peut être arbitraire. Pour chaque patch Zk, le modèle utilise un mapping caché Tk qui permet de faire la mise en correspondance entre les coordonnées i ∈ Sk du patch et ceux de l'épitome j ∈ Ek. L'épitome e est de taille nxm pixels dont chaque élément contient deux paramètres : la moyenne et la variance d'un pixel de l'épitome. L'ensemble de ces variables sont illustrées dans la gure2.1. On suppose que les patches sont générés indépendamment d'où l'expression de la distribution jointe suivante :

p Zk, TkPk=1 , e = p(e) P Y

k=1

p(Tk)p(Zk|Tk, e) (2.5) Soit l'épitome e = (µ, φ) et le mapping Tk, le patch Zk est généré en copiant les pixels appropriés issus de la carte de la moyenne de l'épitome auxquels est ajouté un bruit gaussien dont le niveau est fourni par la carte de variance. La vraissemblance est donc modélisée ici comme étant normalement distribuée selon les pixels zi,k avec une moyenne µTk(i) et une variance φTk(i) :

p(Zk|Tk, e) = Y

i∈Sk

N (zi,k; µTk(i); φTk(i)) (2.6) Notons que, dans [JFK03], les estimations des données cachées {Tk}P_k=1et de l'ensemble des paramètres de l'épitome e sont plutôt calculées à partir d'une variante de l'algorithme EM dans lequel le log-vraisemblance des données {Zk}Pk=1 est majoré par une fonction d'énergie libre de Helmholtz négative (voir [JF03, JGJS98] pour plus de détails). Cette

30 Techniques de construction d’image “résumé”

borne inférieure du log-vraisemblance rend plus facile la maximisation par rapport à la distribution a posteriori du mapping et aux paramètres de l'épitome.

Dans l'étape d'estimation (E-step), le mapping est décrit par la distribution : q(Tk) ∝

i∈Sk

N (z_i,k; µTk(i); φTk(i)) (2.7)

Dans l'étape de maximisation (M-step), les équations de mise à jour des paramètres de l'épitome sont fournies par :

c µj = P k P i∈Sk P Tk,Tk(i)=jq(Tk)zi,k P k P i∈Sk P Tk,Tk(i)=jq(Tk) (2.8) b φj = P k P i∈Sk P Tk,Tk(i)=jq(Tk)(zi,k−cµj) 2 P k P i∈Sk P Tk,Tk(i)=jq(Tk) (2.9) La gure2.2fournit un exemple d'épitome obtenu avec la méthode d'apprentissage de type EM.

Figure 2.2 Exemple d'un épitome d'une image construit selon un algorithme de type EM (à droite)

Certaines études ont été menées pour utiliser ce type d'épitome dans le cadre de la compression d'image. Nous reviendrons dessus dans la section 2.2.1 où nous présenterons les diérentes méthodes de prédiction intra se basant sur ce type d'approche ainsi que leurs limitations.

2.1.2 Résumé d'image basé sur une mesure de similarité bidirectionnelle

Dans le document Techniques de codage d'images basées représentations parcimonieuses de scènes et prédiction spatiale multi-patches (Page 36-39)