• Aucun résultat trouvé

3.4 Bilan

4.2.1 Modélisation markovienne et analyse d’images

Les champs aléatoires markoviens sont des outils connus depuis longtemps par les physiciens (Baxter

1992) et les statisticiens (Besag 1974, Chalmond 2000). Ils ont été introduits en analyse d’images

en 1984 par les frères Geman (Geman & Geman 1984, Pérez 2003). Depuis, ils ont été largement

étudiés et adaptés à la modélisation d’images (synthèse (Ghozi & Levy 1994), codage (Reyes, Zhao,

Neuhoff & Pappas 2007)) et résolution de problèmes inverses (restauration (Chang, Kadaba,

Doer-schuk & Gelfand 2001), reconstruction (Murino 1996), classification (Nishii & Eguchi 2006),

seg-mentation (Kato & Pong 2006), fusion de données (Wright 1989), estimation du flot optique (Heitz

& Bouthemy 1993), ...). On s’intéresse donc à la loi des images généralement décrites par des lois

de Gibbs. L’équivalence entre champs de Markov et lois de Gibbs permet d’exprimer la loi jointe

P(x(1), . . . , x(|S|)) où |S| désigne le nombre de variables dans l’image dont le support est noté S

sous la forme d’un produit de fonctions d’intérêt locales.

Distribution de Gibbs

Les variables aléatoires X(s) associées aux pixels prennent leur valeur dans un espace d’étatsΛ.

Cet espace d’états dépend du domaine d’application :

Λ = {0,1, . . . ,255}en restauration d’images (images codées sur 8 bits),

Λ = {0,1, . . . , M}en classification (M classes),

Λ = {−dmax, . . . , dmax} × {−dmax, . . . , dmax}en analyse du mouvement (vecteurs de

déplace-ment).

Le vecteur aléatoire X ={x(s)}

s=1,...,|S|

prend ses valeurs dans l’espace des configurationsΩ =

Λ

|S|

, et la loi deXse factorise sous la forme suivante :

P(x)∝Y

c∈C

f

c

(x(c)), (4.24)

oùCreprésente un ensemble de “petits paquets” de sitesc(1 ≤ |s| ≪ |S|)etc∈ C,f

c

ne dépend que

de la variablex(c) = {x(i), i ∈ c}, etQ

c∈C

f

c

est sommable surΩ. Si de plus ce produit est positif,

alors il peut être écrit sous forme exponentielle :

P(x) = 1

Z expX

c∈C

V

c

(x(c))

!

. (4.25)

Cette expression coïncide avec une distribution de Gibbs et fait intervenir un potentiel d’interaction

{V

c

, c ∈ C}. On noteU =P

c

V

c

l’énergie, etZ =P

x∈Ω

exp(−U(x))la constante de normalisation.

Dans cette expression, les configurations d’énergie faible sont les plus probables tandis que les énergies

fortes sont associées aux configurations les plus rares. Les interactions induites par la forme factorisée

sont également capturées par un graphe appelé graphe d’indépendance (Pérez 2003).

Graphe d’indépendance

Le graphe d’indépendance associé à la factorisationQ

c∈C

fc est le graphe non orientéG = [S,A],

où S = {1, . . . ,|S|} désigne l’ensemble des sommets du graphe etA l’ensemble des arêtes reliant

les sommets. Sur ce graphe, les sitesset r sont voisins si et seulement si∃c ∈ C : {s, r} ⊂ c. Par

conséquent, chaque sitespossède un ensemble de voisinsN

r

tel ques /∈ N

r

, etr ∈ N

s

⇔ s ∈ N

r

.

Enfin,c ∈ C est une clique du graphe G si cest un singleton (ensemble ne contenant qu’un unique

élément) ou si les éléments decsont deux à deux voisins sur le graphe :

∃s∈ S :c={s}ou∀{s, r} ⊂c, r∈ N

s

. (4.26)

En analyse d’images, la grille régulière de pixels est généralement choisie comme graphe. Le sytème de

voisinage correspond aux 4 ou 8 plus proches voisins. Dans le premier cas, les cliques sont constituées

du singleton et des doublets horizontal et vertical. Dans le deuxième cas, il faut y ajouter les triplets ainsi

que les quadruplets. Ces différents types de cliques sont illustrés sur la figure4.4.

Équivalence entre distribution de Gibbs et champ aléatoire markovien

Sisetr ne sont pas voisins dans le grapheG,P(x)est factorisable en deux expressions

indépen-dantes :

P(x)∝ Y

s∈c

f

c

(x(c))

| {z }

indépendant dex(s)

× Y

s /∈c

f

c

(x(c))

| {z }

indépendant dex(r)

. (4.27)

Cela suffit pour affirmer que les variables aléatoires x(s) etx(r) sont indépendantes

conditionnelle-ment aux autres variables aléatoires, ce qui constitue la propriété markovienne de paire à paire. De la

même manière, étant donné un ensemble de sommetsa ⊂ S,P(x) se décompose comme le produit

Q

c:c∩a6=∅

f

c

×Q

c:c∩a=∅

f

c

où le second facteur ne dépend pas dex(a). Ainsi, on a :

P(x(a)|x(S \a)) =P(x(a)|x(N

a

)) = 1

Z

a

(x

Na

)

Y

c:c⊂a6=∅

exp

X

c:c⊂a6=∅

V

c

(x(c))

, (4.28)

FIGURE4.4: Les dix types de cliques pour un système de voisinage des 8 plus proches voisins.

avecZ

a

(x

Na

)la constante de normalisation. Cette expression permet de définir la propriété markovienne

locale. Par ailleurs, si un sous-ensemble de sommetsA

1

sépare deux autres sous-ensembles disjointsA

2

etA

3

dansG, alors les vecteurs aléatoiresX

A2

etX

A3

sont indépendants conditionnellement au vecteur

X

A1

. On parle alors de propriété markovienne globale.

On peut également démontrer que ces trois propriétés markoviennes sont équivalentes pour des

distributions strictement positives. Réciproquement, si une distribution positive présente une de ces

pro-priétés markoviennes sur le grapheG, alors il s’agit d’une distribution de Gibbs de la forme (4.25) sur

ce même graphe. L’équivalence entre propriétés markoviennes locale et globale et distribution de Gibbs

a été démontrée par Hammersley-Clifford (Besag 1974).

Problèmes inverses et estimation bayesienne

Certaines tâches en analyse d’images (restauration, classification, ...) ont pour but d’estimer des

variables cachées à partir de variables observées, par exemple une image. La classification en

dif-férentes régions d’une image est équivalente à identifier une partition cachée de l’image en difdif-férentes

classes à partir de l’image elle-même. Plus formellement, soit un ensemble de variables observées

y = {y(s)}

s=1,...,|S|

et un ensemble de variables cachéesx = {x(s)}

s=1,...,|S|

. Les vecteurs yet x

peuvent être de même nature (deux images en restauration) ou non (une partition étiquetée et une image

en classification). De plus, les composantes d’un même vecteur peuvent être de nature différente. Par

exemple, dans le cadre d’une restauration avec préservation des discontinuités, le vecteur x est

com-posé à la fois des niveaux de gris restaurés et d’indicateurs binaires de présence de contours. SoitΛx

(respectivementΛ

y

) l’espace d’état de tous les x(s) (respectivementy(s)). Le problème revient à

es-timer la “meilleure” occurencexdu vecteur aléatoireX dansΩ = (Λx)

|S|

connaissant une réalisation

y ∈ (Λy)

|S|

du vecteur aléatoire Y. La distribution conditionnelle P(x|y) (distribution a posteriori)

devient alors un élément clé de l’estimation bayesienne. La règle de Bayes permet d’exprimer cette

dis-tribution conditionnelle sous la forme d’un produit entre la disdis-tributionP(y|x)ou fonction de

vraisem-blance des observations et la distribution a priori P(x) qui modélise les caractéristiques statistiques

attendues des variables cachées :

P(x|y) = P(y|x)P(x)

P(y) ∝P(y|x)P(x). (4.29)

De manière générale, une distribution de Gibbs spécifiée sur un graphe d’indépendance permet de

car-actériser la loi a priori :

P(x) = 1

Z expX

c∈C

V

c

(x(c))

!

. (4.30)

Le modèle d’observation est souvent spécifié par une distribution factorisable (indépendance

condition-nelle) :

P(y|x) = exp −X

r∈R

Vr(x

dr

, yr)

!

, (4.31)

oùR = {1, . . . ,|R|}désigne l’ensemble des sites de la grille des données,{d

r

, r ∈ R}un ensemble

de petites parties deR. La distribution a posteriori résultante est une distribution de Gibbs :

P(x|y) = 1

Z

exp−

X

c∈C

V

c

(x(c)) +X

r∈R

V

r

(x(d

r

), y(r))

| {z }

U(x,y)

. (4.32)

Champs aléatoires conditionnels

Comme cela a été exposé précédemment, l’inférence bayesienne nécessite bien souvent de spécifier

la distribution a posteriori (équation (4.32)). Il suffit donc de spécifier la loi a priori et de modéliser

la fonction de vraisemblance. Néanmoins, la modélisation d’interactions multiples ou de mesures non

locales est très complexe, voire impossible à élaborer. C’est pourquoi de nouveaux modèles, les Champs

Aléatoires Conditionnels (CAC) (Lafferty, McCallum & Pereira 2001), ont vu le jour afin de modéliser

directement la distribution a posteriori sans passer par une modélisation de la fonction de vraisemblance.

Formellement, un CAC est défini de la manière suivante :

Définition 1. (Y, X) définit un champ aléatoire conditionnel si les variables aléatoires X(s)

condi-tionnellement àY vérifient la propriété markovienne sur le graphe d’indépendanceGtel que :

P(x(s)|y, x(r),∀r6=s) =P(x(s)|y, x(r), r∈ N

s

). (4.33)

Ainsi, un CAC est un champ aléatoire globalement conditionné à l’observationy. Dans ce cadre,yetx

ne sont pas forcément associés au même graphe, même si ce sera le cas par la suite. D’après le théorème

d’Hammersley-Clifford (Besag 1974), la distribution de probabilité conditionnelle est de la forme :

P(x|y)∝exp− X

s∈S

V

1

(x(s),y) +α X

<s,r>

V

2

(x(s), x(r),y)

!

, (4.34)

oùV

1

etV

2

sont des potentiels unaire et paire-à-paire,αest une constante positive qui pondère le terme

paire-à-paire et< s, r >est l’ensemble des cliques pour le système de voisinageN

s

. Il est important

de noter que les deux potentiels dépendent explicitement de toutes les observationsy. Notons aussi que

si nous disposons de variables observées pour lesquelles une vérité-terrain est disponible, il est possible

de calibrer le paramètreα(Younes 2000), (Chalmond 2000 §2.4 et §8.2.3). Par la suite, on cherche les

variables cachées qui maximisentP(x|y), ou de manière équivalente l’énergie sous-jacente. Les

algo-rithmes de coupe minimale-flot maximal permettent notamment de résoudre ce problème d’optimisation

en un temps d’exécution rapide, dans des cas binaires la plupart du temps. Nous avons privilégié ce type

d’algorithme par la suite.

Algorithme de coupe minimale-flot maximal

Les premiers algorithmes de coupe minimale-flot maximal en analyse d’images sont apparus en

1989 (Greig, Porteous & Seheult 1989). Oubliés pendant quelques années, ils ont connu une nette

re-crudescence depuis une dizaine d’années pour résoudre des problèmes d’optimisation pour un grand

nombre d’applications telles que la synthèse d’images (Kwatra, Schödl, Essa, Turk & Bobick 2003),

la segmentation d’images (Boykov & Joly 2001), ou la classification (El-Zehiry & Elmaghraby 2007).

En effet, ces algorithmes sont capables de trouver le minimum global d’une fonctionnelle d’énergie

rel-ativement générale, établie bien souvent dans un cadre markovien, avec une complexité polynomiale.

Une description de cet algorithme est présentée en annexeB.

Coupe minimale-flot maximal pour la minimisation d’une énergie de Gibbs

Les algorithmes de coupe minimale-flot maximal sont tout à fait appropriés pour minimiser une

én-ergie de Gibbs, notamment si l’application visée est la segmentation d’une image en deux composantes

(Kolmogorov & Wainwright 2005). Les algorithmes de coupe minimale-flot maximal sont bâtis sur

une représentation graphique des observations cachées. L’ensemble des sommetsS est l’ensemble des

pixels de l’image, auquels sont ajoutés deux sommets terminauxT

source

etT

puits

qui représentent les

deux classes. Comme nous le verrons par la suite, ces deux classes permettent de séparer les

com-posantes“objet” et “fond”. L’ensembleAdes arêtes définit les relations entre sommets voisins deS. Les

capacités de ces arêtes sont égales aux potentiels paire-à-paire de l’énergie (4.34). De manière analogue,

les relations entre les sommetsS et les terminauxTsourceetTpuitssont définies par les potentiels

un-aires de l’énergie définie dans l’équation (4.34). La minimisation par coupe minimale-flot maximal sur

ce graphe conduit à la “meilleure” segmentation au sens du maximum a posteriori.