3.4 Bilan
4.2.1 Modélisation markovienne et analyse d’images
Les champs aléatoires markoviens sont des outils connus depuis longtemps par les physiciens (Baxter
1992) et les statisticiens (Besag 1974, Chalmond 2000). Ils ont été introduits en analyse d’images
en 1984 par les frères Geman (Geman & Geman 1984, Pérez 2003). Depuis, ils ont été largement
étudiés et adaptés à la modélisation d’images (synthèse (Ghozi & Levy 1994), codage (Reyes, Zhao,
Neuhoff & Pappas 2007)) et résolution de problèmes inverses (restauration (Chang, Kadaba,
Doer-schuk & Gelfand 2001), reconstruction (Murino 1996), classification (Nishii & Eguchi 2006),
seg-mentation (Kato & Pong 2006), fusion de données (Wright 1989), estimation du flot optique (Heitz
& Bouthemy 1993), ...). On s’intéresse donc à la loi des images généralement décrites par des lois
de Gibbs. L’équivalence entre champs de Markov et lois de Gibbs permet d’exprimer la loi jointe
P(x(1), . . . , x(|S|)) où |S| désigne le nombre de variables dans l’image dont le support est noté S
sous la forme d’un produit de fonctions d’intérêt locales.
Distribution de Gibbs
Les variables aléatoires X(s) associées aux pixels prennent leur valeur dans un espace d’étatsΛ.
Cet espace d’états dépend du domaine d’application :
Λ = {0,1, . . . ,255}en restauration d’images (images codées sur 8 bits),
Λ = {0,1, . . . , M}en classification (M classes),
Λ = {−dmax, . . . , dmax} × {−dmax, . . . , dmax}en analyse du mouvement (vecteurs de
déplace-ment).
Le vecteur aléatoire X ={x(s)}
s=1,...,|S|prend ses valeurs dans l’espace des configurationsΩ =
Λ
|S|, et la loi deXse factorise sous la forme suivante :
P(x)∝Y
c∈C
f
c(x(c)), (4.24)
oùCreprésente un ensemble de “petits paquets” de sitesc(1 ≤ |s| ≪ |S|)etc∈ C,f
cne dépend que
de la variablex(c) = {x(i), i ∈ c}, etQ
c∈C
f
cest sommable surΩ. Si de plus ce produit est positif,
alors il peut être écrit sous forme exponentielle :
P(x) = 1
Z exp −X
c∈CV
c(x(c))
!
. (4.25)
Cette expression coïncide avec une distribution de Gibbs et fait intervenir un potentiel d’interaction
{V
c, c ∈ C}. On noteU =P
c
V
cl’énergie, etZ =P
x∈Ω
exp(−U(x))la constante de normalisation.
Dans cette expression, les configurations d’énergie faible sont les plus probables tandis que les énergies
fortes sont associées aux configurations les plus rares. Les interactions induites par la forme factorisée
sont également capturées par un graphe appelé graphe d’indépendance (Pérez 2003).
Graphe d’indépendance
Le graphe d’indépendance associé à la factorisationQ
c∈C
fc est le graphe non orientéG = [S,A],
où S = {1, . . . ,|S|} désigne l’ensemble des sommets du graphe etA l’ensemble des arêtes reliant
les sommets. Sur ce graphe, les sitesset r sont voisins si et seulement si∃c ∈ C : {s, r} ⊂ c. Par
conséquent, chaque sitespossède un ensemble de voisinsN
rtel ques /∈ N
r, etr ∈ N
s⇔ s ∈ N
r.
Enfin,c ∈ C est une clique du graphe G si cest un singleton (ensemble ne contenant qu’un unique
élément) ou si les éléments decsont deux à deux voisins sur le graphe :
∃s∈ S :c={s}ou∀{s, r} ⊂c, r∈ N
s. (4.26)
En analyse d’images, la grille régulière de pixels est généralement choisie comme graphe. Le sytème de
voisinage correspond aux 4 ou 8 plus proches voisins. Dans le premier cas, les cliques sont constituées
du singleton et des doublets horizontal et vertical. Dans le deuxième cas, il faut y ajouter les triplets ainsi
que les quadruplets. Ces différents types de cliques sont illustrés sur la figure4.4.
Équivalence entre distribution de Gibbs et champ aléatoire markovien
Sisetr ne sont pas voisins dans le grapheG,P(x)est factorisable en deux expressions
indépen-dantes :
P(x)∝ Y
s∈cf
c(x(c))
| {z }
indépendant dex(s)× Y
s /∈cf
c(x(c))
| {z }
indépendant dex(r). (4.27)
Cela suffit pour affirmer que les variables aléatoires x(s) etx(r) sont indépendantes
conditionnelle-ment aux autres variables aléatoires, ce qui constitue la propriété markovienne de paire à paire. De la
même manière, étant donné un ensemble de sommetsa ⊂ S,P(x) se décompose comme le produit
Q
c:c∩a6=∅
f
c×Q
c:c∩a=∅f
coù le second facteur ne dépend pas dex(a). Ainsi, on a :
P(x(a)|x(S \a)) =P(x(a)|x(N
a)) = 1
Z
a(x
Na)
Y
c:c⊂a6=∅exp
− X
c:c⊂a6=∅V
c(x(c))
, (4.28)
FIGURE4.4: Les dix types de cliques pour un système de voisinage des 8 plus proches voisins.
avecZ
a(x
Na)la constante de normalisation. Cette expression permet de définir la propriété markovienne
locale. Par ailleurs, si un sous-ensemble de sommetsA
1sépare deux autres sous-ensembles disjointsA
2etA
3dansG, alors les vecteurs aléatoiresX
A2etX
A3sont indépendants conditionnellement au vecteur
X
A1. On parle alors de propriété markovienne globale.
On peut également démontrer que ces trois propriétés markoviennes sont équivalentes pour des
distributions strictement positives. Réciproquement, si une distribution positive présente une de ces
pro-priétés markoviennes sur le grapheG, alors il s’agit d’une distribution de Gibbs de la forme (4.25) sur
ce même graphe. L’équivalence entre propriétés markoviennes locale et globale et distribution de Gibbs
a été démontrée par Hammersley-Clifford (Besag 1974).
Problèmes inverses et estimation bayesienne
Certaines tâches en analyse d’images (restauration, classification, ...) ont pour but d’estimer des
variables cachées à partir de variables observées, par exemple une image. La classification en
dif-férentes régions d’une image est équivalente à identifier une partition cachée de l’image en difdif-férentes
classes à partir de l’image elle-même. Plus formellement, soit un ensemble de variables observées
y = {y(s)}
s=1,...,|S|et un ensemble de variables cachéesx = {x(s)}
s=1,...,|S|. Les vecteurs yet x
peuvent être de même nature (deux images en restauration) ou non (une partition étiquetée et une image
en classification). De plus, les composantes d’un même vecteur peuvent être de nature différente. Par
exemple, dans le cadre d’une restauration avec préservation des discontinuités, le vecteur x est
com-posé à la fois des niveaux de gris restaurés et d’indicateurs binaires de présence de contours. SoitΛx
(respectivementΛ
y) l’espace d’état de tous les x(s) (respectivementy(s)). Le problème revient à
es-timer la “meilleure” occurencexdu vecteur aléatoireX dansΩ = (Λx)
|S|connaissant une réalisation
y ∈ (Λy)
|S|du vecteur aléatoire Y. La distribution conditionnelle P(x|y) (distribution a posteriori)
devient alors un élément clé de l’estimation bayesienne. La règle de Bayes permet d’exprimer cette
dis-tribution conditionnelle sous la forme d’un produit entre la disdis-tributionP(y|x)ou fonction de
vraisem-blance des observations et la distribution a priori P(x) qui modélise les caractéristiques statistiques
attendues des variables cachées :
P(x|y) = P(y|x)P(x)
P(y) ∝P(y|x)P(x). (4.29)
De manière générale, une distribution de Gibbs spécifiée sur un graphe d’indépendance permet de
car-actériser la loi a priori :
P(x) = 1
Z exp −X
c∈CV
c(x(c))
!
. (4.30)
Le modèle d’observation est souvent spécifié par une distribution factorisable (indépendance
condition-nelle) :
P(y|x) = exp −X
r∈RVr(x
dr, yr)
!
, (4.31)
oùR = {1, . . . ,|R|}désigne l’ensemble des sites de la grille des données,{d
r, r ∈ R}un ensemble
de petites parties deR. La distribution a posteriori résultante est une distribution de Gibbs :
P(x|y) = 1
Z
′exp−
X
c∈CV
c(x(c)) +X
r∈RV
r(x(d
r), y(r))
| {z }
U(x,y)
. (4.32)
Champs aléatoires conditionnels
Comme cela a été exposé précédemment, l’inférence bayesienne nécessite bien souvent de spécifier
la distribution a posteriori (équation (4.32)). Il suffit donc de spécifier la loi a priori et de modéliser
la fonction de vraisemblance. Néanmoins, la modélisation d’interactions multiples ou de mesures non
locales est très complexe, voire impossible à élaborer. C’est pourquoi de nouveaux modèles, les Champs
Aléatoires Conditionnels (CAC) (Lafferty, McCallum & Pereira 2001), ont vu le jour afin de modéliser
directement la distribution a posteriori sans passer par une modélisation de la fonction de vraisemblance.
Formellement, un CAC est défini de la manière suivante :
Définition 1. (Y, X) définit un champ aléatoire conditionnel si les variables aléatoires X(s)
condi-tionnellement àY vérifient la propriété markovienne sur le graphe d’indépendanceGtel que :
P(x(s)|y, x(r),∀r6=s) =P(x(s)|y, x(r), r∈ N
s). (4.33)
Ainsi, un CAC est un champ aléatoire globalement conditionné à l’observationy. Dans ce cadre,yetx
ne sont pas forcément associés au même graphe, même si ce sera le cas par la suite. D’après le théorème
d’Hammersley-Clifford (Besag 1974), la distribution de probabilité conditionnelle est de la forme :
P(x|y)∝exp− X
s∈SV
1(x(s),y) +α X
<s,r>V
2(x(s), x(r),y)
!
, (4.34)
oùV
1etV
2sont des potentiels unaire et paire-à-paire,αest une constante positive qui pondère le terme
paire-à-paire et< s, r >est l’ensemble des cliques pour le système de voisinageN
s. Il est important
de noter que les deux potentiels dépendent explicitement de toutes les observationsy. Notons aussi que
si nous disposons de variables observées pour lesquelles une vérité-terrain est disponible, il est possible
de calibrer le paramètreα(Younes 2000), (Chalmond 2000 §2.4 et §8.2.3). Par la suite, on cherche les
variables cachées qui maximisentP(x|y), ou de manière équivalente l’énergie sous-jacente. Les
algo-rithmes de coupe minimale-flot maximal permettent notamment de résoudre ce problème d’optimisation
en un temps d’exécution rapide, dans des cas binaires la plupart du temps. Nous avons privilégié ce type
d’algorithme par la suite.
Algorithme de coupe minimale-flot maximal
Les premiers algorithmes de coupe minimale-flot maximal en analyse d’images sont apparus en
1989 (Greig, Porteous & Seheult 1989). Oubliés pendant quelques années, ils ont connu une nette
re-crudescence depuis une dizaine d’années pour résoudre des problèmes d’optimisation pour un grand
nombre d’applications telles que la synthèse d’images (Kwatra, Schödl, Essa, Turk & Bobick 2003),
la segmentation d’images (Boykov & Joly 2001), ou la classification (El-Zehiry & Elmaghraby 2007).
En effet, ces algorithmes sont capables de trouver le minimum global d’une fonctionnelle d’énergie
rel-ativement générale, établie bien souvent dans un cadre markovien, avec une complexité polynomiale.
Une description de cet algorithme est présentée en annexeB.
Coupe minimale-flot maximal pour la minimisation d’une énergie de Gibbs
Les algorithmes de coupe minimale-flot maximal sont tout à fait appropriés pour minimiser une
én-ergie de Gibbs, notamment si l’application visée est la segmentation d’une image en deux composantes
(Kolmogorov & Wainwright 2005). Les algorithmes de coupe minimale-flot maximal sont bâtis sur
une représentation graphique des observations cachées. L’ensemble des sommetsS est l’ensemble des
pixels de l’image, auquels sont ajoutés deux sommets terminauxT
sourceetT
puitsqui représentent les
deux classes. Comme nous le verrons par la suite, ces deux classes permettent de séparer les
com-posantes“objet” et “fond”. L’ensembleAdes arêtes définit les relations entre sommets voisins deS. Les
capacités de ces arêtes sont égales aux potentiels paire-à-paire de l’énergie (4.34). De manière analogue,
les relations entre les sommetsS et les terminauxTsourceetTpuitssont définies par les potentiels
un-aires de l’énergie définie dans l’équation (4.34). La minimisation par coupe minimale-flot maximal sur
ce graphe conduit à la “meilleure” segmentation au sens du maximum a posteriori.
Dans le document
Modélisation et estimation du trafic intracellulaire par tomographie de réseaux et microscopie de fluorescence
(Page 91-95)