3.4 Bilan
4.2.2 Champs aléatoires conditionnels pour la détection en vidéo-microscopie
Les champs markoviens modélisent l’information contextuelle, très locale et sont bien adaptés en
vision par ordinateur. La modélisation directe de la distribution a posteriori dans le cadre des champs
aléatoires conditionnels (Lafferty et al. 2001, Kumar & Hebert 2006) permet une prise en compte du
car-actère non local des interactions et une certaine flexibilité pour mêler variables observables et variables
cachées.
Fonctionnelle d’énergie
Soity
t={y
t(s)}
s∈Sles données observées, oùy
t(s)∈Rest l’observation au sitesà l’instanttet
S représente l’ensemble des sites de l’image, c’est-à-dire la grille régulière des pixels. SoitG= [S,A]
un graphe oùA désigne l’ensemble des arêtes reliant les sites deS. Soitd
t= {d
t(s)}
s∈Sle champ
d’étiquettes binaires indiquant la présence (d
t(s) = 1) ou l’absence (d
t(s) =−1) d’une vésicule au site
sà l’instantt. Le couple(y
t,d
t)définit un Champ Aléatoire Conditionnel (CAC) si, conditionnellement
ày
t, la propriété markovienne sur le grapheGest vérifiée :
P(d
t(s)|y
t,d
t(r),∀r6=s) =P(d
t(s)|y
t,d
t(r), r∈ N
s), (4.35)
oùN
sest l’ensemble des voisins du sommetsdansG.
D’après la définition 1, soitU
1(d
t|y
t,db
t−1)la fonctionnelle d’énergie associée au CAC
condition-nellement aux observations à l’instanttet aux étiquettes estimées à l’instant(t−1). Cette énergie est
définie comme la somme des trois termes suivants :
(4.36)
U
1(d
t|y
t,db
t−1) =X
s∈SV
D(d
t(s),y
t) +α
SX
<s,r>V
S(d
t(s), d
t(r)) +α
TX
<s,r>V
T(d
t(s),db
t−1(r)),
où V
D(d
t(s),y) est le potentiel discriminant pour la détection des vésicules,V
S(d
t(s), d
t(r))est un
potentiel de régularisation spatiale, V
T(d
t(s), d
t−1(r)) est un potentiel de régularisation temporelle,
< s, r >est l’ensemble des cliques pour une structure de voisinage, etα
Setα
Tsont des constantes
positives qui pondèrent les termes d’énergie.
Mesure discriminante
Dans les séquences de vidéo-microscopie où les protéines Rab6 sont marquées par la GFP, les
vésicules se déplacent sur un “fond” qui varie lentement. L’intensité moyenne locale observée varie
également dans l’image. Par exemple, l’intensité moyenne mesurée dans la région encadrée en rouge sur
la figure 4.5est beaucoup plus élevée que celle mesurée dans la région encadrée en bleu. Pourtant, il
n’y a aucun objet visible dans la région encadrée en rouge, alors que cinq vésicules sont présentes dans
la région encadrée en bleu. La composante “fond” peut aussi présenter des variations relativement
im-portantes, qui ne correspondent pas toujours à des objets. Par exemple, le profil d’intensité présenté sur
la figure4.5(en bas à droite) semble indiquer la présence de plusieurs objets, mais de manière erronée.
Enfin, la différence entre le niveau d’intensité des composantes “fond” et “objet” est faible dans
cer-taines régions de l’image. Dans la région encadrée en bleu sur la figure4.5, trois vésicules se détachent
nettement du fond, mais deux autres sont plus difficiles à repérer. Malgré ces difficultés, la régularité de
l’intensité semble être un bon indicateur de présence de vésicule. L’amplitude du gradient spatial est
as-sez conventionnelle pour mesurer la régularité de l’image. Cependant, il est très sensible au bruit et peu
pertinent dans des zones du “fond”. Par ailleurs, de nombreuses structures appartenant à la composante
“fond” présentent une grande amplitude du gradient spatial (figure4.6 (c)). En conséquence, d’autres
indicateurs sont requis pour repérer les vésicules dans chaque image.
Nous adoptons ici un cadre markovien (Besag 1974) pour capturer l’irrégularité de l’intensité dans
les images. Contrairement aux modèles d’interaction entre pixels, des approches récentes privilégient les
interactions entre motifs d’image. Dans (Roth & Black 2005, Awate & Whitaker 2006), la propriété de
redondance captée par des motifs d’image est exploitée pour détecter des objets dans une image. Dans
notre étude, cette propriété de redondance est également valide et nous proposons une modélisation
markovienne originale qui capture les interactions entre motifs voisins dans l’image. Le contexte local
de chaque pixel est ainsi mieux pris en compte.
Soit une image de niveaux de grisI
t={I
t(s)}
s∈SoùS ∈R
2est une grille bidimensionnelle ets
désigne un site deS. À l’instantt, on pose :
I
t(s) =I
t0(s) +ξ
t(s), (4.37)
où I
0t
(s) est l’image inconnue au pixel s, et les erreurs ξ
t(s) sont supposées gaussiennes et
indépen-dantes, de moyenne nulle et de variance σ
2ξ. On suppose ici que le nombre de photons collectés en
chaque pixel est suffisamment élevé pour admettre cette modélisation.
Afin de mesurer la redondance dans une image, nous proposons de comparer deux à deux des motifs
z
t(s) de dimension N
zdans un voisinage semi-local fixe. Par simplicité, un motif d’image vectorisé
z
t(s) est l’ensemble des intensités (ordonné lexicographiquement) des pixels appartenant à la fenêtre
carrée, centré au point s. On suppose que ce motif est un vecteur de dimension √
N
z×√N
z. Il a
été confirmé dans (Buades, Coll & Morel 2005) que la distance kz
t(s)−z
t(r)k
2permet d’exprimer
FIGURE4.5: À gauche : image de vidéo-microscopie où les protéines Rab6 sont marquées par la GFP (une cor-rection gamma est appliquée pour une meilleure visualisation). En haut à droite : carte topographique représentant l’intensité observée dans la région encadrée en bleu dans l’image de gauche ; en bas à droite : carte topographique représentant l’intensité observée dans la région encadrée en rouge dans l’image de gauche.
assez efficacement la similarité entre les motifsz
t(s)etz
t(r); intuitivement, si la distance est grande,
on conclut que les pixels s et r appartiennent à des contextes spatiaux différents. Dans les régions
homogènes, le bruit étant supposé gaussien, la mesure de similarité
dist(z
t(s),z
t(r)) = kz
t(s)−z
t(r)k
22σ
ξ2(4.38)
suit la distribution du chi-2 avecN
zdegrés de liberté : dist(z
t(s),z
t(r))∼χ
2Nz. On peut donc écrire :
P(dist(z
t(s),z
t(r))) ∝ exp
"
N
z2 −1
log(dist(z
t(s),z
t(r)))−dist(z
t(s),z
t(r))
2σ
2ξ#
. (4.39)
À présent, nous proposons de construire des champs de variables observables y
t= (y
t(s)) ∈ Ωy
à chaque instanttde la séquence d’imagesI
t. Nous exploitons ici les statistiques de comptage issues
d’une analyse de l’image avec des mesures de similarité de la forme (4.38). Une manière assez efficace
de mettre en évidence la présence de vésicules dans l’image tout en demeurant robuste au bruit consiste
à calculer, en chaque sites∈ S, une observation de la forme :
y
t(s) = X
r∈ℵs
(N
z−2) log (kz
t(s)−z
t(r)k)−kz
t(s)−z
t(r)k
2
4σ
ξ2, (4.40)
où ℵ
sdésigne un voisinage spatial autour du sites etσ
2ξ
est estimée de manière robuste selon
l’ap-proche décrite dans (Kervrann & Boulanger 2006). Étant donnée la petite taille des objets recherchés
dans l’image, la taille des motifs sera faible :N
z= 9. Les séquences d’images étant restaurées selon la
méthode décrite dans (Boulanger, Kervrann & Bouthemy 2007), le rapport signal sur bruit est
suffisam-ment faible pour considérer un petit voisinage spatial :|ℵ
s|= 9,∀s∈S. Il faut noter que la distribution
du chi-2 est valable pour modéliser la distance entre deux vecteurs gaussiens indépendants. Dans notre
cas, le caractère gaussien des vecteurs est valide puisque le bruit résiduel est un bruit blanc gaussien en
première approximation et que les images étudiées présentent de faibles contrastes d’intensité. En
re-vanche, les vecteurs comparés ne sont pas tout à fait indépendants puisqu’ils se recouvrent. Cependant,
une approximation de la distribution par une loi du chi-2 semble donner satisfaction en pratique.
Pour illustrer l’intérêt de cette modélisation, la figure 4.6 permet de comparer les mesures entre
motifs (figure4.6(e)), l’amplitude du gradient spatial (figure4.6(c)), et le contraste local défini comme
y
ct
(s) = P
r∈ℵs
ky
t(s)−y
t(r)k
2, où ℵ
sest un voisinage du site s (figure4.6 (d)). Pour obtenir les
cartes d’observation, nous avons considéré une petite région d’une image extraite d’une séquence de
vidéo-microscopie (figure4.6(a)). Sur cet exemple concret, cinq vésicules sont présentes dans la région
encadrée en rouge sur la figure4.6 (a). Si on ne considère que le profil d’intensité observé dans cette
région (figure 4.6 (b)), il est très difficile d’extraire ces vésicules à cause des variations d’intensité
observées en arrière plan. L’amplitude du gradient spatial (figure 4.6 (c)) est sensible au bruit et aux
irrégularités observées dans la composante “fond”. Il ne permet donc pas d’extraire les vésicules. En
revanche, les cartes de potentiels sur les interactions entre pixels (figure4.6(d)) et entre motifs (figure
4.6(e)) sont plus robustes sur ce point. Toutefois, la carte des interactions entre pixels est un peu plus
sensible aux irrégularités. En particulier, il est difficile de statuer sur la nature du pic aligné avec celui
du fond à gauche dans la figure4.6(d). Au contraire, les interactions entre motifs permettent d’identifier
très nettement cinq pics davantage contrastés que les lieux homogènes de l’image.
Pour repérer les objets d’intérêt, nous adoptons (4.40) pour définir les variables observables. Il reste
néanmoins à fixer un seuil pour séparer l’ensemble des points de l’image en deux classes correspondant
d’une part aux vésicules et d’autre part à la composante “fond”.
Estimation automatique du seuil de détection
Afin de définir les potentiels du modèle markovien, nous considérons désormais l’histogramme
h
tdu champ observé y
t. Nous avons privilégié une méthode simple pour identifier les pixels des
deux composantes recherchées (“objet” et “fond”). En première approximation, l’histogramme ht =
(h
t(i))
i=1,···,ymaxt
, où y
maxt= max
s∈Sy
t(s), est approché par deux boîtes englobantes. Le seuil
opti-mal à l’instanttminimise la métrique de Matusita (Hager, Dewan & Stewart 2004) (connue comme étant
équivalente à la distance de Bhattacharyya) entre l’histogramme mesuré et les deux boîtes englobantes
(figure4.7) :
b
τ
t= min
τt
τtX
i=0(p
h
t(i)−
q
h
−t)
2+
ymax tX
i=τt(p
h
t(i)−
q
h
+t)
2
, (4.41)
oùh
−t= sup
i∈]0,τt[h
t(i) eth
+t= sup
i∈[τt,ymaxt ]
h
t(i). La mesurey
test nulle pour les points situés en
dehors de la cellule. Ces points ne sont pas pris en compte pour l’estimation du seuil et seuls les pixels
de l’image pour lesquels y
t(s) > 0 sont utiles. Un seuil bτ
test donc estimé à chaque instant t. Afin
d’obtenir une détection cohérente temporellement sur toute la séquence, nous proposons un seuil unique
défini comme le minimum sur tous les seuils :
b
(a)
(d)
(b)
(c)
(e)
FIGURE4.6: (a) Image de vidéo-microscopie où les protéines Rab6 sont marquées par la GFP (une correction gamma est appliquée pour une meilleure visualisation) ; (b) carte topographique représentant l’intensité observée dans la région encadrée en rouge dans l’image (a) ; (c) carte topographique représentant le gradient spatial de la région encadrée en rouge dans l’image (a) ; (d) carte topographique représentant les potentiels d’interaction entre pixels dans la région encadrée en bleu dans l’image (a) ; (e) carte topographique représentant les potentiels d’interaction entre motifs dans la région encadrée en bleu dans l’image (a).
oùT est le nombre total d’images dans la séquence. Finalement, le terme discriminant dans (4.36) est
simplement défini pour les deux classes possibles comme :
V
D(d
t(s),y
t) = 1[d
t(s) =−1]sigmoïde
y
t(s)−bτ
b
τ
+ 1[d
t(s) = 1]sigmoïde
b
τ−y
t(s)
b
τ
,
(4.43)
où sigmoïde(.) est la fonction sigmoïde, impliquant que V
D(d
t(s) = .|y
t) appartient à l’intervalle
[−1,1].
Afin de spécifier complètement la fonctionnelle d’énergie (4.36), il ne reste plus qu’à définir les deux
termes de régularisation.
FIGURE4.7: Histogramme deyten bleu, et boîtes englobantes permettant d’estimerbτt.
Régularisation spatiale et temporelle
Les termes de régularisation spatiale et temporelle que nous avons retenus sont des modèles d’Ising
dans le cas le plus simple :
V
S(d
t(s), d
t(r)) =− 1
|N
s|d
t(s)d
t(r), V
T(d
t(s), d
t−1(r)) =−
1
|N
r|d
t(s)d
t−1(r). (4.44)
Nous avons également considéré des potentiels plus complexes (Boykov & Joly 2001, Rother,
Kol-mogorov & Blake 2004) de la forme suivante :
V
S(d
t(s), d
t(r)) = 1[d
t(s)6=d
t(r)] e
−βS(yt(s)−yt(r))2kr−sk
2!
,
V
T(d
t(s), d
t−1(r)) = 1[d
t(s)6=d
t−1(r)] e
−βT(yt(s)−yt−1(r))2kr−sk
2!
, (4.45)
où les paramètres de contraste sont définis commeβ
S=
2<(yt(s)−1yt(r))2>etβ
T=
2<(yt(s)−1yt−1(r))2>