Chapitre 2. Segmentation région-contour de la bouche
2.4 Gradients Multi-échelle pour la modélisation des contours de la bouche
Dans la section 1.3 du chapitre 1, nous avons présenté plusieurs gradients développés pour
modéliser les contours de la bouche. Un des problèmes soulevés dans le chapitre 1, relatif à
la modélisation des contours de la bouche, est que, bien souvent, les contours des lèvres
sont peu marqués. C'est-à-dire que la transition peau/lèvre est très douce. Ceci se traduit par
des gradients de faible intensité. L’identification et la modélisation des contours de la
bouche seront alors difficiles. Pour illustrer cette remarque, la figure 2.5 présente le cas
d’une image de bouche ainsi que le gradient de Û.
Figure 2.5 : Exemple de calcul du gradient de Û pour une image de bouche : a) Image de bouche, b)
Teinte Û, c) Intensité du gradient de Û.
On voit, sur l’image de la figure 2.5-c, que l’intensité du gradient est faible sur le contour
externe de la bouche et que le niveau du bruit est important. La modélisation du contour
externe sera donc très difficile quelle que soit la méthode employée.
Pour aborder ce problème, il est possible de considérer que, pour le cas de la figure 2.5,
l’échelle à laquelle on observe le phénomène d’intérêt, la transition peau-lèvre, n’est pas
pertinente. L’idée serait alors de se placer à une échelle plus pertinente, de manière à mieux
observer le phénomène. En filtrant l’image de départ, qui correspond à la plus grande
échelle (niveau de détail maximal), par un ensemble de filtres gaussiens, dont la variance
est croissante, on obtient alors une famille d’images (Scale-Space Representation
(Lindeberg, 1998)) dont le niveau de détail est diminué progressivement. Avec cette
représentation, tout se passe comme si l’échelle à laquelle on observe le phénomène était
diminuée progressivement. Pour une image donnée f(x,y), la représentation multi-échelle
(Scale-Space Representation ) L de l’image est définie de la manière suivante :
, , , , , (17)
où * est l’opérateur de convolution et g(x,y,t) est un filtre gaussien de la forme suivante:
, , 1
√2 (18)
où t=σ
2est le paramètre d’échelle, σ est la variance de la gaussienne et L(x,y,0)=f(x,y). A
partir de cette représentation, on peut alors exprimer les dérivées multi-échelles pour
n’importe quelle échelle t=σ
2de la manière suivante :
, , , , , , , (19)
où α et β correspondent respectivement aux ordres des dérivées selon x et y. Dans notre cas,
on s’intéresse au gradient de L(x,y,t), c'est-à-dire aux dérivées L
x(x,y,t) et L
y(x,y,t) et à
l’énergie du gradient | , , | , , , , . À la figure 2.6, on présente
les images d’intensité du gradient de Û(x,y) de la figure 2.5-b. Les images d’intensité ont
été normalisées entre [0,1] et σ varie de 1 à 10. La normalisation de l’intensité n’a pour but
que d’améliorer la visualisation des images d’intensité. La question de l’amplitude sera
traitée dans la suite de cette section. On constate sur la figure 2.6 que, les contours de la
bouche deviennent plus saillants lorsque σ augmente. Dans le même temps, les détails de la
forme deviennent de moins en moins précis. Dans ce chapitre, nous sommes intéressés par
la localisation et la segmentation des lèvres. Nous chercherons donc à maximiser l’intensité
des gradients sur les contours de la bouche.
La figure 2.7 présente une coupe verticale de l’image d’intensité | , , |
, , , , du gradient de Û de l’image de bouche pour des valeurs de t=σ
2croissantes (de σ =[1,…,10]). On observe que l’intensité des maximums locaux
correspondant aux contours externes supérieur et inférieur de la bouche diminue quand σ
augmente. Cependant, sur la figure 2.6, nous avons constaté que la saillance du contour
externe par rapport au reste de l’image s’améliore lorsque σ augmente, bien que les détails
de la forme soient de moins en moins précis.
Figure 2.7 : Intensité des gradients , , de Û le long de la coupe centrale de l’image de bouche
Une pondération entre les gradients est nécessaire pour que les échelles où l’information
pertinente est présente soient prépondérantes dans la caractérisation, par exemple, du
contour externe de la bouche. On voit que, sans normalisation, l’intensité des gradients va
décroître lorsque σ va augmenter. Les grandes échelles seront toujours prépondérantes,
même si les contours de la bouche sont très peu saillants.
Lindeberg (Lindeberg, 1998) propose une méthodologie générale pour choisir les échelles
intéressantes lors de l’extraction de caractéristiques dans les images (contours, coins,
blobs). Le principe est d’étudier les dérivées γ-normalisées, exprimées par l’opérateur
suivant :
, / (20)
où γ est un paramètre à déterminer suivant le problème et / / et un changement
de variable. La sélection de l’échelle d’intérêt revient alors à rechercher des extremums
locaux des dérivés γ-normalisées par rapport au paramètre d’échelle t.
Pour justifier l’effet de cette pondération des dérivées, on se propose d’observer l’effet
d’une transformation d’échelle x’=sx, avec s facteur d’échelle tel que f’(sx) = f(x), sur les
expressions des dérivées γ-normalisées. On a alors t’=s
2t. Les expressions des dérivées γ
-normalisées de f’(x’,y’) sont de la forme suivante :
, , (21)
Cette expression montre que les extremums locaux des dérivées γ-normalisées, par rapport
à l’échelle, seront préservés à un facteur de pondération près. Il est alors possible de
construire un détecteur invariant aux changements d’échelle pour extraire des
caractéristiques particulières (contours, coin, …) à une échelle donnée, en utilisant les
dérivées γ-normalisées (Lindeberg, 1998). Le paramètre γ sera réglé en fonction de la
caractéristique étudiée. D’une manière générale, on fait l’hypothèse que les dérivées γ
-normalisées, à une transformation d’échelle s près, sont identiques. Ceci implique que γ est
fixé à 1.
Pour le cas particulier de la modélisation des lèvres nous sommes intéressés par les
expressions des gradients γ-normalisés , , , , ,
, , , avec , , , / , , et , , , /
, , , f(x,y) = Û(x,y) et γ=1. Sur la figure 2.8, nous avons tracé les courbes d’intensité
des gradients γ-normalisés de Û(x,y) sur la coupe verticale centrale de l’image de bouche de
la figure 2.5-a pour les mêmes valeurs de t=σ
2croissantes (de σ =[1,…,10]).
Figure 2.8 : Intensité des gradients , , de Û le long de la coupe centrale de l’image de
Pour le cas du contour externe de la lèvre supérieure, on remarque que l’intensité maximale
du gradient est atteinte pour σ=3. Pour le contour externe inférieur, l’intensité est maximale
pour σ=10. Pour le contour externe supérieur, on constate sur la figure 2.6 que σ=3
correspond bien à une échelle où le contour est bien défini et détaillé. Pour le contour
externe inférieur, σ=10 correspond à une petite échelle où la lèvre inférieure est très
saillante mais pour laquelle le contour est très flou. On constate aussi que les positions
spatiales des maximums locaux sont stables pour les échelles où l’intensité est la plus
importante.
Pour modéliser globalement les contours des lèvres sans a priori, il sera difficile de
privilégier une seule échelle. L’exemple étudié dans cette section montre que les échelles
d’intérêt peuvent être différentes pour le contour externe supérieur et le contour externe
inférieur et que plusieurs échelles peuvent être intéressantes. D’une manière générale, en
utilisant une famille de gradients γ-normalisés, en partant des grandes échelles avec le
maximum de détails et en incluant les petites échelles pour lesquelles l’intensité est
importante, nous serons capables de décrire fidèlement les contours de la bouche. Les
échelles les plus grandes, pour lesquelles l’intensité est plus faible mais avec le plus de
détails, permettront une modélisation locale fine. Les petites échelles, modélisant
grossièrement les contours mais avec de fortes intensités sur les contours, exerceront quant
à elles une force d’attraction importante sur des modèles de contour. La difficulté sera de
choisir le nombre d’échelles à prendre en compte.
Par exemple, dans le cas du contour externe inférieur de la bouche, l’échelle σ=10 permet
de localiser grossièrement le contour. En effet, on constate que la largeur ainsi que
l’intensité de la transition sont maximales. À cette échelle, le gradient exercera une force
d’attraction importante sur un modèle de contour externe inférieur. Les échelles plus
grandes, dans lesquelles le niveau de détails est plus important, permettront d’affiner le
détail du contour lors de la convergence. Dans la suite du chapitre, nous traiterons le
problème de la localisation et de la segmentation des lèvres sur les images de visage. Une
section sera consacrée au choix du nombre d’échelles à prendre en compte dans la partie
consacrée à la segmentation région-contour des lèvres.
En conclusion, on voit, au travers de l’exemple étudié dans cette sous-section, que pour
modéliser la bouche, une seule échelle n’est pas suffisante et que l’échelle de départ de
l’image n’est pas toujours adaptée à l’indice visuel recherché. Pour modéliser correctement
les contours des lèvres sans a priori sur l’échelle, la solution proposée est de s’intéresser à
des familles de gradients γ-normalisés , , à différentes échelles.
Dans le document
Segmentation région-contour des contours des lèvres
(Page 108-115)