Gradients Multi-échelle pour la modélisation des contours de la bouche

Chapitre 2. Segmentation région-contour de la bouche

2.4 Gradients Multi-échelle pour la modélisation des contours de la bouche

Dans la section 1.3 du chapitre 1, nous avons présenté plusieurs gradients développés pour

modéliser les contours de la bouche. Un des problèmes soulevés dans le chapitre 1, relatif à

la modélisation des contours de la bouche, est que, bien souvent, les contours des lèvres

sont peu marqués. C'est-à-dire que la transition peau/lèvre est très douce. Ceci se traduit par

des gradients de faible intensité. L’identification et la modélisation des contours de la

bouche seront alors difficiles. Pour illustrer cette remarque, la figure 2.5 présente le cas

d’une image de bouche ainsi que le gradient de Û.

Figure 2.5 : Exemple de calcul du gradient de Û pour une image de bouche : a) Image de bouche, b)

Teinte Û, c) Intensité du gradient de Û.

On voit, sur l’image de la figure 2.5-c, que l’intensité du gradient est faible sur le contour

externe de la bouche et que le niveau du bruit est important. La modélisation du contour

externe sera donc très difficile quelle que soit la méthode employée.

Pour aborder ce problème, il est possible de considérer que, pour le cas de la figure 2.5,

l’échelle à laquelle on observe le phénomène d’intérêt, la transition peau-lèvre, n’est pas

pertinente. L’idée serait alors de se placer à une échelle plus pertinente, de manière à mieux

observer le phénomène. En filtrant l’image de départ, qui correspond à la plus grande

échelle (niveau de détail maximal), par un ensemble de filtres gaussiens, dont la variance

est croissante, on obtient alors une famille d’images (Scale-Space Representation

(Lindeberg, 1998)) dont le niveau de détail est diminué progressivement. Avec cette

représentation, tout se passe comme si l’échelle à laquelle on observe le phénomène était

diminuée progressivement. Pour une image donnée f(x,y), la représentation multi-échelle

(Scale-Space Representation ) L de l’image est définie de la manière suivante :

, , , , , (17)

où * est l’opérateur de convolution et g(x,y,t) est un filtre gaussien de la forme suivante:

, , ¹

√2 ⁽¹⁸⁾

où t=σ

est le paramètre d’échelle, σ est la variance de la gaussienne et L(x,y,0)=f(x,y). A

partir de cette représentation, on peut alors exprimer les dérivées multi-échelles pour

n’importe quelle échelle t=σ

de la manière suivante :

, , , , , , , (19)

où α et β correspondent respectivement aux ordres des dérivées selon x et y. Dans notre cas,

on s’intéresse au gradient de L(x,y,t), c'est-à-dire aux dérivées L

x,y,t) et L

x,y,t) et à

l’énergie du gradient | , , | , , , , . À la figure 2.6, on présente

les images d’intensité du gradient de Û(x,y) de la figure 2.5-b. Les images d’intensité ont

été normalisées entre [0,1] et σ varie de 1 à 10. La normalisation de l’intensité n’a pour but

que d’améliorer la visualisation des images d’intensité. La question de l’amplitude sera

traitée dans la suite de cette section. On constate sur la figure 2.6 que, les contours de la

bouche deviennent plus saillants lorsque σ augmente. Dans le même temps, les détails de la

forme deviennent de moins en moins précis. Dans ce chapitre, nous sommes intéressés par

la localisation et la segmentation des lèvres. Nous chercherons donc à maximiser l’intensité

des gradients sur les contours de la bouche.

La figure 2.7 présente une coupe verticale de l’image d’intensité | , , |

, , , , du gradient de Û de l’image de bouche pour des valeurs de t=σ

croissantes (de σ =[1,…,10]). On observe que l’intensité des maximums locaux

correspondant aux contours externes supérieur et inférieur de la bouche diminue quand σ

augmente. Cependant, sur la figure 2.6, nous avons constaté que la saillance du contour

externe par rapport au reste de l’image s’améliore lorsque σ augmente, bien que les détails

de la forme soient de moins en moins précis.

Figure 2.7 : Intensité des gradients , , de Û le long de la coupe centrale de l’image de bouche

Une pondération entre les gradients est nécessaire pour que les échelles où l’information

pertinente est présente soient prépondérantes dans la caractérisation, par exemple, du

contour externe de la bouche. On voit que, sans normalisation, l’intensité des gradients va

décroître lorsque σ va augmenter. Les grandes échelles seront toujours prépondérantes,

même si les contours de la bouche sont très peu saillants.

Lindeberg (Lindeberg, 1998) propose une méthodologie générale pour choisir les échelles

intéressantes lors de l’extraction de caractéristiques dans les images (contours, coins,

blobs). Le principe est d’étudier les dérivées γ-normalisées, exprimées par l’opérateur

_, ^/ (20)

où γ est un paramètre à déterminer suivant le problème et / / et un changement

de variable. La sélection de l’échelle d’intérêt revient alors à rechercher des extremums

locaux des dérivés γ-normalisées par rapport au paramètre d’échelle t.

Pour justifier l’effet de cette pondération des dérivées, on se propose d’observer l’effet

d’une transformation d’échelle x’=sx, avec s facteur d’échelle tel que f’(sx) = f(x), sur les

expressions des dérivées γ-normalisées. On a alors t’=s

t. Les expressions des dérivées γ

-normalisées de f’(x’,y’) sont de la forme suivante :

, , (21)

Cette expression montre que les extremums locaux des dérivées γ-normalisées, par rapport

à l’échelle, seront préservés à un facteur de pondération près. Il est alors possible de

construire un détecteur invariant aux changements d’échelle pour extraire des

caractéristiques particulières (contours, coin, …) à une échelle donnée, en utilisant les

dérivées γ-normalisées (Lindeberg, 1998). Le paramètre γ sera réglé en fonction de la

caractéristique étudiée. D’une manière générale, on fait l’hypothèse que les dérivées γ

-normalisées, à une transformation d’échelle s près, sont identiques. Ceci implique que γ est

fixé à 1.

Pour le cas particulier de la modélisation des lèvres nous sommes intéressés par les

expressions des gradients γ-normalisés , , _, , ,

, , , avec _, , , / , , et _, , , /

, , , f(x,y) = Û(x,y) et γ=1. Sur la figure 2.8, nous avons tracé les courbes d’intensité

des gradients γ-normalisés de Û(x,y) sur la coupe verticale centrale de l’image de bouche de

la figure 2.5-a pour les mêmes valeurs de t=σ

croissantes (de σ =[1,…,10]).

Figure 2.8 : Intensité des gradients , , de Û le long de la coupe centrale de l’image de

Pour le cas du contour externe de la lèvre supérieure, on remarque que l’intensité maximale

du gradient est atteinte pour σ=3. Pour le contour externe inférieur, l’intensité est maximale

pour σ=10. Pour le contour externe supérieur, on constate sur la figure 2.6 que σ=3

correspond bien à une échelle où le contour est bien défini et détaillé. Pour le contour

externe inférieur, σ=10 correspond à une petite échelle où la lèvre inférieure est très

saillante mais pour laquelle le contour est très flou. On constate aussi que les positions

spatiales des maximums locaux sont stables pour les échelles où l’intensité est la plus

importante.

Pour modéliser globalement les contours des lèvres sans a priori, il sera difficile de

privilégier une seule échelle. L’exemple étudié dans cette section montre que les échelles

d’intérêt peuvent être différentes pour le contour externe supérieur et le contour externe

inférieur et que plusieurs échelles peuvent être intéressantes. D’une manière générale, en

utilisant une famille de gradients γ-normalisés, en partant des grandes échelles avec le

maximum de détails et en incluant les petites échelles pour lesquelles l’intensité est

importante, nous serons capables de décrire fidèlement les contours de la bouche. Les

échelles les plus grandes, pour lesquelles l’intensité est plus faible mais avec le plus de

détails, permettront une modélisation locale fine. Les petites échelles, modélisant

grossièrement les contours mais avec de fortes intensités sur les contours, exerceront quant

à elles une force d’attraction importante sur des modèles de contour. La difficulté sera de

choisir le nombre d’échelles à prendre en compte.

Par exemple, dans le cas du contour externe inférieur de la bouche, l’échelle σ=10 permet

de localiser grossièrement le contour. En effet, on constate que la largeur ainsi que

l’intensité de la transition sont maximales. À cette échelle, le gradient exercera une force

d’attraction importante sur un modèle de contour externe inférieur. Les échelles plus

grandes, dans lesquelles le niveau de détails est plus important, permettront d’affiner le

détail du contour lors de la convergence. Dans la suite du chapitre, nous traiterons le

problème de la localisation et de la segmentation des lèvres sur les images de visage. Une

section sera consacrée au choix du nombre d’échelles à prendre en compte dans la partie

consacrée à la segmentation région-contour des lèvres.

En conclusion, on voit, au travers de l’exemple étudié dans cette sous-section, que pour

modéliser la bouche, une seule échelle n’est pas suffisante et que l’échelle de départ de

l’image n’est pas toujours adaptée à l’indice visuel recherché. Pour modéliser correctement

les contours des lèvres sans a priori sur l’échelle, la solution proposée est de s’intéresser à

des familles de gradients γ-normalisés , , à différentes échelles.

Dans le document Segmentation région-contour des contours des lèvres (Page 108-115)

Gradients Multi-échelle pour la modélisation des contours de la bouche

Chapitre 2. Segmentation région-contour de la bouche

2.4 Gradients Multi-échelle pour la modélisation des contours de la bouche

Dans la section 1.3 du chapitre 1, nous avons présenté plusieurs gradients développés pour

modéliser les contours de la bouche. Un des problèmes soulevés dans le chapitre 1, relatif à

la modélisation des contours de la bouche, est que, bien souvent, les contours des lèvres

sont peu marqués. C'est-à-dire que la transition peau/lèvre est très douce. Ceci se traduit par

des gradients de faible intensité. L’identification et la modélisation des contours de la

bouche seront alors difficiles. Pour illustrer cette remarque, la figure 2.5 présente le cas

d’une image de bouche ainsi que le gradient de Û.

Figure 2.5 : Exemple de calcul du gradient de Û pour une image de bouche : a) Image de bouche, b)

Teinte Û, c) Intensité du gradient de Û.

On voit, sur l’image de la figure 2.5-c, que l’intensité du gradient est faible sur le contour

externe de la bouche et que le niveau du bruit est important. La modélisation du contour

externe sera donc très difficile quelle que soit la méthode employée.

Pour aborder ce problème, il est possible de considérer que, pour le cas de la figure 2.5,

l’échelle à laquelle on observe le phénomène d’intérêt, la transition peau-lèvre, n’est pas

pertinente. L’idée serait alors de se placer à une échelle plus pertinente, de manière à mieux

observer le phénomène. En filtrant l’image de départ, qui correspond à la plus grande

échelle (niveau de détail maximal), par un ensemble de filtres gaussiens, dont la variance

est croissante, on obtient alors une famille d’images (Scale-Space Representation

(Lindeberg, 1998)) dont le niveau de détail est diminué progressivement. Avec cette

représentation, tout se passe comme si l’échelle à laquelle on observe le phénomène était

diminuée progressivement. Pour une image donnée f(x,y), la représentation multi-échelle

(Scale-Space Representation ) L de l’image est définie de la manière suivante :

, , , , , (17)

où * est l’opérateur de convolution et g(x,y,t) est un filtre gaussien de la forme suivante:

, , 1

√2 (18)

où t=σ

est le paramètre d’échelle, σ est la variance de la gaussienne et L(x,y,0)=f(x,y). A

partir de cette représentation, on peut alors exprimer les dérivées multi-échelles pour

n’importe quelle échelle t=σ

de la manière suivante :

, , , , , , , (19)

où α et β correspondent respectivement aux ordres des dérivées selon x et y. Dans notre cas,

on s’intéresse au gradient de L(x,y,t), c'est-à-dire aux dérivées L

x,y,t) et L

x,y,t) et à

l’énergie du gradient | , , | , , , , . À la figure 2.6, on présente

les images d’intensité du gradient de Û(x,y) de la figure 2.5-b. Les images d’intensité ont

été normalisées entre [0,1] et σ varie de 1 à 10. La normalisation de l’intensité n’a pour but

que d’améliorer la visualisation des images d’intensité. La question de l’amplitude sera

traitée dans la suite de cette section. On constate sur la figure 2.6 que, les contours de la

bouche deviennent plus saillants lorsque σ augmente. Dans le même temps, les détails de la

forme deviennent de moins en moins précis. Dans ce chapitre, nous sommes intéressés par

la localisation et la segmentation des lèvres. Nous chercherons donc à maximiser l’intensité

des gradients sur les contours de la bouche.

La figure 2.7 présente une coupe verticale de l’image d’intensité | , , |

, , , , du gradient de Û de l’image de bouche pour des valeurs de t=σ

croissantes (de σ =[1,…,10]). On observe que l’intensité des maximums locaux

correspondant aux contours externes supérieur et inférieur de la bouche diminue quand σ

augmente. Cependant, sur la figure 2.6, nous avons constaté que la saillance du contour

externe par rapport au reste de l’image s’améliore lorsque σ augmente, bien que les détails

de la forme soient de moins en moins précis.

Figure 2.7 : Intensité des gradients , , de Û le long de la coupe centrale de l’image de bouche

Une pondération entre les gradients est nécessaire pour que les échelles où l’information

pertinente est présente soient prépondérantes dans la caractérisation, par exemple, du

contour externe de la bouche. On voit que, sans normalisation, l’intensité des gradients va

décroître lorsque σ va augmenter. Les grandes échelles seront toujours prépondérantes,

même si les contours de la bouche sont très peu saillants.

Lindeberg (Lindeberg, 1998) propose une méthodologie générale pour choisir les échelles

intéressantes lors de l’extraction de caractéristiques dans les images (contours, coins,

blobs). Le principe est d’étudier les dérivées γ-normalisées, exprimées par l’opérateur

suivant :

, / (20)

où γ est un paramètre à déterminer suivant le problème et / / et un changement

de variable. La sélection de l’échelle d’intérêt revient alors à rechercher des extremums

locaux des dérivés γ-normalisées par rapport au paramètre d’échelle t.

Pour justifier l’effet de cette pondération des dérivées, on se propose d’observer l’effet

d’une transformation d’échelle x’=sx, avec s facteur d’échelle tel que f’(sx) = f(x), sur les

expressions des dérivées γ-normalisées. On a alors t’=s

t. Les expressions des dérivées γ

-normalisées de f’(x’,y’) sont de la forme suivante :

, , (21)

Cette expression montre que les extremums locaux des dérivées γ-normalisées, par rapport

à l’échelle, seront préservés à un facteur de pondération près. Il est alors possible de

construire un détecteur invariant aux changements d’échelle pour extraire des

caractéristiques particulières (contours, coin, …) à une échelle donnée, en utilisant les

dérivées γ-normalisées (Lindeberg, 1998). Le paramètre γ sera réglé en fonction de la

, , ¹

√2 ⁽¹⁸⁾

_, ^/ (20)

expressions des gradients γ-normalisés , , _, , ,

, , , avec _, , , / , , et _, , , /