• Aucun résultat trouvé

2.3 Description des points sélectionnés

2.3.2 Caractéristiques photométriques

Le mouvement n’est pas toujours suffisant pour différencier les objets du fond. Des carac-téristiques photométriques doivent donc être ajoutées au descripteur. De nombreux descripteurs photométriques ont été étudiés, le plus connu étant probablement le descripteur SIFT (Scale Inva-riant Feature Transform) [Lowe 99]. Ce descripteur est invaInva-riant aux changements de luminosité et aux transformations géométriques. Cependant comme il s’agit d’un vecteur de dimension 128 nous ne pouvons l’utiliser dans une étape de clustering.

Le descripteur photométrique que nous utiliserons doit être assez discriminant tout en étant de dimension faible. Les séquences couleur contiennent plus d’informations photométriques que les séquences en niveau de gris. Nous n’utiliserons donc pas le même descripteur pour ces deux types de séquences.

2.3.2.1 Descripteurs dans les séquences monochromes

La première information utilisée dans le descripteur photométrique pour les séquences en ni-veau de gris est l’intensitéz(tG)(s)du points= (x, y)pour lequel le descripteur est calculé. Afin d’être plus robuste au bruit, nous utilisons plutôt la moyenne, notéez(tG)(s), de l’intensité sur un petit voisinage autour du point. Diverses expérimentations nous ont montré que cette information n’est pas suffisante. En effet, le contraste entre un objet et le fond peut être faible. Plutôt que de ra-jouter de nombreuses dimensions en utilisant le gradient dans plusieurs directions, nous avons dé-cidé d’utiliser une information sur la texture. De nombreuses définitions et descriptions différentes de la texture existent. Une texture peut être définie comme une région d’intensité non constante, comme une organisation spatiale des pixels ou comme une répétition d’un motif ou de quelques éléments. Le point commun entre ces différentes définitions est le suivant : une région texturée est une région avec des variations d’intensité. En d’autres termes, toute région non homogène peut être vue comme une texture. Plusieurs méthodes pour analyser la texture existent également : sta-tistiques du premier ordre (stasta-tistiques sur l’histogramme), matrices de co-occurence (recherche de motifs), analyse fréquentielle (filtres de Gabor)... Ces approches représentent toutes la texture avec des descripteurs de grandes dimensions.

38 2.3 Description des points sélectionnés

(a) (b)

(c) (d) (e)

(f) (g) (h)

FIG. 2.4: Construction de la grille de points (deuxième ligne) et calcul du flot optique (troisième ligne) sur l’image 108 de la séquence de ski nautique. (a) Image initiale. (b) Carte des pixels en mouvement. (c) Grille restreinte uniquement aux pixels en mouvement (les vecteurs de mou-vement sont montrés sur l’image (f)). (d) Grille finale obtenue après validation des vecteurs de mouvement par un test de corrélation (seuil = 0.5). (les vecteurs de mouvement sont montrés sur l’image (g)). (e) Grille finale obtenue après validation des vecteurs de mouvement par un test statistique (les vecteurs de mouvement sont montrés sur l’image (h)).

Dans ce document, nous caractérisons la texture simplement par la quantité ou la force des contours présents dans la région. Cette définition, très simple, ne pourrait être utilisée pour la mise en correspondance ou la classification de textures. Néanmoins, ajoutée aux autres dimensions du descripteur, elle est suffisante pour différencier les pixels d’un objet des pixels du fond. Ainsi, la texture en un point de la grille correspond ici à l’écart-type de la moyenne du Laplacien de l’intensité sur un petit voisinage autour du point :σ∆z(G)

t (s).

Afin d’apporter de la cohérence temporelle à notre descripteur, nous ajoutons en chaque point

sde l’imagetl’information d’intensité et de texture du points0 = (x+dx, y+dy)correspondant à s = (x, y) dans l’image t+ 1. Le descripteur au point s = (x, y) correspondant à l’indice

Approche locale : sélection et description de points 39

(a) (b)

(c) (d) (e)

(f) (g) (h)

FIG. 2.5: Construction de la grille de points (deuxième ligne) et calcul du flot optique (troisième ligne) sur l’image 16 de la séquence de conducteur. (a) Image initiale. (b) Carte des pixels en mou-vement. (c) Grille restreinte uniquement aux pixels en mouvement (les vecteurs de mouvement sont montrés sur l’image (f)). (d) Grille finale obtenue après validation des vecteurs de mouve-ment par un test de corrélation (seuil = 0.5). (les vecteurs de mouvemouve-ment sont montrés sur l’image (g)). (e) Grille finale obtenue après validation des vecteurs de mouvement par un test statistique (les vecteurs de mouvement sont montrés sur l’image (h)).

i∈ {1. . .|G|}de la grille est finalement défini par :

x(i)= (x(1i),x(2i),x(3i)), (2.24)

40 2.3 Description des points sélectionnés x(1i) = (x, y) , x(2i) = (dx, dy) et x(3i)= (z(tG)(s), σ∆z(G) t (s),z(t+1G)(s0), σ∆z(G) t+1(s0)) .

2.3.2.2 Descripteurs dans les séquences couleur

Différents tests expérimentaux nous ont montré que les trois canaux de couleur sont suffisants pour traiter des séquences couleur. Aucune information de texture ne sera alors rajoutée pour ce type de vidéos, ce qui permet également de réduire le nombre de dimensions du descripteur en chaque point. Les images couleur sont codées dans l’espace de couleur RGB. Cette représentation a un défaut : les trois canaux rouge, vert et bleu sont hautement corrélés ce qui rend cette repré-sentation sensible aux changements de luminosité. Nous avons donc chercher un meilleur espace pour nos séquences. Les objets ou clusters intéressants à détecter contenant souvent de la peau, utiliser un espace de chrominance est approprié. En effet, la peau a une signature particulière dans l’espace des chrominances [Kjeldsen 96, Singh 03]. Il a été montré dans [Terrillon 00] que tous les espace de chrominance sont équivalents pour détecter de la peau. Nous avons choisi l’espace YUV. Le modèle YUV définit un espace colorimétrique en trois composantes. La première représente la luminance et les deux autres représentent la chrominance. Il s’agit du système utilisé dans les systèmes de diffusion télévisuelle PAL et NTSC. La conversion d’une image RGB en une image YUV se fait en appliquant la transformation linéaire :

  Y U V  =   0,299 0,587 0,114 −0,147 −0,289 0,436 0,615 −0,515 −0,100     R G B   (2.25)

La figure 2.6 montre un exemple de conversion sur la séquence de conducteur. On remarque bien que les régions avec de la peau se différencient nettement du reste de l’image pour les canaux de chrominance. Le vecteur de couleur en chaque pixelsde l’image sera défini dans toute la suite du document par :

z(tC)(s) = (Yt(s), Ut(s), Vt(s)) . (2.26) Afin de rendre le descripteur plus robuste au bruit, nous utilisons la moyenne de chaque canal de couleur calculée sur un voisinage autour du point. De plus, comme pour les séquences mono-chromes, nous incluons la correspondance dans l’image à l’instant suivant pour ajouter de la co-hérence temporelle à notre détecteur de clusters en mouvement. Le descripteur au points= (x, y)

correspondant à l’indicei∈ {1. . .|G|}de la grille est finalement défini par :

x(i)= (x(1i),x(2i),x(3i)), (2.27) avec x(1i) = (x, y) , x(2i) = (dx, dy) et x(3i) = (z(tC)(s),z(tC+1)(s0)) , oùs0 = (x+dx, y+dy).

Approche locale : sélection et description de points 41

(a) (b) (c)

(d) (e) (f)

FIG. 2.6: Espace de chrominance YUV a)-c) Les trois canaux rouge, vert et bleu pour l’image 16 de la séquence de conducteur. d)-f) Les trois canaux Y,U,V correspondant