• Aucun résultat trouvé

2.1.1 Descripteurs bas niveau

2.1.1.2 Descripteurs visuels locaux

La section précédente présente des méthodes permettant de décrire des images de façon globale. Une autre idée pour décrire et comparer des images est d’utiliser des descripteurs locaux. Leur but est de fournir une description robuste aux changements d’illumination, d’orientation ou de point de vue.

2.1. Description et comparaison de segments de documents audiovisuels Utiliser les descripteurs locaux pour la description d’une image se fait en général en trois étapes :

• Détection de points d’intérêt. • Description des points d’intérêt. • Réduction de la dimension.

Détection de points d’intérêt

La détection des points d’intérêt consiste à rechercher les points jugés « intéressants » pour décrire une image. Ce sont des points présentant des propriétés locales remarquables. Par exemple, les « coins » sont des points de l’image où le contour change brutalement de direction (comme les quatre sommets d’un rectangle). Il s’agit de points particulièrement stables et donc intéressants pour la répétabilité de l’opération de détection (ces points peuvent être détectés dans deux images différentes mais représentant la même scène). Il existe de nombreux détecteurs de points d’intérêt (détecteur de Moravec [Moravec 1981], de Shi&Tomasi [Shi 1994], SUSAN [Smith 1995], ...), mais le plus populaire reste le dé- tecteur de Harris [Dorkó 2006] qui est une amélioration du détecteur de Moravec lui permettant d’être moins sensible au bruit de l’image.

Une autre idée consiste à extraire une grille dense de points d’intérêt. Ainsi, les points extraits sont répartis uniformément sur l’ensemble de l’image. Cela permet d’éviter que les points extraits soient tous regroupés dans une même zone de l’image, mais cette méthode perd la propriété de répétabilité des points extraits. La Figure 2.4 montre les points qui sont extraits avec un détecteur de Harris (à gauche) et à partir d’une grille dense de points d’intérêt (à droite).

Points d'intérêt de Harris Grille dense de points d'intérêt

Figure 2.4 – Exemple de points d’intérêt extraits avec un détecteur de Harris et à partir d’une grille dense de points d’intérêt.

Description des points d’intérêt

Une fois les points d’intérêt détectés, leur description permet de décrire les images. Il existe de nombreuses façons de décrire les points d’intérêt. Wang et al. [Wang 2010] proposent de calculer un histogramme de couleur en se basant uniquement sur des régions d’intérêt des images. Les régions d’intérêt sont tous les pixels présents aux alentours des points d’intérêt détectés. Ces pixels sont alors utilisés pour générer un histogramme de couleur représentatif de l’image. En utilisant un détecteur de points de Harris, ils considèrent que leur système résout en partie le problème spatial posé par les histogrammes de couleurs, et offre une comparaison robuste à la translation des objets et au bruit.

Les SIFT (Scale-Invariant Feature Transform ou transformation de caractéristiques visuelles invariante à l’échelle) [Lowe 2004] sont des descripteurs invariants à l’échelle, à l’angle d’observation et à l’exposition (luminosité). Deux images, représentant le même objet ou la même scène, auront beaucoup de chances d’avoir des descripteurs SIFT simi- laires, même si elles sont capturées selon des angles de vue différents.

De nombreux autres descripteurs locaux existent comme les differential invariants [Koenderink 1987], les steerable filters [Freeman 1991], les shape context [Belongie 2002], les spin images [Lazebnik 2003], etc. Une comparaison de ces descripteurs est propo- sée par Mikolajczyk et al. [Mikolajczyk 2005]. Leur étude est basée sur la comparaison d’images. Le but est de mettre en correspondance des images dont les différences sont des facteurs d’échelle, d’orientation, de point de vue ou d’illumination. Bien qu’elle ne prenne pas en compte des descripteurs plus récents comme les SURF (Speeded Up Ro- bust Features), il ressort de cette étude que les descripteurs basés sur des SIFT donnent les meilleures performances, et particulièrement sur des images avec des textures complexes. Les SURF [Bay 2006] sont des descripteurs de points d’intérêt inspirés des SIFT. Ils ont pour vocation d’être aussi efficaces que les SIFT, mais beaucoup plus rapides à calculer.

Décrire les images par des points d’intérêt est très efficace [Mikolajczyk 2005], mais il est fréquent que plus de 1000 points soient extraits pour chaque image [Deselaers 2008], et même en réduisant la taille des descripteurs de points avec une analyse en composante principale (ACP), la complexité de la description est très grande, et donc comparer des images à partir de ce type de description est très long. C’est pourquoi des méthodes ont été développées pour utiliser efficacement les SIFT, SURF ou même les histogrammes de couleur locaux présents dans une image.

Sacs de Mots (Bag of Words ou BOW)

Pour réduire le temps de comparaison des images, il existe une méthode utilisant les descripteurs locaux et inspirée par les méthodes de classification de texte : les Sacs de Mots (Bag of Words ou BOW) parfois appelés Sacs de points d’intérêt (Bag of Keypoints) [Csurka 2004] ou Sacs de mots visuels (Bag of visual words) [Yang 2007]. Cette

2.1. Description et comparaison de segments de documents audiovisuels méthode propose de réduire la taille des données de description d’une image en estimant la distribution des descripteurs locaux présents dans l’image. Le principe consiste à extraire des points d’intérêt d’un ensemble d’images à comparer, chaque point étant décrit par un descripteur local (SIFT, SURF ou histogramme de couleur par exemple). Ensuite, un regroupement de ces points d’intérêt est réalisé. Les groupes obtenus permettent de représenter chaque point d’intérêt par un numéro de groupe, ce qui permet de discrétiser les points d’intérêt à partir du numéro de groupe qui lui est associé. Chaque image est décrite en extrayant de l’image les descripteurs locaux, et en déterminant pour chaque descripteur local le groupe qui le représente le mieux. Un histogramme de ces groupes est alors créé comme descripteur de l’image.

L’histogramme a la même taille que le nombre de groupes proposé lors de l’étape de regroupement des descripteurs locaux. Ainsi, ce processus permet de déterminer la taille du descripteur en faisant varier le nombre de groupes. Ce processus est décrit dans la Figure2.5.

Images descripteurs locauxExtraction des

Regroupement

Groupes Histogrammes de descripteurs locaux

Figure 2.5 – Création d’un histogramme de descripteurs locaux