• Aucun résultat trouvé

Pour décrire l’image (a)de la figure 1.3, des descripteurs de bas-niveau sont utilisés, appelés aussi vecteurs caractéristiques, tels que la couleur, la texture et la forme. . .

Forme : les techniques de modélisation peuvent être classifiées en deux catégories. L’approche contour décrit une région au moyen des pixels situé sur son contour. L’approche région considère une région par rapport aux caractéristiques des pixels que cette région contient.

Couleur : la couleur est en général définie au moyen de triplets numériques permettant de coder l’intensité de ces composantes. On distingue les espaces de couleurs définis selon des propriétés comme RGB (Red, Green, Blue), et ceux basés sur la perception humaine des couleurs comme HSV (Hue, Saturation, Value). Pour modéliser la distribution des couleurs, on utilise généralement un histogramme indiquant l’intensité d’une couleur en abscisse, et le nombre de pixels en ordonnée.

Texture : une texture peut être caractérisée par les attributs de contraste, de régularité et de périodicité du motif. Dans le cadre de la recherche par le contenu, elle permet de distinguer des zones de couleurs similaires, mais de sémantique différente.

Pour l’image (b) l’extraction et la description des régions d’intérêt est une technique de plus en plus utilisée avec succès dans plusieurs domaines de la vision par ordinateur, cette technique consiste à mettre en évidence des zones de cette image jugées « intéressantes » pour l’analyse, c’est-à-dire présentant

1.4 Descripteurs d’images

des propriétés locales remarquables. Les algorithmes de détection de points d’intérêt se focalisent en général sur des points particuliers des contours, sé-lectionnés selon un critère précis. Ainsi, les coins (corners) sont les points de l’image où le contour.

Dans [BJ99], les auteurs indiquent que la majorité de la littérature suppose qu’une région/point d’intérêt est équivalente à un coin dans l’image, ou, plus généralement, une région caractérisée par une valeur intéressante du gradient de luminosité dans plusieurs directions.

En général, une région d’intérêt possède les caractéristiques suivantes : Elle a une définition mathématique formelle,

- Elle a une position précise dans l’image, Elle est riche en informations visuelles locales,

Elle est stable face à des variations locales et globales de l’image, i.e., elle conserve les mêmes informations visuelles en cas de variation [AMC10].

Pour utiliser donc les points d’intérêt, il faut caractériser la région autour de ces points. La caractérisation d’un point d’intérêt est calculée, sur la région autour de ce point à une échelle choisie. La région invariante est définie comme une région stable dans une image. Ça veut dire que si on transforme cette image avec quelques conditions comme l’échelle, la rotation, la lumière, cette région est aussi détectée (Figure 1.4).

Figure 1.4 – Exemple de deux images : détection de points d’intérêt (descrip-tion basée sur l’informa(descrip-tion locale) avec un changement d’échelle (rotations différentes et en lumière différentes)

Les régions d’intérêts sont localisées via un détecteur, il s’agit d’un algo-rithme ou un logiciel qui a le rôle de décrire une région par une description.

Dans [GBTD09], les auteurs ont catalogué différentes techniques de détection et de description de régions d’intérêt par leur robustesse aux rotations et aux changements d’échelle.

Afin d’être le plus invariant possible aux changements d’échelle, les points d’intérêt sont extrait par le biais d’une analyse multi-échelle globale de l’image, nous citons le détecteur Harris-Laplace, le Fast-Hessien et la différence de gaussienne [Low04]. La partie description s’appuie sur une exploration locale du point d’intérêt afin de représenter les caractéristiques du voisinage.

Dans des études comparatives [BJ99] et [MS05a], il est démontré que l’utili-sation d’histogrammes de gradients orientés (HOG) permet d’obtenir de bons résultats. Parmi les nombreuses méthodes utilisant des HOG, nous retiendrons le SIFT (Scale Invariant FeatureTransform) [Low04], car détecteur et descrip-teur à la fois, il se compose d’une différence de gaussienne (DoG), couplée à des R-HOG.

Le détecteur s’appuie sur une approximation du laplacien de gaussienne [Lin98], afin d’effectuer une analyse multi-échelle de l’image, il génère par la suite un vecteur de 128 éléments. La création du vecteur se base sur les facteurs de direction de la région.

Dans cette image, « key point descriptor » est les facteurs de direction de la région normalisée à gauche. « Key point descriptor » est ensuite normalisé par un vecteur.

1.4 Descripteurs d’images

Exemple de descripteur SIFT

Image original

Figure 1.5 – Les points d’intérêt de l’image à l’aide du descripteur SIFT D’autres descripteurs ont été proposés dans la littérature :

Shape context [BMP02], le principe de cet algorithme est d’extraire d’une image les point en décrivant les contours, et d’obtenir pour chacun de ces points le contexte de forme en déterminant la distribution relative des points les plus proches au moyen d’un histogramme de distribution de coordonnées log-polaires.

PCA-SIFT [KS04], est un vecteur de gradients d’image dans les directions x et y calculé à l’intérieur de la région de support. La région du gradient est échantillonnée en 39 × 39 positions, générant un vecteur de dimension 3042.

Cette dimension est réduite à 20 par la méthode d’analyse en composantes principales.

Gradient Location and Orientation Histogram (GLOH) [MS05a], est une ex-tension du descripteur SIFT dont la robustesse et le caractère distinctif ont été améliorés.

Une étude comparative sur l’évaluation de la performance des descripteurs est présentée dans [MS05b].