• Aucun résultat trouvé

qui n'utilise pas de segmentation préalable de l'objet sur le fond. Les informations sont extraites dans toute l'image et inversement pondérées par leur distance au clic : plus elles sont proches du clic, plus elles sont considérées comme ables, et vice et versa.

4.2

Méthode de reconnaissance robuste

Ce paragraphe présente une méthode de reconnaissance robuste aux changements d'échelles et d'orientation, reposant sur l'apparence de l'objet au voisinage du clic. Dans un premier temps, la méthode de calcul des descripteurs visuels est présentée, puis une méthode de mise en correspondance permettant de déterminer l'emplacement de l'objet dans les images et enn l'information que cette mise en correspondance donne sur la profondeur de l'objet sur la ligne de vue. Par la suite, cette information sera convertie sous forme d'une densité de probabilité sur la position de l'objet sur la ligne de vue, nous ramenant ainsi à un problème unidimensionnel.

4.2.1

Invariants robustes aux changements d'échelle et d'orientation

L'objectif est de décrire le voisinage du clic par un ensemble de descripteurs qui pourront être reconnus, dans la vue embarquée, sous un changement d'orientation et d'échelle importants. Les des- cripteurs photométriques locaux (SIFT [Lowe 04], SURF, FERNS, GLOH) répondent très bien à ce type de problème : ils sont discriminants, robustes aux occultations et ne demandent pas de segmen- tation. Ils sont calculés directement à partir de l'information contenue dans des images numériques au voisinage de points d'intérêt : intensité des pixels, couleur, texture, contour, orientation des gradients, etc. Diérents types de descripteurs ont été développés et leur ecacité dépend du choix de la mé- thode d'extraction des points d'intérêt, de la construction du descripteur et de la technique de mise en correspondance. Dans notre cas, nous nous intéresserons à des descripteurs basés sur les niveaux de gris.

Les principaux descripteurs utilisés dans le contexte de la reconnaissance ou la mise en corres- pondance d'une même scène ou d'un objet sous des orientations diérentes ont été comparés par Mikolajczyk et Schmidt dans une étude parue en 2005 [Mikolajczyk 05]. Il apparaît que les descrip- teurs SIFT1(Scale Invariant Features Transform) [Lowe 04] et leur extension, les descripteurs GLOH

(Gradient Location and Orientation Histogram) permettent d'obtenir la meilleure qualité de mise en correspondance.

Les SIFT sont largement utilisés en vision par ordinateur pour reconnaître des structures sous des changements de points de vue et d'échelle importants. Ils sont par ailleurs robustes au changement d'illumination et au bruit. D'autre part, il sont très discriminants et permettent des mises en corres- pondance robustes avec un faible taux d'erreur. Enn, la reconnaissance d'objet basée sur les SIFT est robuste aux occultations partielles [Mikolajczyk 05].

L'encadré (4.2) et la gure (4.3) présentent l'algorithme des SIFT qui permet d'extraire des points d'intérêt multi échelles et de construire les descripteurs associés sous la forme de vecteurs de 128 éléments qui en décrivent le voisinage. À chaque point d'intérêt sont attachées une position, une orientation et une échelle.

4.2.2

Mise en correspondance des descripteurs SIFT

Pour retrouver dans une image embarquée l'objet qui se trouve au voisinage du clic dans l'image déportée, il faut mettre en correspondance les points extraits dans chacune des vues, c'est-à-dire pou- voir comparer deux descripteurs et déterminer s'il s'agit du même point.

1L'implémentation de l'algorithme utilisé dans le cadre de cette thèse est celle de Rob Hess :

88 Localisation de l'objet sur une ligne de vue

L'algorithme des Scale Invariant Features Transform [Lowe 04].

L'algorithme est divisé en quatre étapes :

Détection des extremums dans l'espace d'échelle. Les points clés sont détectés en

calculant les extremums de l'espace d'échelle construit à partir du calcul de diérence de gaussiennes (DoG) sur les octaves d'une pyramide gaussienne comme illustré par la gure (4.3).

Localisation des points d'intérêt. Cette méthode de sélection produit trop de points d'in-

térêt dont certains ne sont pas des indices stables. L'étape de localisation repose sur une approxi- mation de la fonction DoG au voisinage des extremums par un développement de Taylor qui permet d'aner la localisation des points et de leur attribuer une échelle et un poids relatif à la courbure principale. Ainsi, les points trop proches l'un de l'autre, les points qui ont un trop faible contraste et ceux qui sont situés à un emplacement quelconque sur un contour sont éliminés.

Calcul de l'orientation. Une ou plusieurs orientations relatives à la direction des gradients

et à leur amplitude sont associées à chaque point d'intérêt, ce qui assure l'invariance à l'orientation. L'amplitude et la direction du gradient sont calculées pour chaque pixel au voisinage du point d'intérêt et un histogramme de dimension 36 (soit 36 × 10) est construit. Chaque échantillon est pondéré par l'amplitude de son gradient et sa distance au point.

Les pics de l'histogramme correspondent aux orientations dominantes qui sont ajoutées au descrip- teur. Si plusieurs orientations sont concurrentes, alors un autre point clé, copie du premier est crée et la deuxième orientation lui est aectée.

Construction des descripteurs.

L'amplitude et la direction du gradient sont calculées pour les pixels voisins d'un point d'intérêt. L'amplitude est pondérée par une gaussienne centrée sur le point. Les résultats sont stockés dans quatre histogrammes d'orientation de dimension 8. Sur la gure ci dessus, la longueur des èches représente la valeur de l'histogramme pour cette orientation. La gure présente un descripteur de

2×2histogrammes de 8 dimensions. Les SIFT sont en fait implémentés en utilisant des descripteurs

de 4 × 4 histogrammes de 8 dimensions, soit 4 × 4 × 8 = 128 éléments pour chaque descripteur.

4.2 Méthode de reconnaissance robuste 89

Fig. 4.3  Détection des extremums dans l'espace d'échelle : une pyramide gaussienne est construite, puis pour chaque dimension, l'image est convoluée par des ltres gaussien de variance croissante. Les images résultantes sont soustraites deux à deux (DoG) donnant une approximation du Laplacien. Ensuite, chaque pixel est comparé aux huit pixels voisins à la même échelle et aux 9 pixels voisins dans les échelles adjacentes. Si sa valeur est maximum ou minimum, alors il est conservé comme candidat potentiel.

90 Localisation de l'objet sur une ligne de vue

La mise en correspondance des descripteurs peut être basée sur le calcul de la distance euclidienne. Les points de l'image de référence sont comparés un à un à l'ensemble des points de l'image de test. La distance séparant deux points est calculée. Les mises en correspondance sont ensuite classées par ordre croissant de distance euclidienne. Le rapport entre la plus proche distance et la seconde plus proche distance est ensuite calculé. Plus ce rapport est proche de 1 et plus les distances sont proches. Cela signie que la mise en correspondance n'est pas discriminante. Plus ce rapport diminue, plus l'écart entre les distances augmente et plus la mise en correspondance est correcte. En eet, cela signie que le point de plus proche distance est similaire au point testé alors que tous les autres en sont éloignés. Finalement l'algorithme rejettera toutes les mises en correspondance qui résultent en un ratio supérieur à 0.8.

Le problème de l'identication de descripteurs similaires pour des vecteurs de grande dimension est la complexité élevée si la solution exacte est recherchée. La recherche best-bin-rst (BBF) [Beis 97], basée sur les k-d tree, permet d'identier ecacement les plus proches voisins avec une probabilité élevée. Pour améliorer la mise en correspondance, un poids double est attribué aux points qui sont générés à plus grande échelle.

4.2.3

Élimination des faux positifs.

La méthode de mise en correspondance, présentée dans le paragraphe précédent, permet de détecter les paires de descripteurs les plus pertinentes et d'éliminer une partie des faux positifs. Cependant, il peut arriver que plusieurs parties d'une image présentent les mêmes caractéristiques, par exemple si un même motif se répète. Il est alors possible d'éliminer les mauvaises paires en tenant compte de la position relative des points d'intérêt les uns par rapport aux autres.

Une première solution consiste à tenir compte de la position relative de points appartenant à un même objet, par exemple en utilisant la méthode de la transformée de Hough, comme le propose [Lowe 04].

Dans le cadre de notre étude, la contrainte épipolaire reliant deux images est connue à chaque instant et peut être utilisée pour vérier la validité d'une mise en correspondance de deux pointsdx etex. Il sut de montrer que la paire de points mis en correspondance vérie la contrainte épipolaire (voir équation (2.18)), c'est-à-dire que chacun des points est porté par la droite épipolaire associée à l'autre point. La gure 4.4 illustre la méthode d'élimination des faux positifs. Dans la pratique, pour tenir compte du bruit de mesure de la position des points dans les images et des erreurs sur les positions des caméras, les points voisins de la ligne épipolaire seront conservés. Cette zone de tolérance est représentée en pointillés sur la gure 4.4.

.