• Aucun résultat trouvé

Caractérisation des primitives visuelles

1.2 Description du contenu d’une prise de vue

1.2.2 Caractérisation des primitives visuelles

La nature de la scène observée permet de sélectionner les primitives les plus adéquates. Les en- vironnements d’intérieur sont par définition très structurés. Visuellement, ils sont caractérisés par la présence de nombreux contours ou de lignes contrastées. D’un point de vue du signal, on peut caractériser ces primitives par une forte variation mono-dimensionnelle de l’intensité lumineuse. Les scènes d’extérieur sont quant à elles généralement assez texturées ; les primitives susceptibles d’être observées sont souvent assimilées visuellement à des coins, et correspondent à une forte variation bi-dimensionnelle du signal.

Comme nous désirons traiter des environnements extérieurs, nous utiliserons des points d’in- térêts tant pour le traitement d’images que pour la navigation. Nous nous focaliserons donc sur ce type de primitives dans cet ouvrage.

Les méthodes de détection de points peuvent être regroupées en trois classes [Schmid 96]. Certaines s’appuient sur une extraction préalable des contours ; soit on recherche les points de courbures maximales le long des chaînes de contour, soit on effectue une approximation polygonale de ces contours pour localiser des points particuliers (comme des intersections ou des inflexions). D’autres méthodes travaillent directement sur le signal en niveau de gris. Un point de l’image est caractérisé par les valeurs de niveaux de gris sur un voisinage (ou support). Un point dit d’intérêt peut se caractériser comme une forte variation bi-directionnelle du signal dans ce voisinage. Cette forte variation se caractérise par deux fortes courbures du signal. Les différentes mesures proposées cherchent à localiser au mieux ces zones. Enfin, une autre stratégie consiste à utiliser un modèle théorique de la primitive que l’on cherche à détecter. Par exemple, un coin peut être caractérisé par son axe de symétrie, son ouverture, les niveaux de gris alentours, la position du coin et le flou.

Dans [Schmid 00], une étude comparative de six détecteurs basés sur l’étude du signal est ef- fectuée en se basant sur une mesure de répétabilité. Ce critère vérifie si la détection est invariante aux changements de conditions de prise de vue : changement des paramètres intrinsèques et/ou extrinsèques de la caméra, et changements des conditions d’illumination. Les images considérées sont des plans texturés. Dans la majorité des cas, le détecteur de Harris [Harris 88] donne les meilleurs résultats. Dans [Tissainayagam 04], quatre détecteurs sont confrontés à des séquences vidéo sans mouvement. La variation du signal est alors la conséquence du bruit d’acquisition et des changements naturels des conditions d’illumination. Les séquences concernent des environ- nements intérieurs et extérieurs. Les critères considérés sont la stabilité du coin détecté, ainsi que la précision de sa localisation. Les meilleurs résultats sont obtenus avec le détecteur de Har- ris et celui de Kanade-Lucas-Tomasi, ou KLT [Shi 94] (notons que ce dernier n’a pas été testé dans [Schmid 00]).

Nous renvoyons le lecteur à ces papiers pour de plus ample détails sur les détecteurs de points. Nous nous concentrerons dans cette partie sur les deux détecteurs les plus utilisés, à savoir le détecteur de Harris, et le détecteur KLT, qui comme nous allons le voir sont très semblables.

Détecteur de Harris etKLT

Un point d’intérêt est caractérisé par une forte variation bi-directionnelle du signal. De ce fait le niveau de gris associé à un point d’intérêt diffère fortement des valeurs des autres pixels du voisinage. Par exemple, si xp = (x, y) est un point d’intérêt, et I(xp) le niveau de gris en ce point, une mesure d’autocorrélation telle que :

E(xp) =

X

u,v∈W

wu,v[I(x + u, y + v) − I(xp)]2 (1.20) doit fournir une forte valeur.W désigne une fenêtre autour du point, et wu,vune pondération pour que la contribution de chaque pixel de la fenêtre soit dépendante de la distance au point d’intérêt. Un développement de Taylor deI(x + u, y + v) donne :

I(x + u, y + v) = I(xp) + uIx+ vIy+ O(u2, v2),

où IxetIy correspondent aux dérivées premières du signal. La mesure d’autocorrélation devient alors : E(xp) = X u,v∈W wu,v u2Ix2+ 2uvIxIy+ v2Iy2 

24 1.2 Description du contenu d’une prise de vue

Nous nous retrouvons avec la définition d’une quadratique, qui peut encore s’écrire sous la forme matricielle : E(xp) = X u,v∈W wu,vx>WMxW, avec M =  Ix2 IxIy IxIy Iy2  et x>W = (u, v).

Les valeurs propres de M correspondent aux courbures principales de la fonction d’autocorré- lationE. Le détecteur de Harris est basé sur l’hypothèse qu’un point d’intérêt se situe aux maxima

locaux de la matrice d’autocorrélation M. Cette matrice étant symétrique, elle peut être diagona- lisée en effectuant une rotation des deux axes de coordonnées. Les valeurs propres obtenues (λ1 etλ2 telles queλ1 ≥ λ2) permettent de caractériser la zone considérée :

– λ1 = λ2= 0 : la zone sélectionnée est complètement uniforme ;

– λ1 > λ2 = 0 : la zone correspond à un contour. Le vecteur propre associé à λ1est perpen- diculaire à ce contour ;

– λ1 > λ2 > λt (λt étant un seuil) : la zone contient une variation bi-dimensionnelle du signal. Elle correspond donc à un point d’intérêt.

Plutôt que de calculer les valeurs propres de M, Harris utilise les relations existant entre une matrice et ses valeurs propres :

det(M) = Qiλi tr(M) = Piλi, et propose la mesure de forceH d’un point xp:

H (xp) = det(M) − αtrace2(M),

oùα est un scalaire positif. Un point d’intérêt est caractérisé par une mesure de force supérieure à

un seuilHtfixé.

Le bruit de mesure entraîne cependant un mauvais conditionnement du calcul des dérivées premières de la matrice M. Dans [Schmid 00], il est proposé de remplacer le masque utilisé pour calculer les dérivées par la dérivée d’une gaussienne.

Le détecteur KLT[Shi 94] utilise la même matrice d’autocorrélation M. Comme nous le ver- rons, cette relation est déduite de la conservation de l’intensité lumineuse au cours du temps et d’un critère de similarité analogue à l’équation (1.20). L’enjeu du détecteur KLTest de sélection- ner des primitives qui peuvent être facilement suivies lorsque la caméra se déplace. Afin d’opérer un suivi correct, les deux valeurs propres de cette matrice doivent être grandes. De plus, pour as- surer un bon conditionnement de la matrice M, les deux valeurs propres doivent être du même ordre de grandeur. La valeur deλ1 étant limitée par les valeurs en niveaux de gris possibles, une condition suffisante est donc queλ2soit suffisamment grand. Contrairement au détecteur de Har- ris, les valeurs propresλ1 etλ2 sont ici calculées. Un point d’intérêt est alors localisé lorsque la plus petite valeur propre des deux est supérieure à un seuil donnéλt.

La figure 1.6 illustre sur un exemple les points obtenus avec les deux détecteurs. Nous pouvons observer sur ces deux images que tous les points ne correspondent pas à des coins réels. Notons de plus sur l’image traitée avec Harris que certains points obtenus sont très proches les uns des autres. Les deux détecteurs filtrent les points détectés en ne conservant que celui de meilleur score dans un zone donnée. La taille de la fenêtre dans le cas du détecteur de Harris est plus petite que celle utilisée dansKLT. Le choix de la taille de cette fenêtre influence indirectement la répartition des points détectés.

(a) (b)

FIG. 1.6: Les 200 meilleurs points détectés par Harris (a) etKLT(b)

Il s’avère que le détecteur de Harris est largement utilisé pour les applications d’appariement et d’indexation d’images, alors que le détecteurKLTest très souvent intégré dans des applications de suivi de primitives. Une des contributions de cette thèse étant l’élaboration d’un formalisme de suivi de primitives adapté aux tâches de navigation, nous avons opté pour le détecteur deKLT, afin d’extraire les primitives les plus robustes pour le suivi.