• Aucun résultat trouvé

2.2 Évaluation expérimentale

3.1.3 Notations

Nous travaillons avec des descripteurs locaux de type SIFT. Ces descripteurs offrent un certain nombre d’invariances (en particulier au zoom et à la rotation), et une robustesse au bruit et au chan- gement de contraste affine (voir l’annexeB). On suppose en outre que les objets recherchés sont rigides, ce qui nous permet de restreindre le nombre de modèles géométriques envisageables pour la détection et l’estimation de la pose des objets.

Aucune autre connaissance n’est requise a priori (calibration et mouvement de la caméra, présence ou non d’un objet, nombre d’objets à détecter, pose de l’objet, caractéristiques de l’erreur sur la position des points d’intérêt etc.).

Sans perdre en généralité, nous considérons dorénavant la reconnaissance d’objets pour une paire d’images notées I et I′. Un critère de mise en correspondance (voir le chapitre2) est utilisé pour sélec-

tionner des appariements de points entre ces deux images, I étant l’image requête et I′ l’image consi-

dérée comme la base de recherche. On note C = {(mi, m′i), i = 1, . . . , N} l’ensemble des N mises

en correspondance obtenues avec ce critère, où {mi} et {m′i} sont respectivement les points d’intérêt

de l’image I et I′. Nous avons vu au chapitre précédent qu’un même point d’intérêt dans une image

pouvait être mis en correspondance avec plusieurs points de l’autre image, ce que l’on qualifie de mises en correspondance multiples. Par conséquent, des points d’intérêt d’indices différents dans l’image I ou I′ peuvent désigner un même point. Les descripteurs SIFT ayant potentiellement plusieurs orientations, il est également possible que deux correspondances d’indices différents représentent le même apparie- ment : (mi, m′i) = (mj, m′j) avec i6= j.

3.1.3.2 Transformations considérées

L’objet présent dans les deux images I et I′ étant supposé rigide, deux classes de transformations

peuvent être utilisées pour modéliser le changement de son apparence : les transformations planes (iso- métrie, similitude, transformation affine, et homographie), et la géométrie épipolaire. On écarte ici les autres types de transformations liées aux défauts de la caméra : transformation radiale (distorsion en barillet ou en coussinet) et dispersion chromatique liées à la lentille, transformation liée à la disposition des capteurs sur une grille non régulière etc.

Soient m et m′ des points de I et Irespectivement, représentant un même point de l’objet observé

selon deux vues différentes. La relation entre les points m et m′ dépend de la nature de l’objet (plan ou

tridimensionnel), du mouvement relatif de l’objet vis-à-vis de la caméra entre les deux vues, ainsi que des paramètres internes de la caméra (en particulier, de la distance focale). L’expression de cette relation selon ces différents cas est rappelée en annexeC.

Rappelons toutefois que, lorsque l’objet est plan, son changement d’apparence entre les deux vues est décrit par une transformation plane, dont la forme la plus générale est l’homographie (ou géométrie projective). La relation entre les points m et m′ est de la forme

où chacun des points est exprimé en coordonnées homogènes, c’est-à-dire m = [xm, ym, 1]T avec

(xm, ym) les coordonnées du point m dans l’image I. T est une matrice 3 × 3 de p paramètres in-

dépendants, avec p = 4 pour une similitude, p = 6 pour une transformation affine, et enfin p = 8 pour une homographie.

Le calcul des p paramètres de la transformation T requiert un groupe de correspondances que l’on désigne par la notation S′. Le cardinal de ce groupe est noté n. Ainsi, n = p/2 correspondances de

points (mi, m′i) différentes sont requises pour estimer une unique transformation plane. Dans le cas de

la transformation affine, on doit vérifier que les n = 3 points dans chaque image ne sont pas alignés ; avec l’homographie, c’est chacune des 4 combinaisons de triplet parmi les n = 4 points qui doivent être non-colinéaires.

Lorsque l’objet n’est pas plan, il existe certaines configurations particulières où une transformation plane peut décrire la transformation subie par l’objet. Dans le cas général cependant, la relation entre les points d’intérêt est décrite par la matrice fondamentale que nous noterons F . En utilisant les coordonnées homogènes, elle s’exprime ainsi

m′TF m = 0 . (3.2)

Contrairement aux transformations planes, l’image du point m ∈ I dans l’image I′est une droite para-

métrée par F m, que l’on appelle ligne épipolaire. L’ensemble des lignes épipolaires décrit un faisceau qui passe par un unique point, appelé épipole. Cet épipole représente l’image du centre de la première caméra (ayant capturé la vue I), par la seconde caméra. La matrice F étant définie à un facteur d’échelle près, en raison de la projection d’un point 3D sur le plan focal de la caméra, il faut un groupe S′de n = 8

points pour la définir de manière unique (sauf configuration dégénérée des points d’intérêt).

Le problème de la sélection de modèles sera étudié en détail en section3.3. Il consiste dans notre cadre de travail à sélectionner parmi la similitude, la transformation affine, la géométrie projective et épipolaire, le modèle géométrique qui est le plus approprié pour expliquer la scène.

3.1.3.3 Évaluation de la qualité d’une transformation

Considérons pour l’instant le cas particulier des transformations planes T . On note S l’ensemble des correspondances {(mi, m′i)} entre des points d’un même objet. En raison des erreurs entachant

la position estimée des points d’intérêt, il n’existe pas de transformation exacte permettant de vérifier l’expression (3.1) pour l’ensemble des correspondances S.

Autrement dit, pour n’importe quelle transformation T donnée, il existe un écart entre l’image T m du point m dans l’image I′et le point mqui lui correspond. Réciproquement, dans l’image I, les points

T−1m′et m ne coïncident pas. On appelle cet écart illustré par la figure3.4erreur résiduelleou résidu. Tous les estimateurs que nous étudierons dans la section 3.2 se basent sur cette notion de résidu. Une transformation sera jugée d’autant meilleure qu’elle minimise l’ensemble des erreurs résiduelles.

FIG. 3.4 –Illustration de l’erreur résiduelle.

Il existe plusieurs façon de mesurer les erreurs résiduelles de la transformation T sur les corres- pondances S. L’approche la plus intuitive consiste à regarder l’erreur résiduelle géométrique – encore

appelée erreur de transfert – qui est définie par la distance euclidienne entre les couples de points T m et m′. Plus généralement, on appelle erreur de transfert symétrique la mesure de l’écart résiduel qui dépend des erreurs de transferts calculées dans chacune des images (en coordonnées non homogènes) :

ri = ||T mi− m′i ||22+||T−1m′i− mi||22

1 2 ,

où ||.|| désigne la norme euclidienne.

Dans le cas de la géométrie épipolaire, l’erreur résiduelle de transfert s’exprime comme la distance euclidienne d’un point à la ligne épipolaire qui lui est associée, soit :

ri= d(F mi, m′i)2+ d(FTm′i, mi)2

1 2 ,

où d(F m, m′) est la distance euclidienne entre met son projeté m

⊥sur la ligne épipolaire définie par

F m, de telle sorte que m′F m = 0.

Il existe d’autres définitions de l’erreur résiduelle : erreur algébrique, erreur de rétro-projection et erreur de Sampson3 par exemple. Leur principal intérêt est la simplification de la mise en œuvre des algorithmes dans lesquels elles sont utilisées (par exemple, et de manière non exhaustive, les méthodes des moindres carrés, l’algorithme DLT (Direct Linear Transformation), ou encore le Gold Standard algorithm[HZ04]).

3.1.3.4 Groupement de correspondances

Dans le cadre spécifique de la reconnaissance d’objets, il faut tenir compte (en plus de l’erreur sur les données) de la présence de fausses mises en correspondance. Au contraire des correspondances cor- rectes de descripteurs locaux qui décrivent le même objet, les fausses mises en correspondance sont des données pour lesquelles il n’existe pas d’interprétation géométrique réelle. On parle alors d’échantillons « aberrants », ou encore d’« outliers » en anglais. Ces données sont parfois modélisées comme des réa- lisations d’un processus aléatoire, indépendantes et identiquement distribuées selon une loi connue a priori(la loi uniforme est le plus souvent utilisée). Les données régulières qui, au contraire, suivent un modèle géométrique déterminé mais inconnu, sont par opposition désignées par le terme d’inliers, terme dont il n’existe pas de véritable pendant en français.

Nous avons vu en introduction de cette section qu’en raison de la présence de tels outliers dans l’en- semble C, la reconnaissance d’un objet revenait à isoler un groupe S ⊂ C d’inliers. Contrairement aux outliers, les correspondances de S partagent le fait d’être expliquées avec précision par une même trans- formation T . Or, chaque correspondance de points appartenant à un espace de 4 dimensions, cela signifie que les éléments du groupe S sont localisés au voisinage d’une variété définie par la transformation T . Les outliers occupent quant à eux un hypercube de❘4de manière aléatoire. Il est donc nécessaire d’uti-

liser des outils d’estimation robuste afin d’isoler le groupe S du reste des correspondances. Les méthodes classiques utilisées pour ce faire sont rappelées aux sections3.2.1,3.2.2et3.2.3.

De manière plus générale, lorsqu’il existe plusieurs objets ayant des transformations différentes, une difficulté supplémentaire consiste alors à d’identifier simultanément plusieurs groupes disjoints. La reconnaissance d’objets se ramène alors à une procédure de groupement multiple de correspondances, dont nous effectuons un état de l’art aux sections3.2.2et3.2.4.

Après avoir analysé différents types d’estimateurs robuste fondés sur le groupement de correspon- dances, nous présenterons en section3.3quelques approches classiques pour la sélection de modèles.

3l’erreur de Sampson représente la distance approchée d’un point m à la projection orthogonale sur la variété définie par la transformation T considérée [HZ04].