• Aucun résultat trouvé

Hypothèse nulle et mise en correspondance de descripteurs locaux

L’algorithme AC-RANSAC que nous venons de présenter utilise un modèle de fond permettant théo- riquement le rejet de fausses détections. Ce modèle de fond repose sur une hypothèse nulle, qui suppose que les fausses correspondances sont des couples de points indépendants et distribués uniformément dans chaque image. L’objet de cette section est l’étude de la validité de cette hypothèse nulle dans notre cadre d’étude, où des appariements de points d’intérêt sont obtenus par mise en correspondance de descripteurs locaux.

En figure4.2, nous proposons une expérience simple où l’on compare deux images différentes. Sui- vant la procédure décrite au chapitre2, des points d’intérêt sont extraits de chacune des images et des descripteurs locaux sont construits puis mis en correspondance. Pour obtenir de nombreuses fausses correspondances, nous avons utilisé un seuil de détection très élevé. Un faux groupe est détecté par l’al- gorithme AC-RANSAC parmi ces fausses correspondances, illustrant le non respect du modèle de fond par les correspondances de descripteurs locaux. Nous en expliquons les raisons dans les paragraphes sui- vants, où sont proposés un principe de filtrage et une méthode de normalisation pour assurer la validité de l’hypothèse nulle.

4.2.1 Indépendance des correspondances

Le modèle de fond pour les correspondances aléatoires C repose sur l’hypothèse nulle H0, selon

laquelle les points appariés mi ∈ I et m′i∈ I′sont des variables aléatoires mutuellement indépendantes.

Or, les faux appariements de points obtenus par un critère de mise en correspondance ne respectent pas nécessairement cette hypothèse d’indépendance, et ce pour deux raisons qui vont être ici détaillées.

Correspondances multiples entre points d’intérêt Nous avons vu que le critère de mise en cor-

respondance a contrario introduit au chapitre précédent autorisait les appariements multiples entre un descripteur requête de l’image I et les descripteurs candidats de l’image I′. De manière plus générale,

l’utilisation de n’importe quel critère – même restreint au plus proche voisin – peut conduire à l’appa- riement de plusieurs descripteurs requêtes de l’image I avec un même descripteur de l’image I′. Ces

correspondances multiples ne peuvent être évitées qu’en utilisant un critère au plus proche voisin sy- métrique. Nous avons vu cependant que cela réduisait considérablement le nombre de correspondances dans le cas des occurrences multiples (objets apparaissant plusieurs fois, structures répétitives, . . . ).

En raison des correspondances multiples qui ne suivent pas le modèle de fond, il est possible de détecter des groupes de correspondances avec l’algorithme AC-RANSAC puisque l’hypothèse d’indé- pendance est de toute évidence fausse dans un tel cas. Pour éviter ce phénomène, tout en préservant les correspondances multiples, nous proposons le principe de maximalité suivant lors de l’examen des erreurs résiduelles de RANSAC.

Définition 10 (principe de maximalité) Pour une transformation donnée par S′, une seule mise en cor-

respondance par point d’intérêt {mi}i≤NQ et {m

j}j≤NC peut être sélectionnée dans un groupe. Cette

correspondance est celle qui minimise l’erreur résiduelle αi (Éq.(4.8)).

La mise en œuvre d’un tel principe est très simple car les correspondances sont ordonnées en ordre croissant de leur erreur résiduelle α lors de l’étape de sélection de groupe. Il suffit alors de parcourir la

FIG. 4.2 – Fausse détection de groupe avec les mises en correspondance de descripteurs locaux. À gauche : De manière à obtenir de nombreuses fausses correspondances sur deux images différentes, le critère de mise en correspondance AC présenté au chapitre 2est utilisé avec un seuil de validation très élevé (ε = 1000 au lieu de ε ≤ 1). 6334 fausses correspondances sont ainsi obtenues, illustrées par des points violets dans chacune des images. Au centre : Un faux groupe très significatif de 5730 correspondances est détecté avec AC-RANSAC, avec une mesure de qualité de NFA = 10−305. Cette

fausse détection est liée au fait que les correspondances aléatoires obtenues ne suivent pas le modèle de fond, en raison de correspondances multiples et redondantes d’une part, et de la concentration des points d’intérêt d’autre part. À droite : En utilisant notre procédure de filtrage et de normalisation, présentée dans cette section, plus aucun faux groupe n’est détecté (i.e. le meilleur groupe trouvé a un NFA supérieur à 1).

liste pour écarter temporairement les correspondances de points ayant déjà été sélectionnés. Ce principe permet effectivement d’éliminer les fausses détections de groupes liées aux correspondances multiples incorrectes.

Néanmoins, il existe une autre raison pour laquelle les fausses correspondances de points d’intérêt ne sont pas indépendantes. Elle concerne l’étape de détection des points d’intérêt.

Redondance des points d’intérêt Certaines structures d’intérêt sont détectées de manière redon-

dante, quelque soit le détecteur de points (ou de régions) d’intérêt utilisé (MSER, Hessien, Laplacien, Harris) (voir la sectionB.1.4en annexe). Le terme « redondant » signifie ici qu’une même structure peut être représentée par plusieurs points d’intérêt qui diffèrent très légèrement en position et en échelle. Ty- piquement, les coins sont détectés de manière redondantes en raison de la non-localisation d’un coin en espace-échelle linéaire. Soit une structure détectée de manière redondante par plusieurs points d’intérêt {mi} dans l’image I : si l’un de ces points d’intérêt est apparié avec m′dans l’image I′, alors les autres

points d’intérêt redondants ont de fortes chances d’être également mise en correspondance avec m′. De

plus, en prenant en considération les mises en correspondances multiples, ces points d’intérêt redondants peuvent être appariés de multiples fois. En effet imaginons que deux points aléatoires m et m′ sont ap-

pariés. Si chacun de ces points est détecté de manière redondante n fois, il y a donc potentiellement n2

appariements incorrects qui contredisent l’hypothèse nulle en terme d’indépendance. Le principe de maximalité permet heureusement de réduire ce nombre à n appariements redondants incorrects, mais cela peut être insuffisant pour détecter de faux groupes. Il est donc primordial d’éliminer ces appariements redondants, tout en préservant les appariements multiples correspondant à des objets répétés.

des points d’intérêt.

Définition 11 (Correspondances redondantes) Deux correspondances ci = (mi, m′i) et cj = (mj, m′j)

de points d’intérêt sont considérées comme redondantes si l’une des deux assertions est vraie : – mi= mj et km′i− mj′k2 < min{∆i, ∆j}

ou – m′

i= m′j et kmi− mjk2 < min{∆′i, ∆′j}

où k.k2désigne la norme euclidienne, et ∆kreprésente l’échelle caractéristique du point d’intérêt mk.

Le voisinage d’un point d’intérêt est ici défini comme un disque dont le rayon correspond à son échelle caractéristique ∆, qui dépend de l’échelle σ à laquelle a été détecté le point d’intérêt en espace-échelle linéaire. Dans le cas des descripteurs locaux de type SIFT, qui sont rappelés en annexeB, cette échelle ca- ractéristique a été fixée arbitrairement à ∆ = 3σ, et correspond au disque central utilisé pour l’extraction des histogrammes locaux (voir la figureB.8).

Remarque 1 :

D’autres définitions de voisinage peuvent être choisies selon le type de détecteur utilisé : MSER [MCUP02], détecteurs de point invariant affine [MS02], etc.

La définition11permet d’identifier les appariements redondants et un critère de sélection doit être appliqué afin de ne conserver qu’une seule mise en correspondance redondante par point d’intérêt. Nous proposons pour cela d’utiliser la mesure de qualité de la correspondance. Dans le cas du critère de cor- respondance a contrario présenté au chapitre2, il s’agit du NFA (Formule2.3). Le principe d’exclusion consiste alors à identifier pour chaque point d’intérêt les éventuelles correspondances redondantes, pour ne conserver que la correspondance redondante ayant le NFA le plus faible. Afin de traiter le plus effica- cement l’ensemble des points d’intérêt appariés, les correspondances sont analysées par ordre croissant de NFA.

Le principe d’exclusion, dont l’algorithme est détaillé en table4.2, est illustré par la figure4.3.

FIG. 4.3 – Illustration du principe d’exclusion des appariement redondants. Le meilleur des apparie- ments redondants (de NFA minimum) est sélectionné tandis que les autres sont éliminés. Les apparie- ments multiples non redondants sont conservés par le principe d’exclusion.

Si l’on reprend l’exemple de fausse détection introduit en début de cette section (figure4.2), l’utili- sation combinée du principe de maximalité et du principe d’exclusion permet de ne plus détecter aucun faux groupe. Nous verrons que le filtrage des correspondances redondantes présente un intérêt supplé- mentaire pour la détection de groupes multiples.

4.2.2 Normalisation

Nous venons de traiter la question de l’indépendance des mises en correspondance suivant le mo- dèle de fond. Une autre hypothèse sur laquelle repose ce modèle est la distribution uniforme des points

TAB. 4.2 –Élimination des appariements redondants. Algorithme4.2 Principe d’exclusion des redondances

Entrée : Ensemble C de correspondances et de leurs mesures de qualité respectives.

1) Ordonnancement : Tri des correspondances cien ordre croissant de leur mesure de qualité qi.

2) Pour chaque ci, à partir de i = 1 :

Détection : Calcul de l’ensemble des correspondances redondantes S = {cj : j > i et cjest redondant avec ci}.

Sélection : Élimination de ces correspondances C := C \ S. i := i + 1.

Sortie : Liste de correspondances non redondantes C.

d’intérêt appariés sur l’ensemble des domaines des images I et I′. La borne supérieure sur la probabi-

lité d’observer un groupe de correspondance conditionnellement à H0, est ainsi définie (Éq. (4.2)) en

considérant le résidu normalisé selon les dimensions des images (aire A et diagonale D).

Or, en utilisant un processus automatique de détection et d’appariement de points d’intérêt, il arrive fréquemment que ces points ne soient détectés que dans une sous-partie des images. C’est le cas par exemple des images contenant de larges régions uniformes, comme le ciel dans les photographies de la figure4.2. Cela signifie, dans de tels cas, que l’on va s’étonner artificiellement d’observer des groupes de correspondances concentrés dans des sous-parties de I et I′. Du point de vue de l’estimation de la

significativité, cela revient à sous-estimer le NFA. Concrètement, il existe donc une concentration critique des points d’intérêt pour laquelle de faux groupes vont être validés, ainsi que l’illustre la figure4.4.

FIG. 4.4 – Illustration de la notion de taille critique pour la fausse détection. À gauche : Deux images

différentes où les objets d’intérêt occupent une sous partie de l’image. Des fausses correspondances sont obtenues en utilisant le critère de mise en correspondance AC avec seuil de détection très élevé (ε = 1000 au lieu de ε ≤ 1). À droite : Lorsque les points d’intérêt appariés sont concentrés dans chacune des images, l’algorithme AC-RANSAC peut détecter un faux groupe. Dans cet exemple, le NFA du faux groupe validé est de 10−12.1. Avec le procédé de normalisation présenté dans ce paragraphe, ce

faux groupe n’est plus validé (NFA = 1014.4).

des images, nous proposons d’estimer les paramètres de normalisation de l’erreur résiduelle (aire A et diagonale D) directement à partir des coordonnées des points appariés. Comme l’illustre le schéma de la figure 4.5, nous considérons simplement dans chaque image une ellipse qui contient une certaine proportion des points d’intérêt mis en correspondance.

FIG. 4.5 – La normalisation de la distribution des points est une étape simple mais nécessaire pour la robustesse de la définition du NFA (vérification du modèle de fond).

Les paramètres d’une ellipse sont estimés selon les moments de second ordre de la distribution des points d’intérêt dans une image. On note δ1et δ2 ≤ δ1 les écarts-types selon les orientations principales

de la distribution de points dans l’image I. Nous avons choisi d’utiliser une ellipse de demi-grand axe égal à 2δ1et de demi-petit axe égal à 2δ2. Dans le cas d’une distribution gaussienne, ce choix correspond

à une ellipse contenant environ 90% des points. Les nouveaux paramètres de normalisation pour l’image I sont alors définis de la manière suivante :

 ˆA = 4πδ1δ2 ˆ

D = 4δ1

.

Les paramètres de normalisation pour l’image I′sont définis de manière analogue.

Cette simple normalisation de l’aire et de la longueur caractéristique permet d’éviter le problème de la taille critique de fausse détection rencontré dans l’exemple présenté en début de ce paragraphe (figure4.4).

D’un point de vue théorique, cette analyse exclusivement fondée sur les deux premiers moments de la distribution de points est naturellement insuffisante pour décrire des distributions plus complexes qu’une distribution uniforme ou normale. Par exemple, une scène avec plusieurs objets en mouvement indépendants sera mieux décrite par un mélange (par exemple, un mélange de gaussiennes). Au pro- blème de l’estimation robuste de ces paramètres, s’ajoute alors celui de la redéfinition de A et D pour un tel modèle. Malgré tout, nous avons constaté expérimentalement que la normalisation proposée est suffisamment robuste pour éviter le phénomène de taille critique pour la détection.

Remarque 2 :

La normalisation des données selon la distribution réelle des points appariés présente un autre avantage. Hartley a ainsi montré qu’il est préférable – et nécessaire, dans le cas de la géométrie épipolaire [Har97] – de normaliser les coordonnées des couples de points d’intérêt dans le but d’estimer de façon robuste les paramètres de la transformation considérée. Il propose ainsi de normaliser les coordonnées des points de correspondances selon deux méthodes au choix, donnant des résultats similaires :

– annuler le moment d’ordre 1 du nuage de points, et normaliser à l’unité les moments de second ordre (selon les orientations horizontales et verticales de l’image),

– centrer le nuage puis normaliser avec un seul facteur d’échelle, de manière à ce que la distance moyenne d’un point par rapport à l’origine soit égal à 1

2.

Nous utilisons également une telle normalisation des coordonnées des points d’intérêt pour le groupement de mises en correspondance.