Filtrage des transformations d’autosimilitudes

4.4 Détection multiple avec l’algorithme MAC-RANSAC

4.4.3 Filtrage des transformations d’autosimilitudes

Dans sa thèse sur le recalage d’image, P. Monasse décrit le problème de la détection de transformations multiples pour un même objet avec la transformée de Hough (voir la section 7.1 intitulée : « Quelle heure est-il ? » [Mon00]). Ce phénomène se produit lorsque l’objet détecté présente un fort de- gré d’autosimilitude, c’est-à-dire lorsqu’il est composé d’un motif qui se répète (voir par exemple la figure4.7). Nous avons observé que ce phénomène d’« écho » se produit également avec une utilisation séquentielle de RANSAC. Ce problème se rencontre très fréquemment en raison de la forte autosimilitude des objets manufacturés qui nous entourent. Par exemple, Schaffalitzky et Zisserman exploitent ce principe d’autosimilitude dans les images afin d’en détecter les points et les lignes de fuites [SZ00].

TAB. 4.3 –Algorithme de groupement multiple MAC-RANSAC

Entrées : Ensemble C de N correspondances non redondantes (critère11) et nombre d’itérations imax.

Initialisation du compteur i := 0 et de la liste de groupes S := {∅}. 1) Détection : Tant que i < imax, tirage aléatoire d’un n-uplet S′ ⊂ C puis

recherche du groupe S ⊂ C \ S′ _{minimisant NFA(S, S}′_).

– Si NFA(S, S′_{) < 1, (S}

opt, Sopt′ ) := (S, S′) puis passage à l’étape 2).

– Sinon i := i + 1. Si i = imax, arrêt de l’algorithme.

2) Optimisation (ORSA) : Répéter imax/10 fois le tirage de n-uplets S′⊂ Sopt

et la recherche d’un groupe S ⊂ C \ S′_{minimisant NFA(S, S}′_).

Si NFA(S, S′_{) < NFA(S}

opt, Sopt′ ), (Sopt, Sopt′ ) := (S, S′).

3) Détection de fusion de groupes : Recherche d’un sous-groupe optimal de Sopt(algorithme4.4).

– Si détection de fusion, obtention de 2 couples 1-significatifs (S1, S1′) et (S2, S2′).

– Sinon, S1 := Soptet S2 :=∅.

4) Filtrage : Élimination des correspondances autosimilaires avec S1dans C (critère13),

puis élimination des correspondances de S1 : C := C \ S1.

5) Itération : Ajout de S1à la liste S, initialisation du compteur i := 0.

– Si S2=∅, retour à l’étape 1)

– Sinon, (Sopt, Sopt′ ) := (S2, S2′) puis passage à l’étape 2).

Sortie : Liste de groupes disjoints S.

Pourtant, à notre connaissance, seules quelques publications décrivent ce problème de la détection d’échos. Dans le cadre de la reconstruction 3D en environnement urbain, les auteurs de [ZK06a] en ex- pliquent la cause : « ambiguities due to repetitive scene structures » . Dans un contexte similaire, les auteurs de [VL01] rapportent le même problème. Notons également que Lindenbaum propose dans [Lin97] une analyse des performances de reconnaissance d’objets en fonction des caractéristiques des données utilisées. Cette analyse prend notamment en compte le degré d’autosimilitude de l’objet recherché.

La figure4.8 décrit le principe général de la détection d’autosimilitude. Une majorité des apparie- ments entre les deux images correspondent à des points d’intérêt représentant physiquement le même objet. Des mises en correspondances multiples peuvent également être validées entre les structures répé- titives de l’objet (dans notre exemple, il s’agit de la lettre “A” du mot “RANSAC”). Les correspondances entre les structures répétées sont alors groupées successivement en plusieurs consensus, dont un seul correspond à la vraie transformation. Le groupe principal ayant le plus de correspondances correspond à la transformation réelle de la pose de l’objet. Les autres groupes sont des transformations artificielles.

Comme nous l’avons déjà remarqué, les correspondances à l’origine de ces transformations artificielles sont dues à l’autosimilitude de l’objet, et contrairement aux correspondances redondantes, il n’est pas possible de les identifier comme telles a priori. Il est en effet nécessaire pour cela de détecter préli- minairement la transformation principale. Il est important de noter que la transformation principale est théoriquement trouvée en premier en raison de son meilleur score. En effet, seule la « vraie » transformation peut expliquer globalement la nouvelle position de l’objet, et ce avec une précision au moins égale

FIG. 4.7 – Exemple d’autosimilitude sur deux vues d’un bâtiment du château de Versailles. Le recalage

correct des deux images nécessite un examen minutieux.

FIG. 4.8 –Principe des détections multiples pour un unique objet en raison de son autosimilitude. Une unique transformation (en vert) permet d’expliquer globalement la relation entre les deux objets (ici le mot “RANSAC”). Cependant, en raison du phénomène d’autosimilitude (ici la lettre “A” qui est répétée), d’autres transformations artificielles sont identifiées (et symbolisées en magenta).

aux transformations qui lui font écho. De fait, avec un plus grand nombre de correspondances, la vraie transformation est celle qui sera validée en premier par le processus d’optimisation.

Il nous faut donc un critère qui nous permette à ce stade (la transformation principale étant identifiée) de distinguer les correspondances multiples liées à une nouvelle occurrence de l’objet, de celles liées à son autosimilitude. Nous proposons pour cela de définir la région de l’objet détecté comme l’union des voisinages des points d’intérêt sélectionnés. La notion de voisinage a déjà été définie et utilisée pour le principe d’exclusion des redondances (définition11). Nous avons fait le choix de définir le voisinage d’un point d’intérêt mkcomme un disque, dont le rayon dépend de l’échelle caractéristique ∆kdu point mk.

Les correspondances que l’on qualifie d’autosimilaires sont alors identifiées à l’aide du critère suivant : Définition 13 (Correspondances autosimilaires) _{Soit G un groupe validé, et C l’ensemble des corres-} pondances restantes, de telle sorte que C∩G = ∅. Soit ci = (mi, m′i) une correspondance entre les points

mi ∈ I et m′i ∈ I′. Elle est définie comme autosimilaire vis-à-vis du groupe G si les deux conditions

suivantes sont simultanément vérifiées :

· ∃ m ∈ G tel que km − mik2 < min{∆, ∆i},

· ∃ m′_{∈ G tel que km}′_{− m}′

ik2 < min{∆′, ∆′i}.

En pratique, à chaque fois qu’un nouveau groupe est validé, les correspondances autosimilaires de ce groupe sont éliminées des correspondances restantes C avant d’itérer AC-RANSAC. Ce nouveau principe d’exclusion spatiale est schématisé en figure4.9, où l’on peut voir que les correspondances multiples liées à la répétition d’un objet sont effectivement préservées. Dans la partie expérimentale de ce chapitre, nous montrerons l’intérêt de ce simple critère pour l’élimination des transformations artificielles d’autosimilitude.

FIG. 4.9 –Illutration du filtrage des correspondances autosimilaires après validation d’un groupe de correspondances (en vert), préservant les correspondances multiples (en bleu).

Remarque 1 :

Une première possibilité que nous avons envisagée est de définir l’objet identifié en fonction de la région délimitée par l’enveloppe convexe des points d’intérêt regroupés. Les deux régions étant ainsi identifiées dans chacune des images, il suffit alors de d’éliminer les correspondances de points entre les deux régions. Le choix de l’enveloppe convexe ne convient malheureusement pas dans les cas où différents objets sont superposés. En effet, prenons l’exemple d’une scène statique avec un objet en mouvement. Le mouvement dominant qui correspond à l’arrière plan est d’abord détecté, puis toutes les correspondances restantes sont éliminés : de fait, l’objet en mouvement ne peut plus être détecté. Par ailleurs, une telle définition n’est pas robuste car il suffit d’un seul outlier sélectionné pour que la région délimitant l’objet soit fortement perturbée.

Bien que ce ne soit pas clairement identifié dans ce but, les auteurs de [VL01] proposent une approche qui pourrait également permettre d’éviter le phénomène d’écho. Ils utilisent en effet un filtre spatial pour éliminer les mises en correspondances non sélectionnées entre les deux régions identifiées comme similaires par la première transformation trouvée. Pour définir ces régions dans chacune des images, un masque binaire est construit à l’aide de différentes opérations. Elles consistent tout d’abord à recaler les deux images, puis à calculer la différence de niveau de gris, pour enfin utiliser un seuil afin de sélectionner les zones ayant approximativement le même niveau de gris. Le masque binaire obtenu étant approximatif, des opérations morphologiques sont ensuite utilisées pour améliorer le résultat. Le problème de cette approche est qu’elle repose sur la similitude des niveaux de gris, ce qui n’est pas robuste au changement de contraste de l’objet. Par ailleurs, elle nécessite le réglage d’un nombre important de paramètres. Une approche analogue est utilisée par A. Bartoli dans [Bar07], où une corrélation entre les parties des images correspondant aux plans détectés est utilisée pour vérifier l’estimation de la transformation.

Dans le document Approches robustes pour la comparaison d'images et la reconnaissance d'objets (Page 105-108)