• Aucun résultat trouvé

2.2 Évaluation expérimentale

2.2.1 Mise en œuvre

Avant de présenter notre protocole expérimental, nous allons tout d’abord détailler la mise en œuvre de notre critère de mise en correspondance. Le paragraphe suivant est consacré à l’étape préliminaire de comparaison des descripteurs locaux. Nous étudierons ensuite la complexité de calcul du critère AC, puis la validité du modèle de fond utilisé.

2.2.1.1 Mesure de dissimilarité et descripteurs utilisés

Descripteurs Nous rappelons ici brièvement le procédé de détection et de construction des descrip-

teurs locaux utilisés dans l’ensemble de cette partie expérimentale, qui est décrit en détail en annexeB. Des points d’intérêt sont tout d’abord détectés dans chacune des images A et B, en utilisant un détec- teur de coins de Harris adapté à l’analyse en espace-échelle linéaire (détecteur de « Laplace-Harris », en sectionB.1). Chaque point d’intérêt possède alors une échelle caractéristique σ. Une analyse de l’histo- gramme de l’orientation du gradient dans le voisinage du point d’intérêt est ensuite réalisée pour définir une orientation principale θ.

Nous utilisons les descripteurs de type SIFT décrits en sectionB.2, obtenus de manière très similaire à l’approche originale [Low04]. Des histogrammes d’orientation du gradient sont extraits d’un masque circulaire découpé selon une grille polaire en M = 9 régions distinctes (figure2.2), et centré sur le point d’intérêt considéré. La taille du masque est proportionnelle à l’échelle σ du point d’intérêt, de telle sorte que le rayon du masque est égal à 12σ. L’orientation du masque est en outre recalée selon l’orientation principale θ du point d’intérêt. Les histogrammes d’orientation sont quantifiés sur N = 12 bins. La dimension du descripteur SIFT ainsi obtenu est alors de M × N = 108. Les M histogrammes sont finalement normalisés de telle sorte que la norme L1du descripteur SIFT soit égale à 1.

Mesure de dissimilarité utilisée Le critèreACtel qu’il a été défini dans ce chapitre suppose seule-

ment que la distance entre deux descripteurs a et b peut s’écrire comme la somme des distances entre les histogrammes d’indice m : D(a, b) =PM

m=1d(am, bm). N’importe quelle mesure de dissimilarité d

peut donc être utilisée pour comparer les histogrammes am et bm, par exemple la distance L2[Low04],

L1ou la distance du χ2[BMP02,FL07]. Pour plus de détails, on pourra se référer au chapitre7de cette thèse, qui est consacré à l’étude de différents types de distances pour la comparaison de descripteurs locaux. Or, nous montrons que l’utilisation d’une distance de transport circulaire entre les histogrammes d’orientation permet d’accroître la robustesse et le pouvoir discriminant des descripteurs SIFT. Dans la suite des expériences, nous utilisons donc cette mesure de dissimilarité, notée DCEMD, pour comparer les

(a) Masque circulaire découpé en 9 régions. −1650 −45 45 165 0.2 0.4 #1 −1650 −45 45 165 0.2 0.4 #2 −1650 −45 45 165 0.2 0.4 #3 −1650 −45 45 165 0.2 0.4 #4 −1650 −45 45 165 0.2 0.4 #5 −1650 −45 45 165 0.2 0.4 #6 −1650 −45 45 165 0.2 0.4 0.6 #7 −1650 −45 45 165 0.2 0.4 0.6 #8 −1650 −45 45 165 0.2 0.4 0.6 #9

(b) 9 histogrammes d’orientation du gra- dient correspondant aux différentes régions du masque.

FIG. 2.2 – Illustration du descripteur SIFT. À gauche : un masque circulaire, découpé en M = 9

régions distinctes, est centré sur le point d’intérêt. Sa taille et son orientation dépendent des caractéris- tiques du point (échelle et orientation principale). À droite : 9 histogrammes d’orientation du gradient, quantifiés sur N = 12 bins, sont extraits de chacune des régions du masque.

L’expression générale de cette distance est la suivante :

DCEMD(am, bm) = 1 N k∈{1,...,N }min kA k m− Bmkk1 , avec X m ||am||1 = X m ||bm||1= 1 ,

où ||.||1 désigne la norme L1. Akmet Bmk représentent les histogrammes cumulés circulairement depuis

le bin d’indice k des histogrammes am et bm respectivement3, ce qui donne pour Akm (la définition de

Bkmest la même en remplaçant A par B) ∀i, k ∈ {1, . . . , N} , Akm[i] =

(

Am[i]− Am[k− 1] si i ≥ k

Am[i]− Am[k− 1] + Am[N ] si i≤ k − 1

,

avec la convention A[0] = 0.

2.2.1.2 Coût algorithmique

Afin d’analyser la complexité du critère A Contrario (AC) proposé dans ce chapitre, nous étudions

les différentes étapes de sa mise en œuvre, qui sont énumérées en table 2.1. On exprime la complexité par le nombre d’opérations élémentaires réalisées (somme, multiplication, etc.). Par la suite, nous nous intéressons seulement au terme prépondérant (c’est-à-dire, celui ayant l’ordre le plus élevé).

La première étape de calcul (table2.1) est commune à tous les critères de mise en correspondance qui requièrent une comparaison exhaustive. Sa complexité dépend de la mesure de dissimilarité utilisée. Avec la distance DCEMD, la complexité de cette étape de comparaison exhaustive est O(NQNCM N2).

En comparaison des critèresDTetNN-DR, notre approche nécessite les étapes supplémentaires 2, 3

et 4. La complexité des étapes 2 et 4 correspond à celle d’un parcours de tableau, qui est largement né- gligeable par rapport à celle de l’étape 1. L’étape 3 est cependant beaucoup moins négligeable en temps de calcul, car elle requiert le calcul de M − 1 convolutions des marginales calculées à l’étape 2. La com- plexité de cette étape dépend grandement du nombre de cellules de quantification utilisées pour calculer l’histogramme empirique des distributions marginales. On note ∆ ce nombre de cellules. La convolution des deux premiers histogrammes de taille ∆ requiert ainsi ∆2multiplications et l’histogramme obtenu a

une taille 2∆ − 1. À chaque nouvelle convolution, la taille de l’histogramme obtenu augmente de ∆ − 1.

3les deux histogrammes a

m et bm ne sont pas nécessairement de poids égal. Pour plus de détails sur la question de la normalisation, voir le paragraphe7.2.

À la n-ième convolution, on doit donc convoluer un histogramme h de taille n(∆ − 1) + 1 avec un histogramme g de taille ∆, ce que l’on peut écrire sous la forme :

∀i ≤ (n+1)(∆−1), h∗g[i] = n(∆−1) X j=0 h[j]g[i−j]✶{0 ≤ i−j ≤ ∆−1} = min{n(∆−1),i} X j=max{0,i+1−∆} h[j]g[i−j]. La complexité de calcul de la n-ième convolution, exprimée comme le nombre de multiplications réali- sées, pour l’ensemble des valeurs i ∈ {0, . . . , (n + 1)(∆ − 1)} est donc de :

Mn = (n+1)(∆−1)X i=0 min{n(∆−1),i}X j=max{0,i+1−∆} 1 = ∆−1X i=0 i X j=0 1 + n(∆−1)X i=∆ i X j=i+1−∆ 1 + (n+1)(∆−1)X i=n(∆−1)+1 n(∆−1)X j=i+1−∆ 1 = ∆−1X i=0 (i + 1) + n(∆−1)X i=∆ ∆ + (n+1)(∆−1)X i=n(∆−1)+1 {(n + 1)(∆ − 1) − i + 1} = ∆(∆ + 1) 2 + (n + 1)(∆− 1)∆ + ∆−1X k=1 k = n∆2− (n − 1)∆ .

Au terme de la convolution des M histogrammes, l’histogramme final de taille M(∆ − 1) + 1 a donc nécessité en nombre de multiplications :

M −1X n=1 Mn= M −1X n=1 n∆2− (n − 1)∆ = M (M − 1) 2 ∆(∆− 1) + (M − 1)∆ ≈ M22 2 .

Ce qui donne finalement une complexité en O(M22) pour l’estimation du seuil de validation. Le

tableau suivant compare la complexité des deux étapes critiques de la mise en correspondance.

TAB. 2.2 –Complexité des principales étapes du critèreAC.

Étape Complexité

1) Calcul des distances avec DCEMD O(NQNCM N2)

3) Calcul de la probabilité O(NQM2∆2)

Le surcoût de calcul lié à notre approche dépend en particulier du paramètre ∆, comme le montre le tableau2.3. Du point de vue des performances néanmoins, ce paramètre n’est pas critique : il correspond seulement à l’approximation de la probabilité utilisée pour le calcul du NFA. Nous avons observé que quelques dizaines de bins sont suffisants pour obtenir de bon résultats. Nous avons fixé la taille des histogrammes empiriques à ∆ = 100 bins pour l’ensemble des expériences, de sorte que les résultats ne soient pas trop biaisés par l’approximation du NFA.

TAB. 2.3 –Temps de calculs moyen pour la mise en correspondance de NQ = NC = 103descripteurs

de taille M = 9 et N = 12, avec la mesure de dissimilarité DCEMD.

Critère utilisé Temps moyen d’exécution en secondes

ACavec ∆ = 100 13s

ACavec ∆ = 50 10s

ACavec ∆ = 10 8s

Remarque 1 :

Notons que le calcul de convolution peut être rendu plus rapide en utilisant la transformée de Fourier ra- pide (FFT). Le signal étant supposé périodique, il convient cependant de réaliser un « bourrage de zéros » (zero-padding) pour éviter que le calcul de la convolution soit circulaire. Pour cela, l’histogramme em- pirique de chaque marginale est remplis de zéros pour avoir une taille M∆. M transformées de Fourier discrètes sont ensuite calculées. Après avoir calculé le produit des M vecteurs de taille M∆, l’histo- gramme final est obtenu par calcul de la transformée de Fourier discrète inverse. La complexité est alors en O( NQM2∆ log(M ∆) ).

2.2.1.3 Sur le choix du seuil de détection

Les performances du critère AC dépendent du seuil de détection ε, dont nous discutons ici le réglage pratique.

Le modèle de fond est-il valide ? Intéressons-nous tout d’abord à la validité du modèle de fond

(défini au paragraphe2.1.2) qui nous permet de rejeter les fausses alarmes. Ces dernières sont définies comme des correspondances telles que les distances entre les paires d’histogrammes de mêmes indices sont mutuellement indépendantes. Comme nous l’avons auparavant souligné, cela signifie que l’on doit s’assurer, par construction des M caractéristiques des descripteurs, que cette hypothèse d’indépendance est bien vérifiée pour de fausses détections.

Prenons le cas extrême où le descripteur est construit à partir d’une seule caractéristique qui est ensuite dupliquée M fois. En testant des correspondances de descripteurs aléatoires (a, b), on observera alors en pratique beaucoup plus de petites distances D(a, b) que le modèle de fond ne le suggère, car il suppose l’indépendance de ces M caractéristiques.

Or, la représentation des images par des descripteurs SIFT se prête bien à ce type d’hypothèse d’in- dépendance. En effet, le descripteur SIFT est connu pour être très discriminant : il représente à la fois la structure détectée par le détecteur de points d’intérêt mais également le voisinage de cette structure. Cela signifie que les M régions du descripteur SIFT peuvent représenter des structures très différentes.

Pour illustrer cette propriété, nous réalisons une expérience très simple qui consiste à mettre en cor- respondance des descripteurs SIFT provenant de deux images différentes. Dans une première expérience, les descripteurs SIFT sont calculés à partir de points d’intérêt détectés de manière conventionnelle. La figure2.3(a)montre les points (NQ = 2500, NC = 2800) obtenus par le détecteur Laplace-Harris, qui

correspondent à des structures saillantes de l’image. Le résultat de la mise en correspondance avec le critère AC est donné en figure2.3(c), où quatre fausses correspondances ont été validées (représentées

par des segments verts).

Dans la seconde expérience, les points d’intérêt sont cette fois obtenus par un échantillonnage aléa- toire uniforme en espace-échelle dans chacune des images. Une orientation aléatoire leur est également affectée. La figure2.3(b)montre les points (NQ = 2000, NC = 2500) ainsi obtenus. Les descripteurs

SIFT ne sont donc plus calculés à partir d’une structure réelle : une majorité de points sont tirés dans des zones homogènes de chaque image, dont on va extraire M caractéristiques quasiment identiques. La figure2.3(d)ci-après représente les mises en correspondance obtenues avec le critèreAC, en utilisant le

même seuil de détection que pour l’expérience précédente. Le nombre d’appariements dépasse cette fois le millier, illustrant le fait que l’hypothèse d’indépendance est trop facilement rejetée. En particulier, on observe un très grand nombre de correspondances entre les points d’intérêt dans les régions homogènes. Au contraire, il n’y a quasiment pas de correspondances avec les zones texturées de la seconde image.

Faut t-il choisir ε = 1 ? Nous avons vu dans le cadre méthodologique a contrario que le seuil ε

permet en théorie de contrôler l’espérance du nombre de fausses alarmes. Le seuil de détection est donc usuellement fixé à ε = 1 pour les applications utilisant cette approche a contrario.

En pratique, nous avons cependant observé que fixer le seuil à ε = 10−1 ou ε = 10−2 donnait des

résultats plus satisfaisants. D’après l’analyse asymptotique réalisée au paragraphe 2.1.4.3, l’influence du seuil ε s’exprime sur une échelle logarithmique. En conséquence, le choix de ε = 10−2 modifie

(a) Paire d’images avec points détectés par Laplace-Harris (b) Paire d’images avec points tirés aléatoirement

(c) CritèreACavec des descripteurs SIFT construits de manière conventionnelle

(d) CritèreACavec des descripteurs SIFT construits en des points d’intérêt aléatoires

FIG. 2.3 –Illustration de l’importance du détecteur de points d’intérêt pour le critère de correspondance. peu le résultat en comparaison de ε = 1, mais le nombre de fausses correspondances validées est plus satisfaisant.

Ce décalage de ε vers des valeurs plus faibles suggère donc que le modèle de fond est plus facile- ment rejeté qu’il ne le devrait. L’une des hypothèses les plus plausibles pour expliquer ce résultat est la dépendance entre les différentes régions du masque utilisé pour calculer le descripteur SIFT. En effet, nous avons vu qu’il était important de construire le descripteur de manière à rendre ses différentes com- posantes statistiquement indépendantes, ce que semble permettre la procédure de construction des SIFTs d’après l’expérience précédente. Cependant, nous n’avons pas évoqué jusqu’à présent le fait que les descripteurs sont construits à partir d’une représentation en espace-échelle de l’image, par convolutions successives avec un noyau gaussien de taille croissante. En raison de ce flou gaussien, les orientations du gradient pour des régions limitrophes du masque sont très corrélées. Par voie de conséquence, les M histogrammes construits à partir de régions distinctes ne sont donc pas totalement indépendants, ce qui peut expliquer ce léger décalage que l’on observe pour le nombre de fausses alarmes. Une autre explica- tion pourrait venir du fait que les structures détectées présentent souvent une symétrie [DZM+07]. Dans ce cas, les régions opposées du masque sont potentiellement corrélées.