• Aucun résultat trouvé

Arête

Coin

Figure 6.2 – Détecteur de coins de Harris. Pour un point se trouvant dans une zone homogène, la variation d’intensité pour une fenêtre se déplaçant dans un voisinage local est presque nulle. Pour un point sur une arête, elle est nulle dans la direction de l’arête et plus importante dans les autres. Pour un coin, cette variation est importante, quelle que soit la direction de déplacement de la fenêtre.

En notant I l’intensité et en considérant un patch rectangulaire cou- vrant une région (u, v), le changement E produit par un déplacement (x, y)est donné par :

E(x, y) =

u,v

w(u, v)[I(u+x, v+y) −I(u, v)]2

où w spécifie la fenêtre de déplacement ; cette fonction vaut 1 dans une fenêtre rectangulaire et 0 ailleurs.

Ce détecteur induit une réponse anisotrope, car les valeurs prises par (x, y)appartiennent à un ensemble discret correspondant à des décalages de 45◦ en 45◦. De plus petits déplacements peuvent être employés grâce à une extension analytique de la quantité E(x, y), par développement li- mité de l’intensité I, que Harris et Stephens ont proposé : E(x, y), par développement limité de l’intensité I :

I(x+u, y+v) = I(u, v) +x∂I

∂x+y ∂I

∂y+O(x 2, y2)

Ils réécrivent alors la quantité E(x, y) de la façon suivante, avec une ap- proximation bilinéaire (6.1) valable pour de petites variations de(x, y):

E(x, y) =

u,v w(u, v)[x∂I ∂y+y ∂I ∂y+O(x 2, y2)]2 ≈ (x, y) ·M· (x, y)t (6.1) avec M =

u,v w(u, v)   ∂I ∂x 2 ∂I ∂x ∂I ∂y ∂I ∂x ∂I ∂y ∂I ∂y 2  

M est appelée la matrice des seconds moments, ou matrice d’autocor- rélation.

En choisissant la fonction w gaussienne et non plus en créneau comme précédemment, on lisse la détection, autrement trop bruitée :

w(u, v) =e−u22σ2+v2

avec σ donné.

E est ainsi proche d’une fonction d’auto-corrélation locale. Harris et Stephens montrent [86] qu’un point peut être considéré comme un coin lorsque les valeurs propres de M sont toutes deux grandes, et définissent une mesure R de réponse au coin, donnée par :

R=Det(M) −k Tr(M)2 avec k =0.04, déterminé empiriquement.

Cette mesure permet une classification directe : un point avec une valeur R négative se trouve sur une arête, une valeur faible de R indique une localisation dans une zone homogène, et une valeur positive révèle un coin. On considère que les points de Harris sont ceux pour lequel R est supérieur à un seuil défini.

Ce détecteur a la propriété d’être invariant par rotation et partielle- ment invariant par changement affine d’intensité, mais n’est pas invariant par changement d’échelle ; cela sera corrigé par le détecteur présenté dans le paragraphe suivant.

6.1.1.2 Harris-Laplace

Le détecteur de Harris-Laplace, ou Harris multi-échelle, introduit par Mikolajczyk et Schmid [156], s’appuie fortement à la fois sur la façon dont sont localisés les points de Harris, présentée précédemment, et sur

une représentation dans un espace d’échelle gaussien. Pour une image I, la représentation en espace d’échelle en un point(x, y)est donnée par la famille des signaux dérivés L(x, y, σt)définie comme la convolution de la fonction d’intensité de l’image par un noyau gaussien g(x, y, σt):

L(x, y, σt) =g(x, y, σt) ∗I(x, y) (6.2) avec le noyau : g(x, y, σt) = 1 2πσt e−x2 +y2 2σt

La convolution n’est effectuée que sur les dimensions spatiales x et y. Elle a pour effet de lisser l’image en utilisant une fenêtre de la taille du noyau. Cela apporte au détecteur de Harris-Laplace l’invariance par changement d’échelle qui faisait défaut jusqu’ici. Il est en effet possible de modifier la matrice des seconds moments M pour insérer cette invariance dans le détecteur. On note alors :

M =µ(x, y, σs, σt) =σt2g(x, y, σs) ∗ LLxx(x, y, σt) Lxy(x, y, σt) xy(x, y, σt) Lyy(x, y, σt)  avec Lxx = 2L ∂x2, Lyy = 2L ∂y2 et Lxy = 2L

∂x∂y. Les facteurs σs et σt sont deux échelles différentes pour le noyau gaussien : σs est l’échelle pour le noyau d’intégration, et σt celle du noyau de dérivation utilisé dans l’équation (6.2).

A partir de cette matrice M, la détection de Harris-Laplace consiste en deux phases présentées ci-dessous.

Détection des points à différentes échelles Elle est faite à des échelles

prédéfinies dans le but de réduire l’espace de recherche. Mikolajczyk et Schmid utilisent la suite{ki1σ0}i∈J0,nK avec k1 =1.4 pour les échelles d’in- tégration σs. Ils choisissent l’échelle de différentiation σt =k2σsen prenant k2 =0.7. La mesure R de réponse en coin est calculée de façon similaire à précédemment :

R=Det(µ(x, y, σs, σt)) −k Tr(µ(x, y, σs, σt))2

De la même façon, les points retenus sont les maxima locaux pour cette quantité, au dessus d’un seuil donné.

Choix de l’échelle caractéristique Un algorithme itératif, basé sur les

travaux de Lindeberg [141], permet de localiser les coins et de sélectionner l’échelle caractéristique de chacun d’entre eux à partir des points initiale- ment détectés à l’échelle σs. A chaque étape i de l’algorithme, (i) on choisit l’échelle σs(i+1)qui maximise le LoG, ou Laplacian of Gaussian (soit l’opéra- teur laplacien appliqué à la fonction L précédente : ∇2L= 2L

∂x2 + 2L ∂y2), (ii) on utilise cette échelle pour la localisation spatiale du coin, maximisant la mesure de réponse au coin R sur un voisinnage local, (iii) on test le critère d’arrêt (convergence en position et en échelle). Les points satisfaisant ce critère d’arrêt sont les coins recherchés, maximisant le LoG à travers les échelles ainsi que la mesure de réponse au coin R.

6.1.1.3 DoG et SIFT

Introduits par Lowe [143] en 1999, les SIFT, Scale-Invariant Feature Transform, ont connu un succès notable en tant que détecteur de points d’intérêts : invariants par rotation, par changement d’échelle, par change- ment d’illumination, en partir par changement de point de vue, ils pré- sentent de plus une résistance au bruit, ce que les précédents détecteurs ne supportaient pas. En plus de localiser les points d’intérêts, les SIFT per- mettent également une caractérisation robuste de ces points. Nous abor- dons cette caractérisation dans la section 6.1.2.1.

Pour la détection des points d’intérêts, SIFT utilise les DoG, Difference of Gaussian. En pratique on procède en deux étapes (deux autres étapes seront nécessaires à la caractérisation) : un repérage des extrema dans un espace d’échelle suivi d’une localisation précise de certains de ces points candidats passant différents tests.

Détection des extrema dans l’espace d’échelle Comme pour Harris-

Laplace 6.1.1.2, les SIFT sont basés sur un espace d’échelle construit par convolution de l’image d’origine I avec un filtre gaussien g :

L(x, y, kσ) =g(x, y, kσ) ∗I(x, y)

Pour une détection efficace de points stables dans l’espace d’échelle, on cherche les extrema de la fonction DoG, différence de gaussiennes convoluée avec l’image :

D(x, y, σ) = (g(x, y, kiσ) −g(x, y, kjσ)) ∗I(x, y) = L(x, y, kiσ) −L(x, y, kjσ)

avec g(x, y, σ)un noyau gaussien d’échelle σ.

Ainsi, cette DoG est la simple soustraction de deux images préalable- ment convoluées avec le filtre gaussien, pour deux échelles distinctes. Les différentes images obtenues sont regroupées par octave, une octave cor- respondant à doubler la valeur de σ l’échelle. La valeur de ki est choisie telle qu’on obtient un nombre fixe d’images par octave. On calcule les DoG en prenant deux images adjacentes au sein d’une même octave (voir figure 6.3).

Les extrema sont recherchés dans les images comme les extrema lo- caux sur un 26-voisinage dans l’espace d’échelle, comme indiqué sur la figure 6.4.

Décrit ainsi, on remarque que l’approche par DoG est une approxima- tion des LoG normalisés σ22g, pour lesquels les extrema représentent les poins les plus stables, d’après Mikolajczyk [156]. En effet, l’équation de la chaleur (paramétrée en σ, et non en t =σ2) amène :

∂g ∂σ =σ

2g

En approchant cette équation aux dérivées partielle par une différence finie pour des échelles σ et kσ, on obtient :

∂g ∂σ

g(x, y, kσ) −g(x, y, σ) (k1)σ

Echelle