• Aucun résultat trouvé

Schmas de description locale

La section prcdente a montr que pour s'aranchir du choix arbitraire du repre, les reprsentations (linaires) d'images sont ncessairement multi-chelles, et isotropes ou multi-orientations. Le problme est dsormais de savoir la nature de l'information extraire et la forme qu'elle doit prendre. Le modle le plus inuent pour traiter ce problme est emprunt la biologie dcomposant la vision en tapes pr-attentive puis attentive "Nei64]. Dans l'tape pr-attentive sont uniquement capts les vnements vi-suels saillants. Ce sont des vnements localiss, sur des primitives saillantes qui servent initialiser le processus de vision partir d'un nombre rduit d'chantillons. Les primi-tives les plus utilises, rpertories dans la gure 1.4, sont constitues d'une discontinuit spatiale de luminance. Le nombre d'attributs permettant de les caractriser varie selon le type de structure. Les attributs communs sont le contraste maximal, l'chelle prci-sant l'tendue de la variation dans la direction du gradient, la courbure de la surface de luminance dans cette direction. D'autres attributs sont spciques certaines struc-tures, comme l'orientation et la courbure d'une certaine ligne d'iso-luminance, l'chelle et le contraste d'une variation secondaire. Ces structures sont haut pouvoir discrimi-nant, donc rares, mais susamment gnriques pour tre partages par toutes les images naturelles. Leur dtection s'eectue durant la phase pr-attentive "HW62], et leur ca-ractrisation durant la phase attentive. Cette deuxime phase consiste regrouper les primitives extraites en fonction de leurs caractristiques et de leurs relations spatiales particulires, puis comparer les regroupements obtenus avec les prototypes connus. La dicult de mise en oeuvre de ce modle rside dans l'tape de regroupement

ap-Fig. 1.5 Exemples de saillances visuelles (adapts de "KB01]).

paraissant dans la phase attentive. L'tape suivante de comparaison ne peut, en eet, fonctionner que si le regroupement rete la structure de l'objet analys, ce qui est trs dicile sans connaissance a priori. Des travaux ont montr qu'il est en fait possible d'ob-tenir de bons taux de reconnaissance sans regroupement d'aucune sorte "SM97, SC00]. Les objets ne sont alors modliss que par un ensemble dedescripteurslocauxne prenant pas en compte la position relative des rgions dcrites. Selon ce schma, la description s'opre en deux tapes. La premire tape est l'extraction des rgions saillantes, et la seconde la description indpendante de chacune des rgions extraites.

1.2.1 Extraction de rgions saillantes

Deux conditions sur les rgions extraites sont ncessaires pour que les descripteurs soient robustes et discriminants. Les rgions extraites doivent, d'une part, tre indpen-dantes des conditions de prise de vue et, d'autre part contenir susamment d'informa-tion. Pour extraire de telles rgions, la quasi totalit des travaux utilisent le concept de saillance, et ne dirent que par le modle de saillance utilis. En vision biologique galement, il en existe de nombreuses formes, comme le montre la gure 1.5. Les prin-cipaux modles sont la saillance gomtrique, la saillance entropique, et la saillance de symtrie.

Saillance gomtrique. Le modle de saillance gomtrique regroupe les dtecteurs de contours (rampes et barres), et les dtecteurs de coins et de jonctions. Pour obtenir une description de haut niveau, les rgions extraites doivent correspondre aux objets de la scne ou leurs sous-parties homognes. Ainsi, les premiers travaux en recon-naissance d'objets cherchaient mettre en correspondance l'image binaire, obtenue par segmentation, avec les prototypes des objets modliss. La dicult segmenter les longs contours, la frquence leve d'occultations dans les images naturelles, et la com-plexit algorithmique de la mise en correspondance, sont trois limites importantes de cette approche. Dans les travaux plus rcents, l'extraction sans information a priori sur le contenu de la scne est beaucoup plus localise, l'identication des objets ne se faisant qu'en n du processus visuel "SM97]. Les rgions extraites ne servent qu' initialiser la

description, et sont des petits voisinages dont les centres constituent les points d'intrt. Dans un modle de saillance gomtrique, les coins et les jonctions sont les primitives les plus utilises. Contrairement aux contours, ils sont bien localiss, rendant leur ex-traction robuste de nombreuses transformations. Ce sont galement des vnements rares, donc haut pouvoir discriminant. Leur dtection repose souvent sur les maxima locaux d'une mesure de saillance dnie soit partir du gradient et de la courbure, soit partir d'une moyenne des variations des niveaux de gris dans toutes les directions. Dans tous les cas, la mesure de saillance est construite partir de l'expansion au premier ou second ordre en srie de Taylor de l'imageI :

I(x+")=I(x)+" T rI+" T H"+O(" T ") (1.16)

o) le gradient rI et la matrice HessienneH sont dnis partir des drives partielles de l'quation 1.14 par : rI= Lx Ly ! H= Lxx Lxy Lyx Lyy ! (1.17) Dans leur formulation originelle, certains des dtecteurs prsents dans cette section estimaient les drives partielles par simple dirence entre pixels voisins de l'image. L'opration de drivation est ici choisie dans l'espace-gaussien. Cela introduit un nou-veau paramtre, l'chelle de drivation. Les dtecteurs peuvent alors tre mono-chelle si la dtection se fait une chelle xe, ou multi-chelles dans le cas contraire. Le pro-blme de la slection d'une chelle robuste pour une extraction multi-chelles est trait dans la section 2.1.2.

Beaudet dnit dans "Bea78] la mesure de saillance E des coins et des jonctions comme le dterminant de la matrice Hessienne, qui est li au produit kminkmax des courbures principales et de la norme du gradient par "Lip69] :

E =Det(H)=kminkmax(1+Lx2 +Ly2

) 2

Deriche et Faugeras calculent cette mesure deux chelles direntes, et un gain en localisation est obtenu en dtectant le passage zro du laplacien le long de la droite dnie par les deux coins extraits "DF90]. Une mesure similaire, propose Kitchen et Rosenfeld dans "KR82], est le produit de la norme du gradient et de la drive de l'orientation du gradient le long du contour. Elle s'crit simplement partir des drives partielles : E= LxxLy2 ;2LxyLxLy +LyyLx2 Lx2 +Ly2

Dans "Mor77], Moravec introduit les ' points d'intrt (, dnis par les maxima locaux d'une mesure de la variation bidimensionnelle des niveaux de gris. En tout point (xy)

de l'image est dnie l'nergie oriente selon le vecteur de dplacement d=(d 1 d 2 ) : Exy(d)= X u1u2 w(u 1 u 2 )jI(x+u 1 +d 1 y+u 2 +d 2 ) ; I(x+u 1 x+u 2 )j 2

o) w est une fentre rectangulaire. Le calcul de l'nergie oriente pour un nombre susant de dplacements permet d'identier la structure locale (xy). Harris propose dans "HS88] une mthode pour accder moindre cot aux directions d'intrt, que sont celles conduisant aux variations minimales et maximales. Introduisant une fentre gaussienne w

s (d'cart-type s) et l'expansion en srie de Taylor de l'image I, l'nergie oriente se rcrit : E xys (d)= X u 1 u 2 w s (u 1 u 2 ) d 1 @I @x (x+u 1 y+u 2 ) + d 2 @I @y (x+u 1 y+u 2 ) + O(d 2 1 d 2 2 ) 2

o) le nouveau paramtre s est une chelle d'intgration. La symtrie de la gaussienne permet d'crire cette nergie sous la forme d'une convolution :

E xys

(d)=dM(xs)d

T (1.18)

o) la matrice M(xs) est la convolution entre !

s et la matrice d'autocorrlation des drives partielles de premier ordre :

M(xs)= w s L x 2 w s L x L y w s L x L y w s L y 2 ! (1.19) Les dplacements causant les variations minimales et maximales sont donc les vecteurs propres de la matrice d'autocorrlation des drives partielles de premier ordre. C'est pourquoi la matriceM(xs)est aussi appele matrice de structure en raison de l'infor-mation qu'elle porte sur la structure locale enx. Deux valeurs propres leves signient qu'il existe au moins deux directions de forte variation, et donc que le point est proche d'un coin ou d'une jonction. Une seule valeur propre leve signie que le point est proche d'un contour. La dtection simultane de coins et de contours peut donc s'eec-tuer par la recherche des maxima locaux de l'nergie de Harris dnie par :

E

(xs)=jdet(M(xs)) ; trace 2

(M(xs))j (1.20)

La dtection des seuls coins et jonctions peut s'eectuer par la recherche des maxima locaux de la mesure de Frstner, dnie comme la plus petite valeur propre de la matrice de structure.

Saillance entropique. Dans un modle de saillance entropique, les points extraits sont les points dont le voisinage contient un maximum d'information. La description des rgions ainsi extraites dispose d'un fort potentiel discriminant. La mesure de saillance, propose par Khadir et Brady dans "KB01], pour extraire de tels points est dnie par le produit entre l'entropie locale et une mesure d'auto-dissimilarit :

L'entropie localeX(xs)est estime par : X(xs)= X i p xs (i)log(p xs (i)) o)p xs

(i)est la frquence du niveau de grisidans le voisinage centr enxet de taille s. Les rgions bruites ont une entropie locale leve et peuvent s'liminer en constatant que la distribution du bruit est auto-similaire travers les chelles. La mesure d'auto-dissimilarit Y(xs) est dnie par :

Y(xs)=s X i j @ @s p xs (i)j

Il existe en fait un lien troit entre saillance gomtrique et saillance entropique : les points dtects par saillance entropique sont situs en des rgions forte variation bidimensionnelle.

Saillance de symtrie. + partir de considrations psycho-visuelles, il est possible de chercher rendre saillantes les structures symtriques. Une structure intressante pour la description est le ' blob (de luminance modlis par une gaussienne. Une image prsentant un blob en(x

0 y

0

) peut tre localement modlise par :

I(x 0 +u 1 y 0 +u 2 )=a + be ; u 2 1 +u 2 2 2t 2 (1.21)

dont l'cart-type t est l'chelle caractristique. Le laplacien est maximal au centre du blob. Lindeberg propose dans "Lin94b] d'extraire les blobs en dtectant les maxima locaux (en espace et en chelle) du laplacien normalis prsent dans la section 2.1.2.

D'autres mesures de saillance symtrique existent. Dans "Res95], la saillance est dnie en coordonnes polaires par :

S(r 0 )= X r jrI(r 0 +r)jjrI(r 0 ;r)jD r P 0 (r)

o) les gradients pris en deux points radialement symtriques par rapport r 0 sont pondrs par la gaussienne D

r centre en r

0 et de variance 2jjrjj, et par P

0 la mesure de symtrie proprement dite au pointr

0. Elle est dnie par :

P 0 (r)=1;cos( 1 + 2 ;2)]1;cos( 1 ; 2 ) ] o) 1

2 sont les orientations du gradient aux points radialement symtriques par rap-port r

0. Dans "Kov97], la saillance est une mesure de la congruence des harmoniques de Fourier. Il est, en eet, constat que les axes de symtrie apparaissent lorsque toutes les harmoniques sont en phase en un extremum, et les axes de dissymtrie lorsque les harmoniques s'annulent simultanment. Bigun a montr que la matrice de structure dnie en 1.19 peut permettre la dtection de nombreuses primitives symtriques si l'on utilise des oprateurs de drivation complexes "Big04].

1.2.2 Description des rgions saillantes

tant donne la famille f(x isi i

)g

1 i n des caractristiques (points, chelles, et orientations) extraites partir de la reprsentationR(xs )d'une imageI, le problme consiste dsormais dcrire chacun des voisinagesVides points d'intrt. Dans la section prcdente, la reprsentation R est isotrope, et la famille des caractristiques extraites est rduite aux points d'intrt fx

i g

1 i n, ou aux points et leurs chelles caractris-tiquesf(x

isi )g

1 i n. Selon le type d'extraction, mono ou multi-chelle, la description a lieu dans l'espace image, ou dans l'espace-chelle gaussien. Dans les prochains chapitres, l'extraction et la description pourront avoir lieu dans des espace-chelles orients.

L'espace des descripteurs est un espace vectoriel norm, o) une distance permet de mesurer la similarit entre les descripteurs. Un descripteur doit tre invariant aux conditions de pose, et porter la spcicit de la structure prsente dans le voisinage extrait. Les deux contraintes sont antagonistes : l'invariance requise pour la robustesse impose aux descripteurs d'appartenir un sous-ensemble, ce qui a pour eet de rduire leur pouvoir discriminant. Formellement, le problme de dtection de copies n'est pas celui de la reconnaissance d'images d'une mme scne. Au contraire, il souhaitable de ne pas dtecter comme copies deux images direntes d'une mme scne. En pratique nanmoins, l'limination de ces fausses alarmes ncessite de dtecter et de comparer l'axe optique de chacune des images, ce qui engendre un cot important en temps de calcul.

Le descripteur le plus simple est la matrice des valeurs de luminance dans le voi-sinage extrait. La mesure de similarit est alors une corrlation. Ce descripteur est de grande dimension, ce qui restreint les applications possibles, et n'est pas invariant aux rotations. Cette section prsente trois types de descripteur : les descripteurs calculs partir d'invariants scalaires dans l'espace image ou dans l'espace-chelle les descripteurs d'apparence consistant en la rpartition de caractristiques ou d'attributs pralablement estims les descripteurs d'apparence et de forme.

Descripteurs calculs partir de scalaires invariants. Les invariants peuvent se calculer directement dans la reprsentation en niveaux de gris, comme les invariants algbriques, ou dans des reprsentations permettant la construction d'invariants plus discriminants. Les invariants algbriques sont des combinaisons de moments invariantes aux similitudes. Le moment mi

pq d'ordre p+q du voisinageVi centr en(xiyi

), dni par : mi pq = Z xy2V i (x;xi ) p (y;yi ) qI(xy)dxdy

est invariant aux translations (si les points extraits le sont). L'invariance aux change-ments d'chelle s'obtient en introduisant les mochange-ments normaliss :

i pq = mi pq mi 00 1+(p+q)=2

L'invariance aux rotations s'obtient en formant les moments de Hu "Hu62] par combinai-sons linaires adquates de moments normaliss. Les moments mi

pq sont les projections de l'image I sur les polynmes (x;xi

) p

(y ;yi )

q. Les moments de Zernike sont les projections sur des polynmes orthogonaux, conduisant des moments dcorrls dont le pouvoir discriminant est plus grand.

Des invariants peuvent tre calculs dans l'espace-frquence d'une image I, donn par une transforme comme celle de Fourier-Mellin dnie en coordonnes polaires, pour

>0x, par : 8(ku)2ZZIR T I](ku)= 1 2 Z 1 0 Z 2 0 I(r )r;iue;ikdr r d

Cette transforme est bien adapte au calcul d'invariants, chacune des harmoniques de Fourier-Mellin normalises D I](ku) =T (00) ;+iu eikarg (M(10))T (ku)

tant invariante aux similitudes "Gho94]. Ces harmoniques normalises peuvent s'ap-pliquer la description locale : la rgion Vi associe au point (x

isi

) est dcrite par l'ensemble fDs i IV i ](ku)g (ku)2ZZIR, o) IV

i est la restriction de l'image I sur le voisi-nage Vi.

Les invariants direntiels, introduits dans "KD87], ont t les premiers appliqus la description locale "SM96]. Contrairement aux prcdents invariants, ils ne sont invariants qu'au groupe des translations et des rotations. Dans "SM97], une reprsenta-tion multi-chelle est utilise pour calculer les invariants l'chelle caractristique des points extraits, et ainsi obtenir l'invariance aux changements d'chelle. Les invariants direntiels sont des combinaisons de polynmes homognes et symtriques de drives partielles, comme par exemple :

2 6 6 6 6 6 6 6 6 6 6 6 6 6 6 4 L LiLi LiLijLj Lii LijLji "ij (LjklLiLkLl ;LjkkLiLlLl ) LiijLjLkLk ;LijkLiLjLk ;"ijLjklLiLkLl LijkLiLjLk 3 7 7 7 7 7 7 7 7 7 7 7 7 7 7 5 (1.22)

o) la notation de Einstein est utilise (Lii =

P

i2fxygLii

=Lxx

+Lyy par exemple), et o) le tenseur " est dni par "xx

= "yy

= 0 et "xy

= ;"yx

= 1. Ils sont calculs en chacun des points extraits, leur chelle caractristique telle que dnie dans 2.1.2. Chaque invariant intgre les variations locales du signal image autour d'un point extrait

(x isi

), et porte donc une information sur la gomtrie du voisinageVi, ce qui lui confre son pouvoir discriminant.

Descripteurs calculs partir d'une distribution invariante. La deuxime famille de descripteurs est compose des distributions d'un attribut caractristique (comme l'orientation, ou la courbure) dans le voisinage de chaque point extrait. Une attention particulire doit tre porte sur la pondration des lments contribuant l'histogramme, et la normalisation de l'histogramme. L'invariance aux changements d'chelle s'obtient aisment en adaptant l'chelle caractristique la taille du voisinage sur lequel est calcul l'histogramme. Ce type de description remonte aux histogrammes de couleur proposs dans "SB91]. D'autres attributs que la couleur, comme l'intensit des rponses obtenues par des drives de gaussienne ou par des ltres de Gabor, sont proposs dans "SC96]. Ces histogrammes 1D ne prennent pas en compte la rpartition spatiale des attributs dans le voisinage du point, ce qui leur confre l'invariance aux rotations au prix d'une limitation de leur pouvoir discriminant. Les histogrammes 2D ou 3D donnant la rpartition spatiale d'un attribut sont plus discriminants. Dans ce cas, la robustesse la rotation peut s'obtenir de deux manires direntes. La plus simple consiste ne considrer que la rpartition radiale, conduisant des histogrammes 2D dont les axes sont la valeur de l'attribut considr et la distance au point d'intrt. Lorsque l'attribut considr est la luminance, ce descripteur, appel ' spin image (, est propos dans "JH99] pour la mise en correspondance de surfaces 3D. La robustesse aux variations monotones de luminance est obtenue en modiant la matrice ainsi construite pour tre de moyenne nulle et de norme de Froebenius unit. Dans "YF02], la mme mthode est utilise avec la courbure comme attribut. La robustesse la rotation peut galement s'obtenir en dtectant une orientation robuste en tout point extrait, permet-tant de construire des histogrammes 3D encore plus discriminants. Les axes sont alors la valeur de l'attribut et les deux directions perpendiculaires dont l'une est xe par l'orientation du point central. Le descripteur SIFT "Low99] construit de cette manire avec l'orientation du gradient comme attribut, est ce jour le descripteur le plus ro-buste et le plus discriminant "MS05]. Il sert de rfrence et est analys en dtail dans la section 2.4.

Descripteurs d'apparence et de forme. Pour la reconnaissance d'objets, les des-cripteurs doivent discriminer direntes classes d'objets tout en tolrant une variabilit ventuellement forte des objets dans leur classe. Dans ce contexte, la position relative des contours est une information importante permettant la fois d'augmenter le pou-voir discriminant et de modliser la variabilit inter-classe des objets. L'information prendre en compte dans le modle des objets ne doit pas se rduire comme dans les applications prcdentes l'apparence, mais doit galement porter sur la forme. Les pre-miers modles utiliss en reconnaissance ne portaient que sur la forme, dcrite partir de l'image segmente. L'instabilit de la segmentation et la dicult mettre en corres-pondance des images binaires sont deux obstacles majeurs aux approches uniquement bases sur la forme. Les eorts actuels portent sur l'laboration de modles incorporant simultanment la forme et l'apparence. Dans "BMP02], le descripteur ' spin image (est modi pour prendre en compte une information de forme en ne faisant contribuer

l'histogramme nal que les pixels du voisinage dtects sur un contour. Dans "MHS05], le descripteur SIFT est enrichi d'un histogramme donnant la rpartition polaire dans un voisinage trs large des pixels situs sur un contour. Enn, dans "WWP00] a t propos un schma de reconnaissance d'objets reposant sur un modle probabiliste qui a inu sur de nombreux travaux. Dans ce schma, un modle est un assemblage de parties rigides, dotes de positions relatives variables. La position de chaque lement est represente par une densite de probabilites, calcule dans la phase d'apprentissage.

1.3 valuation de la description locale

Il n'existe pas de protocole partag par tous les scientiques travaillant dans ce domaine. L'valuation de la performance du schma complet de description s'eectue gnralement par requtes par le contenu. La vrit terrain entre les requtes et la base d'images est connue : les requtes sont soit des copies synthtiques d'images de la base, soit des images d'une mme scne. La base d'images est selon l'application, soit une base d'images htrognes, soit une base d'images homognes comprenant des empreintes, des visages, des objets sur fond uni et xe, ou sur fond textur et variable. L'valuation de la premire tape du schma de description, l'extraction de points et ventuelle-ment d'chelles et d'orientations, est plus objective. La premire section prsente les techniques d'valuation de la robustesse des caractristiques extraites, la seconde les techniques d'valuation de la performance des descripteurs locaux.

1.3.1 valuation de l'extraction

Le concept de saillance a t introduit pour extraire des rgions robustes et discrimi-nantes. Le pouvoir discriminant peut tre valu indpendamment de la description, au moyen de l'entropie locale comme dans "SMB98], ou conjointement avec la description,