• Aucun résultat trouvé

Reprsentations d'images pour la description locale

Dans cette thse, les images seront souvent discrtes et quelquefois continues. 25

x

y

y

x

Fig. 1.1 Dpendance d'une image vis vis du choix de la grille.

Dnition 1 Une image discrte (resp. continue) en niveaux de gris est un lment de l'espace image , ensemble des fonctions deS =IN

2 (resp.S =IR

2) dans V =0255]]

(resp. V =01]) support rectangulaire :

=fI :S !V=9(xoyo)2S : 8jxj> xo8jyj> yo I(xy)=0g

L'ensemble des images discrtes nulles surIN 2

;1n]]1m]]sera not nm

Le problme de vision consistant retrouver des caractristiques de la scne 3D partir d'une image 2D est un problme inverse mal pos (non unicit de la solution) et dicile (l'information de luminance chantillonne sur une grille est loin de l'information utile cherche). Une premire dicult appara$t avec la ncessit de driver les caractris-tiques de la scne 3D indpendamment de la grille sur laquelle est dnie l'image. Les grilles de la gure 1.1 dirent par une translation et une rotation de leurs repres, et par leur rsolution. Une t%che lmentaire de tout systme de vision, et en particulier de tout systme de description, est de reconna$tre que deux images formes sur direntes grilles proviennent d'une mme scne. La premire tape du processus de description consiste donc transformer l'espace image en un espace d'observation permettant de s'aranchir au mieux du choix arbitraire de la grille. L'objet de cette section est de caractriser cette transformation.

1.1.1 Contraintes de linarit

Seules les transformations linaires seront considres dans cette thse. Ce choix ne se justie que par l'ampleur de l'investigation qu'il reste mener pour les transfor-mations linaires. Les frquentes occultations apparaissant dans les images naturelles incitent penser que les transformations non linaires sont mieux adaptes pour ex-traire l'information visuelle. Des travaux ont dj t mens en ce sens, et s'intensient aujourd'hui "Mal91, HS05, JSIN06]. Les traitements non linaires semblent indispen-sables dans une cha$ne de traitement visuel toutefois, ils peuvent appara$tre aprs une premire transformation linaire. Cette premire transformation a pour but de rduire la redondance d'information dans le stimulus visuel, et de permettre un accs rapide et able l'information visuelle pertinente.

Se donnant une famille f'~k

gk2K gnratrice de nm, toute image I de taille N = nm se dcompose en une combinaison linaire des fonctions de base :

I =

X

k2Kck

~

'k (1.1)

o) les coecients transformsck s'obtiennent par projection de l'imageI sur une famille de fonctions de projectionf'k 2nmgk2K : ck =hIj'k i= X n1n2 2IN I(n1n2 )'k (n1n2 ) (1.2)

L'ensemble de ces coecients transforms constitue la reprsentation de l'image I dans la famille f'k

gk2K. La transformation associe cette reprsentation est l'application

T dnie surnm qui une image I associe la fonction relle ou complexe dnie sur

K par TI](k) = hIj'k

i. La relation 1.1 montre que l'application T est inversible gauche. En pratique,K est ni de cardinalM N. Si l'on crit l'imageI sous sa forme vectorise x2IRN, la relation 1.2 montre que la transforme vectorise y2IRM peut s'crire :

y=Tx (1.3)

o) T est la matrice caractrisant la transformation. Cette matrice est gale :

T =t'1'2:::'M

] (1.4)

o)'k est le vecteur colonne compos des'k (n1n2 ) (n1n2 )21n]]1m]]. SiM = N, les familles f'k g 1 k N et f'~k g

1 k N sont libres et forment des bases respectives de l'espace transform et de l'espace image nm. Si M > N, la transformation T est redondante et possde une innit d'inverses gauche dont le pseudo-inverse dni par (tTT)

;1

. Les transformations redondantes sont de plus en plus tudies en vision, comme en dbruitage, en analyse de texture, ou mme en compression. Les frames constituent le cadre de leur tude.

Dnition 2 La famille =f'k

gk2K H ((Hjj:jj) espace vectoriel norm) est un frame de H s'il existe A >0 et B <1 tels que :

8x2H Ajjxjj 2 X k2K jhxj'k ij 2 Bjjxjj 2 (1.5)

A et B sont les bornes du frame.

L'existence de A >0 assure que la famille est gnratrice de H. En dimension nie (gale M), l'existence d'une borne suprieureBnie est toujours vraie puisqu'on peut choisirB =

PMk =1

jj'kjj 2.

Dnition 3 La redondance d'un frame ni = f'kg

1 k M gnrateur de l'espace vectoriel H de dimensionN est r= MN. La redondance de la transformation T associe au frameest donc gale au nombre de coecients transforms sur le nombre de pixels de l'image originale.

LorsqueA=B, le frame est dit ajust, et si les lments'kdu frame sont normaliss, on peut choisirA=r. Lorsqu'un frame est ajust et libre, la relation 1.5 devient la relation de Parseval le frame constitue dans ce cas une base orthonorme, et la transformation

T associe est unitaire :tTT =Id.

Une transformation adapte au problme conjoint de compression et de description doit tre de faible redondance et covariante aux similitudes. L'antagonisme entre ces deux critres appara$tra frquemment dans les prochains chapitres, et une problmatique centrale rside dans la manire de construire un compromis intressant entre ces deux critres.

1.1.2 Contraintes de covariance

En physique, pour eectuer des mesures sur un champ susamment direntiable de scalaires, le repre n'est pas choisi par l'observateur mais est x par le champ lui-mme. En tout point est dni le repre orthonormal direct (n

vn w

), o) n

w pointe dans la direction du gradient. La gure 1.2 montre ce repre pour des champs 1D et 2D. Les mesures obtenues dans ce repre locale sont invariantes toute transformation du repre sur lequel est dni le champ. Ce repre a dj t utilis pour construire des descripteurs, comme par exemple les invariants direntiels prsents dans la sec-tion 1.2.2. Ce repre local n'est en revanche d'aucune aide en compression, puisqu'un repre global est ncessaire pour dnir le champ en tout point. Une autre fa&on de s'aranchir du choix du repre consiste obtenir des mesures non pas invariantes mais covariantes aux changements de repre.

Dnition 4 La reprsentationTI]de l'imageI 2est dite covariante la transfor-mation gomtrique t:!si TtI]=tTI].

Dans le cas de mesures covariantes aux changements de repre, les mesures commutent avec les transformations subies par le repre, et il est donc toujours possible de ramener les mesures dans un repre de rfrence. Pour cela, il est ncessaire que les mesures, c'est--dire les coecients transformsck de la relation 1.2, soient indices sur le mme repre que l'image originale I 2 nm. Le support des transformations d'images TI]

cherches est de la forme1n]]1m]]K. Dans la suite sont caractrises les trans-formations linaires covariantes aux changements de repres orthogonaux, c'est--dire aux similitudes (groupe des translations, rotations, et homothties). On verra qu'une telle covariance peut tre obtenue en ajoutant une dimension dans l'espace transform par degr de libert dans le changement de repre orthogonal. S'aranchir du choix arbitraire de la grille par une transformation covariante est donc une solution trs co-teuse en terme de volume de donnes, puisque l'espace transform est beaucoup plus grand que l'espace initial. Elle est inapproprie au problme de compression, sauf s'il est possible de discrtiser susamment grossirement les dimensions supplmentaires. C'est le compromis entre redondance et covariance que les prochains chapitres viseront trouver.

n w n v n w n v n u

Fig.1.2 Repre local invariant aux translations et rotations, pour un signal 1D et un signal 2D.

Covariance aux translations. L'observation doit tre indpendante du choix du centre du repre sur l'image I. La transformation T est donc covariante aux trans-lations :

TI u

](x)=TI](x+u)

o) I

u est l'image I exprime dans un repre translat de u = (u 1

u 2

) 2 ZZ 2. On parle alors de reprsentation homogne pour exprimer le fait que le mme traitement est eectu en tout point de l'image. La linarit et la covariance aux translations conduisent une transformation T de la forme :

TI] = T X p1p22ZZ I(p 1 p 2 )(:;p 1 :;p 2 )] = X p1p22ZZ I(p 1 p 2 )T(:;p 1 :;p 2 )] = X p 1 p 2 2ZZ I(p 1 p 2 )T](:;p 1 :;p 2 ) = IT]

o) est l'image Dirac (noire partout sauf en un point, l'origine, o) elle est blanche). Une reprsentation linaire covariante aux translations est donc une convolution entre l'image I et un ltre d'analyse h = T]. Lorsque la rponse impulsionnelle est nie, le ltre intgre la luminance sur une certaine zone, appele champ rceptif en vision biologique, et de taille gal au support du ltre d'analyse. Pour le problme conjoint de compression et de description, les caractristiques essentielles du ltre sont la par-cimonie de reprsentation des images naturelles, la petite taille de son support spatial pour permettre une localisation prcise des rgions dcrire, et sa forme adapte la dtection d'vnements discriminants.

Covariance aux rotations. L'observation doit tre indpendante du choix des axes du repre sur l'imageI. Considrant que les coecients transformsc

surZZ 2

K, la covariance de la transformeTI]de l'image I 2nm signie :

8 202 8k 1 2K 9k 2 2K TI](xk 1 )=TI]( r(x)k 2 )

o) I est l'image exprime dans un repre tourn d'un angle , et r la matrice de rotation usuelle. Les coecients de l'image tourne n'appartiennent plus une grille coecients entiers, et cela pose le problme de l'interpolation. Il est donc ncessaire de faire l'hypothse que l'image et sa reprsentation sont chantillonnes une frquence suprieure leur frquence de Nyquist. Si l'ensemble K est rduit un singleton, la covariance cherche est quivalente l'isotropie deh. Dans le cas contraire, la transfor-mationTI]est dnie surZZ02 et est de la forme :

TI](xy )=Ih](xy) (1.6)

o) h(xy) = h(r(xy)). En pratique, la reprsentation n'est paramtre que sur un ensemble ni d'orientations. Dans la section 4.5 seront introduites les transformations orientables, qui permettent partir d'un nombre rduit d'orientations de gnrer par interpolation une reprsentation strictement covariante.

Covariance aux changements d'chelle. Il n'y a aucune information a priori sur l'chelle laquelle apparaissent les objets qui composent la scne. Puisqu'on observe la scne travers une reprsentation de la formeR =Ih, il est ncessaire d'adapter le support du ltre aux phnomnes observs. Les coecients transforms sont donc paramtrs en chelle, conduisant la transformation multi-chelles :

TI](xys)=Ihs](xy) (1.7)

o) hs est le ltre h dilat par un facteur d'chelle s. La dilatation permet en eet de simuler une ouverture continment croissante du ltre h (pour un ltre discret, cela pose le problme de l'interpolation deh sur une grille de rsolutionsfois plus grande). La condition ncessaire de reprsentation multi-chelle peut galement s'obtenir en im-posant la reprsentation d'tre indpendante du choix arbitraire de la rsolution de l'image. Considrant une image chantillonne la frquence de Nyquist, la condition de covariance de la transformeTI]aux changements de rsolution s'exprime par :

8s>1 8k 1 2K 9k 2 2K TIs](xk 1 ) = TI](xk 2 ) (1.8)

o)Isest l'imageI une rsolutionsfois suprieure, soit d'aprs le thorme de Shannon,

Is( ~x)=Isinc]( ~x ), o) sinc est la fonction sinus cardinal sparable enxy, et ~x= x

s le

pointx de l'imageI ramen sur la grille de l'image Is. La relation 1.8 se rcrit :

8x2ZZ 2 8s>18s 1 >19s 2 >s 1 =Isinc]( x s )hs1 (x)=Ihs2 ](x) (1.9) En particulier, cette relation est vrie pourhs(x)=sinc(

x

s). En pratique, la condition de Nyquist n'est pas respecte et le choix des fonctionssinccomme fonctions d'interpo-lation n'est plus justi. Il reste nanmoins ncessaire que le ltre hs2 intgre la mme information que hs1 sur un support sfois plus grand. On retient donc comme modle de ltre multi-chelle la famille de ltres gnre par dilatationfhs(x)=h(

x

s)g

s2IR

1.1.3 Ondelettes et espace-chelle gaussien

Covariance des reprsentations en ondelettes. La contrainte de covariance aux changements arbitraires de repre a permis de restreindre les reprsentations possibles de l'image I aux convolutions de la forme :

TI](y s )= X x2ZZ 2 I(x)h(s ;1 r (y;x)) (1.10)

Dans le cas o) le ltre h est isotrope, il n'y plus de dpendance en . La section 3.1.2 montrera que si le ltre h est une ondelette, c'est--dire s'il vrie une condition d'ad-missibilit lui imposant d'tre de moyenne nulle, la transforme continue par l'onde-lette h d'une image I est trs proche de la relation 1.10. La contrainte de covariance aux similitudes font des transformes continues en ondelettes des candidates naturelles pour de nombreux traitements visuels, comme la dtection "Gro86] et la caractrisa-tion "MH92] de contours, l'analyse d'images astronomiques "ADJ+02], l'analyse de tur-bulences 2D "Far92]. L'application de la transforme en ondelettes pour les problmes de description d'images est plus rare. Les travaux dans ce domaine seront prsents dans la section 3.3. Ils ne concernent que la description globale et l'extraction de points d'intrt. Il n'existe aucun schma de description locale dans le domaine ondelettes. Cette absence de travaux dans ce domaine s'explique par l'hypothse largement admise selon laquelle les reprsentations d'images adaptes la description locale doivent tre causales.

Reprsentations causales et espace-chelle gaussien. Pour des signaux mono-dimensionnels, une reprsentation multi-chelle est causale s'il n'y a pas pas cration d'extrema locaux chelle croissante. La causalit a t introduite dans "Wit83] pour modliser une image de rsolution dcroissante, o) les dtails sont progressivement li-mins. Cette contrainte ne peut pas tre satisfaite par les signaux multidimensionnels. L'extension naturelle propose dans "Koe84] est d'imposer que les lignes de niveaux

f(xs)2IR n

IR +

:TI](xs)=csteg (1.11)

ne peuvent pas tre cres chelle croissante. La gure 1.3 montre un cas de cration de maximum local respectant le principe de causalit. Les contraintes de linarit, d'ho-mognit, d'isotropie, et de causalit imposent la reprsentationR=TI]de l'image

I de vrier l'quation de diusion "Koe84] :

@R @s = 1 2 rR (1.12)

dont l'unique solution est l'espace-chelle gaussien de l'imageI.

Dnition 5 L'espace-chelle d'une imageI 2est la fonctionLdnie surZZ 2 IR + par : L(xs)=I 1 e ; jjxjj 2 2s (1.13)

Fig. 1.3 Exemple de cration d'un maximum local dans une reprsentation causale (ici l'espace-chelle gaussien).

L'opration de drivation sera frquemment eectue l'espace-chelle gaussien. La dri-ve partielle d'une image I d'ordre i+j sera note L

x i y j et dnie par : L x i y j = @ i+j L @ i x@ j y (1.14)

Incertitudedelocalisationdansleplanespace-frquence. L'information conte-nue par un coecient d'une reprsentation obteconte-nue par convolution linaire porte sur une certaine rgion du plan espace-frquence. Cette information est d'autant plus discri-minante que cette rgion est petite. Il est donc intressant dans un but de description, de chercher la reprsentation qui minimise la taille de cette rgion, relative l'incer-titude sur la localisation en espace et en frquence de la rponse impulsionnelle. Une mesure simple de cette incertitude est le produit

x :

! des carts-type en espace et en frquence de la rponse impulsionnelle. Ils sont dnis par :

x = X x2ZZ 2 jjx;x 0 jj 2 h s (x) (1.15) ! = X !2ZZ 2 jj!;! 0 jj 2 ^ h s (!) x 0 et !

0 tant respectivement les moyennes en espace et en frquence de la rponse impulsionnelle l'chelle s, et ^

h

s la transforme de Fourier h

s. Le noyau gaussien mi-nimise la mesure d'incertitude dnie par

x :

!. On verra dans la section 3.3.2 qu'il existe un lien troit entre l'espace-chelle gaussien et les reprsentations par ondelettes continues, le laplacien de gaussienne tant l'ondelette faisant le pont entre les deux types de reprsentation.

Fig.1.4 Exemples de primitives. Chacune d'entre elles possdent des attributs carac-tristiques qui peuvent tre l'chelle, l'orientation, le contraste, la courbure.