1.6 Domaines d'applications en vision
2.1.1 Correlation
2.1.1.1 Correlations classiques [AG92, BM95b]
Avec quelques variantes, toutes ces methodes utilisent les intensites lumi-neuses (ou leurs gradients,:::).
Notations
On introduit d'abord des notations (Figure 2.1):{ S(x;y): fen^etre de recherche d'inter^et (RDI), la seule partie d'image consi-deree pour l'appariement.
RDI, S(x, y) image, I(x, y) O(x, y) 2ulen+1 2vlen+1 R(u,v) modèle épipolaire ligne y x
Fig. 2.1 { Denitions pour la correlation.
{ O(x+x0;y+y0): fen^etre d'objet. partie de laRDI, ayant la m^eme dimension que le modele et consideree comme la vraie position d'appariement.
{ S(x;y);R: moyenne locale de S(x;y) et R(u;v).
S(x;y) = Pvlenv=0Pu=0ulenS(x+u;y+v)
(vlen+ 1)(ulen+ 1) R = Pvlenv=0Pulenu=0R(u;v) (vlen+ 1)(ulen+ 1) { Ssobel(x;y);Rsobel(u;v): orientation d'image, calculee par l'operateur
So-bel.1
Mesure de ressemblance
Dierentes mesures de ressemblance entre deux signaux sont rappelees dans le tableau 2.1 (emprunte de [AG92]).1:L'orientation a un pixel peut ^etre calcule comme suit:
Hsobel(x;y) = (S(x+ 1;y+ 1) + 2S(x;y+ 1) +S(x,1;y+ 1)),
(S(x+ 1;y,1) + 2S(x;y,1) +S(x,1;y,1))
Vsobel(x;y) = (S(x+ 1;y+ 1) + 2S(x+ 1;y) +S(x+ 1;y,1)),
(S(x,1;y+ 1) + 2S(x,1;y) +S(x,1;y,1))
Ssobel(x;y) = arctan(Vsobel(x;y)
Tab. 2.1 { Denition des mesures de ressemblance. R(u;v) denit le modele de niveau de gris, S(x;y) denit un signal de niveau de gris dans une fen^etre contenant dans la region d'inter^et (RDI, une partie d'image) d'une autre image,
ulen+1 etvlen+1 sont le hauteur et le largeur deRetS, n= (vlen+1)(ulen+1).
Nom Abreviation Denition
Correlation normalisee NCC(x;y) Pvlen v=0 Pulen u=0R(u;v):S(x + u;y + v) q Pvlen v=0 Pulen u=0R2(u;v)Pvlen v=0 Pulen u=0S2(x + u;y + v)
Correlation normalisee centree ZNCC(x;y) Pvlen v=0
Pulen
u=0(R(u;v),R):(S(x + u;y + v),S(x;y))
q Pvlen v=0 Pulen u=0(R(u;v),R)2:Pvlen v=0 Pulen u=0(S(x + u;y + v),S(x;y))2
Somme des dierences aux carrees SSD(x;y)
r P v len v =0 P ulen u=0 (R(u;v),S(x+u;y+v)) 2 n
Somme des valeurs absolues SAD(x;y)
P v len v =0 P ulen u=0 jR(u;v),S(x+u;y+v)j n des dierences
Somme des dierences ZSSD(x;y) 2 r P v len v =0 P ulen u=0
((R(u;v),R),(S(x+u;y+v),S(x;y))) 2
n
aux carrees centrees
Somme des valeurs absolues ZSAD(x;y)
P v len v =0 P ulen u=0
(R(u;v),R),(S(x+u;y+v),S(x;y))
n
des dierences centrees
Somme des dierences aux LSSD(x;y)
r P v len v =0 P ulen u=0 ( R(u;v ) R , S(x+u;y +v ) S(x;y ) ) 2 n carrees normalisees
Somme des valeurs absolues LSAD(x;y)
P v len v =0 P ulen u=0 R(u;v ) R , S(x+u;y +v ) S(x;y ) n
des dierences normalisee
Seitz 1 SES1(x;y) r P v len v =0 P ulen u=0 (Rsobel (u;v),Ssobel (x+u;y+v)) 2 n Seitz 3 SES2(x;y) P v len v =0 P ulen u=0 jRsobel (u;v),Ssobel (x+u;y+v)j n
2: ZSSD dans cette formule est une estimation optimale de l'ecart type du bruit dans le cas gaussien, mais elle est biaisee. L'estimation non biaisee est
r P v len v =0 P ulen u=0
((R(u;v),R),(S(x+u;y+v),S(x;y))) 2
Dans le tableau 2.1, normalisation signie la division de chaque element d'un signal par une constante pour avoir une norme (L2 ouL1) de 1, et centralisation signie la soustraction de chaque element d'un signal par sa moyenne pour avoir la moyenne 0.
Nous discutons maintenant ces correlations. Dans les discussions suivantes, les signaux unidimensionnels sont pris, ce qui simplie l'explication et ne change rienessentiel.
Supposons que nous avons deux signaux quelconques a et b, et notons a = (ai)ni=1;b= (bi)ni=1. Alors:
{ ac(i) =a(i),a est la centralisation de a, et ac= 0. { acn2(i) = ac(i)
jjacjjL2
est la normalisationL2 de ac etacn2= 0, jjacn2jjL2 = 1. { an1(i) = a(i)a est la normalisationL1 de a etjjan1jjL1 = 1:0.
1. SSD, NCCet SAD
Ces trois mesures denies dans le tableau 2.1 peuvent s'interpretent geo-metriquement selon la gure 2.2.
ncc (a, b) = cos (x) x
o
a
b a-b ssd(a, b) = ||a-b||L2
Fig. 2.2 { Sens geometrique deSSD et NCC.
{ SSD(a;b) =jja,bjjL2 est la distance euclidienne L2 entre a et b. { NCC(a;b) = jjajjL(a;b)2
jjbjjL2
= cos(x) est le cosinus de l'angle entrea etb. { SAD(a;b) =jja,bjjL1 est la distance L1 entre a etb.
2. ZSSD, ZNCC, ZSAD, LSSDet LSAD
Leur interpretation est la suivante:
{ ZSSD(a;b) = jjac,bcjjL2 est la distance euclidienne L2 entre ac et
{ ZNCC(a;b) = cos(angc) = cos(angcn2), ou angc est l'angle entre ac
et bc, angcn2 est l'angle entre acn2 etbcn2.
{ ZSAD =jjac,bcjjL1 est la distance L1 entre ac etbc.
{ LSSD =jjan1,bn1jjL2 est la distance euclidienneL2 entre an1 etbn1. { LSAD =jjan1,bn1jjL1 est la distance L1 entre an1 etbn1.
3. SES1 et SES2
Ce sont les((SAD)) et ((SSD)) de signaux de direction d'image.
On peut aussi proposerLSAD, ZSAD, LSSD,ZSSD ... de ces signaux.
4. Une relation
On voit qu'il y a deux type de mesures: distance et angle.
SSD;ZSSD;LSSD;SAD;ZSAD;LSADsont de type distance, NCC et
ZNCC sont de type angle. Et on a la relation suivante:
Soientaetb deux vecteurs unitaires (pour la norme euclidienne), alors plus que leur angle6 (a;b) est petit, plus leur distance est faible. Ici,6 (a;b) denit l'angle entre eux, et (a;b) est leur produit scalaire, on acos(6 (a;b)) = (a;b). En termes plus mathematiques: sijjajjL2 =jjbjjL2 = 1:0, alors jja,bjj
2 L2 = 2,2(a;b) = 2,2cos6 (a;b), donc, plus6 (a;b) est petit, plus cos6 (a;b) est grand et plusjja,bjj
2
L2 est petit.
DoncZNCC(a;b) = cos6 (acn2;bcn2) est equivalent aSSD(acn2;bcn2) (aussi aZSSD(acn2;bcn2)).
5. Pretraitement du signal
ac,acn2 etan1 (resp. bc,bcn2 et bn1) sont des pretraitements du signal, pour ne pas ^etre aecte par l'eet de la transformation ane des signaux.
6. Une propriete de ZSSD(a;b)
ZSSD(a;b) = min SSD(a,b,e) e= (1;:::;1):
En termes statistiques, SSD et ZSSD ont une meilleure propriete que nous allons detailler. Si a(resp. b) est un echantillonnage independant de distribution
A(resp.B), alorsSSD(a;b) (resp.ZSSD(a;b)) est une estimation non biaisee de
jjA,BjjL2 (resp.jjA,E(A),(B,E(B))jjL2). L'inconvenient de SSD et ZSSD est qu'ils comptent toujours l'eet d'echelle (a et b sont dierents sib(i) =a(i) et6= 1). Pour plus de discussions de SSD et ZSSD, voir l'annexe B.
On donne un resume de ces mesures de correlation dans le tableau 2.2. Quatre termes sont decrits pour chaque correlation:
{ signaux utilises (niveaux de gris ou son gradient), { mesure utilisee (angle, distance L2, distance L1),
{ invariance a une translation des intensites lumineuses, ce phenomene est essentiel dans le cas de variations des intensites des sources lumineuses, { invariance a un eet d'echelle des intensites lumineuses, ce phenomene est
essentiellement cause par le changement de dynamique des cameras.
signaux utilises mesure translation des intensites lumineuses echelle des intensites lumineuses
NCC niveaux de gris angle V I
ZNCC niveaux de gris angle I I
SSD niveaux de gris distanceL2 V V
SAD niveaux de gris distanceL1 V V
ZSSD niveaux de gris distanceL2 I V
ZSAD niveaux de gris distanceL1 I V
LSSD niveaux de gris distanceL2 V I
LSAD niveaux de gris distanceL1 V I
SES1 direction des gradients distanceL2 I I
SES2 direction des gradients distanceL1 I I
Tab.2.2 { Invariance des correlations classiques par la transformation de signal: I: invariant, V: variant.
Correlation de Brunelli
Brunelli a propose des correlations moins sensibles au bruit dans [BM95b]. Il y en a trois types:g(a;b) = 1, P ijanc;i,bnc;ij P ijanc;ij+jbnc;ij; l(a;b) = 1 n P i(1, janc;i,bnc;ij janc;ij+jbnc;ij); R(a;b) = 2 th(a+b),2 th(a,b) 2 th(a+b)+2 th(a,b):
Ici, anc;i (resp. bnc;i) est le iieme composant de anc (resp. bnc), la normalisation et centralisation dea (resp. b). th est le tanh-estimation de parametre d'echelle [HRRS86]. Brunelli a utilise ces correlations pour des applications de reconnais-sance de visages et de livres [BM95b].
Quelques remarques
{ Distorsion perspective.
Les methodes citees ci-dessus supposent qu'il n'y a que peu de distorsions perspectives entre deux images. Dans le cas contraire, il est necessaire de considerer la deformation des fen^etres entre deux images. Avec cette consi-deration, on peut esperer d'obtenir la precision sous-pixellique pour l'appa-riement [Ack84, Bra95, Gru85, GS91, RBM94].
{ Methodes pyramidales.
Comme pour beaucoup d'autre algorithmes de vision en bas niveau, il est aussi possible d'utiliser des methodes pyramidales pour la correlation. Ces methodes accelerent beaucoup la vitesse, elles sont decrites dans des ou-vrages, comme [HM93].
{ Discontinuite de disparites.
Les correlations classiques, utilisees depuis longtemps, se degradent lors-qu'il y a des discontinuites de la disparite [ZW94, LMR95]. Elles sup-posent que la disparite reste quasiment constante et elles echouent pres des contours d'occultation ou la discontinuite de la disparite se presente. Ce phenomene, appelee par Zabih [ZW94] le factionalisme, est appele par nous [LMR95, LM97] l'occultation partielle. Ces auteurs ainsi que Bhat [BN96] ont donc propose autres methodes((non parametriques))et((partielles))pour vaincre cette diculte; elles sont expliquees ci-dessous et dans le chapitre 3 respectivement.