• Aucun résultat trouvé

1.15 Conclusion

2.1.3 Objectifs

Dans le cadre de ce m´emoire, nous souhaitons proposer plusieurs m´ethodes de mise en correspon- dance st´er´eoscopique de pixels `a base de corr´elation : des m´ethodes prenant en compte le probl`eme des occultations et des m´ethodes utilisant les composantes couleur de l’image. De mani`ere `a valider nos approches, nous souhaitons ´evaluer et comparer nos m´ethodes de la fa¸con la plus rigoureuse possible. Actuellement, `a notre connaissance, il existe peu de publications faisant l’inventaire de techniques d’´evaluation. Le protocole d’´evaluation qui nous semble le plus important est celui de Scharstein et Szeliski [Scharstein 02]. Il est tr`es utilis´e par la communaut´e mais toutes les images propos´ees par les auteurs ne sont pas prises en compte, les crit`eres ´evalu´es sont assez g´en´eraux et les r´esultats obtenus ont ´et´e finalement peu comment´es et peu exploit´es. Les objectifs de ce chapitre sont donc les suivants :

• ´etablir un ´etat de l’art sur les protocoles d’´evaluation et de comparaison ;

• approfondir le travail propos´e dans [Scharstein 02] en proposant une analyse des r´esultats qu’ils ont obtenus ;

• proposer notre propre protocole d’´evaluation et de comparaison pour valider nos approches. Pour atteindre ce dernier objectif, nous souhaitons notamment :

• utiliser les images propos´ees dans [Scharstein 02] et non exploit´ees dans le protocole propos´e par les auteurs ;

• ´etablir notre propre technique de construction de donn´ees avec v´erit´e terrain et mettre `a dispo- sition de la communaut´e l’outil n´ecessaire ainsi que les nouvelles donn´ees ;

• prendre en compte des crit`eres plus (( adapt´es )) aux m´ethodes `a base de corr´elation et aux aspects auxquels nous nous int´eressons : les images couleur et la prise en compte des occultations. 5.http://peipa.essex.ac.uk/benchmark/

2.2. D´efinitions 51

2.1.4 Plan

Dans un premier temps, nous allons exposer un bref ´etat de l’art sur les protocoles d’´evaluation et de comparaison, en exposant le type d’images utilis´ees, les crit`eres ´evalu´es et les algorithmes com- par´es. Ensuite, nous d´ecrirons le protocole de Scharstein et Szeliski [Scharstein 02] qui est, `a notre connaissance, celui qui a permis l’´evaluation et la comparaison du plus grand nombre de m´ethodes de mise en correspondance st´er´eoscopique. Nous donnerons ´egalement une analyse des r´esultats qu’ils ont obtenus. Enfin, nous exposerons le protocole que nous avons utilis´e pour ´etablir des ´evaluations et des comparaisons des m´ethodes existantes et valider nos approches, c’est-`a-dire, le type d’images utilis´ees (construction de donn´ees avec v´erit´e terrain), les diff´erentes zones d’´evaluation consid´er´ees, les diff´erents crit`eres ´evalu´es ainsi que la technique de synth`ese des r´esultats associ´ee.

2.2

D´efinitions

2.2.1 Carte de disparit´es

Dans nos ´etudes comparatives, une des mani`eres de repr´esenter visuellement les r´esultats de la mise en correspondance consiste `a utiliser une image appel´ee (( carte de disparit´es )) :

Chaque pixel d’une carte de disparit´es repr´esente l’amplitude de la disparit´e, c’est-`a-dire, la distance entre la position du pixel de l’image gauche et celle de son correspondant dans l’image droite.

Dans la plupart des cartes de disparit´es, plus le pixel est clair et plus la disparit´e est importante et les pixels noirs repr´esentent les pixels sans correspondant. Dans tout ce m´emoire, nous avons choisi d’utiliser des cartes de disparit´es avec ces conventions.

2.2.2 V´erit´e terrain

La v´erit´e terrain correspond `a toutes les connaissances que nous pouvons avoir sur la sc`ene et la formation des images : la localisation tridimensionnelle exacte de certains points de l’image et la distance exacte entre deux points de l’image. Mainmone et Shafer [Mainmone 96] distinguent mˆeme deux cat´egories de v´erit´e terrain : le cas o`u l’on connaˆıt toute la v´erit´e, c’est-`a-dire le type d’´eclairage, le type et le taux de bruit, le taux de d´egradation des images et dans ce cas, ils parlent d’environnement contrˆol´e et le cas o`u une partie de la v´erit´e terrain est connue grˆace `a des objets dans la sc`ene dont on connaˆıt les caract´eristiques et les propri´et´es et ils parlent d’environnement mesur´e.

Dans le cadre de ce travail, la v´erit´e terrain correspond `a la connaissance de l’ensemble des corres- pondances entre les pixels homologues des deux images. Cela se traduit par la connaissance de toutes les disparit´es par rapport `a une image de r´ef´erence et la repr´esentation visuelle de cette v´erit´e terrain est une carte de disparit´es.

2.3

Images test´ees

Une des premi`eres choses `a d´eterminer est le type d’images `a tester. Nous consid´erons deux cat´egories d’images : les images de synth`ese et les images r´eelles. Dans le cadre des images r´eelles, nous distinguons les images avec v´erit´e terrain et les images sans v´erit´e terrain.

2.3.1 Images de synth`ese

2.3.1.1 St´er´eogramme al´eatoire

Tr`es souvent, un simple st´er´eogramme al´eatoire est utilis´e [Marr 76, Gennert 88, Cochran 92,

Cox 96, Fusiello 97b, Scharstein 98, Jawahar 02, Eklund 03]. L’image gauche est g´en´er´ee al´eatoirement. Dans le cas des images en niveaux de gris, nous affectons `a chaque pixel de l’image une valeur al´eatoire comprise entre 0 et 255. L’image droite est d´eduite de l’image gauche et du relief de la sc`ene souhait´ee. Nous illustrons la construction de ce type de st´er´eogrammes sur la figure2.1. Nous choisissons de repr´esenter, dans les deux images, la projection du premier plan de la sc`ene par un rectangle dont les cˆot´es sont parall`eles aux bords de l’image. De plus, nous choisissons d’effectuer une faible translation parall`ele aux lignes entre les deux images et nous ne mod´elisons pas les d´eformations perspectives. Nous posons Nglig = Ndlig = Nlig et Ngcol = Ndcol = Ncol. Tout d’abord, l’image droite

est g´en´er´ee en d´ecalant les pixels de l’image gauche de d1 colonnes, c’est-`a-dire, Idi,j−d1 = Igi,j avec

(i,j) ∈ [0; Nlig− 1] × [d1; Ncol− 1]. La projection du premier plan, dans l’image gauche, a respective-

ment pour coin sup´erieur gauche et coin inf´erieur droit les pixels de coordonn´ees (i1,j1) et (i2,j2). La

projection du premier plan dans l’image droite est g´en´er´ee en d´ecalant les pixels de ce premier plan de d2 colonnes, c’est-`a-dire, Idi,j−d2 = Igi,j, avec i ∈ [i1; i2] et j ∈ [j1; j2]. Enfin pour tous les pixels pi,jd ,

tels que (i,j) ∈ ([0; Nlig− 1] × [Ncol− d

1− 1; Ncol− 1]) ∪ ([i1; i2] × [j2− d2; j2]), on attribue un nouveau

niveau de gris al´eatoire.

j1 Image gauche d1 Image droite j1− d2 d1 i1 i2 j2 j2− d2 Nlig Ncol

Zones occult´ees dans l’image droite

Zones occult´ees dans l’image gauche

d2 d2

Fig.2.1 – G´en´eration d’un st´er´eogramme al´eatoire – Cette figure illustre la technique que nous avons utilis´ee dans ce m´emoire. Les zones encadr´ees en pointill´es dans l’image droite repr´esentent les zones o`u il faut effectuer un deuxi`eme tirage al´eatoire (ces zones ne sont pas visibles de l’image gauche). Les zones encadr´ees en pointill´es dans l’image gauche sont les zones invisibles dans l’image droite. Pour le st´er´eogramme que nous avons utilis´e, nous avons choisi Nlig = Ncol = 256, (i1,j1) = (78,78),

(i2,j2) = (178,178), d1 = 0 et d2 = 10.

2.3.1.2 Mod´elisation de sc`enes en 3D

Les couples d’images de synth`ese peuvent aussi ˆetre obtenus en mod´elisant de mani`ere plus complexe des sc`enes 3D. Pour cela, il faut distinguer trois ´etapes :

• mod´eliser la sc`ene compos´ee d’objets g´eom´etriques ; • (( texturer )) les objets ;

2.3. Images test´ees 53

La v´erit´e terrain de ces images est alors calcul´ee exactement puisque nous connaissons les matrices de projection perspective Ml associ´ees aux deux cam´eras. Le principe utilis´e est le suivant :

Si on consid`ere pg, nous pouvons calculer son rayon de projection grˆace `a Mg. Ce rayon traverse les

surfaces des objets de la sc`ene en un ou plusieurs points. Il faut retenir le point P le plus proche du plan image gauche et calculer sa projection pd sur l’image droite grˆace `a Md.

Nom Images (a) (b) (c) (d) St´er´eogramme al´eatoire Corridor Yosemite

Fig.2.2 – Couples de synth`ese – Pour le st´er´eogramme al´eatoire, les niveaux de gris des images gauche (a) et droite (b) sont tir´es al´eatoirement suivant une loi uniforme entre 0 et 255. Elles repr´esentent un cube pos´e sur un plan parall`ele au plan image et nous pouvons voir, en (c), la carte de disparit´es associ´ee et, en (d), une visualisation 3D de la sc`ene. Pour les images corridor, elles ont ´et´e g´en´er´ees en couleur `a l’Universit´e de Bonn. Elles ont ´et´e propos´ees pour faire de l’´evaluation de m´ethodes de mise en correspondance et la v´erit´e terrain est disponible sous forme d’une carte de disparit´es et d’une carte des occultations que nous avons fusionn´ees pour adopter notre repr´esentation en (c). Les images yosemite correspondent `a une s´equence d’images de synth`ese repr´esentant le survol d’un paysage montagneux, avec ou sans nuage. Elles ont ´et´e propos´ees pour effectuer des tests d’estimation de flux optique et ainsi la v´erit´e terrain est fournie sous la forme de champs discrets de vecteurs d´eplacements (c).

Les images de synth`ese les plus utilis´ees sont les images (cf. figure 2.2) :

• Corridor – Elles proviennent de l’Universit´e de Bonn et ont ´et´e propos´ees par Gerdes6et test´ees, notamment, dans [Frohlinghaus 96, Cyganek 03]. Gerdes a mis `a disposition sur son site un programme7 qui g´en`ere les cartes de disparit´es ainsi que les cartes des occultations avec une pr´ecision au sous-pixel. Il est possible de r´egler la position des cam´eras. Il n’y a aucune publication relative `a ces travaux.

6.http://www-dbv.cs.uni-bonn.de/stereo data/

• Yosemite – Ces images ont ´et´e propos´ees par Quam8 et apparaissent dans [Black 94]. Elles sont utilis´ees, notamment, dans [Szeliski 99a].

2.3.1.3 R´esum´e sur les images de synth`ese

Elles sont populaires et sont notamment utilis´ees dans [Puzicha 97, Fusiello 99, Leclerc 00,

Garcia 01a,McCane 01,Shafique 03,Xiao 03] car elles ont les avantages suivants :

• La v´erit´e terrain est connue, ce qui permet d’utiliser des crit`eres quantitatifs d’´evaluation. • Tous les types de bruits, de changements de luminosit´e peuvent ˆetre ajout´es. De plus, de nom-

breuses occultations peuvent ˆetre synth´etis´ees.

Mˆeme si le r´ealisme des images de synth`ese a fait r´ecemment des progr`es significatifs, les images de synth`ese utilis´ees pour l’´evaluation de m´ethodes de mise en correspondance ne sont pas r´ecentes. Ainsi, elles ne prennent pas en compte les d´eformations induites par le capteur et l’´eclairage de la sc`ene et les textures des objets ne sont pas r´ealistes. Toutefois, Pugeault et Kr¨ugler [Pugeault 03] ont propos´e de plaquer des images r´eelles sur les surfaces des objets de synth`ese. D’autres auteurs ont propos´e d’appliquer un ensemble d’homographies `a l’image de gauche pour g´en´erer l’image de droite (ainsi la v´erit´e terrain est connue), mais ces images ne sont pas tr`es repr´esentatives de sc`enes rencontr´ees dans les applications r´eelles, comme on peut le voir dans [Georgescu 04].

Pour ´evaluer les m´ethodes de mise en correspondance, les couples d’images de synth`ese ne sont actuellement utilis´es que dans une premi`ere ´etape qui doit ˆetre suivie de tests sur des images r´eelles.