• Aucun résultat trouvé

4.5.1 Donn´ees de synth`ese

4.5.1.1 Protocole exp´erimental

Le protocole exp´erimental est le suivant : la sc`ene est compos´ee d’une surface plane, rep´er´ee par une grille compos´ee de 100 points, projet´es dans des images de taille 720 × 576 pixels. Un bruit gaussien avec un ´ecart type ´egal `a σ pixels est ajout´e aux coordonn´ees de ces points. Nous utilisons le mod`ele de cam´era simplifi´e d´ecrit dans la section 4.4.2. Avec ce mod`ele, le point principal est fix´e au centre de l’image, le facteur d’´echelle est ´egal `a 1 et la distorsion des pixels est nulle. La distance focale α est fix´ee `a 1024 pixels. La cam´era est ´eloign´ee du plan de la sc`ene d’une distance variable de 1460 ± 570 pixels et son orientation est al´eatoirement d´etermin´ee : le rep`ere cam´era fait un angle compris dans l’intervalle [10◦

,70◦

] autour de l’axe X du rep`ere de la sc`ene, un angle compris dans [−30◦

,30◦

] autour de l’axe Y et un angle compris dans [−90◦

,90◦

] autour de l’axe Z. Les homographies inter-vues sont estim´ees en utilisant la m´ethode NDLT [Hartley 03, chapitre 4], `a partir des correspondances (connues) des projections des points de la grille dans les images.

4.5.1.2 Int´erˆet de l’optimisation globale

Dans le but de montrer l’int´erˆet d’utiliser une m´ethode d’optimisation globale, nous avons minimis´e la fonction de coˆut en utilisant une m´ethode it´erative, la m´ethode de Levenberg-Marquardt : nous avons r´ealis´e des tests avec cinq images et σ = 1 pixel. Pour chaque test, les inconnues ont ´et´e initialis´ees al´eatoirement telles que α = α⋆± 30%, θ = θ± 30% et φ = φ± 30%, o`u (α) ´etait le minimum

global. La m´ethode a converg´e vers le minimum global (avec une tol´erance de 20%) dans 38% des cas. La m´ethode d’optimisation globale par intervalles que nous avons utilis´ee a trouv´e la solution dans 100% des cas.

Dans l’´etude pr´ec´edente, la minimisation locale non lin´eaire est d´esavantag´ee car notre param´etrage, faisant intervenir des cosinus et des sinus, n’est pas adapt´e `a ce type de minimisation. Nous voulons mentionner que nous avons aussi effectu´e ces tests avec un param´etrage diff´erent, en fonction de la distance focale et de la ligne de fuite du plan (en utilisant le fait que n = K⊤

l). Les r´esultats sont sensiblement les mˆemes.

4.5.1.3 Simulations

Dans nos exp´eriences, nous avons pris un domaine de recherche, pour les inconnues α, θ et φ, correspondant `a la boˆıte ([300,3000],[0,π],[0,π])⊤

. Pour une meilleure compr´ehension, les bornes des intervalles encadrant la distance focale seront donn´ees en pixels, pour une distance focale non trans- form´ee. Notons que le choix de la boˆıte initiale n’a pas d’effet sur la pr´ecision du minimum calcul´e ; il influe seulement sur le temps de calcul. Afin d’acc´el´erer les calculs, on pourrait imaginer que l’encadre- ment initial de la distance focale soit d´etermin´e au pr´ealable d’apr`es les caract´eristiques des appareils photographiques. Dans la suite, les temps de calcul sont donn´es pour un processeur Intel Core 2 1.6 GHz. Chaque valeur calcul´ee est une moyenne sur 100 tests.

La figure 4.8 illustre les r´esultats concernant l’estimation des inconnues en fonction du niveau de bruit. La figure 4.8.a pr´esente l’erreur moyenne relative sur la distance focale α, en pourcentage, tandis que les figures 4.8.b et 4.8.c montrent l’erreur moyenne sur les angles θ et φ, en degr´es, de la normale du plan de la sc`ene. Il apparaˆıt que la croissance de l’erreur est lin´eaire avec le niveau de bruit. La pr´ecision reste tr`es bonne lorsque le niveau de bruit augmente, mˆeme pour σ = 5 pixels. Le temps de calcul moyen pour obtenir le minimum global est affich´e sur la figure 4.8.d. Il croˆıt ´egalement de mani`ere lin´eaire avec le niveau de bruit. Le temps de calcul est raisonnable, allant de cinq secondes

sans bruit `a neuf secondes pour un niveau de bruit σ = 5 pixels. Sur ces graphiques, les barres d’erreurs repr´esentent les ´ecarts types des quantit´es estim´ees. Ceux-ci apparaissent assez ´elev´es pour l’estimation des inconnues, ce que nous expliquons de la mani`ere suivante : quelques fois, le syst`eme d’´equations `a r´esoudre induit par la s´equence d’images est moins bien contraint car plusieurs images contribuent `a des ´equations presque identiques (elles apportent quasiment la mˆeme information). Ceci arrive par exemple si les cam´eras ne sont pas bien r´eparties dans l’espace ou si le mouvement de la cam´era est proche d’un mouvement critique, tel qu’un mouvement de translation. Dans ces cas, le minimum global obtenu est un peu ´eloign´e du minimum global th´eorique (sans bruit). Il suffit de quelques tests de ce type pour obtenir un ´ecart `a la moyenne important. Les ´ecarts types pour le temps de calcul sont ´egalement ´elev´es, pour les mˆemes raisons. En effet, le minimum global est moins bien (( marqu´e )) et il est plus long `a encadrer.

L’estimation des inconnues en fonction du nombre d’images dans la s´equence est montr´ee sur la figure 4.9. L’erreur de l’estimation diminue lorsqu’on ajoute plus d’images mais le b´en´efice s’av`ere moins important apr`es cinq ou six images. La figure 4.9.d montre le temps de calcul en fonction du nombre d’images. Celui-ci augmente sensiblement avec le nombre d’images. D’un cˆot´e, le fait d’ajouter plus d’images contraint mieux les inconnues et le minimum global est plus facile `a encadrer. Mais d’un autre cˆot´e, il y a plus de termes `a ´evaluer dans la fonction d’inclusion. La r´ep´etition accrue des variables entraˆıne une surestimation de l’encadrement et l’algorithme passe plus de temps `a d´ecouper la boˆıte de recherche, jusqu’`a atteindre la pr´ecision d´esir´ee.

4.5.1.4 Tol´erance `a une variation des param`etres internes

Puisque nous avons fait des hypoth`eses sur le facteur d’´echelle τ et les coordonn´ees du point principal u0 et v0, nous avons test´e la tol´erance de notre m´ethode `a une variation de ces param`etres internes.

Nous avons d’abord fait varier la position du point principal dans un carr´e de 50 × 50 pixels (cas (( (u0,v0) connus variables et τ connu constant ))). Ensuite, nous avons fait varier le facteur d’´echelle

τ dans l’intervalle [0.95,1.05], c’est-`a-dire d’une variation de 5% (cas (( (u0,v0) connus constants et τ

connu variable ))). Nous avons utilis´e cinq images et le niveau de bruit a ´et´e fix´e `a σ = 1 pixel. Les r´esultats sont des moyennes sur 100 tests. Avec ces nouvelles hypoth`eses, il arrive que notre algorithme ne trouve pas le minimum global. Nous expliquons cela par un des deux cas suivants :

– le minimum global n’existe pas car le probl`eme est sous-contraint ;

– le minimum global existe mais il ne peut pas ˆetre trouv´e avec une pr´ecision habituelle car le probl`eme est moins bien contraint.

Ces cas surviennent `a cause du bruit, de l’´ecart `a notre mod`ele de cam´era simplifi´e et du nombre d’images insuffisant. Lorsque nous n’obtenons pas de minimum global, malgr´e une modification de la pr´ecision, nous qualifions le test comme un (( ´echec )). Lorsque (u0,v0) ou τ varient, le temps de calcul

pour obtenir la convergence augmente mais il reste en dessous de 10 secondes.

Dans le tableau 4.1, nous avons compar´e ces cas au cas (( (u0,v0) connus constants et τ connu

constant )) de la section 4.5.1.3. Les variations de (u0,v0) et de τ entraˆınent une augmentation de

l’erreur sur l’estimation des param`etres mais cette augmentation n’est pas critique. Cependant, nous pouvons voir qu’une variation de τ influe sur le nombre d’´echecs. Ce n’est pas une limitation r´eelle de la m´ethode car en pratique τ est g´en´eralement tr`es proche de l’unit´e.

4.5.2 Images r´eelles

Nous avons test´e la m´ethode sur deux s´equences d’images r´eelles, tintin et septimus (cette derni`ere a ´et´e pr´ec´edemment utilis´ee dans [Sturm 04]), compos´ees respectivement de sept et quatre images de taille 640× 480 pixels. Les images ont ´et´e acquises avec un appareil photographique Nikon COOLPIX

0 1 2 3 4 5 −1 0 1 2 3 4 5 bruit (pixels)

err. rel. moyenne pour

α (%) 0 1 2 3 4 5 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 bruit (pixels)

err. moyenne pour

θ (degrés) (a) (b) 0 1 2 3 4 5 −0.5 0 0.5 1 1.5 2 2.5 3 bruit (pixels)

err. moyenne pour

φ (degrés) 0 1 2 3 4 5 0 5 10 15 20 bruit (pixels)

temps de calcul moyen (s)

(c) (d)

Fig. 4.8 – Comportement de l’algorithme pour diff´erents niveaux de bruit : (a) erreur relative (moyenne et ´ecart type) pour la distance focale α ; (b) et (c) erreur en degr´es (moyenne et ´ecart type) pour les angles de la normale θ et φ ; (d) temps de calcul (moyenne et ´ecart type).

Exp´erience (u0,v0) connus constants, τ connu constant (u0,v0) connus variables, τ connu constant (u0,v0) connus constants, τ connu variable

erreur relative moyenne de α (%) 0.5 ± 0.5 3.5 ± 7.3 3.7 ± 3.8

erreur moyenne de θ (degr´es) 0.1 ± 0.1 0.9 ± 1.5 1.0 ± 1.2

erreur moyenne de φ (degr´es) 0.2 ± 0.3 2.1 ± 2.7 1.3 ± 1.9

temps de calcul moyen (s) 5 8 9

nombre d’´echecs 0 1 7

Tab. 4.1 – Erreur de l’estimation et temps de calcul pour des variations de la position du point principal et du facteur d’´echelle. Les r´esultats sont des moyennes et des ´ecarts types sur 100 tests.

800. Les homographies ont ´et´e estim´ees en utilisant la biblioth`eque [@Kanatani] impl´ementant la m´ethode optimale de Kanatani [Kanatani 99], fournie par l’auteur. Elle permet une estimation ro- buste des homographies, `a partir de points d’int´erˆet, d´etect´es et appari´es automatiquement grˆace

2 4 6 8 10 −3 −2 −1 0 1 2 3 4 nombre d’images

err. rel. moyenne pour

α (%) 2 4 6 8 10 −0.2 0 0.2 0.4 0.6 0.8 nombre d’images

err. moyenne pour

θ (degrés) (a) (b) 2 4 6 8 10 −0.5 0 0.5 1 nombre d’images

err. moyenne pour

φ (degrés) 2 4 6 8 10 0 2 4 6 8 10 12 14 nombre d’images

temps de calcul moyen (s)

(c) (d)

Fig. 4.9 – Comportement de l’algorithme pour diff´erents nombres d’images dans la s´equence : (a) erreur relative (moyenne et ´ecart type) pour la distance focale α ; (b) et (c) erreur en degr´es (moyenne et ´ecart type) pour les angles de la normale θ et φ ; (d) temps de calcul (moyenne et ´ecart type).

`

a des m´ethodes classiques (d´etecteur de Harris et mise en correspondance par corr´elation). Apr`es convergence de l’algorithme, nous obtenons le minimum global constitu´e des encadrements

α∗= 1025 ± 1.4 × 10−5 pixels, θ∗ = 21.1 ± 1.8 × 10−5 ◦ et φ∗= 44.9 ± 1.0 × 10−5 ◦, (4.30) pour la s´equence tintin, et les encadrements

α∗ = 1374 ± 1.1 × 10−8 pixels, θ∗ = 19.0 ± 5.7 × 10−11 ◦ et φ∗= 17.4 ± 2.6 × 10−11 ◦, (4.31) pour la s´equence septimus. Du fait de leur faible largeur, ces encadrements sont pr´esent´es sous la forme (( milieu± (largeur)/2 )). Dans ces encadrements, nous avons arrondi les distances focales au pixel pr`es et les angles `a 0.1◦

pr`es. Les largeurs des intervalles ne nous apportent pas vraiment d’information utile dans ce cas, mais nous les exposons afin de se faire une id´ee de la pr´ecision qu’il est possible d’obtenir sur la localisation du minimum global.

Nous voulons obtenir une appr´eciation visuelle du r´esultat. Pour cela, nous effectuons une rectifi- cation euclidienne de la vue-clef. `A partir des inconnues estim´ees, nous pouvons calculer les IPC x±,

grˆace `a (4.27), puis l’ICDPC C∗

, grˆace `a (4.14). Pour obtenir une homographie de rectification, il suffit de calculer la d´ecomposition SVD de C∗

en C∗= U   1 0 0 0 1 0 0 0 0   V⊤ , (4.32)

o`u V = U si C∗

est semi-d´efinie positive et V = −U si C∗

est semi-d´efinie n´egative. La matrice U est l’homographie recherch´ee (d´efinie `a une similitude 2D du plan image pr`es). La rectification euclidienne de la vue-clef est alors r´ealis´ee. Dans l’image rectifi´ee, le plan de la sc`ene devrait ˆetre parall`ele au plan image de la cam´era et le parall´elisme ainsi que les angles devraient ˆetre retrouv´es (plus pr´ecis´ement dans les parties qui sont les projections de la surface plane). La figure 4.10 montre deux images de chaque s´equence, ainsi que les points appari´es et la vue-clef rectifi´ee. Nous pouvons voir que les rectifications sont plutˆot bonnes. En effet, dans les deux images rectifi´ees, les cases de la bande dessin´ee apparaissent bien comme des rectangles. Le calcul du minimum global a demand´e 8 secondes dans le cas de tintin et 7 secondes pour septimus. Ces temps de calcul, en dessous de la minute pour des images r´eelles, satisfont l’objectif que nous nous ´etions fix´es.

(a) (b) (c) (d)

(e) (f)

Fig. 4.10 – R´esultats pour des images r´eelles : (a) et (b) vue-clef et une autre vue de la s´equence tintin, ainsi que les points appari´es utilis´es pour l’estimation des homographies inter-vues ; (e) la vue- clef rectifi´ee ; (c), (d) et (f ) mˆemes r´esultats pour la s´equence septimus.