Exp´erimentations - Contributions à l'autocalibrage des caméras : modélisations et solutions ga

4.5.1 Donn´ees de synth`ese

4.5.1.1 Protocole exp´erimental

Le protocole expérimental est le suivant : la scène est composée d’une surface plane, repérée par une grille composée de 100 points, projetés dans des images de taille 720 × 576 pixels. Un bruit gaussien avec un écart type égal à σ pixels est ajouté aux coordonnées de ces points. Nous utilisons le modèle de caméra simplifié décrit dans la section 4.4.2. Avec ce modèle, le point principal est fixé au centre de l’image, le facteur d’échelle est égal à 1 et la distorsion des pixels est nulle. La distance focale α est fixée `_{a 1024 pixels. La caméra est éloignée du plan de la scène d’une distance variable de 1460 ± 570} pixels et son orientation est aléatoirement déterminée : le repère caméra fait un angle compris dans l’intervalle [10◦

,70◦

] autour de l’axe X du rep`ere de la sc`ene, un angle compris dans [−30◦

,30◦

] autour de l’axe Y et un angle compris dans [−90◦

,90◦

] autour de l’axe Z. Les homographies inter-vues sont estimées en utilisant la méthode NDLT [Hartley 03, chapitre 4], à partir des correspondances (connues) des projections des points de la grille dans les images.

4.5.1.2 Int´erˆet de l’optimisation globale

Dans le but de montrer l’intérêt d’utiliser une méthode d’optimisation globale, nous avons minimisé la fonction de coût en utilisant une méthode itérative, la méthode de Levenberg-Marquardt : nous avons réalisé des tests avec cinq images et σ = 1 pixel. Pour chaque test, les inconnues ont été initialisées aléatoirement telles que α = α⋆_{± 30%, θ = θ}⋆_{± 30% et φ = φ}⋆_{± 30%, où (α}⋆_,θ⋆_,φ⋆_{) était le minimum}

global. La méthode a convergé vers le minimum global (avec une tolérance de 20%) dans 38% des cas. La méthode d’optimisation globale par intervalles que nous avons utilisée a trouvé la solution dans 100% des cas.

Dans l’étude précédente, la minimisation locale non linéaire est désavantagée car notre paramétrage, faisant intervenir des cosinus et des sinus, n’est pas adapté à ce type de minimisation. Nous voulons mentionner que nous avons aussi effectué ces tests avec un paramétrage différent, en fonction de la distance focale et de la ligne de fuite du plan (en utilisant le fait que n = K⊤

l). Les r´esultats sont sensiblement les mˆemes.

4.5.1.3 Simulations

Dans nos exp´eriences, nous avons pris un domaine de recherche, pour les inconnues α, θ et φ, correspondant `a la boˆıte ([300,3000],[0,π],[0,π])⊤

. Pour une meilleure compréhension, les bornes des intervalles encadrant la distance focale seront données en pixels, pour une distance focale non trans- formée. Notons que le choix de la boˆıte initiale n’a pas d’effet sur la précision du minimum calculé ; il influe seulement sur le temps de calcul. Afin d’accélérer les calculs, on pourrait imaginer que l’encadrement initial de la distance focale soit déterminé au préalable d’après les caractéristiques des appareils photographiques. Dans la suite, les temps de calcul sont donnés pour un processeur Intel Core 2 1.6 GHz. Chaque valeur calculée est une moyenne sur 100 tests.

La figure 4.8 illustre les résultats concernant l’estimation des inconnues en fonction du niveau de bruit. La figure 4.8.a présente l’erreur moyenne relative sur la distance focale α, en pourcentage, tandis que les figures 4.8.b et 4.8.c montrent l’erreur moyenne sur les angles θ et φ, en degrés, de la normale du plan de la scène. Il apparaˆıt que la croissance de l’erreur est linéaire avec le niveau de bruit. La précision reste très bonne lorsque le niveau de bruit augmente, même pour σ = 5 pixels. Le temps de calcul moyen pour obtenir le minimum global est affiché sur la figure 4.8.d. Il croˆıt également de manière linéaire avec le niveau de bruit. Le temps de calcul est raisonnable, allant de cinq secondes

sans bruit à neuf secondes pour un niveau de bruit σ = 5 pixels. Sur ces graphiques, les barres d’erreurs représentent les écarts types des quantités estimées. Ceux-ci apparaissent assez élevés pour l’estimation des inconnues, ce que nous expliquons de la manière suivante : quelques fois, le système d’équations à résoudre induit par la séquence d’images est moins bien contraint car plusieurs images contribuent à des équations presque identiques (elles apportent quasiment la même information). Ceci arrive par exemple si les caméras ne sont pas bien réparties dans l’espace ou si le mouvement de la caméra est proche d’un mouvement critique, tel qu’un mouvement de translation. Dans ces cas, le minimum global obtenu est un peu éloigné du minimum global théorique (sans bruit). Il suffit de quelques tests de ce type pour obtenir un écart à la moyenne important. Les écarts types pour le temps de calcul sont également élevés, pour les mêmes raisons. En effet, le minimum global est moins bien (( marqué )) et il est plus long à encadrer.

L’estimation des inconnues en fonction du nombre d’images dans la séquence est montrée sur la figure 4.9. L’erreur de l’estimation diminue lorsqu’on ajoute plus d’images mais le bénéfice s’avère moins important après cinq ou six images. La figure 4.9.d montre le temps de calcul en fonction du nombre d’images. Celui-ci augmente sensiblement avec le nombre d’images. D’un côté, le fait d’ajouter plus d’images contraint mieux les inconnues et le minimum global est plus facile à encadrer. Mais d’un autre côté, il y a plus de termes à évaluer dans la fonction d’inclusion. La répétition accrue des variables entraˆıne une surestimation de l’encadrement et l’algorithme passe plus de temps à découper la boˆıte de recherche, jusqu’à atteindre la précision désirée.

4.5.1.4 Tolérance à une variation des paramètres internes

Puisque nous avons fait des hypothèses sur le facteur d’échelle τ et les coordonnées du point principal u0 et v0, nous avons testé la tolérance de notre méthode à une variation de ces paramètres internes.

Nous avons d’abord fait varier la position du point principal dans un carr´e de 50 × 50 pixels (cas (( (u0,v0) connus variables et τ connu constant ))). Ensuite, nous avons fait varier le facteur d’´echelle

τ dans l’intervalle [0.95,1.05], c’est-`a-dire d’une variation de 5% (cas (( (u0,v0) connus constants et τ

connu variable ))). Nous avons utilisé cinq images et le niveau de bruit a été fixé à σ = 1 pixel. Les résultats sont des moyennes sur 100 tests. Avec ces nouvelles hypothèses, il arrive que notre algorithme ne trouve pas le minimum global. Nous expliquons cela par un des deux cas suivants :

– le minimum global n’existe pas car le probl`eme est sous-contraint ;

– le minimum global existe mais il ne peut pas être trouvé avec une précision habituelle car le problème est moins bien contraint.

Ces cas surviennent à cause du bruit, de l’écart à notre modèle de caméra simplifié et du nombre d’images insuffisant. Lorsque nous n’obtenons pas de minimum global, malgré une modification de la précision, nous qualifions le test comme un (( échec )). Lorsque (u0,v0) ou τ varient, le temps de calcul

pour obtenir la convergence augmente mais il reste en dessous de 10 secondes.

Dans le tableau 4.1, nous avons compar´e ces cas au cas (( (u0,v0) connus constants et τ connu

constant )) de la section 4.5.1.3. Les variations de (u0,v0) et de τ entraˆınent une augmentation de

l’erreur sur l’estimation des paramètres mais cette augmentation n’est pas critique. Cependant, nous pouvons voir qu’une variation de τ influe sur le nombre d’échecs. Ce n’est pas une limitation réelle de la méthode car en pratique τ est généralement très proche de l’unité.

4.5.2 Images r´eelles

Nous avons testé la méthode sur deux séquences d’images réelles, tintin et septimus (cette dernière a été précédemment utilisée dans [Sturm 04]), composées respectivement de sept et quatre images de taille 640_{× 480 pixels. Les images ont été acquises avec un appareil photographique Nikon COOLPIX}

0 1 2 3 4 5 −1 0 1 2 3 4 5 bruit (pixels)

err. rel. moyenne pour

α (%) 0 1 2 3 4 5 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 bruit (pixels)

err. moyenne pour

θ (degrés) (a) (b) 0 1 2 3 4 5 −0.5 0 0.5 1 1.5 2 2.5 3 bruit (pixels)

err. moyenne pour

φ (degrés) 0 1 2 3 4 5 0 5 10 15 20 bruit (pixels)

temps de calcul moyen (s)

Fig. 4.8 – Comportement de l’algorithme pour différents niveaux de bruit : (a) erreur relative (moyenne et écart type) pour la distance focale α ; (b) et (c) erreur en degrés (moyenne et écart type) pour les angles de la normale θ et φ ; (d) temps de calcul (moyenne et écart type).

Exp´erience (u0,v0) connus constants, τ connu constant (u0,v0) connus variables, τ connu constant (u0,v0) connus constants, τ connu variable

erreur relative moyenne de α (%) _{0.5 ± 0.5} _{3.5 ± 7.3} _{3.7 ± 3.8}

erreur moyenne de θ (degr´es) _{0.1 ± 0.1} _{0.9 ± 1.5} _{1.0 ± 1.2}

erreur moyenne de φ (degr´es) _{0.2 ± 0.3} _{2.1 ± 2.7} _{1.3 ± 1.9}

temps de calcul moyen (s) 5 8 9

nombre d’´echecs 0 1 7

Tab. 4.1 – Erreur de l’estimation et temps de calcul pour des variations de la position du point principal et du facteur d’échelle. Les résultats sont des moyennes et des écarts types sur 100 tests.

800. Les homographies ont été estimées en utilisant la bibliothèque [@Kanatani] implémentant la méthode optimale de Kanatani [Kanatani 99], fournie par l’auteur. Elle permet une estimation ro- buste des homographies, à partir de points d’intérêt, détectés et appariés automatiquement grâce

2 4 6 8 10 −3 −2 −1 0 1 2 3 4 nombre d’images

err. rel. moyenne pour

α (%) 2 4 6 8 10 −0.2 0 0.2 0.4 0.6 0.8 nombre d’images

err. moyenne pour

θ (degrés) (a) (b) 2 4 6 8 10 −0.5 0 0.5 1 nombre d’images

err. moyenne pour

φ (degrés) 2 4 6 8 10 0 2 4 6 8 10 12 14 nombre d’images

temps de calcul moyen (s)

Fig. 4.9 – Comportement de l’algorithme pour différents nombres d’images dans la séquence : (a) erreur relative (moyenne et écart type) pour la distance focale α ; (b) et (c) erreur en degrés (moyenne et écart type) pour les angles de la normale θ et φ ; (d) temps de calcul (moyenne et écart type).

a des méthodes classiques (détecteur de Harris et mise en correspondance par corrélation). Après convergence de l’algorithme, nous obtenons le minimum global constitué des encadrements

α∗_{= 1025 ± 1.4 × 10}−5 pixels, θ∗ _{= 21.1 ± 1.8 × 10}−5 ◦ et φ∗_{= 44.9 ± 1.0 × 10}−5 ◦, (4.30) pour la s´equence tintin, et les encadrements

α∗ _{= 1374 ± 1.1 × 10}−8 pixels, θ∗ _{= 19.0 ± 5.7 × 10}−11 ◦ et φ∗_{= 17.4 ± 2.6 × 10}−11 ◦, (4.31) pour la séquence septimus. Du fait de leur faible largeur, ces encadrements sont présentés sous la forme (( milieu± (largeur)/2 )). Dans ces encadrements, nous avons arrondi les distances focales au pixel près et les angles à 0.1◦

près. Les largeurs des intervalles ne nous apportent pas vraiment d’information utile dans ce cas, mais nous les exposons afin de se faire une idée de la précision qu’il est possible d’obtenir sur la localisation du minimum global.

Nous voulons obtenir une appréciation visuelle du résultat. Pour cela, nous effectuons une rectification euclidienne de la vue-clef. À partir des inconnues estimées, nous pouvons calculer les IPC x±,

grˆace `a (4.27), puis l’ICDPC C∗

, grâce à (4.14). Pour obtenir une homographie de rectification, il suffit de calculer la décomposition SVD de C∗

en C∗= U   1 0 0 0 1 0 0 0 0   V⊤ , (4.32)

o`u V = U si C∗

est semi-d´efinie positive et V = −U si C∗

est semi-définie négative. La matrice U est l’homographie recherchée (définie à une similitude 2D du plan image près). La rectification euclidienne de la vue-clef est alors réalisée. Dans l’image rectifiée, le plan de la scène devrait être parallèle au plan image de la caméra et le parallélisme ainsi que les angles devraient être retrouvés (plus précisément dans les parties qui sont les projections de la surface plane). La figure 4.10 montre deux images de chaque séquence, ainsi que les points appariés et la vue-clef rectifiée. Nous pouvons voir que les rectifications sont plutôt bonnes. En effet, dans les deux images rectifiées, les cases de la bande dessinée apparaissent bien comme des rectangles. Le calcul du minimum global a demandé 8 secondes dans le cas de tintin et 7 secondes pour septimus. Ces temps de calcul, en dessous de la minute pour des images réelles, satisfont l’objectif que nous nous étions fixés.

(a) (b) (c) (d)

(e) (f)

Fig. 4.10 – Résultats pour des images réelles : (a) et (b) vue-clef et une autre vue de la séquence tintin, ainsi que les points appariés utilisés pour l’estimation des homographies inter-vues ; (e) la vue- clef rectifiée ; (c), (d) et (f ) mêmes résultats pour la séquence septimus.

Dans le document Contributions à l'autocalibrage des caméras : modélisations et solutions garanties par l'analyse d'intervalle (Page 112-116)