• Aucun résultat trouvé

Évaluation expérimentale de la sélection de modèles

4.5 Validation expérimentale

4.5.3 Évaluation expérimentale de la sélection de modèles

Dans cette section dédiée à la sélection de modèles, le critère présenté en section4.3est utilisé pour sélectionner le meilleur modèles parmi les transformations planes (similitude, transformation affine ou projective) et la géométrie épipolaire. Nous analysons dans un premier temps ses performances sur des données synthétiques (§4.5.3.1). Ensuite, nous illustrons son intérêt pour la reconnaissance d’objets dans des images réelles (§4.5.3.2).

4.5.3.1 Expérimentations sur des données synthétiques

Nous utilisons dans ce paragraphe des correspondances synthétiques dont on connaît le vrai modèle. Pour cela, un objet est défini à partir d’un nuage de points 3D, qui sont projetés sur le plan focal de chacune des caméras (une illustration est donnée en figure4.24). Les deux caméras sont considérées comme parfaites, modélisées par un sténopé dont le principe est rappelé en annexe (voir la sectionC.1).

FIG. 4.24 – Illustration de l’obtention des paires d’images synthétiques à partir de deux sténopés. Nous obtenons par ce procédé des correspondances de points parfaites entre les deux images syn- thétiques. À titre d’exemple, la figure4.26 montre les deux vues obtenues lorsque la caméra fait un mouvement 3D autour d’un objet plan (carré). Pour simuler la quantification liée au capteur, les coor- données des points d’intérêt synthétiques sont définies sur une grille de 1000 × 1000 pixels. Un bruit blanc de moyenne nulle est ensuite ajouté sur les coordonnées 2D des points pour simuler l’erreur en position des points d’intérêt appariés. Sauf indications contraires, l’écart-type σ a été fixé à 0.1.

Afin de simuler différents modèles géométriques, nous utilisons deux types d’objets : un objet plan pour commencer, puis une paraboloïde. Rappelons que le modèle géométrique de la relation entre les points vus par chaque caméra dépend à la fois de la nature de l’objet (plan ou non) et des caractéristiques de la caméra (distance focale, orientation de l’axe optique et position du centre de la caméra). Le modèle géométrique correspondant aux différents cas de figure rencontrés est rappelé en annexeC.

À partir de ces ensembles de correspondances synthétiques, nous utilisons l’algorithme MAC - RANSAC pour estimer la transformation optimale de chacun des modèles considérés. Par analogie avec la log-vraisemblance, et pour simplifier la lecture des différentes valeurs, les scores pour chaque modèle sont exprimés par la suite comme la quantité −logNFA (logarithme en base 10). Le meilleur modèle est

celui maximisant cette quantité. Dans le tableau4.5sont répertoriés les scores de chacun des modèles, ainsi que les figures correspondant à chacune des expériences réalisées que nous allons maintenant pré- senter. Les cases à fond bleu indiquent le vrai modèle, et le score en gras montre quel est le modèle choisi par notre critère de sélection ).

TAB. 4.5 – Comparaison de la mesure de qualité du modèle (− log NFA), avec entre parenthèses la

mesure de précision (rigidité). Les modèles comparés sont : Similitude (S), Affine (A), Homographie (H), matrice Fondamentale (F). Les mouvements de la caméra utilisés sont : Translation (T), Zoom (Z) et Rotation (R) (voir illustration4.24).

Expériences Modèles testés

Objet Mouvement (et Figure) S A H F

Plan T (4.25) 2433 (0.46) 2418 (0.49) 2172 (0.9) 905 (1.6) T∞, Z∞, R (4.27) 542 (116) 2345 (0.6) 1957 (1.5) 944 (1.4) T+R (4.26) 570 (110) 504 (100) 2190 (0.9) 947 (1.5) Paraboloïde T+R (4.28) 525 (112) 506 (104) 531 (110) 1088 (0.57) R (4.30) 1088 (23) 1047 (25) 2277 (0.6) 932 (1.25) Z (4.29) 2312 (0.7) 2267 (0.72) 2246 (0.75) 916 (1.0) T → 0 (4.31) 1200 (13.7) 1190 (15) 1191 (14.8) 900 (1.6) T , Z∞, R (4.32) - - 923 (17) 835 (1.1)

Objet Plan Lorsque l’objet est plan, on vérifie qu’une transformation plane est sélectionnée quel que

soit le mouvement de la caméra (voir les trois premières lignes du tableau 4.5). Lorsque la caméra se translate de manière à ce que son axe optique soit toujours perpendiculaire au plan de l’objet, quel que soit le changement de focale ou de la rotation autour de son axe optique, il s’agit d’une similitude.

(a) Caméra 1 (b) Caméra 2

FIG. 4.25 – Objet plan (carré), avec une translation de la caméra entre les deux vues de telle sorte que son axe optique reste perpendiculaire au plan de l’objet. La transformation entre ces deux ensembles de points est une similitude.

Dans le cas de la figure4.25, nous avons simplement translaté la caméra. Si par contre la caméra effectue une rotation de telle sorte que son axe optique n’est plus perpendiculaire au plan de l’objet, alors il s’agit d’une homographie (figure 4.26). Nous vérifions que ce sont les modèles effectivement sélectionnés pour ces deux expériences.

Le cas de la transformation affine est un peu plus particulier : il s’agit d’un cas limite où la perspective préserve le parralélisme. Cela correspond au cas où l’objet est vu avec un recul infini de la caméra et un zoom infini, ce que nous simulons en figure4.27. Il est intéressant de voir que, même dans ce cas limite, c’est une fois encore le modèle correct qui est sélectionné par notre approche.

(a) Caméra 1 (b) Caméra 2

FIG. 4.26 – Objet plan (carré), avec un mouvement 3D de la caméra entre les deux vues. Dès que

l’axe de la caméra est non orthogonal au plan de l’objet, les effets de la perspectives sont observables, d’autant plus que la caméra est proche de l’objet. La transformation entre ces deux ensembles de points est une homographie.

(a) Caméra 1 (b) Caméra 2

FIG. 4.27 – Figure 4.27(a) : objet plan (carré) orienté face à la caméra. Figure 4.27(b): autre vue de l’objet avec une rotation de la caméra de π/6, combinée avec un recul à l’infini (ici obtenu par un éloignement d’une distance de 1000 la taille de l’objet) et zoom infini (ici par un changement de focale d’un facteur 100). Dans ce cas limite, la transformation est affine : le carré devient un rectangle quasiment parfait.

Remarque 2 :

Nous indiquons également dans le tableau de résultat4.5, la mesure de rigidité associée à chacune des transformations estimées. Ceci permet d’avoir une idée de la précision obtenue. Rappelons néanmoins qu’il s’agit de l’erreur de transfert résiduelle maximum du groupe sélectionné. On pourrait s’étonner que la rigidité est plus élevée avec des modèles ayant un plus grand degré de liberté. Ceci est le résultat du procédé d’optimisation par échantillonnage aléatoire. D’une part, les transformations (et donc la rigidité) sont estimées à partir de n-uplets de correspondances « bruitées ». Lorsque l’on utilise un modèle avec un degré de liberté plus que nécessaire, la transformation estimée à partir du n-uplet va excessivement tenir compte du bruit sur la position des points d’intérêt (un sur-apprentissage en quelque sorte). Au- trement dit, l’estimateur d’un modèle trop complexe est moins robuste au bruit que celui d’un modèle plus simple. D’autre part, l’optimisation (ORSA) est réalisée par échantillonnage aléatoire de 1000 n- uplets. Cela signifie que l’on ne teste pas toutes les configurations possibles. Néanmoins, afin de s’assurer de la robustesse de la solution obtenue, nous avons pour chaque expérience utilisé 10 fois l’algorithme MAC-RANSAC, et choisi la solution donnant le meilleur score.

Objet 3D Lorsque l’objet n’est pas plan (ici, une paraboloïde de révolution), la transformation ob-

servée est a priori 3D et donc décrite par la géométrie épipolaire. C’est ce que nous vérifions avec la figure4.28où la caméra effectue un mouvement 3D autour de l’objet : le modèle épipolaire est alors le seul pouvant expliquer la scène avec une excellente précision (voir le tableau4.5).

Toutefois, il existe des configurations particulières où le modèle peut être réduit à une simple trans- formation plane. Lorsque la caméra est fixe et que l’on effectue un changement de focale (figure4.29), c’est effectivement la similitude qui est sélectionnée. Lorsque le centre de la caméra est fixé mais que son axe optique change d’orientation, la transformation est une homographie (figure4.30), ce que le critère

(a) Caméra 1 (b) Caméra 2

FIG. 4.28 – Objet 3D (paraboloïde) avec un mouvement 3D entre les deux vues.

de sélection permet une fois encore de détecter.

(a) Caméra 1 (b) Caméra 2

FIG. 4.29 – Objet 3D (paraboloïde) avec un zoom (changement de focale) entre les deux vues. Dans ce

cas particulier, la transformation entre les deux images est une similitude.

(a) Caméra 1 (b) Caméra 2

FIG. 4.30 – Objet 3D (paraboloïde) avec une rotation de la caméra autour de son centre optique (fixe), entre les deux vues. Dans ce cas particulier, la transformation entre les deux images est une homographie.

Détection de faibles mouvements 3D Dans le domaine de la reconstruction 3D, il est nécessaire

d’avoir une grande base pour que les effets du mouvement 3D soient suffisamment importants. Ainsi dans [RP05], les auteurs sélectionnent les images d’une séquence vidéo pour lesquelles la ligne de base est suffisamment grande. Pour cela ils utilisent le critère GRIC [Tor98] afin de choisir les images pour lesquelles le modèle de la géométrie épipolaire l’emporte sur l’homographie.

Nous rencontrons exactement le même phénomène avec notre critère : dans certaines situations, le critère de sélection de modèles tend à privilégier les transformations planes au détriment du modèle épipolaire. En fait, de manière analogue au cas limite de la transformation affine qui est sélectionnée à la place de l’homographie, on observe que le critère de sélection de modèles tend à choisir un modèle plus simple si celui-ci offre une approximation suffisante. Nous allons voir avec trois exemples différents dans quels cas ceci se produit.

En premier lieu, lorsque la caméra se translate, on observe les effets combinés de la perspective et de la profondeur de l’objet et c’est le modèle épipolaire qui l’emporte. Cependant, lorsque ces effets de

perspectives et de profondeur sont trop faibles, le critère de sélection alors privilégie une transformation plane. C’est le cas de la paire d’image synthétique de la figure4.31où le mouvement de la caméra est tel que les effets de perspectives sont très limités. C’est, dans ce cas, la similitude qui obtient le meilleur score, au lieu de la matrice fondamentale.

(a) Caméra 1 (b) Caméra 2

FIG. 4.31 – Objet 3D (paraboloïde), avec une translation entre les deux vues. Il s’agit d’une transforma- tion 3D, mais la caméra étant éloignée de l’objet et son déplacement étant faible, le modèle sélectionné est une simple similitude.

Lorsque le déplacement de la caméra est important entre les deux vues (grande base, ou wide baseline en anglais), le changement de perspective est considérable. Si la caméra s’éloigne fortement de l’objet, la perception de la profondeur diminue. Les objets éloignés nous paraissent plans : on parle d’« écrasement de perspective ». C’est par exemple le cas dans le domaine des images aériennes (cartographie, imagerie satellitaire). Pour de telles images où seul l’effet de perspective apparaît, le recalage des images est généralement réalisé avec une homographie. Nous illustrons ce phénomène par la figure 4.32, où le déplacement de la caméra est très important, avec un éloignement suffisant pour diminuer fortement la notion de profondeur sur l’objet. Dans cet exemple, c’est l’homographie qui est sélectionnée au lieu de la géométrie épipolaire.

FIG. 4.32 –Objet 3D (paraboloïde), en vue lointaine (Zoom et Recul) avec mouvement 3D de la caméra.

Du fait de ce recul important, les perspectives sont "écrasées". Une fois encore, le modèle homogra- phique est sélectionnée (− log NFA = 923) au lieu de l’épipolaire (− log NFA = 835) car, du point de vue du modèle de fond, c’est une approximation convenable.

De manière plus générale, il est couramment admis que lorsqu’un objet possède un plan dominant, il est difficile de distinguer la géométrie de l’homographie (voir par exemple [Chu05]). En réalisant des expériences (non présentées ici) avec d’autres objets 3D synthétiques, nous avons également observé que plus l’objet considéré possède un plan dominant, plus le modèle de la géométrie projective est privilégiée. Nous reviendrons sur ce phénomène dans la section suivante, sur des paires d’images réelles.

Un dernier phénomène affecte la sélection du modèle de la géométrie épipolaire : le bruit sur la position des points d’intérêt. Dans le tableau4.6, les scores de chaque modèle sont indiqués pour une même transformation synthétique 3D, illustrée en figure4.33, en fonction de l’écart-type σ de l’erreur ajoutée à la position des points d’intérêt. En augmentant σ, la mesure de qualité de la transformation épipolaire diminue, alors qu’elle reste inchangée pour l’homographie (dont l’erreur résiduelle est déjà

très grande). Lorsque l’on atteint un certain niveau de bruit (σ = 2.5), l’homographie est sélectionnée à la place du modèle 3D. La figure4.33illustre la paire d’images synthétiques obtenue avec un tel bruit.

Remarque 3 :

Comme pour les expériences précédentes, l’algorithme MAC-RANSAC est utilisé pour estimer une trans- formation optimale en imax = 10000 itérations. En raison du bruit blanc gaussien sur la position des points appariés, le groupe optimal ne contient généralement qu’une partie de l’ensemble des correspon- dances. C’est la raison pour laquelle à la fois la rigidité α et la mesure de qualité − log NFA peuvent grandement varier en fonction de l’écart-type σ du bruit.

TAB. 4.6 – Comparaison de la mesure de qualité du modèle (− log NFA), avec entre parenthèse la

rigidité, en fonction de l’écart-type σ du bruit blanc gaussien ajouté à la position des points d’intérêt. Les modèles comparés sont : Homographie (H) et matrice Fondamentale (F). Les deux images synthétiques sont obtenues pour un mouvement 3D de caméra autour de la paraboloïde (figure4.33).

Ecart-type σ .1 .2 .5 1. 1.5 2. 2.5

H 602 (99) 595 (87) 588 (110) 593 (99) 605 (86) 590 (109) 601(105)

F 910(1.6) 919 (1.7) 831 (2.9) 745 (4.9) 737 (4.4) 622 (9.3) 588 (9.9)

FIG. 4.33 – Objet 3D (paraboloïde), avec un mouvement 3D de la caméra entre les deux vues et ajout

d’un bruit blanc gaussien sur la position des points, d’écart-type σ = 2.5. En raison du manque de précision de la transformation épipolaire, le modèle homographique est sélectionné (voir tableau4.6).

Illustration de l’intérêt du critère de découpage Avant d’illustrer le comportement du critère de

sélection de modèles sur des images réelles, nous aimerions brièvement présenter l’intérêt du critère de découpage en sous-groupe sur des données synthétiques. En figures 4.34(a) et4.34(b), sont montrées deux vues d’un objet composé de deux plans formant un angle droit. En utilisant le groupement avec le modèle projectif, pourtant correct, un unique groupe est obtenu (figure4.34(c)) au lieu de deux. Ce groupe est en effet plus significatif (− log NFA = 1180, α = 7) que le plus significatif des deux plans (− log NFA1 = 911, α1 = .49 et− log NFA2 = 880, α2 = .46). En utilisant le critère de découpage

(figure 4.34(d)), on obtient deux groupes correspondant à chaque plan, avec une précision nettement supérieure.

(a) Caméra 1 (b) Caméra 2

(c) Groupement sans découpage : un seul groupe imprécis est détecté (− log NFA = 1180, α = 7)

(d) Groupement avec découpage : les deux groupes ob- tenus sont corrects (− log NFA1 = 911, α1 = .49 et − log NFA2= 880, α2= .46)

FIG. 4.34 – Figures4.34(a)et 4.34(b): Expérience synthétique avec un objet possédant 2 plans, et un mouvement 3D entre les deux vues. Sans la procédure de découpage récursif, le groupement avec l’homographie donne un seul groupe (figure 4.34(c)). Avec cette procédure, on obtient deux groupes correspondant à chacun des plans (figure4.34(d)).

4.5.3.2 Expérimentations sur des images réelles

Nous présentons dans les deux paragraphes suivants le résultat de notre critère de sélection de mo- dèles sur des paires de photographies d’objets plans ou 3D. L’ensemble des scores obtenus pour chaque modèle et pour chaque expérience est donné en table4.7.

TAB. 4.7 – Comparaison de la mesure de qualité du modèle (− log NFA). Les modèles comparés sont :

Similitude (S), Affine (A), Homographie (H), matrice Fondamentale (F). Le vrai modèle est mis en valeur sur fond bleu, et le modèle sélectionné est indiqué en fonte grasse.

Expériences Modèles testés

Objet Figure S A H F

Plan

BD (4.35) 726 718 704 284

Dali (4.36) 64 178 172 83

Portrait (4.37) 260 273 340 151

3D Jouet (4.38(a)&4.38(b)) 525 535 545 996

Teddy (4.38(c)&4.38(d)) 334 441 432 510 3D à plan

dominant

Chapelle (4.39) 350 400 430 205

Étagère (4.40) 215 310 370 242

Transformations planes Nous considérons dans un premier temps le cas des transformations planes.

Dans les trois exemples suivants, le modèle épipolaire est systématiquement rejeté au profit d’un modèle plan.

Dans le premier exemple de la figure4.35, deux photographies d’un livre sont prises avec une transla- tion et un changement de la distance focale de la caméra, l’axe optique restant perpendiculaire au plan de l’objet. C’est la similitude qui est correctement sélectionnée pour cet exemple, dont on donne le recalage en figure4.35(b).

Dans le second exemple (figure4.36(a)), nous nous sommes placés dans des conditions de prise de vue avec un fort recul avec un zoom, de telle sorte que la transformation obtenue soit une transformation affine. C’est effectivement le modèle choisi par notre méthode (voir4.7), et le recalage obtenu confirme que le modèle affine suffit pour décrire le changement de point de vue.

Nous considérons dans le dernier exemple la transformation projective pour un objet plan. En fi-

gure4.37(a)sont mises en correspondance deux photographies d’un tableau, selon deux points de vues

différents. Du fait de l’effet de perspective prépondérant, c’est l’homographie qui est sélectionnée par notre modèle. En effet, seul le recalage avec l’homographie donne un résultat visuellement satisfaisant (figure4.37(c)).

(a) À gauche : Zoom sur un objet plan. À droite : groupe de correspondances de points d’intérêt sélectionnées (la similitude obtient le score le plus élevé, voir le tableau4.7).

(b) Superposition des deux images selon les paramètres de la similitude sélectionnée.

FIG. 4.35 – Figure4.35(a): exemple de sélection de la similitude pour un objet plan, avec un mouvement

de la caméra tel que son axe optique reste perpendiculaire au plan de l’objet. Le recalage montre que le modèle choisi est satisfaisant (figure4.35(b)).

(a) Photo en vue frontale et en vue oblique d’un objet plan.

(b) Groupement de correspondances et superposition des deux images selon la transformation affine estimée.

FIG. 4.36 – Figure4.36(a): 2 vues éloignées avec zoom d’un objet plan. Le groupe de correspondances sélectionné est le mieux expliqué par une transformation affine (voir le tableau 4.7). Figure 4.36(b): superposition des deux photographies selon la transformation estimée. On constate que le modèle affine permet de décrire la transformation entre les deux images.

(a) À gauche : paire d’images d’un objet plan sous deux angles de vues différents. À droite : le groupe de correspondances sélectionné obtient le meilleur score avec la transformation projective (voir le tableau4.7).

(b) Superposition des deux images selon la transfor- mation affine estimée.

(c) Superposition des deux images selon l’homogra- phie, qui est identifié comme le meilleur modèle.

FIG. 4.37 – Figure 4.37(a): deux photographies d’un tableau, selon deux points de vues différents, sont mises en correspondance. L’homographie, qui est sélectionnée par notre critère, donne le meilleur recalage (figure4.37(c)).

Sélection du modèle de la géométrie épipolaire pour des objets 3D En expérimentant sur des données synthétiques, nous avons observé que le modèle épipolaire était sélectionné pour des objets 3D si le changement de point de vue était suffisamment important. Par contre, lorsque les objets considérés possèdent un plan dominant, une transformation plane est généralement privilégiée. Nous allons montrer avec les expériences suivantes que l’on observe le même phénomène sur des paires d’images.

Les deux exemples suivants sont tirés de la base de données [PLRS04], où différentes vues d’objets 3D sont photographiées. Pour les paires d’images utilisées en figure 4.38le changement de point de vue est tel que la géométrie épipolaire obtient le meilleur score pour chacun de ces exemples (voir le tableau4.7).

Nous présentons ensuite deux exemples où un objet possède un plan dominant en figures 4.39(a)

et4.40(a). Dans ces deux cas, le modèle épipolaire est rejeté au profit d’une transformation plane (ici

l’homographie). Ceci se produit lorsqu’une des dimensions de l’objet considéré est négligeable devant les deux autres (par exemple, les tranches de livres grossièrement alignées sur une étagère). Nous avons vu que ce phénomène était renforcé par l’écrasement de perspective, c’est-à-dire lorsque le mouvement de la caméra ne suffit pas à mettre en évidence la profondeur de l’objet.

Dans ces deux exemples, seule la géométrie épipolaire permet d’expliquer l’ensemble des corres- pondances entre les deux vues, et avec précision. Pourtant, l’homographie est sélectionnée pour ces deux exemples où une large majorité de points reposent approximativement sur un même plan. Le recalage des deux paires d’images permet de vérifier ce constat (figures4.39(d)et4.40(b)).

(a) Avec une transformation plane (ici l’homographie), l’algorithme MAC-RANSAC détecte plusieurs groupes correspondant aux plans principaux de l’objets.

(b) Un seul groupe est détecté avec la géométrie épipolaire, qui est le modèle sélectionné par notre critère de sélection.

(c) Avec une transformation plane (ici l’homographie), l’algorithme MAC-RANSAC détecte plusieurs groupes correspondant aux plans principaux de l’objets.

(d) Un seul groupe est détecté avec la géométrie épipolaire, qui est le modèle sélectionné par notre critère de sélection.

FIG. 4.38 – Sélection de modèles sur un objet 3D. Les transformations planes segmentent les correspon-

dances en plusieurs groupes, selon les plans principaux qui composent l’objet (figures4.38(a)et4.38(c)

avec la géométrie projective). Un unique groupe est détecté avec la géométrie épipolaire (figure4.38(b)

(a) Deux vues d’une scène avec un plan dominant (b) Groupement selon la géométrie épipolaire

(c) Groupement selon l’ho- mographie

(d) Superposition des deux vues selon l’homographie estimée.

FIG. 4.39 –Église de Valbonne Figure4.39(b): seule la géométrie épipolaire permet d’expliquer l’en- semble des correspondances entre les deux vues de la figure4.39(a). Pourtant, les transformations planes obtiennent toutes un meilleur score (tableau4.7) car une majorité de points reposent approximativement sur un même plan (le frontispice de l’église). En effet, le groupement obtenu selon l’homographie ne sélectionne que les points appartenant à ce plan (figure 4.39(c)). Le recalage du modèle sélectionné (homographie) est en effet suffisamment précis pour ce plan (figure4.39(d)).

(a) Deux vues d’une scène avec un plan dominant

(b) Superposition des deux images avec le modèle homographique sélectionné : le résultat est peu précis mais la