Méthodologie de résolution d’un problème de géométrie de plusieurs vues pour la vision

sieurs vues pour la vision

2.4.1 Introduction

Le but de cette section est de donner les idées générales de la manière d’analyser et de résoudre un problème de géométrie de plusieurs vues pour la vision par ordinateur. Nous n’avons pas la prétention de fournir ici un guide méthodologique exhaustif. Nous cherchons plutôt à permettre au lecteur non spécialiste de comprendre la démarche communément adoptée dans ce domaine.

Par problème de géométrie de plusieurs vues, nous entendons des problèmes dont la formulation mathématique fait intervenir la géométrie projective telle que nous l’avons présentée auparavant. L’exemple typique est la reconstruction tridimensionnelle de scènes rigides. Nous illustrerons la suite de cette section avec cet exemple.

2.4.2 Rassembler les donn´ees

La première question à se poser est : de quelles données dispose-t-on? Les données peuvent provenir de trois sources principales :

– Les images : il s’agit des images ou des vidéos acquises, par une caméra en mouvement, et dans lesquelles nous allons détecter des primitives 2D (points d’intérêt, points de fuite, lignes de fuite, IPC, ICA, etc.).

– La scène : la scène est-elle quelconque ou présente-t-elle des particularités? La scène possède-t- elle des primitives géométriques particulières, autres que des points (des plans, des droites, des quadriques, etc.)? Y a-t-il des angles ou des longueurs connus? Par exemple, les scènes acquises dans des environnements fabriqués par l’homme regorgent de plans orthogonaux.

– La caméra : est-elle calibrée ? A-t-on utilisé le zoom pendant l’acquisition ? L’autofocus est- il activé ? Le mouvement de la caméra est-il particulier (un mouvement dans un plan, une translation, une rotation, etc.)?

2.4.3 Formuler le probl`eme

Le problème posé, qui exprime ce que l’on veut obtenir, doit être formulé comme un problème de géométrie de plusieurs vues. Cette étape a pour but d’identifier les primitives géométriques que nous devons calculer. Par exemple, il faut transformer une phrase telle que (( je veux un modèle 3D (disons sans texture pour simplifier) de l’extérieur de ce bâtiment )) en une phrase telle que (( je veux reconstruire des points 3D d’intérêt dans un espace euclidien )).

Des conditions peuvent être imposées sur la résolution du problème. Y a-t-il une contrainte sur la durée de la résolution (contrainte sur le temps de calcul) ? L’application doit-elle être temps-réel ? Quelles sont les ressources mises à notre disposition (puissance de calcul, mémoire, carte graphique, etc.)? La procédure doit-elle être automatique, semi-automatique ou manuelle? Autrement dit, dans quelle mesure tolère-t-on une intervention humaine?

2.4.4 Exprimer les contraintes

Une fois les données identifiées, nous pouvons formuler des contraintes géométriques. Par exemple, un mouvement particulier de caméra donnera des contraintes sur la pose de la caméra (Ri | ti)

correspondant à chaque vue. Si la distance focale ne varie pas (pas de zoom pendant l’acquisition), alors nous pouvons écrire αj = α, ∀j = 1,...,N. Si la scène contient des sphères (ou plus généralement

des quadriques), alors nous savons que se forment dans les images des ellipses (ou plus généralement des coniques), que nous pouvons détecter, puis utiliser comme primitives géométriques d’intérêt, pour la mise en correspondance par exemple.

Pour extraire les contraintes géométriques contenues dans les images, il faut principalement : – détecter les primitives géométriques (par exemple des points d’intérêt) ;

– mettre les primitives en correspondance ;

– estimer les transformations utiles (homographies, matrices fondamentales, etc.) ;

– formuler les contraintes mathématiques qui font intervenir les inconnues et des données connues ou calculées.

2.4.5 R´esoudre les ´equations

Lorsque nous avons suffisamment d’équations pour estimer les inconnues (le problème est alors bien posé), nous pouvons résoudre le problème à l’aide d’outils mathématiques. Selon la complexité des équations présentes, on peut classer le problème en trois grandes catégories :

1. Problème avec solution directe : soit le système est constitué d’équations dont certaines sont non linéaires et il possède une solution analytique, soit la résolution nécessite de réaliser des étapes supplémentaires, telle qu’une décomposition matricielle (en plus éventuellement de résoudre un système linéaire ou non linéaire avec solution analytique). Il est fréquent que ces étapes conduisent à plusieurs solutions (une bonne et des mauvaises solutions). Ces ambigu¨ıtés peuvent en général être levées avec des hypothèses ou des informations supplémentaires.

2. Problème linéaire : toutes les équations sont linéaires. Il suffit de résoudre un système du type AX = B, où X est le vecteur des inconnues et A et B sont constitués des données. En général, le système est surdéterminé et nous cherchons alors le vecteur X qui minimise la somme des carrés des résidus des équations. La décomposition en valeurs singulières (SVD) est un bon outil pour la résolution de tels problèmes.

3. Problème non linéaire : ce cas est le plus délicat. En effet, trouver la solution d’un système formé par des équations, dont certaines sont non linéaires, généralement surcontraint et sans solution directe, constitue un problème d’optimisation non linéaire. En d’autres termes, il faut minimiser une fonction de coût non linéaire. Il est courant de choisir la somme des carrés des résidus des équations du système comme fonction de coût.

2.4.6 Interpr´eter les r´esultats

Dans certaines disciplines, un effort est nécessaire pour interpréter et utiliser les résultats mathématiques. Ce n’est pas le cas en vision par ordinateur puisque la résolution mathématique des équations nous apporte des entités géométriques qui sont souvent directement reliées à l’application visée. Ainsi, pour réaliser une reconstruction 3D, les entités géométriques issues de la résolution des équations sont souvent un ensemble de points 3D euclidiens. Ces points peuvent directement être importés dans un logiciel de modélisation 3D. Selon les besoins, des étapes supplémentaires peuvent avoir lieu : extrapolation de points manquants, calcul d’un maillage, plaquage de textures, etc. Nous considérons généralement que ces tâches sortent du cadre de la géométrie de plusieurs vues.

La question que l’on peut se poser après la résolution des équations est : (( a-t-on obtenu un résultat satisfaisant ? )) Par exemple, (( les points 3D obtenus sont-ils satisfaisants? )) Généralement, un algorithme de vision par ordinateur impliquant la géométrie de plusieurs vues peut être évalué de plusieurs manières :

– en testant l’algorithme sur des données synthétiques. Il s’agit par exemple de générer des images de synthèse à partir d’une scène modélisée par nos soins et d’une caméra dont tous les paramètres sont connus. Ces données sont souvent appelées (( vérité terrain )) et permettent de valider l’algorithme dans des conditions contrôlées (niveau de bruit connu dans les images, absence de déformation géométrique, etc.).

– en évaluant quantitativement le résultat. Il est souvent possible de mesurer des quantités et de les comparer à des valeurs connues. C’est le cas de la mesure, dans une scène reconstruite dans l’espace euclidien, d’angles ou de longueurs connues (comme des angles droits).

– en jugeant qualitativement (visuellement) le résultat. Si le modèle 3D obtenu à partir des points 3D reconstruits possède l’aspect requis pour l’application, alors nous pouvons dire que le résultat est satisfaisant.

Si le r´esultat n’est pas satisfaisant, nous pouvons distinguer deux cas de figure :

1. le résultat est aberrant (il n’est pas du tout en accord avec ce à quoi nous nous attendions). Plusieurs hypothèses sont à considérer :

– la résolution des équations est erronée. Dans le cas d’un problème d’optimisation, l’algorithme de minimisation de la fonction de coût a pu converger vers un minimum local ou a même pu diverger. Nous discuterons de cette possibilité dans les chapitres suivants. – les données sont insuffisantes pour résoudre le problème. Nous pouvons citer le cas d’une

séquence de mouvements critiques, c’est-à-dire une séquence d’image n’apportant pas suffisamment d’informations pour résoudre les équations. Avec une telle séquence, il est im- possible de calibrer la caméra, de calculer une reconstruction ou bien d’effectuer une recti- fication euclidienne. Nous traiterons ce point dans le chapitre 5.

2. le résultat n’est pas aberrant mais la qualité visuelle n’est pas satisfaisante. Pour déterminer d’où provient le manque de précision du résultat, chaque étape de la méthode doit être re- mise en cause. Les données sont-elles de mauvaise qualité? Les images sont-elles trop bruitées ou souffrent-elles de déformations géométriques ? Les hypothèses formulées (pour simplifier le problème par exemple) sont-elles trop fortes ? Dans ce cas, il peut être utile d’en relâcher certaines et de résoudre à nouveau le problème, en s’aidant de la solution approximative déjà obtenue. Il arrive que la scène possède des caractéristiques qui compliquent certaines tâches comme la mise en correspondance. C’est le cas des surfaces homogènes ou des surfaces qui ne sont pas lambertiennes.

Dans le document Contributions à l'autocalibrage des caméras : modélisations et solutions garanties par l'analyse d'intervalle (Page 56-58)