R´esultats exp´erimentaux - Cartographie RGB-D dense pour la localisation visuelle temps-réel e

0 2.5 5 0 5 10 15 20 25 M A D (% d e la va le u r m ax im al e) Distance parcourue ∆ (m) MAD Nouvelle r´ef´erence

Fig. 4.2 – Évolution de la MAD en fonction de la distance parcourue. En fonction de la configuration de la scène, la valeur de la MAD croit plus ou moins rapidement. Une nouvelle sphère de référence est construite lorsque la MAD dépasse 5 % de la valeur maximale des intensités des images.

4.4 R´esultats exp´erimentaux

4.4.1 Positionnement des sph`eres

Une séquence de 7364 × 6 images à été acquise sur le site de INRIA Sophia Antipolis à l’aide du système sphérique embarqué sur un véhicule de type Cycab. La trajectoire parcourue par le véhicule est d’environ 1.5 km et représente des environnements très variés, contenant des zones dégagées avec des bâtiments éloignés, des corridors, des véhicules sta- tionnés, de la végétation, des virages serrés, du dénivelé, le tout nécessitant une estimation robuste et précise des 6 degrés de liberté du véhicule. La phase de construction des sphères et le positionnement a été calculé hors ligne à une fréquence de calcul d’environ 1 Hz.

Puisque la technique utilisée est de type odométrie visuelle, la dérive intégrée le long de la séquence (en général ≤ 1%) peut entrainer des graphes globalement inconsistants, ou redondant (i.e. une route cartographié deux fois dans des directions opposées). Pour corriger la dérive et supprimer les sphères redondantes, la technique de détection de fermetures de boucle sphérique proposée par Chapoulie et al. (2011) a été utilisée. Cette méthode utilise des descripteurs SIFT, dont la distribution sur la sphère est représentée par des histogrammes. Un dictionnaire construit incrémentalement en ligne, permet de détecter les images dont l’apparence est similaire, quelque soit l’orientation de l’image, ce qui est particulièrement bien adapté au graphe d’images sphériques augmentées.

Les fermetures de boucles détectées ont permis d’ajouter de nouvelles arêtes à l’intérieur du graphe. Le graphe final contenant de nouvelles contraintes a alors été optimisé à l’aide de la librairie TORO (Grisetti et al. (2009)), qui est une implémentation de la méthode deGrisetti et al.(2007). Cet algorithme est une extension de la méthode proposée parOlson et al. (2006), et permet de minimiser les erreurs introduites par les contraintes du graphe,

Fig. 4.3 – Graphe de sph`eres couvrant 1.5 kms.

par une méthode de descente de gradient stochastique. Après optimisation et suppression des sphères détectées par l’algorithme de fermeture de boucle, le graphe final contient 310 sphères augmentées.

La sélection des sphères de référence et la détection de fermetures de boucles ont permis de compresser les 7364 images initiales en 310 sphères de référence. La figure 4.3 montre la trajectoire obtenue après détection de fermetures de boucles et optimisation du graphe, ainsi que certaines images clés de la trajectoire.

4.4.2 Navigation virtuelle photo-r´ealiste

La représentation sphérique finale, peut être utilisée pour synthétiser des images vir- tuelles photo-réalistes, à l’aide d’une technique similaire à celles développées en rendu basé image (image-based rendering, cf.Gortler et al.(1996);Levoy & Hanrahan(1996);Debevec et al.(1996)). Une application temps-réel a été réalisée avec la librairie de rendu graphique OpenGL, et permet une navigation virtuelle réaliste à l’intérieur du graphe. Le principe illustre une utilisation alternative de la base de donnée sphérique, basée sur le même principe que la localisation en ligne qui sera détaillée dans le chapitre suivant. Une caméra virtuelle est simplement déplacée manuellement par l’utilisateur (clavier et souris), à l’inté- rieur du graphe. La sphère visuelle augmentée la plus proche de la caméra est alors utilisée

4.5. Conclusion 67

Fig. 4.4 – Haut : Image de synthèse générée à partir d’une sphère augmentée. Bas : Vue aérienne illustrant l’utilisation virtuelle du graphe.

pour générer une vue de synthèse à la position de la caméra virtuelle. La figure 4.4 montre une image virtuelle rendue à l’aide d’une sphère augmentée. On peut voir que localement autour du graphe, il est possible de générer des images de synthèse photo-réalistes. De plus, contrairement aux approches 2D telles celles utilisées dans Google Street View, la transi- tion entre deux sphères est visuellement réaliste, grâce à l’information 3D contenue dans les images et à la précision de l’estimation des arêtes du graphe (poses inter-sphères).

4.5 Conclusion

Dans ce chapitre, le positionnement précis des sphères visuelles augmentées a été pré- senté. Une technique directe de localisation visuelle est utilisée pour estimer le déplacement des caméras du capteur sphérique le long d’une trajectoire d’apprentissage. L’emploi d’un capteur sphérique contraint très bien l’estimation des mouvements 3D, de plus tous les pixels des images sont utilisés dans la minimisation, ce qui permet une estimation robuste et précise de la pose des nœuds du graphe. Un critère robuste est utilisé pour ajouter une sphère au graphe d’apprentissage. Ce critère basé sur une erreur photométrique prend en compte les changements géométriques de la scène (i.e. occultations). Cette sélection permet de compresser les images de la séquence d’apprentissage à quelques images sphé- riques clés. Dans les résultats expérimentaux, le système a cartographié de manière automa- tique de larges environnements urbains. Finalement, une utilisation alternative du graphe d’images sphériques est proposée pour une application immersive de navigation virtuelle

photo-r´ealiste, illustrant l’utilisation en ligne du graphe.

Pour la localisation, il a été choisi de ne pas effectuer d’ajustement de faisceau sur des fenêtres de visibilité, car cela nécessite de reconstruire chaque sphère de la séquence, ce qui est d’une part coûteux en temps de calcul, et d’autre part n’a pas montré de réel gain sur le positionnement des sphères. Dans l’idéal, il serait intéressant de coupler le système de vision à un GPS différentiel pour la construction de la base de donnée, ce qui permettrait de géo-référencer les sphères, et d’utiliser un algorithme d’optimisation tel que Kummerle et al. (2011) pour corriger efficacement la dérive et conserver une consistance globale sur les trajectoires estimées.

Chapitre 5

S´election d’information

5.1 Introduction

Dans le cadre d’une application de navigation autonome, il est important de garder à l’esprit la notion de temps-réel : c’est à dire effectuer les calculs nécessaires à la localisation à la fréquence de la caméra, afin d’effectuer le contrôle d’un robot. Le graphe de sphères augmentées construit lors de la phase d’apprentissage est destiné à être utilisé en temps réel, pour recaler l’image per¸cue par une caméra avec une technique directe d’alignement d’images. La propriété principale des techniques directes est de minimiser une erreur d’in- tensité entre tous les pixels communs aux images. Cependant, les images panoramiques de la base de données peuvent être de grande résolution. Dans ce cas, le nombre de pixels utilisés lors de la minimisation peut être trop important pour une utilisation en temps-réel : il est indispensable de sélectionner l’information utile, si possible lors de la construction de la base de donnée d’apprentissage, pour éviter d’effectuer les calculs en ligne.

En général, l’information contenue dans une image est extrêmement redondante et une partie n’est pas indispensable pour la localisation. Il est alors possible de réduire la quan- tité d’information, au minimum nécessaire à la localisation, tout en conservant une bonne robustesse. La première partie de ce chapitre présente un court état de l’art des techniques de sélection d’information. La seconde partie, propose une nouvelle méthode de sélection de pixels. Contrairement aux méthodes classiques, l’algorithme de sélection est directe- ment con¸cu pour conditionner au mieux la technique de minimisation directe utilisée dans l’estimation de pose. La méthode de sélection prend en compte à la fois le gradient pho- tométrique et le gradient géométrique des données. Cette sélection permet d’effectuer un tri des pixels lors de la phase d’apprentissage. Lors de la phase de localisation en ligne, seulement les meilleurs pixels seront utilisés dans la localisation, ce qui permet d’effectuer les calculs nécessaire au positionnement en temps-réel.

Dans le document Cartographie RGB-D dense pour la localisation visuelle temps-réel et la navigation autonome (Page 80-84)