M´ethodes avec apprentissage - Cartographie RGB-D dense pour la localisation visuelle temps-rée

faut au minimum deux observations à des positions différentes pour contraindre la reconstruction d’un amer. De plus la localisation de la caméra et la reconstruction de la carte sont obtenus à un facteur d’échelle près. Dans certaines applications, notamment en réalité augmentée ce facteur n’est pas toujours important. Cependant pour une application de navigation autonome il est dans certains cas indispensable d’avoir une localisation à l’échelle, par exemple pour envoyer des commandes cohérentes au robot. Pour corriger ce facteur, il est possible d’utiliser des capteurs proprioceptifs tel que dans Royer et al. (2005). Une seconde solution est d’utiliser un système de stéréo vision, c’est à dire deux caméras reliées rigidement entre elles, dont la position est parfaitement connue (obtenue lors d’une phase d’étalonnage). Ces systèmes facilitent le problème de SLAM , car l’observation de l’information 3D est possible sans devoir estimer simultanément la localisation, et sans nécessiter de déplacements spéciaux de la caméra pour assurer l’observabilité. D’autres approches as- socient un capteur extéroceptif de type télémètre laser à une caméra tel queGallegos et al.

(2010), ce qui permet d’obtenir directement une information m´etrique de profondeur dans les images.

1.4 M´ethodes avec apprentissage

Un algorithme de SLAM en temps réel n’étant pas envisageable à grande échelle pour la localisation d’un robot, il est possible de découpler le problème en deux parties :

1. La cartographie, la partie la plus complexe, peut ˆetre trait´ee hors-ligne lors d’une phase d’apprentissage.

2. La carte obtenue peut alors être utilisée en ligne, pour localiser efficacement une caméra naviguant à l’intérieur du modèle.

Ce genre d’approche a plusieurs avantages, d’une part la localisation peut être effectuée avec précision et sans dérive, grâce au modèle. De plus si le modèle 3D est à l’échelle, la localisation visuelle peut être effectuée avec une caméra monoculaire, à l’échelle également. Ce type de méthodes, peut également être classé en deux groupes : l’utilisation de mo- dèles 3D, obtenus soit par conception assisté par ordinateur (CAO), soit avec une méthode de reconstruction automatique, et les modèles de type ”mémoires images”, consistant à distribuer dans l’environnement des images acquises lors de la phase d’apprentissage, sans reconstruire explicitement le modèle 3D global.

1.4.1 Mod`eles 3D

Certains algorithmes exploitent directement un mod`ele CAO de l’objet `a suivre (cf.

Brown (1971); Lowe (1991); Marchand et al. (2001); Drummond et al. (2002); Vacchetti et al.(2004);Comport(2005);Comport et al. (2006)). La position de la caméra est estimée par rapport à l’objet en minimisant l’erreur de re-projection entre le modèle 3D de la cible et les contours extraits dans les images. Cependant ces algorithmes nécessitent une bonne modélisation des objets ainsi que des primitives visuelles structurées dans les images, telles que des droites pour fonctionner.

Plusieurs travaux ont étés menés pour améliorer les techniques de localisation en environnement urbains en utilisant un modèle CAO.Lothe et al.(2010) utilisent un modèle 3D global approximatif, pour recaler en ligne une carte locale reconstruite par un algorithme de SLAM visuel avec la partie géométrique du modèle, afin de corriger la dérive. DansCappelle

(a) Image synthétique. (b) Modèle 3D texturé.

Fig. 1.2 –(a). Une image synthétisée à partir du modèle 3D texturé(b). Source : Institut Géographique National (IGN).

et al. (2011), le modèle 3D est seulement utilisé pour détecter les obstacles entre les images per¸cues par une caméra et les images virtuelles, la localisation de la caméra étant obtenue par GPS -RTK. Dans Irschara et al.(2009), un modèle éparse de points 3D reconstruit par un algorithme de SfM est utilisé pour localiser une caméra par un appariement de points SIFT .

En général, ces modèles représentent d’une manière approximative l’environnement ou les objets à suivre dans les images. Bien que les méthodes de reconstruction automatique d’environnement urbains à grande échelle deviennent de plus en plus précises Hammoudi et al.(2010);Craciun et al.(2010);Lafarge & Mallet(2011), les outils utilisés et les modèles reconstruits sont principalement dédiés à des applications de réalité virtuelle (cf. figure1.2). En effet ce genre de modèle, obtenu par plaquage de textures sur un bâtit 3D approximatif (fa¸cades planaires), ne permet pas un rendu photo-réaliste de l’environnement et comporte des erreurs de modélisation et des inconsistances photométriques. Pour être robuste à ces erreurs,Caron et al.(2012) proposent d’utiliser l’information mutuelle (Viola & Wells(1995)) pour recaler une image de synthèse, générée à partir d’un modèle 3D texturé avec une image réelle. Cette métrique permet de traiter des images de modalités différentes, cependant les calculs nécessaires pour l’alignement ne sont pas temps-réel.

DansNewcombe et al. (2011b), le modèle 3D dense obtenu par un algorithme de SLAM est ré-utilisé pour localiser une caméra avec une méthode directe, pour une application de réalité augmentée. La pose de la caméra est estimée en minimisant directement les intensités de l’image courante, avec celles de l’image virtuelle. Bien que le modèle soit quasiment photo-réaliste, l’espace de reconstruction est restreint à un environnement réduit (e.g. bureau).

Dans le document Cartographie RGB-D dense pour la localisation visuelle temps-réel et la navigation autonome (Page 32-34)