SLAM et cartographie dense - SLAM DENSE STÉRÉO

SLAM DENSE STÉRÉO - VISUEL

6.2.4 SLAM et cartographie dense

L’émergence des méthodes de SLAM dense coïncide avec l’augmentation des moyens de calculs, qui les a rendues compatibles avec les contraintes du temps réel. Dans le contexte du SLAM, les représentations cartographiques doivent idéalement vérifier les trois propriétés suivantes. Tout d’abord, elles doivent se prêter à une construction incrémentale. Ensuite, on souhaite qu’elles fournissent un modèle d’alignement pour l’estimation des poses relatives entre les acquisitions consécutives ou lors de la détection de fermetures de boucles. Enfin, on voudrait qu’elles soient suffisamment malléables pour maintenir leur consistance locale et globale. Dans les paragraphes qui suivent, nous verrons comment ces représentations denses satisfont ou non à ces critères et sont mises à profit par les méthodes de SLAM.

Cartographie dense en contexte mono-robot

Les représentations non structurées ont été parmi les premières à être adoptées en SLAM dense. Tout d’abord, les méthodes d’odométrie visuelle directes localisent et rétro-projettent des cartes de profondeurs dans l’espace. Elles les utilisent ensuite comme mo-dèle de projection des pixels d’une image dans la suivante afin de formuler une erreur photométrique, qui elle-même dépend de la pose relative entre lesdites images. C’est le cas des algorithmes DTAM (Newcombe et al. 2011a), REMODE (Pizzoli et al. 2014), SVO (Forster et al. 2014) et LSD-SLAM (Engel et al. 2014). Dans ce dernier, la carte consiste en une collection de cartes de profondeur inverses semi-denses estimées en contexte monoculaire. Celles-ci sont raffinées localement à l’aide de méthodes de fil-trage décrites dans (Engel et al. 2013), tandis que la consistance globale est maintenue à l’aide d’un graphe de poses dont les contraintes sont formulées sur Sim3. À côté des méthodes de SLAM directes, les SLAM basés LiDAR et stéréo travaillent sur des nuages

de points denses. On citait précédemment, à titre d’exemple, les méthodes LOAM-SLAM (Zhang et al. 2014) et IMLS-SLAM (Deschaud 2018) dans le cas LiDAR. La consis-tance locale est alors assurée par le recalage des scans successifs. Dans le cas stéréo, on se référera à la méthode proposée par (Brand et al. 2014). Étendue en une architecture basée sous-cartes dans (Brand et al. 2015), elle procède pareillement en détectant les correspondances entre les sous-cartes en appariant leurs primitives 3D puis en les recalant par Iterative Closest Point (ICP). Notons que la structuration de la carte globale en sous-cartes est un moyen de permettre sa consistance globale dans le cas d’une représentation rigide telle que les nuages de points denses. En revanche, d’autres méthodes misent sur la déformalité. C’est le cas d’ElasticFusion (Whelan et al. 2016), qui utilise des surfels, et introduit un graphe de déformation. La position de chaque surfel est alors influencée par celle de nœuds éparses avoisinants. Les auteurs introduisent également une fermeture de boucle locale opérant directement sur les modèles denses des surfaces, et qui se traduisent par des contraintes surfaciques sur les graphes de déformation. Les fermetures de boucles globales sont quant à elles détectées en comparant les prédictions des visuels des surfaces à partir de leurs modèles reconstruits. Elles débouchent également sur des contraintes surfaciques qui relaxent les graphes de déformations.

Dans le cas des grilles d’occupation, la consistance locale est recherchée par la mise à jour directe des probabilités d’occupation des voxels. Cependant, des méthodes telles qu’Octomap (Wurm et al. 2010) n’implémentent pas de fermetures de boucles globales. Le modèle de grille d’occupation est généré indépendamment de l’algorithme d’odométrie et ne sert pas de support aux modèles d’alignement locaux ou globaux. Toutefois, faisant office de structure sous-jacente à la formulation des champs de distances, les approches développées dans ce contexte en constituent une extension.

La mise à jour des maillages 3D est facilitée lorsqu’ils dépendent d’une représentation implicite sous-jacente. Les TSDF sont notamment propices au maintien de leur consis-tance locale à l’aide de leurs mécanismes de fusion qui seront décrits ultérieurement dans la section 6.4.2. Une première application au SLAM RGB-D en est proposée par l’algorithme KinectFusion (Newcombe et al. 2011b). Cependant, n’étant pas initialement développé par la navigation robotique, cet algorithme ne se prête pas à un fonctionnement embarqué : il fonctionne sur GPU et une cartographie même restreinte sature rapidement la mémoire disponible. Kintinous (Whelan et al. 2012) propose une extension de KinectFusion afin de cartographier des zones plus vastes en restreignant la TSDF à un volume glissant ; les parties qui sortent du volume sont alors figées en un maillage polygonal. Étendant les

travaux précédents, Voxblox (Oleynikova et al. 2017) propose de reconstruire l’environ-nement à l’aide d’une TSDF, à partir de laquelle une représentation ESDF est construite incrémentalement pour la navigation. Cependant, la détection de fermetures de boucles n’est pas assurée. Au contraire, dans BundleFusion (Dai et al. 2017), les auteurs gardent l’historique de l’intégration des cartes de profondeur impliquées dans la construction de la TSDF. Ils introduisent alors un mécanisme de dés-intégration et de ré-intégration pour impacter les changements induits par les optimisations globales. Néanmoins, ce méca-nisme est relativement coûteux pour une application temps-réel. Une alternative consiste à segmenter le maillage global en sous-cartes recalées les unes par rapport aux autres. Par exemple, (Kähler et al. 2016) partitionnent l’environnement tout en minimisant les recouvrements entre les sous-cartes. La taille de la carte ne dépend alors que de l’étendue de l’environnement observé. Cependant, cette méthode s’avère complexe lors de la revisite des sous-cartes, d’autant plus qu’elle suppose une dérive négligeable. D’autres approches assurent la consistance globale en exploitant précisément les recouvrements entre les diffé-rentes sous-cartes. Cependant, la taille de la carte croît alors indéfiniment avec la longueur de la trajectoire (Wagner et al. 2014) ou le temps écoulé (Fioraio et al. 2015). C-Blox (Millane et al. 2018) s’inscrit dans cette logique mais limite la croissance de la carte en fusionnant les sous-cartes covisibles repérées selon la méthode présentée dans (Mei et al. 2010). Un graphe éparse est alors maintenu en parallèle pour la localisation et la détection des fermetures de boucles, basé sur une version modifiée d’ORB-SLAM 2 ( Mur-Artal et al. 2017a). Couplant des représentations denses et des représentations éparses, C-Blox profite ainsi de leur atouts respectifs vis-à-vis de tâches spécifiques du SLAM. Ces travaux sont étendus par Voxgraph (Reijgwart et al. 2019) : contrairement à C-Blox, les contraintes de fermeture de boucles sont directement formulées sur les représentions ESDF.

Cartographie dense en contexte multi-robots

L’utilisation de la cartographie dense en contexte multi-robots a été relativement peu explorée dans la littérature, alors même que de nombreuses méthodes ont été intro-duites pour des cartographies éparses, telles que (Forster et al. 2013) et CCM-SLAM (Schmuck et al. 2017) dans le cas du SLAM monoculaire, ou encore de CVI-SLAM (Karrer et al. 2018) pour le SLAM visio-inertiel. En contexte dense, les premières mé-thodes multi-robots proposées étendent directement leurs analogues mono-robot. (Birk et al. 2006) et (Liu et al. 2013) proposent ainsi de fusionner des cartes mono-robot

ba-sées sur des grilles d’occupation. Dans le cas des nuages de points denses, (Nagatani et al. 2011) reprennent le concept de manifold mapping introduit dans (Howard 2004) et proposent de fusionner les cartes construites par plusieurs robots en détectant des corres-pondances avec l’algorithme Iterative Closest Point (ICP) entre des sous-cartes de taille limitée et associées à des nuages de points LiDAR. Cet algorithme est également utilisé par (Michael et al. 2012) afin de raffiner l’alignement de cartes terrestres et aériennes. (Schuster et al. 2019) appliquent une approche similaire au cas stéréo ; les auteurs com-binent et étendent le framework multi-robots qu’ils ont introduits dans (Schuster et al. 2015) et la méthode fusion de sous-cartes exposée dans (Brand et al. 2015). Récemment, (Giubilato et al. 2020) ont proposé une méthode de relocalisation de sous-cartes ba-sée sur des vecteurs sac-de-mots de descripteurs 3D SHOT binarisés. Enfin, dans le cas des cartographies par maillages, (Duhautbout et al. 2019) ont récemment proposé une architecture dans laquelle les robots s’échangent et recalent des sous-cartes basées sur des représentations TSDF, à l’aide d’ICP sur des nuages de points extraits des maillages polygonaux dès lors que leurs sous-cartes se recouvrent suffisamment.

6.3 Objectifs du chapitre

L’analyse de la littérature existante montre que les méthodes mono-robot de cartogra-phie dense ont été profondément investiguées et maturées. Des méthodes multi-robots ont également été proposées dans le cas de cartographies basées sur des nuages de points denses à partir d’acquisitions LiDAR ou stéréo-visuelles. Concernant les cartographies denses ba-sées TSDF, les méthodes de SLAM mono-robot exploitant les représentations TSDF ont bénéficié d’améliorations significatives et combinées par l’algorithme Voxgraph. Cette der-nière laisse entrevoir la perspective de son extension directe en contexte multi-robots. À notre connaissance, la méthode (Duhautbout et al. 2019), développée à l’ONERA, est la première méthode multi-robots exploitant l’échange et la fusion de sous-cartes TSDF. Dans ce chapitre, nous en proposons une extension via des améliorations ponctuelles et l’adaptation de l’architecture multi-robots introduite dans le chapitre précédent, et dont les contributions sont les suivantes. Tout d’abord, nous rendons plus flexible la partie

Back-End grâce au formalisme des graphes de facteurs qui permet d’une part une

inté-gration unifiée des facteurs dérivés de l’odométrie, des correspondances inter-robot ainsi que des observations directes, et d’autre part de lisser l’ensemble de la trajectoire et de la cartographie à l’aide d’inférence globale, là où la méthode initiale se contentait de propager

des corrections cumulées au fil des correspondances détectées sur les patches ultérieures, et sans pour autant corriger les estimées de trajectoires. Nous proposons également des modifications sur l’algorithme initial de détection de correspondances afin de le rendre plus robuste face aux fausses détections. Enfin, en contexte multi-robots, nous proposons un protocole de communication basé sur le maintien d’historiques de communications afin de gérer les éventuelles pertes de contact. Nous complétons enfin l’ensemble d’un module d’alignement afin d’éliminer l’hypotèse de connaissance a priori des référentiels d’odomé-trie des robots. Nous discutons à la fin du chapitre des perspectives d’amélioration de la méthode proposée, et des façons dont elle pourrait s’enrichir des travaux récemment publiés dans le domaine.

6.4 Description de la méthode développée

Dans le document Méthodes de partage d'informations visuelles et inertielles pour la localisation et la cartographie simultanées décentralisées multi-robots (Page 173-177)