Stratégie d’association et de fusion des données

L’ ÉMERGENCE DES MÉTHODES DE

3.2.3 Stratégie d’association et de fusion des données

Le troisième volet d’une méthode multi-robots concerne l’intégration des données échangées. Celle-ci comprend deux étapes. La première consiste en une étape d’asso-ciation de données multi-robots. Chaque robot recherche alors des correspondances entre ses propres connaissances et celles qu’il a reçues des autres robots. Sur la base de ces correspondances, la seconde étape consiste à fusioner ces cartes en une carte globale dans un référentiel commun. Lorsque les référentiels d’odométrie des robots sont inconnus ini-tialement, l’estimation des transformations relatives (on parle d’ancrage) qui les lient est un préalable à l’inférence globale. On fusionne en particulier leurs modèles probabilistes sous-jacents pour permettre de raffiner l’ensemble par des inférences globales.

L’association de données multi-robots

Cette première étape repose sur la détection de correspondances entre les données échangées par les robots. Il s’agit d’une extension du module de fermeture de boucles qui vise à détecter de nouvelles contraintes inter-robot et en particulier apparier les va-riables dupliquées telles que des positions d’amers communément observés. On distingue les correspondances directes des correspondances indirectes. Les premières renvoient aux observations directes entre les robots, grâce auxquelles ils parviennent éventuellement à

estimer leur pose relative à un instant donné lorsqu’ils se rencontrent. Pour ce faire, une solution consiste à équipper les robots de marqueurs visuels détectables par les autres robots, tels que ARTag (Fiala 2005), AprilTag (Olson 2011), et ReacTIVision ( Ben-cina et al. 2005). Initialement introduits pour des applications de réalité augmentée, leur usage a été popularisé pour la robotique. Les marqueurs AprilTag sont des codes QR ou matriciels desquels on extrait une signature binaire. Connaissant leur taille et les para-mètres intrinsèques de la caméra, la simple détection d’un tel marqueur dans une image suffit non seulement pour estimer sa pose relative dans le référentiel de la caméra via l’es-timation d’une homographie, mais également à l’identifier de façon unique. Les sources d’incertitudes (respectivement de l’ordre du centimètre et du degré) et leur ampleur sont analysées empiriquement par (Schuster 2019) et analytiquement par (Schweighofer et al. 2006). Les marqueurs AprilTags sont utilisés par de nombreux systèmes multi-robots, à l’instar de TagSLAM (Pfrommer et al. 2019), que ce soit pour identifier les robots eux-mêmes ou constituer des amers dans l’environnement. Notons également que de tels marqueurs peuvent être utilisés en début de session pour initialiser un référentiel d’odo-métrie commun entre les robots. Néanmoins, ils se montent difficilement sur des drones, à moins d’en réduire considérablement la taille. Pour les systèmes de suivi multi-caméras (Motion Capture ou MoCap en anglais) tels que VICON, on préferera d’ailleurs utiliser de petits marqueurs sphériques uniformes, moins susceptibles d’altérer la dynamique du drone et moins sensibles aux problèmes d’illumination. Dans le cas des drones, d’autres types de marqueurs sont possibles tels que des constellations de marqueurs infrarouges ou ultraviolets (Walter et al. 2018) ou constitués de LED (Teixeira et al. 2018). Il existe également des méthodes basées apparence (Madhavan et al. 2004) qui utilisent des techniques de reconnaissance d’objet, afin de se dispenser d’équipper le robot de mar-queurs. Connaissant le modèle ou l’apparence des autres robots, l’idée est de les détecter directement dans les observations et de l’utiliser pour caractériser la correspondance ainsi obtenue (e.g. calcul de poses relatives).

Les correspondances indirectes sont de deux natures : simultanées et différées. Dans le cas simultané, elle constituent une alternative aux détections directes lors des rencontres entre plusieurs robots. Elles consistent alors à comparer des acquisitions concomittantes pour en extraire des observations communes, à partir desquelles des poses relatives sont estimées. Dans le système proposé par (Tardioli et al. 2015), deux robots se synchro-nisent pour échanger les points d’intérêts extraits de leurs observations courantes ainsi que les mots visuels associés à leurs descripteurs. Les correspondances trouvées permettent

d’estimer des homographies relatives ou des poses relatives à un facteurs d’échelle près. (Achtelik et al. 2011) proposent de lever l’ambigüité sur ce facteur d’échelle à l’aide des mesures inertielles au sein d’un EKF qui assemble les caméras des deux robots en un banc stéreo-visuel dynamique virtuel. Dans le cas de robots hétérogènes telles que des robots terrestres et des drones, la détection des correspondances doit tenir compte des différences de point de vue. (Morel et al. 2009) proposent à ce titre une méthode d’appariement visuel invariante aux transformations affines mais dont les temps d’exécution sont incom-patibles avec une application temps réel. D’autres méthodes estiment les poses relatives grâce à des recalages entre les cartographies du drone et du robot terrestre. C’est le cas des travaux de (Käslin et al. 2016), (Shim et al. 2017) et (Oleynikova et al. 2015). Il s’agit de méthodes de localisation collaborative dans lesquelles l’estimation des poses relatives coïncide souvent avec le recalage complet des cartes par des algorithmes coûteux tels que l’ICP. Enfin, dans le cas visio-inertiel, (Sartipi et al. 2019) ont récemment pro-posé de détecter les correspondances inter-robots à partir de l’échange et la mise à jour de sous-cartes associées aux observations courantes.

Les correspondances indirectes différées sont des fermetures de boucles inter-robot. Dans le cas d’architectures centralisées, leur détection incombe au serveur central. Ce dernier met à profit sa puissance de calcul pour rechercher les correspondances entre une image de requête et les images collectées auprès de tous les robots à l’aide d’algorithmes classiques de fermeture de boucle. La grande majorité des systèmes centralisés mention-nés précédemment, de CoSLAM (Zou et al. 2012) à CVI-SLAM (Karrer et al. 2018), s’en remettent aux seules fermetures de boucles inter-robot en vue de fusionner les cartes ultérieurement. Dans le cas des méthodes décentralisées, on impose souvent que les ro-bots s’échangent leur images-clés, et chaque robot est seul responsable pour détecter les fermetures de boucles inter-robot. Se posent alors des problématiques d’échelles lorsque le nombre de robots augmente. La détection des fermetures de boucles intra et inter-robot peut néanmoins tirer parti de structures distribuées, comme proposé par (Cieslewski et al. 2017). Dans cette approche, les auteurs utilisent le descripteur global NetVlad (Arandjelovic et al. 2016), et partitionnent l’espace de description associé. À chaque robot est attribuée la responsabilité d’une partition. Les robots calculent le descripteur NetVlad pour chaque nouvelle image-clé, et l’envoie au robot correspondant. Celui-ci lui renvoie alors l’identifiant des images-clés les plus proches. Le premier robot peut alors s’adresser aux robots associés à ces correspondances pour leur demander les images-clés retournées. Ce système décentralisé permet d’envoyer les requêtes à un seul robot, mais il

exige une connexion constante entre tous les robots. La méthode introduite par (Giamou et al. 2018) permet également de vérifier des fermetures potentielles dans un cadre décen-tralisé. DOOR-SLAM (Lajoie et al. 2020) fait préalablement s’échanger des descripteurs globaux NetVLAD entre les robots, et ne communique points caractéristiques et descrip-teur que dans le cas de correspondances potentielles. Une fois que les cartes sont recalées, ou bien sous hypothèse de poses initiales connues dans un référentiel commun, la détection des recouvrements permet de caractériser de nouvelles correspondances. Cette techniques est utilisée par (Schuster et al. 2015) pour estimer les poses relatives entre des sous-cartes dès lors qu’elles présente un recouvrement initial suffisant. Leurs nuages de points stéréo-visuels associés sont alors recalés par ICP. Enfin, certaines méthodes reposent sur l’identification d’amers communément observés, telles que DDF-SAM (Cunningham et al. 2013) ou encore (Paull et al. 2015). Pour cette dernière, on suppose que les amers sont distribués de manière suffisamment éparse pour être associés par plus proche voisin. La détection des correspondances entre les observations des robots est une première étape, la seconde consiste à les propager entre les robots lorsque la politique de com-munication retenue le prévoit. En contexte centralisé, ce rôle est assuré par le serveur lorsqu’il renvoie des informations aux agents. C’est le cas dans CVI-SLAM (Karrer et al. 2018) : le serveur communique aux agents les portions des cartes des autres ro-bots avec lesquels il a détecté des fermetures de boucles inter-robot. Ainsi, l’agent peut utiliser ces informations de covisibilité pour accroître sa carte locale et améliorer la pré-cision de son odométrie. En contexte décentralisé, (Montijano et al. 2013) proposent une approche par consensus afin de propager les correspondances locales détectées entre robots communiquant entre eux, dans un contexte limité en communications, et en dé-duire des correspondances globales. Cette propagation se double parfois de mécanismes de filtrage des correspondances douteuses, basées sur l’analyse de cycles de correspon-dances (Estrada et al. 2009). (Lajoie et al. 2020) étendent la méthode PCM proposée par (Mangelson et al. 2018) qui recherche le plus grand ensemble de correspondances inter-robot mutuellement cohérentes. Cette vérification est effectuée de façon distribuée sur les cycles de correspondances inter-robot. Les correspondances peuvent également être vérifiées durant des phases d’inférence comme expliqué ci-dessous.

La fusion de données multi-robots

La fusion de données multi-robots étend le module d’inférence du SLAM mono-robot. Elle consiste à estimer une carte globale à partir des cartes individuelles des robots et des

correspondances qui les contraignent mutuellement. Bien qu’elle reprenne les paradigmes de l’inférence mono-robot que nous avons présenté dans la section 2.5, l’inférence multi-robots doit estimer conjointement les variables associées à plusieurs multi-robots, inclure les correspondances inter-robot, ancrer les référentiels d’odométrie puis raffiner leur pose, et fusionner les variables dupliquées. C’est à ce niveau que se pose le problème de la consan-guinité des données, auquel les méthodes de filtrages sont particulièrement sensibles. Il survient si les corrélations entre certaines mesures ou connaissances sont ignorées durant la fusion. Alors que l’inférence multi-robots est assurée par le serveur dans les architectures centralisées, elle incombe à chaque robot dans le cas décentralisé. Cependant, certaines approches proposent des inférences distribuées : les robots se répartissent alors les calculs de l’inférence globale sans pour autant partager préalablement leurs données. On pourra également se référer à l’article publié par (Indelman 2015) qui dresse un panorama des méthodes d’inférence multi-robots.

Les premières solutions d’inférence proposées pour le SLAM multi-robots relèvent du filtrage et étendent principalement des approches d’abord développées pour la localisa-tion collaborative. (Roumeliotis et al. 2000) abordent ce problème à l’aide d’un filtre de Kalman étendu conçu dans un cadre centralisé où les robots partagent un référentiel com-mun, et en dérivent une version décentralisée, dans laquelle les robots ne doivent échanger des informations que lorsqu’une nouvelle mesure de pose relative entre deux robots est disponible. (Carrillo-Arce et al. 2013) reprennent cette approche qu’ils couplent avec la méthode d’intersection des covariances (Julier et al. 2017). De cette façon, chaque robot maintient un EKF pour son seul état, et fusionne les mesures de pose relative de façon conservative. D-SLAM (Nettleton et al. 2003) étend la méthode précédente pour le SLAM décentralisé. Les robots estiment leur carte à l’aide d’un filtre de Kalman étendu, mais communiquent des sous-cartes sous forme informative. Du fait de ses propriétés addi-tives, cette forme sied particulièrement aux problèmes d’échange d’informations. Chaque robot implémente un filtre d’information, appelé channel filter, comme interface avec chaque interlocuteur. Ce filtre maintient le vecteur et la matrice d’information associée à tous les amers communiqués. Ce faisant, il peut, dans une approche proche de DDF-SAM (Cunningham et al. 2010), retrancher l’information déjà comptabilisée des sous-cartes qu’il reçoit. Pour cela, il utilise lui aussi la méthode d’intersection des covariances qui pro-duit une estimée certes consistante mais très conservative. (Thrun et al. 2005) appliquent les filtres d’information étendus (Sparse Extended Information Filters (SEIF) au contexte multi-robots. (Zhou et al. 2006) s’intéressent à l’estimation d’un référentiel commun à

partir des observations directes des robots entre eux. Enfin, (Howard 2006) adaptent le filtre particulaire de FastSLAM (Hahnel et al. 2003) à l’inférence multi-robots.

TRiRj T_R iBi 0 T_R iBi 1 T_R iBi 2 T_R iBi 3 T_R iBi 4 T_R iBi 5 T_R iBi 6 T_R iBi 7 T_R iBi 8 T RjB^j₀ T RjB^j₁ T RjB^j₂ T RjB^j₃ T RjB^j₄ T RjB^j₅ T RjB^j₆ T RjB^j₇ T RjB^j₈

Dans ce graphe de facteurs, les R_i et R_j désignent respectivement les référentiels d’odométrie des robots

i et j, tandis que Bⁱ_k désigne le référentiel inertiel attaché au robot i au temps k. Ces variables sont liées par des facteurs odométriques de pose relative et des correspondances inter-robot . Le noeud d’ancrage désigne l’offset entre les référentiels d’odométrie Riet Rj, et intervient explicitement dans les facteurs des correspondances. Le symbole indique que la variable associée est fixée.

Figure 3.3 – Structure de graphe de poses multi-robots proposée par (Kim et al. 2010)

La flexibilité des méthodes graphiques a permis de les étendre naturellement au cas multi-robots. C-SLAM (Andersson et al. 2008) transpose ainsi directement le forma-lisme des graphe de facteurs à la fusion de sous-cartes échangées entre les robots. Les correspondances inter-robot se traduisent par l’ajout de nouveaux facteurs entre les poses de plusieurs robots ou par la fusion des noeuds d’amers dupliqués. (Kim et al. 2010) proposent une extension multi-robots de iSAM (Kaess et al. 2008). De plus, ils incluent explicitement l’estimation des transformations entre le référentiel global et les référentiels d’odométrie des robots sous forme de nœuds d’ancrage dans le graphe de facteurs glo-bal, représenté par la Figure 3.3. La formulation du problème d’estimation sous la forme d’un problème d’optimisation permet d’adapter des mécanismes d’optimisation distribuée au contexte multi-robots. C’est notamment l’approche proposée par (Choudhary et al. 2017), puis reprise par (Cieslewski et al. 2018) et (Lajoie et al. 2020). Les robots échangent les estimées des seules poses impliquées dans des correspondances inter-robot jusqu’à ce qu’ils atteignent un consensus. Le problème global est optimisé par une méthode de Gauss-Newton dont chaque itération est résolue par une approche de Gauss-Siedel dis-tribuée. L’estimation distribuée peut être couplée au problème d’association de données lors de l’estimation d’un référentiel commun pour des robots dont les positions initiales sont inconnues. (Indelman et al. 2016) proposent une optimisation par maximisation de l’espérance (Moon 1996). Dans ce cas, on associe à chaque correspondance une

va-riable latente binaire indiquant son status d’inlier ou d’outlier. L’inférence alterne alors entre marginalisation des variables latentes, et optimisation MAP sur la vraisemblance résultante.

Résumé

La politique d’association et de fusion de données multi-robots comprend trois volets. Le premier est la détection des correspondances inter-robot directes via l’observation de marqueurs montés sur les robots ou bien par apparence, et indirectes en comparant les observations d’un robot à la carte d’un autre. Dès que suffisamment de correspondances sont identifiées, les référentiels d’odométrie des robots peuvent être ancrés les uns par rapport aux autres, et des inférences globales peuvent être pratiquées afin d’exploiter les informations mutuelles entre les observations des robots.

3.3 Conclusion

Dans ce chapitre, nous avons dressé un état de l’art du SLAM collaboratif en contexte visuel et présenté les trois aspects essentiels de toute architecture de SLAM multi-robots. Comme nous l’avons indiqué précédemment, il en ressort que jusqu’à aujourd’hui, et en particulier jusqu’au début de cette thèse, la recherche a essentiellement porté sur les mé-thodes centralisées pour lesquelles des solutions robustes ont été proposées en contextes mono-visuel et visio-inertiels. Néanmoins, la recherche sur les méthodes décentralisée a délaissé certains champs. En contexte stéréo-visuel, (Schuster et al. 2015) ont développé une méthode particulièrement aboutie basée sur la fusion de sous-cartes denses. Dans le chapitre 6, nous investiguerons une méthode stéréo-visuelle décentralisée appliquée à une représentation dense plus flexible de type TSDF, à des fins de reconstruction de l’environ-nement. Enfin, dans le chapitre 5, nous investiguerons différents paradigmes d’échanges de données en contexte visio-inertiel, à partir desquels nous proposerons trois méthodes de SLAM collaboratif décentralisé pour l’estimation des trajectoires.

Dans le document Méthodes de partage d'informations visuelles et inertielles pour la localisation et la cartographie simultanées décentralisées multi-robots (Page 72-80)