• Aucun résultat trouvé

L A CARTOGRAPHIE ET LA LOCALISATION

2.3.1 Principes de l’odométrie visuelle

Les mesures reçues servent d’abord à l’estimation du mouvement (Scaramuzza et al. 2011;Fraundorfer et al. 2012). Les algorithmes d’odométrie visuel se distinguent selon la nature et la portion de l’information qu’il exploitent dans les images. Les méthodes qui utilisent l’ensemble des pixels sont dites denses tandis que celles qui se restreignent à un sous-ensemble de pixels clairsemés sont dites éparses. Il existe également des méthodes intermédiaires, dites semi-denses, qui opèrent sur des sous-ensemble connexes de pixels.

Les méthodes directes

Les méthodes directes exploitent l’information photométriques en opérant directement sur les pixels. Les méthodes directes denses telles que DTAM (Newcombe et al. 2011a) et LSD-SLAM (Engel et al. 2014) construisent un modèle dense de la scène à l’aide d’informations de profondeur rétro-projetées telles que des cartes de profondeur (elles-mêmes estimées (Engel et al. 2013) dans le cas de LSD-SLAM), et utilisent ce modèle pour projeter chaque pixel d’une image acquise au temps t dans l’image acquise au temps

t + 1. Elles estiment alors la transformation relative entre les deux poses de caméras associées comme étant celle qui minimise l’erreur photométrique de cette reprojection, c’est-à-dire les différences d’intensité pixel par pixel (ou erreur de superposition). Ces méthodes jouissent d’une grande robustesses dans les environnements peu texturés et ne nécessitent pas d’identifier ni de suivre des amers précis. Cependant, elles requièrent une charge de calcul conséquente, éventuellement amoindrie par les techniques de vectorisation (Kerl et al. 2013; Forster et al. 2014) permises par la cartes graphiques (Graphical

Processing Units (GPU) en anglais). Les méthodes indirectes

Les méthodes indirectes estiment le mouvement à partir des primitives qu’elles ex-traient des images afin d’en résumer l’information géométrique. Il s’agit majoritairement de points saillants – tels que des coins – suivis dans les images successives, mais d’autres primitives plus complexes telles que des lignes sont utilisées (He et al. 2018). Un grand nombre d’extracteurs ont été proposées dans la littérature tels que les extracteurs de Har-ris (Harris et al. 1988), FAST (Rosten et al. 2006), STAR (Agrawal et al. 2008) et SURF (Bay et al. 2006) et SIFT (Lowe 2004). La qualité d’un détecteur de primitives découle avant tout de son invariance aux transformations géométriques (translation, ro-tation, échelle) et photométriques (changement d’intensités, spécularités etc.). La bonne détection des primitives dépend notamment du niveau de contraste dans les images. Celui-ci peut être renforcé à l’aide de divers pré-traitement tels que le moyennage ou encore l’égalisation d’histogrammes (Zuiderveld 1994). Enfin, au-delà du nombre des primi-tives, l’information qu’elles apportent collectivement pour l’estimation du mouvement dépend de leur distribution au sein des images. C’est pourquoi certains algorithmes, tels que Vins-Mono (Mur-Artal et al. 2015) et OKVIS (Leutenegger et al. 2015), im-posent des distances minimales entre les primitives extraites à l’aide de techniques de

masquage afin d’uniformiser leur répartition spatiale.

La seconde étape consiste à détecter des correspondances 2D-2D entre les primitives des images consécutives. Deux techniques prévalent dans la littérature. La première est le suivi (ou tracking en anglais) direct qui apparient les primitives selon la similarité photo-métrique de leur voisinage. Une solution commode pour ce faire consiste à calculer le flot optique2 en chaque primitive pour prédire leur position dans l’image suivante (Baker et al. 2004). C’est l’idée de l’algorithme de Kanade-Lucas-Tomasi (KLT) (Tomasi et al. 1991;Shi 1994) qui applique cette méthode de suivi aux coins de Harris. Cette méthode de suivi est par exemple utilisée par Vins-Mono (Qin et al. 2018b) et Rovio (Bloesch et al. 2015). À l’opposé, le tracking indirect apparie les primitives à l’aide de descripteurs. Ce sont des vecteurs à valeurs binaires ou numériques, qui caractérisent une primitive par les propriétés de son voisinage local. On trouve des descripteurs numériques basés Histo-grammes de Gradients Orientés (HOG) tels que SIFT (Lowe 2004) et SURF (Bay et al. 2006) qui rendent compte de la distribution des orientations des gradients dans le voisi-nage de la primitive, et des descripteurs binaires tels que BRIEF (Calonder et al. 2010), ORB (Rublee et al. 2011), BRISK (Leutenegger et al. 2011) et FREAK (Alahi et al. 2012) basés sur des comparaisons d’intensités de paires de pixels échantillonnées dans son voisinage. D’une image à la suivante, chaque descripteur est classiquement apparié à son plus proche voisin. Des structures telles que des arbres Kd (Bentley 1975) permettent notamment d’accélérer cette recherche des correspondances. Les correspondances erronées sont éventuellement filtrées par des techniques de correspondances croisées ou le calcul de matrices fondamentales (Hartley et al. 2003) dans une boucle de RANSAC (Fischler et al. 1981).

Enfin, l’ultime étape utilise les correspondances 2D-2D détectées pour estimer la pose relative entre les images successives en minimisant une erreur géométrique associée. Par le calcul (Longuet-Higgins 1981; Nistér 2004) puis la décomposition de la matrice fon-damentale, les méthodes 2D-2D estiment une transformation relative à un facteur d’échelle près. Pour apporter l’information de profondeur, les méthodes 3D-2D exploitent les cor-respondances visio-structurelles ainsi dérivées et minimisent l’erreur de re-projection des amers observés dans la première image. Il s’agit d’un problème dit Perspective-N-Points (PnP) (Hartley et al. 2003), classiquement résolu dans une boucle de RANSAC pour at-ténuer l’influence des correspondances aberrantes. Cette méthode est la plus utilisée dans

2. Par analogie avec la mécanique des fluides, le flot optique associe à chaque point d’une image un vecteur vitesse 2D, sous hypothèse de petits déplacements et d’une intensité lumineuse constante.

les algorithmes d’odométrie visuelle en raison de sa robustesse. Enfin, le dernier para-digme d’estimation du mouvement exploite des correspondences 3D-3D. Celui-ci suppose qu’un nuage de points puisse être triangulé à partir de chaque image, comme dans les cas stéréo-visuels et RGB-D. La pose relative estimée est alors celle qui permet de minimiser la distance entre les points 3D mis en correspondance : cela correspond à l’algorithme

Iterative Closest Point (ICP) (Besl et al. 1992). Néanmoins, cette méthode est moins

robuste puisqu’elle intègre également les erreurs d’estimation des positions des points 3D.

2.3.2 Le couplage visio-inertiel

Dans le cas monoculaire, l’information visuelle suffit pour estimer le mouvement et re-construire l’environnement à un facteur d’échelle près. Un couplage avec des mesures iner-tielles apporte l’information complémentaire manquante pour rendre ce facteur d’échelle observable. Dans la littérature, on distingue les couplages lâches (loose) des couplages

serrés (tight). Les premiers estiment d’abord le mouvement de façon disjointe avec les

mesures visuelles d’une part, et des mesures inertielles d’autre part, puis fusionne les deux estimations. Dans cet esprit, le framework proposé par (Lynen et al. 2013) expose une méthode générique pour la fusion lâche de mesures issues de différents capteurs, sans se limiter aux IMUs et aux caméras. Les mesures inertielles sont alors utilisées dans l’étape de prédiction du filtre de Kalman, tandis que la pose estimée à partir des images est inté-grée dans l’étape de correction. Ce schéma est également repris par (Weiss et al. 2012), ou encore (Grabe et al. 2013) qui corrigent la prédiction inertielle du mouvement par son estimation basée sur un suivi par flot optique. Les publications récentes s’intéressent davantage aux couplages serrés, considérant que le traitement parallèle des mesures vi-suelles et inertielles est redondant et qu’elles pourraient être fusionnées beaucoup plus précocément. De telles méthodes sont certes plus coûteuses, mais elles permettent une es-timation d’emblée plus précise, et fournissent un moyen supplémentaire de filtrer les faux positifs dans les correspondances visuelles. Ainsi, OKVIS (Leutenegger et al. 2015) substitue à la boucle RANSAC classique un test du χ2 sur les coordonnées des primitives dans les images en utilisant la pose prédite par l’intégration des mesures inertielles. Des algorithmes de fusion serrée ont été proposés aussi bien pour des méthodes basées filtrage telles que MSCKF (Mourikis et al. 2007) ou Rovio (Bloesch et al. 2015) que pour des méthodes basées optimisation telles que ORB-SLAM dans sa version visio-inertielle (Mur-Artal et al. 2017b), Vins-Mono (Qin et al. 2018b) et OKVIS (Leutenegger et al. 2015). Dans ces méthodes, la nouvelle pose est d’abord prédite en intégrant les

mesures inertielles, dont l’incertitude reste suffisamment bornée sur l’horizon temporelle entre deux images consécutives. Elles sont alors utilisées pour guider l’odométrie visuelle, en prédisant les positions des points suivis dans la nouvelle image.

Le couplage des mesures visuelles et inertielles amènent cependant des difficultés qui lui sont spécifiques. Tout d’abord, l’intégration des mesures inertielles est une opération délicate et non-linéaire qui peut être traitée par des méthodes classiques d’intégration nu-mérique (Cartwright et al. 1992) ou des techniques de pré-intégration (Lupton et al. 2011) telles que discutées dans la section 2.5.3. De plus, le couplage visio-inertiel complexi-fie le problème d’estimation. En effet, il impose d’une part l’estimation supplémentaire des états inertiels qui interviennent explicitement dans les modèles de mesures exposés dans la section 2.2.3, c’est-à-dire les vitesses et les biais inertiels. De plus, l’observabilité de ces biais dépend de la cinématique de la trajectoire car elle requiert une excitation suffisante de l’IMU. D’autre part, un estimateur visio-inertiel nécessite une bonne ini-tialisation (bootstrapping) des états inertiels, de la direction du vecteur gravité ainsi que du facteur d’échelle. La méthode communément adoptée procède en deux étapes. Dans un premier temps, un modèle 3D est estimé par des techniques de reconstruction par le mouvement en exploitant exclusivement les mesures visuelles issues des premières images, tandis que les mesures inertielles sont pré-intégrées à biais nuls. Dans la seconde étape, les biais du gyromètre, le vecteur gravité et le facteur d’échelle puis le biais de l’accéléromètre sont successivement initialisés en ajustant mutuellement le modèle reconstruit et les pré-intégrations inertielles. Ce processus est détaillé dans (Qin et al. 2018b) et (Mur-Artal et al. 2017b). La dernière difficulté intrinsèque au couplage visio-inertiel provient de la synchronisation temporelle nécessaire entre les horloges de l’IMU et des caméras, là où seul l’ordonnancement des images importe dans une odométrie purement visuelle.