• Aucun résultat trouvé

1.4 Discussion

1.4.2 Les processus d’inférence

Dans la dernière sous-section de cet état de l’art, nous présentons les différents formalismes proposés dans les méthodes détaillées jusque-là pour effectuer l’estimation du lieu de provenance de l’image cou- rante. Il a déjà été souligné l’importance de reposer sur un cadre robuste pour l’inférence du lieu de chaque image. Cela permet en particulier de gérer des situations ambiguës et, lorsque cela s’avère plus sûr, de s’abstenir d’une prise de décision afin d’éviter une erreur. La principale caractéristique de ces formalismes d’inférence est de pouvoir fusionner les estimés au cours du temps, afin de prendre en compte l’information des états précédent lors de l’estimation courante. Il existe par ailleurs des formalismes [Goedemé et al., 2007] qui proposent de modéliser l’ignorance et l’absence d’information, reposant pour cela sur la théorie de l’évidence.

On peut remarquer que parmi les méthodes présentées ici pour la détection de fermeture de boucle, ce sont les méthodes basant leur critère d’estimation sur le maximum de vraisemblance (MDV) qui offrent les implémentations les plus simples. En effet, comme le montrent les travaux de [Booij et al., 2007], [Eustice et al., 2004], [Fraundorfer et al., 2007], [Hubner and Mallot, 2007], [Kosecká et al., 2005], [Lemaire et al., 2007], [Se et al., 2002], [Ulrich and Nourbakhsh, 2000], [Wang et al., 2006] et [Williams et al., 2007b],

les méthodes de vote peuvent être mises en oeuvre avec succès, conduisant à des traitements simples de l’information visuelle et à une gestion aisée des hypothèses. Généralement, les résultats du vote ont besoin d’être confirmés (employant pour cela une évaluation qualitative [Ulrich and Nourbakhsh, 2000] ou un algorithme de géométrie multi-vues [Booij et al., 2007], [Eustice et al., 2004], [Fraundorfer et al., 2007], [Kosecká et al., 2005], [Se et al., 2002], [Wang et al., 2006], [Williams et al., 2007b]) dans le but d’améliorer la robustesse du processus d’inférence en écartant les données aberrantes.

Toutefois, les approches basées sur le critère du MDV souffrent d’un certain nombre de limitations. Tout d’abord, elles reposent généralement sur des comparaisons exhaustives de l’image courante avec l’ensemble des entités du modèle de l’environnement pour en déduire les hypothèses les plus vraisemblables : le pro- cessus résultant nécessite donc d’importantes ressources, surtout dans des environnements de grande taille. Deuxièmement, ce genre de technique n’est pas adapté aux situations où plusieurs hypothèses coexistent au cours du temps, étant donné qu’elles ne peuvent pas discriminer clairement entre les hypothèses vrai- semblables. Ainsi, il arrive dans ces cas qu’une décision erronée soit prise, ce qui est fréquent en présence d’aliasing perceptuel. Enfin, le critère du MDV est sujet aux erreurs temporaires de détection (i.e., lorsque la ressemblance avec une entité du modèle n’est dû qu’à un phénomène passager dans l’image courante, qui ne durera pas au cours du temps). Une illustration de ce phénomène et de la faiblesse du critère du MDV dans ce cas est donné dans la figure 1.2.

Pour palier ces limitations, plusieurs approches ont été proposées, afin d’assurer la viabilité de l’asso- ciation de données avant d’entériner définitivement une hypothèse. Par exemple, l’algorithme GCBB [Neira et al., 2003] employé dans les travaux de [Clemente et al., 2007] permet de n’accepter une hypothèse de fermeture de boucle que si les primitives locales avoisinant la position actuellement estimée sont appariées de manière cohérente avec des amers de la carte selon le Joint Compatibility Test (JCT, [Neira and Tardós, 2001]). Dans une perspective similaire, cette viabilité peut être assurée en sélectionnant les hypothèses de fermeture de boucle comme étant les éléments hors-diagonaux d’une matrice de similarité ([Ho and New- man, 2007], [Newman et al., 2006]) : on impose de cette façon la cohérence temporelle de la détection. Cependant, cela nécessite des comparaisons exhaustives et coûteuses entre l’image courante et le modèle de l’environnement, ainsi que des manipulations de matrice à la complexité cubique en le nombre d’éléments qu’elle contient. Bien qu’elle soit incrémentielle, la technique incremental spectral clustering développée par les auteurs de [Valgren et al., 2007] requière elle aussi des manipulations complexes sur des matrices. Une approche plus prometteuse est décrite dans les travaux de [Cummins and Newman, 2007], où un mo- dèle génératif de l’apparence de l’environnement est appris, permettant une estimation de la probabilité de fermeture de boucle au sens du maximum a posteriori (MAP). La complexité résultante est linéaire en le nombre de lieux du modèle, et il est également possible d’optimiser le processus d’estimation [Cummins and Newman, 2008b] pour en rendre les traitements plus efficaces. En dépit de ces améliorations, l’estimation n’est toutefois pas effectuée en temps réel. D’autre part, l’approche repose toujours sur une phase préalable hors-ligne d’apprentissage du modèle.

Il est aussi possible d’apprendre des modèles génératifs de l’apparence de l’environnement produisant une estimation métrique de la position, comme le montrent les auteurs de [Kröse et al., 2002], [Sim and Dudek, 1999] et [Sim and Dudek, 2004]. Cependant, la phase d’apprentissage sous-jacente est très lourde, nécessitant en particulier le traitement d’un large quantité d’images d’entraînement prises à partir de points de vue proches. En conséquence, il paraît difficile d’utiliser ce genre de modèle dans le cas d’environnement de grande taille.

D’autres formalismes d’inférence, tels que les classeurs du type MSV (Machines à Support Vecteur), ont été investigués dans les travaux de [Luo et al., 2007], [Pronobis and Caputo, 2007] et [Pronobis et al., 2006]. Ceux-ci offrent notamment des capacités d’adaptation aux changements de condition dans l’environ- nement ([Luo et al., 2007]), et la complexité des traitements qu’ils requièrent peut être gérée pour croître de manière progressive au fur et à mesure du traitement d’une image ([Pronobis and Caputo, 2007]). Toutefois, les techniques à base de MSV ne sont pas adaptées aux problèmes avec un nombre important de classes (puisque dans ce cas l’apprentissage d’un modèle devient une tâche lourde), et un nombre faible d’exemples d’entraînement pour chaque classe. Il semble donc que ce genre d’approche soit utile pour la reconnaissance globale de lieux, lorsque le but consiste à discriminer parmi quelques lieux distincts, mais probablement pas à la détection de fermeture de boucle, où une petite portion de la trajectoire passée de la caméra doit être reconnue à partir d’un nombre limité d’images.

Enfin, les approches d’échantillonage approximant la distribution de probabilité de la position du robot ([Andreasson et al., 2005], [Dellaert et al., 1999a], [Menegatti et al., 2004], [Weiss et al., 2007], [Wolf et al., 2005]) ont été implémentées avec succès dans le cadre de la localisation globale et du SLAM métriques. Les méthodes sous-jacentes sont spécialement conçues pour approximer des probabilités de distribution non- paramétriques, à la forme inconnue, dans un espace d’état continu, à partir d’un ensemble fini d’échantillons discrets. Cependant, pour la détection de fermeture de boucle, lorsque l’environnement est modélisé par une représentation topologique discrète (comme c’est le cas dans les approches de reconnaissance et de classification d’image recensées ici), une probabilité de distribution sur cet espace d’état peut être maintenue et gérée plus facilement, avec un filtre Bayésien discret par exemple.