• Aucun résultat trouvé

Dans cette section, les résultats présentés ont été obtenus à partir d’une séquence d’images acquises dans un environnement mixte, mêlant scènes d’intérieur et d’extérieur (cf. figure 7.5 pour un aperçu des images provenant de la séquence). Pour cela, la même caméra que dans l’expérience précédente a été déplacée à la main dans un environnement en suivant une trajectoire au cours de laquelle plusieurs cycles ont été effectués. Ici, les deux espaces de représentation sont pris en compte (i.e., primitives SIFT et histogrammes de teinte) pour caractériser les images de taille 320x240 pixels. La longueur totale de la séquence est de 415 secondes et les images y sont extraites avec une fréquence de 0.5Hz : la profondeur de champ des scènes observées ici offre la possibilité de réduire le nombre d’images par seconde, même pour les passages en intérieur étant donné que ceux-ci correspondent à des couloirs rectilignes.

La figure 7.6 donne un aperçu de la trajectoire de la caméra ainsi que la carte qu’elle à permis de construire. Dans la partie de gauche de la figure, les trois vues aériennes correspondent aux différents ni- veaux des deux bâtiments (i.e., B31 and B41) autour et à l’intérieur desquels l’acquisition a été réalisée. Au premier niveau, seulement des images d’extérieur ont été enregistrées, dans la zone rouge qui entoure les bâtiments. D’autres images d’extérieur ont été acquises lors de passages entre les bâtiments, en empruntant la passerelle violette du 2ème étage, ainsi que lors des changements de niveau, étant donné que les escaliers (identifiés par des carrés bleus) sont situés à l’extérieur des bâtiments. Les images d’intérieur ont quant à elle été obtenues dans le bâtiment B41 exclusivement, aux deuxième (zone vert-foncé) et troisième (zone vert-clair) étages. Des exemples de ces images d’intérieur sont donnés dans la figure 7.7, afin de se rendre compte de leur similarité tant en termes d’apparence que de structure.

La partie de droite de la figure 7.6 correspond à la carte qui a été construite de façon incrémentielle en analysant la séquence d’images décrite ci-dessus (la disposition du graphe a été obtenue grâce à un simple algorithme de relaxation [Kamada and Kawai, 1989], voir section 6.2 du chapitre 6). Dans cette carte, les noeuds de fermeture de boucle sont entourés de jaune. Lors ce son parcours, la caméra a effectué plusieurs cycles en intérieur et en extérieur, et ce sur les différents niveaux des bâtiments. Il serait donc difficile d’expliquer étape par étape la trajectoire correspondante. En conséquence, une analyse qualitative de ce parcours est fournie à la place.

Au cours de cette expérience, la plupart des cycles ont été réalisés en extérieur au premier niveau coloré en rouge, en intérieur aux deux niveaux correspondant aux zones vertes, mais également lors de l’emprunt des escaliers “b” et “c” qui joignent ces deux niveaux. Ceci est remarquable dans le graphe par la présence de noeuds jaunes de fermeture de boucle dans les zones rouges, vertes et bleues correspondantes. En par- ticulier, il est important de noter qu’en dépit de l’important niveau d’aliasing perceptuel existant entre les deux niveaux d’intérieur (voir figure 7.7), aucune erreur d’association n’a été faite et ceux-ci ont n’ont pas été confondus. De plus, il y a certaines parties de l’environnement qui ne sont visitées qu’une seule fois, en conséquence de quoi celles-ci sont exemptes de noeuds de fermeture de boucle dans le graphe : c’est notamment le cas pour la plupart des escaliers, “b” et “c” mis à part, ainsi que pour la longue courbe dans la partie haute du graphe qui correspond à un passage unique au Nord du bâtiment B31.

Par ailleurs, les deux niveaux verts d’intérieur sont complètement traversés plusieurs fois. Cependant, en prenant garde aux parties correspondantes dans le graphe, on remarque qu’une séparation apparaît dans la zone vert-clair du troisième étage (i.e., au niveau du cercle blanc “1”) : une partie de ce niveau n’a pas été reconnue correctement et a donc été enregistrée deux fois dans la carte. Ceci est dû à la présence d’une personne devant la caméra alors que celle-ci était déplacée dans un couloir étroit : l’obstruction du champs de vision était trop importante pour permettre la validation de la contrainte de géométrie épipolaire (i.e., en raison de l’obstruction, l’association de primitives locales nécessaire à l’algorithme de géométrie multi-vues n’a pu être faite correctement). En conséquence, la détection de fermeture de boucle n’a pas réussi et certains lieux ont été dupliqués.

FIG. 7.6: Plan sur plusieurs niveaux de l’environnement parcouru (partie gauche de la figure) et carte

topologique correspondante (partie droite de la figure). La disposition du graphe est réalisée grâce à un simple algorithme de relaxation [Kamada and Kawai, 1989]. Les détails concernant la trajectoire et la carte sont donnés dans le texte.

FIG. 7.7: Exemples d’images provenant des deuxième (rangée du haut) et troisième (rangée du bas)

niveaux. On se rend compte de la similarité entre les images.

Il y a deux points qui méritent d’être détaillés en analysant les résultats de cette expérience. Première- ment, aucun faux positif n’a été détecté : cela sous-entend que l’algorithme de détection de fermeture de boucle n’a jamais proclamé qu’une image venait d’un lieu connu si ce n’était pas le cas en réalité. Comme nous l’avons déjà souligné dans les résultats expérimentaux de la partie I, ceci revêt une importance capitale pour assurer la viabilité de l’estimation. Cette performance est rendue d’autant plus difficile ici au vu de l’important aliasing perceptuel présent dans cet environnement composé à la fois de séquences d’intérieur et d’extérieur. La seconde constatation qui peut être faite concerne encore une fois la faible réactivité du modèle de probabilité, particulièrement visible dans la carte de la figure 7.6 où certaines portions de l’envi- ronnement sont parcourues plusieurs fois et ne présentent cependant pas de noeuds de fermeture de boucle (deux de ces portions sont encerclées en noir dans le graphe et annotés avec les numéros “2” et “3”).

7.2.1 Influence des espaces de représentation

Nous avons déjà pu observer les effets bénéfiques de la combinaison des espaces de représentation dans le chapitre 3 de la partie I. Afin d’en percevoir les conséquences sur le processus de construction de carte topologique, nous présentons ici une analyse comparative des résultats en fonction des caractérisations retenues pour les images. La figure 7.8 illustre sur cette séquence le gain en réactivité déjà remarqué dans le chapitre 3 de la partie I lorsque la représentation mixte (i.e., primitives SIFT et histogrammes H) est employée.

En considérant plusieurs caractérisations de la même image, il est possible de tirer profit de l’information de structure fournie par les primitives SIFT, et de l’information de couleur enregistrée dans les histogrammes de teinte. Cela s’est montré particulièrement efficace dans les parties de la séquence qui ont été acquises en intérieur. En effet, comme on peut s’en apercevoir d’après les images de la figure 7.7, l’environnement

FIG. 7.8: Espaces de représentation. Chaque colonne de la figure donne l’évolution au cours du temps

de la probabilité de détection de fermeture de boucle. La colonne de gauche donne cette évolution quant les primitives SIFT sont combinées avec les histogrammes H, alors que dans la colonne de droite, cette même évolution est donnée pour les primitives SIFT utilisées seules. Comme on peut le remarquer, le seuil fixé pour la probabilité a posteriori (i.e., 0.8) est atteint plus rapidement dans le premier cas (i.e., dans le second cas deux images supplémentaires ont été nécessaires pour que le seuil soit atteint).

d’intérieur est composé de murs sans texture, où les primitives SIFT sont peu nombreuses et faiblement discriminantes. Par ailleurs, étant donné que les couloirs de cet environnement d’intérieur sont principale- ment composés de trois couleurs (i.e., blanc sur les murs, rouge et gris foncé au sol), l’information de teinte paraît plus pertinente. De ce fait, la prise en compte des deux espaces de représentation permet d’améliorer les performances de détection de fermeture de boucle, comme illustré dans la figure 7.9. Dans cette figure, la portion de la carte correspondant aux images d’intérieur du 3ème étage et obtenue en utilisant les pri- mitives SIFT uniquement est comparée à cette même portion lorsque les histogrammes H sont également employés : le nombre de noeuds de fermetures de boucles est bien plus faible dans le premier cas, et la carte correspondante est en conséquence moins cohérente.

FIG. 7.9: Espaces de représentation (2). La figure donne la portion de la carte qui correspond à l’envi-

ronnement d’intérieur du 3ème étage (aux alentours du cercle “1” dans la figure 7.6), lorsque les pri- mitives SIFT sont utilisées seules (gauche) ou en combinaison avec les histogrammes de teinte (droite). Comme on peut le remarquer, moins de fermetures de boucles sont détectées lorsque les histogrammes H ne sont pas pris en compte (i.e., le nombre de noeuds de fermeture de boucle est plus faible). La carte résultante est de fait moins cohérente (i.e., la plupart des noeuds sont dupliqués). Le code couleur employé ici est le même que celui de la figure 7.6.

7.2.2 Performances

Dans la séquence mixte traitée ici, l’importante profondeur de champ des scènes d’intérieur et d’exté- rieur a permis de choisir une fréquence d’acquisition d’images de 0.5Hz. Ainsi, pour atteindre des perfor- mances en temps réel, le temps total de traitement d’une image doit être effectué en moins de 2s. Comme le montre l’évolution des temps de calcul donnée dans la figure 7.10, cette limite supérieure n’est jamais atteinte. Dans la figure 7.10, les temps de calcul dont donnés tous espaces de représentation confondus. On peut notamment remarquer que le temps d’extraction des primitives est borné entre 250ms et 500ms. Comme cela a déjà été observé dans les résultats expérimentaux de la partie I, le temps total des traitements semble évoluer de façon linéaire au cours du temps, au moins jusqu’à la 200ème image (i.e., aux alentours du 40ème indice dans le graphe) : à partir de là, l’évolution stagne, diminuant même un peu sur la fin. Ceci est certainement dû à la nature cyclique de la trajectoire de la caméra : lorsque la caméra visite à nouveau des zones déjà cartographiées, peu de nouveaux mots sont ajoutés au dictionnaire, et moins d’hypothèses sont ajoutées au modèle de l’environnement. En conséquence, les temps de calcul sont plus faibles.

Toutefois, en raison de la taille relativement importante des images acquises ici (i.e., 320x240 contre 240x192 pixels dans les expériences de la partie I), les traitements de l’image sont lourds, générant plu- sieurs centaines de primitives qu’il faut apparier avec le dictionnaire et résultant au final en des temps de

FIG. 7.10: Évolution des temps de traitements par image : la figure donne le temps requis pour extraire les primitives dans les images (triangles), auquel est ajouté le temps nécessaire à la recherche des mots correspondants dans le vocabulaire (cercles), avec enfin le temps total de traitement par image (carrés). Pour améliorer la lisibilité, les temps de calcul ont été moyennés toutes les 5 images.

calcul proches de la limite supérieure. L’augmentation de la complexité des traitements est visible dans la figure 7.11 donnant l’évolution de la taille du vocabulaire SIFT au cours du temps pour deux différentes taille d’images : l’évolution est d’autant plus rapide que l’image est grande. Finalement, les performances pourraient être sensiblement améliorées par l’emploi de détecteurs de primitives optimisés pour être plus rapides.

FIG. 7.11: Évolution au cours du temps de la taille du vocabulaire SIFT : la courbe en trait plein correspond à une taille d’images de 320x240 pixels, alors que la courbe en tirets correspond à une taille de 240x192 pixels.

Le tableau 7.2 donne des informations supplémentaires sur les traitements : il recense la longueur de la séquence et le nombre d’images qu’elle contient, le temps total CPU requis pour traiter la séquence, ainsi que les tailles des dictionnaires SIFT et histogrammes H à la fin de l’expérience. D’après ce tableau, on

TAB. 7.2: Performances.

Longueur #img CPU #SIFT #Hist. H #FB %VP #FA 13m50s 415 9m17s 79243 6864 184 63 14

s’aperçoit que la taille des vocabulaires est importante (notamment dans le cas des primitives SIFT) au vu des résultats présentés dans [Cummins and Newman, 2007]. Nous avons déjà évoqué cette particularité dans le chapitre 3 de la partie I : ceci est dû au pouvoir discriminant accordé aux mots. Le tableau 7.2 contient aussi des informations au sujet des performances en termes de reconnaissance, en donnant notamment le nombre de fermetures de boucles dans la séquence (“#FB”, déterminé à la main d’après la trajectoire de la caméra), le taux de vrais positifs (“%VP”, les fermetures de boucles correctement détectées), et le nombre de fausses alarmes (“#FA”, hypothèses erronées qui reçoivent une probabilité élevée mais qui sont écartées par l’algorithme de géométrie multi-vues). Les fausses alarmes apparaissent surtout au début de la séquence, alors que peu de statistiques ont été recueillies pour les mots afin d’en déduire un coefficient tf–idf efficace. Ce point à déjà été abordé dans la discussion de la partie I (chapitre 4).

Lorsque l’on considère le nombre de fermetures de boucles existant dans la séquence (i.e., 184), il est important de préciser que 37 d’entre elles correspondent à des passages en des lieux connus avec un changement de point de vue de 180◦ : la caméra est effectivement au même endroit que précédemment,

mais avec un point de vue complètement opposé. Dans ces conditions, il semble quasiment impossible de détecter les fermetures de boucles correspondantes avec une simple caméra monoculaire. Ainsi, sans prendre en compte ces 37 images, le taux de détections correctes de fermeture de boucle est de 78%.