Vers une reconnaissance incluant l’orientation du regard

IV.4 Matrice de confusion résultat du processus de fusion (en %)

III.4.6 Vers une reconnaissance incluant l’orientation du regard

Toutes les évaluations décrites précédemment ont été effectuées sur des données issues du moduleGEST(suivi de gestes) et modélisées par le modèleM G1décrit par la figure III.6. Dans cette sous-section, nous nous intéressons à l’utilisation de données issues du module GAZE (suivi de l’orientation du visage) conjointement aux précédentes à travers le modèleM G2 per-mettant de fusionner ces deux types d’entrées (voir figure III.6). Le but est ici de prouver l’ap-port de l’orientation du visage pour la reconnaissance de gestes, en particulier déictiques. En effet, et comme nous l’avons vu dans le chapitre II, lors d’un geste de pointage les humains ont une forte tendance à regarder l’endroit désigné. Utiliser l’orientation du visage dans notre modélisation de gestes doit par conséquent permettre de discriminer plus facilement des gestes de pointage vers des directions différentes, mais également de diminuer le risque de confondre un geste de pointage avec un geste symbolique, ce dernier n’entrainant aucun mouvement par-ticulier de la tête.

C’est dans ce but que nous avons construit un nouveau corpus CORPGG composé de cinq gestes (dont quatre sont déictiques). Ce corpus a été acquis sur notre robot HRP-2 (qui sera décrit dans le chapitre suivant) dans le cadre d’une interaction proximale homme-robot. Chaque geste a été répété en moyenne 15 fois.

Geste à reconnaître Geste reconnu

1 2 3 4 5 rien sensibilité

« pointage bas droite » (1) 58 7 0 21 0 14 58

« pointage devant » (2) 0 79 7 7 7 0 79

« pointage bas gauche » (3) 7 7 86 0 0 0 86

« pointage bas très à droite » (4) 0 6 0 88 0 6 88

« stop » (5) 7 14 0 7 65 7 65

sélectivité 82 71 92 74 90

TAB. III.7: Matrice de confusion obtenue sur le corpusCORPGG en utilisant le modèleM G1 décrit par la figure III.6 (en %).

III.5CONCLUSION ET PERSPECTIVES 103 Le tableau III.7 montre la matrice de confusion obtenue sur ce corpus grâce à une modélisa-tion parM G1, c’est-à-dire sans utiliser l’orientation du visage. Ces résultats, avec une moyenne de75%de reconnaissance pour80%de sélectivité, sont conformes à ceux décrits précédemment dans ce chapitre compte tenu de la grande similarité des gestes de ce corpus :

– tous les gestes déictiques pointent le sol (ou une table),

– le geste « pointage bas très à droite » est très proche du geste « pointage bas droite », – les gestes « stop » et « pointage devant » sont également assez similaires.

Ce tableau sert de base de comparaison avec le traitement des mêmes données via une modélisation par M G2. Le tableau III.8 montre les résultats obtenus par ce dernier modèle.

L’apport de l’orientation du visage est assez net, avec un taux de reconnaissance atteignant84%

pour une sélectivité de plus de 86%. La matrice de confusion permet également de voir que l’orientation du visage apporte les améliorations attendues.

Geste à reconnaître Geste reconnu

1 2 3 4 5 rien sensibilité

« pointage bas droite » (1) 86 0 0 14 0 0 86

« pointage devant » (2) 0 86 0 0 14 0 86

« pointage bas gauche » (3) 7 0 93 0 0 0 93

« pointage bas très à droite » (4) 0 0 12 88 0 0 88

« stop » (5) 0 21 0 0 65 14 65

sélectivité 92 81 87 87 82

TAB. III.8: Matrice de confusion obtenue sur le corpusCORPGG en utilisant le modèleM G2 décrit par la figure III.6 (en %).

Enfin, il est à noter que le coût supplémentaire, en terme de temps de calcul, engendré par l’utilisation du modèleM G2, légèrement plus complexe queM G1, est négligeable (de l’ordre de la milli-seconde par geste à reconnaître).

III.5 Conclusion et perspectives

Nous avons présenté ici nos travaux sur la reconnaissance de gestes. Dans notre cadre robo-tique, nous avons développé un module nommé DREC dédié à la modélisation par DBN (ou HMM). La figure III.9 rappelle notre architecture définie en introduction et complétée ici par le moduleDREC décrit dans ce chapitre.

Les contributions apportées par ce module concernent la reconnaissance de gestes dyna-miques dans un formalisme DBN qui reste marginale dans la littérature. Ce type de modéli-sation a été testé et évalué sur des séquences réelles en provenance de notre module de suivi de gestes. Nous avons également comparé les performances relatives des HMMs et des DBNs, cette comparaison a par ailleurs donné lieu à la publication suivante : [Burger et al., 2009b].

Cette étude a prouvé non seulement la faisabilité d’un tel système basé sur une modélisation

FIG. III.9: Architecture globale de notre interface homme-robot.

par DBN, mais aussi que les nombreux avantages des DBNs peuvent être exploités afin d’éco-nomiser les ressources CPU qui sont de fait limitées sur nos plateformes robotiques. Nous avons également pu démontrer la faisabilité d’une segmentation automatique des gestes, bien que ces investigations récentes mériteraient quelques développements supplémentaires afin de limiter davantage les fausses détections. Nous avons montré que ces fausses alarmes peuvent être ré-duites en considérant l’orientation du regard dans le processus de reconnaissance. Enfin, des évaluations qualitatives et quantitatives sur notre plateforme robotique, plutôt marginales dans la littérature, ont validé ces travaux.

Bien que notre implémentation de la reconnaissance de gestes par DBN ait montré ici son utilité et l’éventail de ses avantages, certaines évolutions récentes mériteraient quelques in-vestigations complémentaires. En particulier, notre modélisation n’utilise pas, pour l’instant, d’autres données que la position des mains par rapport à la tête, alors que nous disposons éga-lement de la forme et de l’orientation de ces dernières. Une autre voix d’amélioration directe serait de tester de nouvelles structures de DBN et de trouver une manière plus efficace et rapide pour caractériser leurs performances, ainsi que pour optimiser les très nombreux paramètres libres du système (ou d’en diminuer significativement le nombre). En effet, l’ensemble de cette procédure reste extrêmement lourde et le nombre et les valeurs des paramètres libres influencent grandement les performances.

III.5CONCLUSION ET PERSPECTIVES 105

Chapitre IV

Fusion de données audio-visuelles et démonstrations robotiques

La finalité de nos travaux est de voir un utilisateur interagir le plus naturellement possible avec un robot grâce aux différentes modalités présentées. Nous nous intéressons en particulier à l’utilisation d’expressions gestuelles en confirmation ou en complément d’une expression verbale. Dans ce cadre, les précédents chapitres ont présenté les systèmes permettant de traiter les entrées des deux canaux, audio et vidéo, considérés ici.

Le présent chapitre traite de la fusion des données en provenance de ces deux canaux dans le cadre d’une interface dédiée à l’interaction multimodale homme-robot. Le but de ce chapitre est par conséquent de démontrer l’utilité d’une telle interface multimodale dans le cadre de dé-monstrations complètes, c’est-à-dire de scénarios exploitant l’ensemble des capacités du robot comme celles de notre interface. Les situations homme-robot, mais aussi les tâches robotiques utilisées dans nos scénarios, impliquent des stratégies de fusion spécifiques. C’est la raison pour laquelle nous avons choisi de les présenter ensemble dans cet unique chapitre.

Ce chapitre débute par un rapide état de l’art de la fusion de données audio-visuelle ap-pliquée à la robotique mobile afin de positionner nos travaux par rapport à la littérature (sec-tion IV.1). La sec(sec-tion IV.2 présente ensuite nos plateformes expérimentales, ainsi que les scé-narios imaginés afin d’évaluer notre interface. La section IV.3 qui présente, successivement et pour chaque scénario, la stratégie de fusion adoptée et les résultats obtenus sur nos plateformes.

Enfin, la section IV.4 conclut ce chapitre en rappelant nos contributions et en énonçant quelques perspectives.

IV.1ÉTAT DE L’ART ET POSITIONNEMENT DE NOS TRAVAUX 107

IV.1 État de l’art et positionnement de nos travaux

Construire un système multimodal implique de prendre en compte les inter-corrélations des modalités concernées afin de construire une représentation du message global véhiculé par ces dernières. Pour ce faire, la fusion de ces données peut s’effectuer à différents niveaux, du niveau signal au niveau sémantique/symbolique. On parle alors respectivement de fusion précoce et tardive, la seconde impliquant, contrairement à la première de procéder au départ à l’analyse de chaque modalité.

Dans le document The DART-Europe E-theses Portal (Page 107-112)