• Aucun résultat trouvé

État de l’art

1.6 Perceptions multimodales

Dans la seconde étude de cette thèse (c.f. Section 5), l’utilisateur peut choisir de communiquer avec le robot à partir d’interaction visuelle et/ou physique. De plus, lorsque l’utilisateur utilise l’interaction physique pour guider le robot, ce dernier perçoit à la fois le mouvement de son propre bras (proprioception) ainsi que les forces exercées sur son bras (à partir notamment du toucher). Il s’agit donc de perceptions multimodales. La perception multimodale est une compétence importante chez l’animal qui permet notamment le développement et l’apprentissage de compétences plus complexes, en corrélant l’information de plusieurs modalités à la fois. Cette

Section a pour but de détailler cette notion de multimodalité.

1.6.1 Multimodalité chez l’humain

L’information multimodale est couramment utilisée chez l’humain. Lors de l’écoute d’un dialogue, l’humain utilise plusieurs modalités, principalement l’audio et le visuel. De plus, pour communiquer, McNeill montre dans [149] l’importance du lien entre le discours et les gestes, avec notamment différents gestes récurrents liés aux mots utilisés.

L’information visuelle permet notamment de compléter les informations auditives et de clarifier les confusions acoustiques [211].

Les capacités multimodales de l’humain se développent très tôt. Pour cela, l’attention conjointe, terme défini dans la Section précédente, est utilisée pour développer la “mémoire indexée spa-tialement” [184]. En effet, elle permet de détecter un sous-ensemble d’objets d’intérêt présents dans la zone de focalisation et ainsi de faciliter la liaison entre son et visuel [81, 213]. Confortant cette idée, des études ont montré qu’à huit mois, le nouveau-né fait le lien entre la vision et le son uniquement lorsque la localisation des événements multisensoriels est « corrélée » (dans le sens où, lorsqu’un signal provenant d’une modalité est perçu, le nouveau-né s’attend à recevoir une information de l’autre modalité dans la même zone [233, 59]). La théorie du “like me” de Meltzoff propose plus généralement que, lorsque le nouveau-né imite les personnes avec qui il interagit, il établit des relations entre ce qu’il fait et ce que ces personnes font. Il s’agit alors d’une connexion visuo proprioceptive ou audio proprioceptive. Cette théorie se base sur l’hypothèse que l’imitation est un processus inné (lié aux neurones miroirs, présentés dans la Section 1.1.2 qui permet notamment de corréler les modalités proprioceptive et visuelle) et en déduit que la compréhension de l’autre en est une conséquence. Plus que théoriques, ces expériences étayent ces hypothèses [153].

Les nouveau-nés sont d’ailleurs sensibles à l’effet McGurk [30], ce qui met en évidence l’utilisation combinée du son et du visuel. L’effet McGurk est une illusion multimodale [148] : lorsque l’on voit quelqu’un prononcer la syllabe “ga” alors que l’on entend la syllabe “ba”, alors on perçoit la syllabe “da”. De manière similaire, l’illusion de la main en caoutchouc correspond cette fois-ci à un mélange des modalités visuelle, du toucher et de la proprioception [21]. Il s’agit de créer l’illusion optique qu’une main en caoutchouc correspond à la main d’une personne, pour que celle-ci ait l’impression de ressentir ce qui se passe sur la main en caoutchouc. En étudiant le cerveau humain, les chercheurs ont découvert un réseau d’interaction intermodale, pouvant expliquer ces capacités multimodales. Ce réseau d’interactions intermodales s’activerait dès lors qu’une des modalités perçoit l’information [86].

1.6.2 Multimodalité en robotique

Cette Section montre qu’afin d’améliorer l’interaction humain-robot, différentes études se sont concentrées sur la capacité robotique d’acquérir des compétences multimodales.

Dans [106], un robot apprend quels gestes il doit effectuer avec ses mains et sa tête, en fonction des mots du discours, afin de pouvoir faire une présentation semblable à une présentation humaine. Pour cela, le robot utilise un modèle appelé Réseau Bayésien Dynamique qui connecte différents états latents avec d’autres états représentant les mouvements du regard et les gestes des bras, ainsi qu’avec des variables booléennes, dont chacune correspond à une caractéristique du langage parlé (par ex.référence concrète, objet concret, pronom, etc.). Il s’agit d’un modèle graphique, où à chaque itération t un certain espace latent reçoit l’information de l’état latent précédent (t − 1) et est connecté avec les autres états (geste, regard et discours). De plus, pour chaque itération,

l’espace de discours est connecté avec les états gestes et regard. En effet, leur modélisation suppose que le discours provoque les gestes de la tête et des bras. L’apprentissage de ce modèle s’est fait à l’aide de données provenant d’une présentation orale d’un humain, catégorisées par différentes personnes (c’est-à-direle type de gestes et certaines caractéristiques du discours).

Dans [238] Yamazaki et al.rappellent l’importance des actions non verbales, telles que les mouvements de tête des partenaires, dans l’interaction humaine. Basés sur ce fait, ils permettent alors à leur robot de faire des mouvements de tête qui semblent naturels, en direction des choses qu’il présente verbalement dans un musée.

Dans la même idée, l’algorithme proposé dans [147] permet à un robot d’apprendre la connexion sémantique entre les mots et les gestes. Ainsi, le robot est capable de repérer des mots dans un discours et d’effectuer des gestes associés. Pour ce faire, la méthode consiste en un calcul mathématique par factorisation matricielle.

Plus généralement, beaucoup d’études montrent que l’information multimodale améliore nettement les performances de classification. Cela est par exemple montré dans l’étude [70], où Droniou et al.montrent qu’avec un apprentissage multimodal, les reconnaissances uni modales sont aussi améliorées.

Concernant le robot iCub, l’étude [8] propose une approche permettant à ses partenaires de ressentir une “co-présence” lors de leur interaction avec le robot. En effet, à l’aide d’informations visuelles et auditives, le robot regarde ses partenaires.

Dans la deuxième expérience de cette thèse de la Section 5, nous utiliserons l’information visuelle et l’information physique afin que le robot améliore ses compétences de reconnaissance des mouvements à effectuer. Nous verrons que dans certains cas, une seule modalité est suffisante et que dans d’autres cas, l’utilisation des deux modalités améliore les capacités de reconnaissance.