• Aucun résultat trouvé

Figure 6.1 – Scénario représentant comment les capacités de prédiction humaines sont utilisées lors de collaboration entre humains. La personne de gauche anticipe les actions de sa partenaire et exécute une action d’assistance appropriée. Dans cette étude, le robot apprend à prédire l’intention de son partenaire. Le but à plus long terme sera qu’il utilise cette capacité afin choisir l’action d’assistance à exécuter.

6.1 Résumé

Pour interagir entre eux, les êtres humains ont développé des compétences de prédiction de mouvements corps complet de leurs partenaires, après avoir observé les premiers instants de ces mouvements. Par exemple, dans l’illustration de la Figure 6.1, la personne sur la gauche utilise cette capacité afin d’éviter à l’autre personne de faire un mauvais mouvement.

En informatique, qu’il s’agisse, comme dans notre cas, de créer des robots collaboratifs capables d’anticiper des actions humaines, ou de créer des technologies d’assistance capables d’alerter des personnes lorsque des mouvements d’humains ne sont pas ergonomiques ou potentiellement dangereux, il est nécessaire de créer un algorithme capable de prédire la poursuite de mouvements corps complet initiés. La difficulté d’un tel algorithme et que, lorsqu’il s’agit de mouvement corps complet, les informations à traiter sont de grandes dimensions et provoquent généralement des coûts calculatoires importants. Or, pour être efficace, un tel logiciel doit fonctionner au moins en temps réel mou.

Pour répondre à cette problématique, nous proposons dans cette étude un algorithme de prédiction de la poursuite de trajectoires lorsque celles-ci sont représentées par de nombreuses données (c’est-à-direque l’ensemble de données à apprendre est de dimension importante), en cartographiant ces trajectoires dans un espace latent réduit, à l’aide de variantes d’auto-encoders (AEs). En ce qui concerne la prédiction, elle est toujours effectuée à l’aide de ProMPs, mais cette fois-ci à partir des trajectoires compressées dans l’espace latent, ce qui réduit considérablement le temps de calcul de la prédiction et permet ainsi d’utiliser la méthode dans des applications en temps réel.

Pour ce faire, nous proposons deux méthodes qui combinent la capacité de prédiction des ProMPs avec celle de réduction de dimensionnalité des AEs et VTSFE (c.f. Sections 1.8 et 3.4 ). Nous les appelons respectivement AE-ProMPs et VTSFE-ProMPs. Ces deux méthodes suivent deux idées différentes : dans AE-ProMPs, la compression concerne les postures, tandis que dans VTSFE-ProMPs, la compression concerne la trajectoire posturale entière (c.f. Section 3.4 pour plus de détails sur ces méthodes). Dans les deux cas, la méthode ProMP permet de prédire les trajectoires futures dans l’espace latent.

Afin d’évaluer ces méthodes, les expériences effectuées dans cette étude consistent en la prédiction de la poursuite de mouvements corps complet correspondant à sept actions différentes effectuées par un être humain et enregistrées par une combinaison de suivi de mouvement XSENS (c.f. Section 2.4).

Nous montrerons que pour prédire les trajectoires futures à partir d’observations initiales, la méthode AE-ProMPs est plus rapide et plus performante que VTSFE-ProMPs ou la méthode ProMP seule.

6.2 Introduction

Afin de collaborer efficacement, les êtres humains sont capables de prédire le mouvement futur de leurs partenaires [111]. Cette capacité n’implique pas seulement la “prédiction de l’intention”, souvent formalisée comme la prédiction de l’objectif d’une action, mais aussi la “prédiction du mouvement futur prévu”, que nous avons récemment formalisée comme la prédiction de la trajectoire future calculée à partir d’observations initiales de celle-ci (c.f. Sections 4, 5 et [D.P]).

Cette capacité de prédiction du mouvement futur est également cruciale pour les robots collaboratifs (afin qu’ils puissent anticiper les actions humaines) ainsi que pour les technologies

d’assistance (afin par exemple d’alerter si un mouvement particulier est non ergonomique ou potentiellement dangereux pour la santé humaine [115]). Pour agir en conséquence, cette prédiction doit être rapide et être faite dès les premières observations des mouvements, malgré la variabilité et la forte dimensionnalité de ceux-ci.

Lors des deux premières études, nous avons donc utilisé la méthode ProMP afin d’apprendre la distribution des trajectoires des actions robotiques et afin de prédire les mouvements futurs prévus lors d’interactions humain-robot. Dans ces études, un robot utilisait une partie initiale d’une trajectoire, appelée “trajectoire partielle”, afin de prédire sa continuation jusqu’au but [D.P]. Les trajectoires étaient présentées au robot que ce soit à l’aide d’interaction physique, de repères visuels, ou encore les deux à la fois [D.M]. Ces expériences se limitaient aux mouvements du bras du robot, tout en combinant les informations cinématiques et des signaux dynamiques.

Dans l’étude actuelle, nous nous intéressons à la prédiction de la poursuite de mouvements corps entier d’êtres humains, à partir d’observations initiales de trajectoires partielles. Un enjeu de cette étude est que cette prédiction soit suffisamment rapide afin que le robot puisse planifier une action d’assistance appropriée si nécessaire. Puisque nous voulons prédire les trajectoires futures de tous les membres de l’humain exécutant l’action, notre prédiction est effectuée dans un espace dimensionnel élevé. Or, les ProMPs ne sont pas optimales d’un point de vue temps de calcul, comme le vérifie la première expérience de cette étude (c.f. Section 6.4.1), et ne convient donc pas pour notre application.

Afin de résoudre ce problème, nous proposons maintenant de réduire la dimensionnalité de l’espace de données. Les trajectoires de haute dimension sont alors mappées dans un espace latent à petite dimension (latent space, LS). Ensuite, les ProMPs sont apprises directement depuis ce LS, à partir duquel nous prédisons également le futur de ces trajectoires. La compression se fait à l’aide d’un auto-encoder (AE), qui encode d’abord les trajectoires originales dans le LS, puis décode les trajectoires prédites et compressées du LS, vers l’espace original de haute dimension. Nous appelons cette méthode AE-ProMP et est présentée dans la Section 3.4.3. La Figure 6.2 représente le concept de cette étude.

Nous comparons cette méthode avec une autre méthode que nous avons créée, nommée VTSFE-ProMP (basée sur la méthode VTSFE, présentée dans la Section 3.4.2), qui se distingue de AE-ProMP par le fait qu’elle encode non plus des postures, mais des trajectoires posturales. Si cette dernière méthode est intéressante pour sa capacité à produire un espace latent cohérent et à préserver la continuité des trajectoires, elle est coûteuse en durée d’apprentissage et nécessite des calculs compliqués.

De plus, la complexité de cette méthode est due à la modélisation dynamique du LS, or cette modélisation dynamique n’est pas utile dans notre cas, puisque, contrairement à dans [48], nous ne considérons pas les trajectoires compressées dans le LS individuellement, mais nous apprenons des distributions de probabilité à partir de l’ensemble des trajectoires compressées. Or, les imprécisions des trajectoires compressées, qui correspondent à des “à-coups” dans l’espace latent, n’ont pas d’impact lorsque les distributions sont apprises, puisque ces distributions sont calculées à partir de l’ensemble des trajectoires de démonstrations.

6.3 Formulation du problème

Le but de ces expériences est donc de comparer les trois méthodes nommées ProMP, AE-ProMP et VTSFE-AE-ProMP lorsqu’elles sont utilisées pour prédire des mouvements humains futurs,

Que fait-il ?