• Aucun résultat trouvé

(a) Quelques postures provenant de la vidéo [VTSFE-ProMPs] représentant les trajectoires réelles (lignes violettes), la reconstruction de celles-ci après compression (pointillés violets) et les prédictions correspon-dantes (en rouge) après avoir observé 20% de la trajectoire complète (14 échantillons).

Prédiction à partir de 60% d'observations VTSFE (auto-encodeur) Dimension E.L E rr eu r [m]

(b) ErrAE+P (gauche) et ErrAE (droite).

Di s ta n c e [m]

Dim. espace latent ***

**

*** ***

Observations [%]

(c) ErrP.

Figure 6.9 – VTSFE-ProMPs - Expérience avec un espace latent de dimension R = 5. Les

trajectoires sont représentées par 70 échantillons.

Premièrement, le fait de forcer les trajectoires de l’espace latent à être dynamiquement cohérent provoque un lissage trop important des postures encodées. L’espace latent serait alors incapable d’encoder les fortes variations posturales des trajectoires, ce qui est cohérent avec nos observations (c.f. vidéo [VTSFE-ProMPs]) où l’on peut voir que la méthode VTSFE n’encode pas correctement les mouvements lorsque la position de certains de leurs membres varie fortement, comme c’est le cas pour les genoux et les pieds lors des actions “coups de pied” et “marche”. Les trajectoires encodées restent ainsi proches d’une posture moyenne. Ce problème a été également observé dans [47], problème qui est d’ailleurs hérité de la méthode VAE-DMP. En comparaison, la méthode AE-ProMP n’a pas ce problème, puisque l’AE apprend à coder des postures instantanées, sans forcer une continuité posturale entre des échantillons successifs. Ainsi, la méthode AE-ProMP permet d’encoder les postures les plus extrêmes et de reconstruire correctement les trajectoires, même lorsque la position de certains de leurs membres varie fortement.

Deuxièmement, si l’on regarde comment est entraîné le réseau de neurones de l’auto-encodeur de la méthode VTSFE, on voit qu’il s’effectue à partir de 70 trajectoires de démonstration. Or, ces démonstrations sont utilisées pour entraîner 70 ∗ 69 = 4830 unités d’entrée, ce qui semble insuffisant.

6.4.4 Précision vs temps de calcul

Le Tableau 6.1 fournit une comparaison entre les trois méthodes testées en ce qui concerne la précision et le temps de calcul nécessaire à la prédiction du mouvement futur du corps complet.

Prédiction à partir Précision de Temps de 20% d’observations la prédiction [m] de calcul [s]

ProMPs moyenne 0.0145 2.5378

(69 dimensions) var 1.0038e-04 0.0357

VTSFE-ProMPs moyenne 0.04219 0.0565

(L.S.= 5) var 0.002 0.0024

AE-ProMPs moyenne 0.02793 0.0516

(L.S.= 5) var 0.003 0.0028

Tableau 6.1 – Moyenne et variance de la distance d’erreur entre les trajectoires réelles et les trajectoires prédites, ainsi que les temps de calcul des prédictions pour les méthodes ProMP, VTSFE-ProMP et AE-ProMP.

Bien que cette prédiction ne soit faite à partir de peu d’observations (20% des trajectoires), on peut voir que le temps de calcul des ProMPs est beaucoup plus long que les deux autres méthodes. De plus, la méthode VTSFE-ProMP est la moins précise, pour les raisons que nous avons déjà expliquées. Ainsi, pour l’application ciblée, la meilleure méthode est AE-ProMP, qui surpasse ProMP en ce qui concerne le temps de calcul et VTSFE-ProMP pour sa précision de prédiction et de reconstruction.

6.5 Conclusion

Dans cette étude, nous proposons une nouvelle méthode de prédiction de mouvements com-plexes, de haute dimension, appelée AE-ProMP. Cette méthode combine réduction de la dimension des trajectoires (à l’aide d’un AEs) et capacités de prédiction (à l’aide de la méthode ProMP).

L’AE comprime les postures dans un espace latent de petite dimension, puis décode ces postures compressées, afin de récupérer les postures dans leur dimension originale.

La méthode ProMP, quant à elle, permet d’effectuer la prédiction de la poursuite d’un mouvement initié, compte tenu des observations posturales initiales et des distributions de trajectoires apprises. Cette méthode est utilisée sur les trajectoires compressées dans l’espace latent de l’AE. Nos résultats montrent que la méthode AE-ProMP permet de prédire avec précision les mouvements corps complet, et ce, avec un faible temps calculatoire.

Nous avons comparé cette méthode avec les prédictions effectuées à l’aide de la méthode ProMP seule (c’est-à-diresans compression des données) ainsi qu’avec une méthode combinant les méthodes VTSFE et ProMP, où l’encodage conserve la dynamique des trajectoires. Les résultats montrent que la méthode ProMP seule met trop de temps à effectuer la prédiction, pour des applications que l’on souhaite être temps réel. Quant à la méthode VTSFE-ProMPs, bien que son espace latent soit dynamiquement plus cohérent, le décodage de la trajectoire est imprécis.

Il s’agit ici d’une première étude, permettant d’explorer l’idée de combiner des méthodes de compression et de prédictions de trajectoire. Dans cette étude, la méthode AE-ProMP fournit de bons résultats, c’est pourquoi nous aimerions améliorer cette méthode et pousser les expérimentations davantage. Nous présentons ci-dessous quelques exemples de telles améliorations et expérimentations.

Tout d’abord, on peut supposer que plus la dimension des données d’entrée est grande, moins la prédiction est précise. Pour aller plus loin dans cette étude, il serait donc intéressant de regarder comment la précision de la prédiction est impactée par une augmentation de la taille des données d’origine, pour une même taille d’espace latent.

De plus, puisque la compression de mouvements permet au robot de capturer les caractéristiques principales des mouvements, cela devrait lui permettre de généraliser ses connaissances. Ainsi, le robot devrait reconnaître des mouvements qu’il n’a jamais vus, tant que ceux-ci respectent les caractéristiques des mouvements appris. C’est pourquoi, pour étendre cette étude, nous chercherons à tester si le robot sait généraliser ses connaissances à des trajectoires ayant des caractéristiques communes à celles apprises. Par exemple, nous pourrions tester si le robot est capable de généraliser l’action “ouvrir une fenêtre” testée dans cette étude, à l’action plus générale d’ouvrir quelque chose, par exemple une porte.

Plusieurs pistes restent à explorer afin d’améliorer cette nouvelle méthode AE-ProMPs. Tout d’abord, elle peut être améliorée en permettant la prédiction de trajectoires à durée variable, comme cela a été fait pour les ProMPs seules, par exemple dans [D.P]. De plus, il serait pertinent de créer une technique permettant de régler automatiquement la dimension de l’espace latent de l’auto-encodeur. Finalement, d’autres variantes d’AEs pourraient être combinées avec les ProMPs. Dans ce cas, des tests seront nécessaires afin d’évaluer leurs avantages par rapport à la méthode AE-ProMP. Notons cependant qu’il s’agit ici de l’AE le plus simple et puisque celui-ci semble déjà suffisamment précis pour reproduire les trajectoires, les autres variantes d’AEs risquent de ne pas être pertinentes.

De même, le logiciel que nous avons développé à l’aide de cette nouvelle méthode peut être amélioré de différentes manières.

Premièrement, le fait que les ProMPs soient codées sous Matlab, que l’auto-encodeur soit codé en Python et que ces deux composantes communiquent entre-elles par réseau à l’aide de YARP implique que le temps pour prédire la poursuite du mouvement est ralenti. Il serait alors intéressant de coder ces deux composantes en C++, afin d’accélérer les temps de calcul et d’éviter d’avoir à faire communiquer ces deux parties par réseaux en l’intégrant dans un logiciel unique. Deuxièmement, dans cette étude, l’interaction entre l’humain et le robot est artificielle et nécessite que l’utilisateur porte une combinaison spécifique. Afin de rendre l’interaction avec iCub plus naturelle, nous chercherons dans de futures études à permettre au robot de détecter la posture du corps-complet des personnes avec qui il interagit. Pour cela, il utilisera ses propres yeux et des algorithmes qui détectent la zone de focalisation du regard des individus.

Troisièmement, dans cette application, nous nous sommes limités à la prédiction des mou-vements corps complet de l’utilisateur, sans nous intéresser à comment le robot doit réagir en fonction ces prédictions. Ainsi, pour augmenter les fonctionnalités du robot, il faudrait lui ap-prendre à exécuter des mouvements et des actions en rapport avec les mouvements de l’utilisateur, comme cela est proposé pour des mouvements de bras robotique dans [77]. Cela pourrait par exemple permettre au robot de tendre son bras afin de soutenir une personne lorsque le robot infère que celle-ci commence à se lever d’une chaise et qu’elle lève la main vers le robot pour lui demander de l’aide. De plus, pour améliorer cette aide, le robot pourrait prédire à partir de son début de mouvement, comment la personne a envie de se lever et, en fonction d’où elle déplace son bras, il pourrait se positionner afin d’améliorer le soutien de la personne.

Observations

1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0

E

rr

eu

r