• Aucun résultat trouvé

Distribution apprise (moyenne et variance)

3.1 Hypothèses d’étude

Plusieurs hypothèses sont à considérer dans ces travaux :

— Dans les études de cette thèse, l’intention de l’utilisateur est définie comme un mouvement à effectuer dans un futur immédiat qui aboutit à une certaine position but. L’utilisateur

32. Pour certaines tâches, telles que les tâches consistant à atteindre une cible, il est raisonnable de supposer que la différence de durée des trajectoires est négligeable. Cependant, pour d’autres tâches, la durée des trajectoires peut varier, en particulier lorsque celles-ci sont effectuées par des personnes différentes.

de notre application pourra lier à cette identification de l’intention une primitive d’action correspondante, telles qu’attraper, lâcher ou encore pousser un objet.

— Lors des différentes expériences de cette thèse, nous émettons l’hypothèse que les mouve-ments effectués par l’utilisateur sont inclus dans les distributions apprises.

— Pour modéliser nos trajectoires, nous avons choisi d’utiliser des fonctions gaussiennes, qui se prêtent tout à fait à des mouvements naturels humains, qui varient de manière « continue », c’est-à-dire sans variation forte de position (principe du minimum jerk [104]). — Afin d’apprendre une distribution de ces modélisations de trajectoires (c’est-à-direune

ProMP), nous supposons que les paramètres de ces modélisations suivent une loi normale. — Les ProMPs 3.3 supposent que le bruit des trajectoires s’approche du bruit blanc gaussien, ce qui s’applique à notre cas où la variation des données provient de l’imprécision des mesures.

3.2 Notations

Nous parlons de « trajectoire entière » (resp. « mouvement entier ») lorsqu’une trajectoire (resp. un mouvement) est observée jusqu’à la fin. Au contraire, une « trajectoire partielle » (resp. « mouvement partiel ») correspond à une trajectoire (resp. un mouvement) commencée par

l’utilisateur et arrêtée en cours de route.

Afin de faciliter la compréhension du cadre théorique, nous synthétisons tout d’abord les notations mathématiques utilisées tout au long de cette thèse.

Trajectoires :

— t ∈ N+ : la te mesure de la trajectoire. Par abus de langage, nous parlerons d’instant t, où entre chaque instant se déroule 0.01 secondes. De la même manière, la durée tf correspondra au nombre de mesures décrivant la trajectoire entière (c’est-à-direqu’il s’agira d’une durée tf × 0.01 secondes).

— X(t) ∈ R3, X(t) = [x(t), y(t), z(t)] : coordonnées cartésiennes de l’effecteur du robot. — F (t) ∈ R6, F (t) = [fx, fy, fz, mx, my, mz] : forces de contact (c’est-à-direles forces et

moments externes mesurés par le robot au niveau de son effecteur).

— A(t) ∈ R3, A(t) = [a1, a2, a3]: les angles lacet, tangage et roulis représentant l’orientation de la tête de l’utilisateur.

— ξ(t) ∈ RD : vecteur contenant les valeurs de l’état de la trajectoire à l’instant t. Ce vecteur peut être mono dimensionnel (par ex.ξ(t) = [z(t)]), ou multidimensionnel (par ex.ξ(t) = [X(t), F (t)]), selon le type de trajectoire que l’on veut représenter à l’aide de la ProMP.

— Ξ = Ξ[1:tf]= [ξ(1), . . . , ξ(tf)]∈ RD·tf : correspond à une trajectoire entière, composée de tf points mesurés.

— Ξi[1:tf i] : correspond à la ie trajectoire de démonstration d’une tâche (c’est-à-direune trajectoire effectuée par l’utilisateur), de durée tf i.

Primitives de Mouvement :

— k ∈ [1 : K] : ke ProMP (c’est-à-direune primitive de mouvement probabiliste) d’un ensemble de K ProMPs, où chacune d’elle correspond à une tâche spécifique.

— nk : nombre de trajectoires de démonstration utilisées pour apprendre la ke ProMP. — Sk= {Ξ{k,1}, . . . , Ξ{k,nk}}: ensemble de nktrajectoires de démonstration correspondant à

la ProMP k.

— ξ(t) = Φtω+ ǫξ : modélisation de la trajectoire avec :

— Φt ∈ RD×D·M : fonctions de base radiale (RBFs) utilisées afin de modéliser les trajectoires. Elles correspondent à une matrice diagonale par bloc, avec :

- M : nombre de RBFs. - ψji(t) = e −(t−ci)2 2h PM m=1e−(t−cm)22h

: la ie RBF correspondant à l’ensemble des entrées j ∈ [1 : D]. Notons que le numérateur provient d’une gaussienne √1

2πhe−(t−ci)

2 2h , où ci et h sont respectivement le centre et la variance de la ie Gaussienne. Les Gaussiennes incluses dans la RBF sont normalisées.

— ω ∈ RD·M : vecteur paramétrique indépendant du temps, utilisé pour pondérer les RBFs. Il s’agit des paramètres à apprendre.

— p(ω) ∼ N (µω, Σω) : distribution normale calculée à partir d’un ensemble {ω1, . . . , ωn}. Elle représente la distribution des paramètres du modèle des trajectoires. Il s’agit de la distribution a priori.

Modulation du temps :

— ¯s : le nombre d’échantillons utilisé en tant que référence : toutes les trajectoires sont redimensionnées afin qu’elles aient la même durée tf = ¯s.

— Φαit∈ RD×D·M : RBFs redimensionnées afin qu’elles soient définies sur toute la durée de la trajectoire Ξi.

— αi = t¯s

f i : paramètre de modulation du temps correspondant à la ie trajectoire.

— α = Ψδnoωα+ ǫα : modélisation de la fonction de redimensionnement δno permettant de définir le paramètre de modulation temporel α, avec :

- Ψ : un ensemble de RBFs utilisé dans la modélisation de la fonction de redimensionne-ment de temps entre δno et α ;

- δno : différence entre la mesure récoltée à l’instant no et celle à l’instant 1. Cette différence peut correspondre à δno = ξ(no) − ξ(1) lorsque l’on considère l’ensemble des mesures décrivant la trajectoire (c’est-à-dire, la position cartésienne, les forces, etc.) ; δno = X(no) − X(1)lorsque l’on considère uniquement les positions cartésiennes de la trajectoire ; ou encore δno = A(no) − A(1), lorsque l’on considère uniquement l’orientation de la tête du partenaire pour représenter le mouvement.

- ωα : vecteur paramètre pondérant les RBFs incluses dans la matrice Ψ. Prédiction et inférence :

— Ξo = [Xo, Fo]= [ξo(1), . . . , ξo(no)] : observation du début d’une trajectoire, composée de no mesures.

— Σo

ξ : bruit des mesures récoltées de la trajectoire partielle.

— ˆα : estimation du paramètre de modulation du temps de la trajectoire à prédire. — ˆtf = αsˆ¯ : inférence de la durée de la trajectoire à prédire.

— Ξ = [ξo(1), . . . , ξo(no), ξ(no+1), . . . , ξ(tf)]: réalité terrain correspondant à la trajectoire que le robot doit prédire.

— ˆΞ = [ ˆX, ˆF ]= [ξo(1), . . . , ξo(no), ˆξ(no+ 1), . . . , ˆξ(ˆtf)] : trajectoire prédite.

— p( ˆω) ∼ N (ˆµω, ˆσω): distribution a posteriori du vecteur paramètre d’une ProMP, calculée à partir des observations Ξo.

— ˆk : index de la ProMP reconnue dans l’ensemble des K ProMPs apprises précédemment. Modèles de compression des données (3e expérience) :

— x(t) ∈ RN : données réelles, avant compression à l’instant t. — hi : ie couche cachée du réseau de neurones.

réduite), à l’instant t.

— xrec : données reconstruites, après compression et décompression.

— α, β, τ, ft: variables du modèle DMP (c.f. Section 1.7.1) incluses dans le modèle VAE-DMP. — qφ(z|x) : réseau de neurones qui approxime la distribution inconnue pθ(z|x). On parle

alors d’encodeur probabiliste où φ sont les paramètres de cette distribution (c’est-à-direles poids et biais de l’encodeur du réseau de neurones). Ces paramètres sont alors optimisés afin que la distribution q corresponde le plus possible à la distribution pθ(z|x).