Expériences d’atteintes avec des stratégies “relative” et “absolue”

2.3 Modèle couplant ﬂot optique et mouvements oscillatoires

3.1.4 Expériences d’atteintes avec des stratégies “relative” et “absolue”

Si nous avons déjà expliqué comment le modèle absolu pouvait agir (en utilisant l’encodage sen-sorimoteur comme un homéostat qui doit se maintenir), il nous reste à expliquer ici comment le modèle relatif peut agir. Mais, tout d’abord, nous allons présenter brièvement une troisième mé-thode qui sera utilisée pour nos comparaisons. Celle-ci se contente d’adapter continuellement,

CHAPITRE 3. MODÈLE RELATIF, SIMULATIONS ET RÉALISATION DE SÉQUENCES

en fonction d’un signal de renforcement, ses chances de sélectionner ses diffentes activités mo-trices disponibles. De par sa simplicité, ce modèle nous donnera une référence basse, que l’on attend être surpassée par les deux autres stratégies. Notons également que la simplicité de cette méthode permet de suggérer que celle-ci pourrait constituer une alternative, toujours présente, aux autres modèles en cas de défaillance de ceux-ci.

Stratégie supplémentaire : par renforcement

Dans cette stratégie de renforcement (RLS), basée sur [Sutton and Barto,1998], un simple bruit sur les commandes motrices possibles active une configuration aléatoire des commandes ˙θ(t), à l’instant t. Cette configuration motrice sera alors renforcée en fonction d’un signal de récom-pense, noté R. Ce signal de récompense est fonction des coordonnées visuelles de l’effecteur terminal XH(t), ainsi que des coordonnées visuelles de la cible XT(t). Pour cette tâche d’at-teinte, on récompense la diminution de la distance entre l’effecteur final et la cible. Ce modèle de renforcement suit les équations suivantes :

˙ θ(t) = H( N � i=1 Wi.e(t) + noise) ={−1, 0, 1} (3.9) e(t) = 1 (3.10) dW = λ. ˙θ(t− 1).e(t − 1).ΔR(t) (3.11) ΔR(t) = R(t)− R(t − 1) (3.12) R(t) = |X^T(t− 1) − X^H(t− 1)| −|X^T(t)− X^H(t)| (3.13)

Avec H la fonction Heaviside. La conﬁguration des activations motrices ˙θ est fonction des poids appris W , des entrées e ﬁxées à 1 pour n’être conditionnées par autre chose que par l’apprentissage passé, et d’un bruit uniforme additif noise ∈ [0, 1] (venant perturber les résultats de l’apprentissage, et dans une plus forte mesure lorsque celui-ci est peu marqué). Les poids sont adaptés avec un taux d’apprentissage λ.

Modèle relatif prédictif : comment agir

Concernant le modèle du SLE, dans la mesure où il n’y a pas d’apprentissage d’un modèle inverse, un mécanisme est requis pour agir. Dans une première approche que nous allons détailler ici (une seconde approche plus générale sera détaillée dans la partie suivante, sec. 3.2), nous avons utilisé un paradigme de type acteur-critique pour agir, utilisant un signal de renforcement prédit par des actions simulées.

Comme pour le modèle que nous venons de décrire (RLS), un signal de récompense R(t) est calculé en suivant une équation similaire à celle de RS (voir l’équation3.9). Toutefois, les équations de RS reposent sur XH et XT aux instants t et t − 1 : ΔR(t) est calculé après qu’une action a été effectuée. Mais notre méthode, elle, utilise la prédiction du SLE pour calculer une récompense prédite ΔRpred(t + 1). Par la suite les actions choisies pour chaque articulation θi suivent les équations suivantes :

3.1. MODÈLE RELATIF, ET COMPARAISON AVEC UN MODÈLE ABSOLU

˙θi(t) = arg max ˙θ∗ i(t) (ΔR^pred(t + 1)) (3.14) ˙θ∗ i(t) = {−1, 0, 1} (3.15) ΔR^pred(t + 1) = R^pred(t + 1)− R(t) (3.16) R^pred(t + 1) = |XT(t)− XH(t)| − (3.17) |XT(t + 1)− X^pred_H (t + 1)| (3.18) X^pred_H (t + 1) = X_H(t) + ΔX^pred_H (t) (3.19)

L’équation de la position Xpred

H (t + 1)est une application de l’équation3.2. Notons qu’ici nous supposons que XT(t + 1) = X_T(t).

Ainsi, il n’y a pas d’adaptation, ni d’apprentissage de lois sensorimotrices spéciﬁques cor-respondant à une tâche donnée. Si la fonction R donnant la récompense change, le SLE pourra toujours permettre de calculer les actions à entreprendre, sans aucun nouvel apprentissage. Les actions sont mises à jour à chaque itération, jusqu’à ce que la tâche soit accomplie.

Notons que ce mécanisme fournit des commandes motrices pour, potentiellement, tous les moteurs en entrée du SLE. Or notre modèle suppose l’existence d’un SLE par senseur. Ainsi, si plusieurs SLE partagent les mêmes moteurs (dans l’expérience qui suit par exemple, il y a un SLE par axe x, y et z, et chaque SLE contient l’ensemble des commandes motrices du robot), il peut y avoir différentes commandes motrices en compétition. Il peut donc y avoir des commandes motrices avec par exemple des valeurs opposées, sur un même moteur. Un second mécanisme de sélection est donc nécessaire. Nous proposons d’utiliser un mécanisme basé sur “l’efﬁcacité”, en sélectionnant la commande motrice associée au SLE ayant un ΔRpred(t + 1) maximum. Ce mécanisme sera repris et plus développé dans la section3.2.3.

Expériences d’atteintes

Pour chacun des trois modèles présenté, stratégie de renforcement (RLS), stratégie absolue (AS) et relative (RS), nous effectuons les mêmes expériences, en simultané, dans l’espace cartésien 3D, et avec un bras à 4 degrés de liberté (DOF).

Ainsi pour obtenir une meilleure comparaison, toutes les expériences qui suivent sont effec-tuées en simulation aﬁn de pouvoir les réaliser en parallèle, avec les trois modèles. Au préalable, chaque modèle a également été testé sur robot réel, avec le bras Katana que nous avons dans notre laboratoire. La simulation utilisée est celle de ce même bras robotique (voir sec.4.3.2pour voir les équations exactes). L’installation expérimentale utilisée pour la tâche d’atteinte peut ainsi être vu sur la ﬁgure3.5.

Nous avons effectué une série d’expériences pour tester l’évolution des performances de la tâche d’atteinte dans le temps. Pour ce faire, les 3 robots simulés fonctionnent donc en parallèle, un par modèle. Ils font tous le même babillage moteur, durant lequel les modèles AS et RS apprennent. Régulièrement, nous arrêtons le babillage moteur ainsi que l’apprentissage, aﬁn d’effectuer une tâche d’atteinte. Celle-ci consiste en une séquence continue de coordonnées, dans l’espace 3D, d’une cible que les 3 effecteurs des bras simulés doivent atteindre. Cette séquence est toujours la même. Elle est issue de l’enregistrement des coordonnées de l’effecteur

CHAPITRE 3. MODÈLE RELATIF, SIMULATIONS ET RÉALISATION DE SÉQUENCES

FIGURE3.5 – Installation expérimentale réelle avec le bras katana, une caméra, un outil et une balle pour la cible. En blanc, la conﬁguration de simulation du bras robotique avec les 4-DOF, dans l’espace 3D.

au cours d’une phase d’exploration aléatoire (effectuée précédemment). Cette tâche dure 5000 itérations. Au cours de cette tâche, la cible se stabilise pour une courte période 120 fois. À la ﬁn de cette période de stabilisation, au moment où la cible va bouger de nouveau, nous mesurons la distance euclidienne de chaque effecteur à la cible. A la ﬁn de la tâche d’atteinte, nous pouvons alors obtenir une valeur moyenne des distances à la cible, pour chaque modèle.

Dans la ﬁgure3.6a), on peut voir l’évolution de ces valeurs dans le temps. Nous notons que la stratégie de renforcement, en rouge, a des résultats assez constants, car il n’y a pas d’appren-tissage. Le modèle AS diminue rapidement dans un premier temps, puis lentement lorsque la plupart de l’espace atteignable a déjà été exploré. Le modèle RS diminue lui plus rapidement que le modèle AS.

Pour tester la robustesse de ces modèles à la présence d’un outil, nous avons étendu la longueur du segment final du bras kanata simulé dans toutes les simulations. Nous étendons également les positions des coordonnées de la cible en conséquence. Nous avons effectué ce changement après que chaque modèle ait des résultats relativement stables dans la tâche d’at-teinte, en l’occurrence à l’itération 21000. Les résultats sont montrés dans la figure3.6 b). Ils indiquent clairement une robustesse de RS, alors que AS marque une nette baisse des perfor-mances juste après cette modification de la géométrie du robot. Cette différence s’explique par le fait que pour l’AS, les coordonnées de la cible sont associées à une configuration motrice du robot ayant une géométrie qui a depuis lors varié. Notons que ces résultats corroborent l’ana-lyse préliminaire effectuée dans la section2.1.2. Pour RS la commande dépend de la distance entre la cible et l’effecteur, laquelle prend donc en compte le changement de géométrie induit par la présence de l’outil. De plus, si la loi sensorimotrice peut légèrement varier, les directions de co-variations entre la position de l’effecteur, et les positions des articulations, restent elles globalement identiques, ce qui permet de conserver des commandes allant dans le sens désiré.

3.1. MODÈLE RELATIF, ET COMPARAISON AVEC UN MODÈLE ABSOLU

FIGURE3.6 – Résultats en rouge pour RLS, bleu pour AS et vert pour RS (SLE) : a) Erreur moyenne lors de la tâche d’atteinte, effectuée au cours de l’apprentissage avec babillage moteur. b) Erreur moyenne lors de la tâche d’atteinte, effectuée après l’apprentissage, tandis que la géométrie du robot a changé (ajout d’un outil)

Avec la modiﬁcation de la géométrie, l’évolution des performances de la tâche d’atteinte dans le temps montre que le modèle AS a besoin d’à peu près autant de temps, pour s’adapter à la présence de l’outil, que pour son apprentissage initial lors de la première phase de babillage. Ceci s’explique par le fait que ce modèle doit, pour s’adapter à l’outil, apprendre de nouveau toutes ses associations, tandis que le modèle RS n’a lui rien de nouveau à apprendre pour être efﬁcace dans cette tâche.

De fait, la principale limitation du modèle RS que nous avons présenté, le SLE, ne tient pas à ses performances pour une tâche d’atteinte mais au nombre de neurones recrutés. En effet, le SLE doit encoder une nouvelle conﬁguration articulaire chaque fois que la prédiction n’est pas

CHAPITRE 3. MODÈLE RELATIF, SIMULATIONS ET RÉALISATION DE SÉQUENCES

FIGURE3.7 – Résultats en bleu pour AS et vert pour RS (avec le SLE) a) Nombre de neurones recrutés au cours du babillage. b) Performances dans la tâche d’atteinte en fonction du nombre de neurones recrutés

assez bonne, pour un seuil donné. Or l’effecteur du bras katana, ayant 4-DOF, a déjà une quantité énorme de telles lois, distinctes, de co-variations sensorimotrices dans l’espace 3D. En effet, le modèle direct du bras est basé sur de nombreuses sinusoïdes (voir sec.4.3.2pour voir les équa-tions exactes), et toutes ces non linéarités sont autant de catégorisaéqua-tions à effectuer, pour le SLE qui repose sur un encodage des linéarités locales. Ainsi, afin d’avoir de bonnes prédictions, le SLE doit recruter beaucoup de neurones. De plus, le temps d’exploration de chaque mouvement, dans n’importe quelle configuration motrice, est assez long lors d’un babillage moteur aléatoire. Dans la figure3.7a), nous voyons le nombre de neurones recrutés dans le temps pour les deux modèles.

Or, il est intéressant de noter que l’évolution des performances ne suit pas celle du nombre de neurones recrutés. On pouvait en effet noter que sur la ﬁgure 3.6 a), la RS converge plus rapidement vers de bons résultats que AS. De fait, très rapidement le recrutement de neurones

3.1. MODÈLE RELATIF, ET COMPARAISON AVEC UN MODÈLE ABSOLU dans le SLE n’a plus d’impact sur les performances de la tâche d’atteintes. Dans la ﬁgure3.7b), nous voyons les performances de chaque modèle en fonction du nombre de neurones recrutés. Nous pouvons voir que le modèle utilisant le SLE a besoin de moins de neurones que AS pour être précis dans la tâche.

Pour ﬁnir, notons que, sans surprise, le nombre de neurones recruté par articulation est de moins en moins important à mesure que l’on passe des articulations proximale à distale. À titre d’exemple, on note pour 470 neurones recrutés : 228, 107, 101 et 36 neurones dans l’ordre proximo-distal, et pour 364 neurones recrutés : 186, 107, 49 et 22 neurones, dans le même ordre. Ceci s’explique par le fait que les articulations proximales ont des lois potentiellement très diffé-rentes selon la conﬁguration des articulations distales, d’autant que leur amplitude, et leur effets dans l’espace visuel sont plus importants.

Dans le document Apprentissage Incrémental de Règles Sensorimotrices dans un Robot, du Babillage Moteur à l’Utilisation d’Outils (Page 87-93)