• Aucun résultat trouvé

dumas-00636431, version 1 - 27 Oct 2011

N/A
N/A
Protected

Academic year: 2022

Partager "dumas-00636431, version 1 - 27 Oct 2011"

Copied!
43
0
0

Texte intégral

(1)

Universit´ e de Bretagne Occidentale Master 2 Recherche en informatique

Couplage de syst`emes dynamiques pour l’´emergence de comportement en environnement virtuel :

application au rebond de balle

2 juin 2011

LISyC Equipe AR´ ´ eVi

R´ ealis´ e par : Encadrants :

Anne Jeannin-Girardon Pierre De Loor

C´ edric Buche

dumas-00636431, version 1 - 27 Oct 2011

(2)

R´ esum´ e

Ce document aborde les notions d’autonomie et d’interactivit´ e pour des agents en environnement virtuel. L’utilisation d’approches ` a base de syst` emes dynamiques coupl´ es issues de la psychologie cognitive ´ ecologique doit per- mettre l’´ emergence de comportements adaptatifs.

L’utilisation de ce type d’approche vise ` a contourner les limitations des ap- proches existantes et ` a l’obtention d’un meilleur r´ ealisme dans la dynamique de l’interaction d’agents autonomes.

Mots clefs : agents interactifs, environnements virtuels, syst` emes dyna- miques, couplage, ´ emergence de comportement, perception et action.

dumas-00636431, version 1 - 27 Oct 2011

(3)

R´ esum´ e i

Introduction 1

1 Etat de l’art ´ 2

1.1 Contexte . . . . 2

1.2 Agents interactifs temps r´ eel . . . . 4

1.2.1 Interaction et adaptation chez les humano¨ıdes virtuels . . . . 4

1.2.2 Emergence de synchronicit´ ´ es chez des robots . . . . 7

1.3 Dynamique du comportement en psychologie cognitive . . . . 8

1.3.1 Introduction aux syst` emes dynamiques . . . . 9

1.3.2 Dynamique comportementale (Warren, 2006) . . . . 9

1.3.3 Limitations de la dynamique comportementale . . . . 11

1.4 Synth` ese . . . . 13

2 Cas d’´ etude : le rebond de balle 14 2.1 G´ en´ eralit´ es . . . . 14

2.2 Modes de contrˆ ole . . . . 15

2.2.1 Contrˆ ole actif de la raquette . . . . 16

2.3 Le syst` eme balle/raquette . . . . 17

3 Mod´ elisation du syst` eme balle/raquette 19 3.1 Environnement de simulation . . . . 19

3.2 Oscillateur et pilotage de la raquette . . . . 19

3.3 Algorithme de contrˆ ole . . . . 21

3.3.1 Modulation de p´ eriode . . . . 21

3.3.2 Modulation d’amplitude . . . . 21

4 R´ esultats & Discussion 24 4.1 Rebond passif . . . . 24

4.1.1 M´ ethode . . . . 24

4.1.2 Conditions environnementales constantes . . . . 24

4.1.3 Conditions environnementales variables au cours d’une mˆ eme simulation . 27 4.1.4 Synth` ese . . . . 29

4.2 Rebond avec contrˆ ole actif . . . . 30

4.2.1 M´ ethode . . . . 30

4.2.2 Caract´ erisation . . . . 30

4.2.3 Conditions environnementales constantes au cours d’une mˆ eme simulation 32 4.2.4 Conditions environnementales variables au cours d’une mˆ eme simulation . 35 4.2.5 Synth` ese . . . . 37

Conclusion et perspectives 38

R´ ef´ erences 39

dumas-00636431, version 1 - 27 Oct 2011

(4)

Introduction

Les travaux r´ ealis´ es au Centre Europ´ een de R´ ealit´ e Virtuelle (CERV) abordent la notion de l’autonomie dans les syst` emes de r´ ealit´ e virtuelle (immersive ou non). Dans le cadre d’interactions entre agents, ou mieux, avec des humains, la probl´ ematique soulev´ ee est de savoir comment coupler les notions d’autonomie et d’interactivit´ e. L’utilisation d’approches dynamiques vise ` a l’obtention de plus de r´ ealisme dans la dynamique de l’interaction.

Nous d´ efinissons la dynamique de l’interaction par ce qui caract´ erise l’´ evolution des ´ echanges entre deux acteurs participant ` a une activit´ e commune. Ce type d’interaction fait apparaˆıtre des acc´ el´ erations, des ralentissements, et on observe l’´ emergence de comportements tels que le turn-taking, l’imitation ou encore la synchronisation.

L’objet de ce travail est d’´ evaluer la possibilit´ e d’utiliser des approches ` a base de syst` emes dynamiques issus de la psychologie cognitive ´ ecologique afin de doter des entit´ es autonomes d’un meilleur r´ ealisme dans la dynamique de leurs interactions. L’id´ ee de ce type d’approche est d’effectuer un couplage entre les syst` emes dynamiques en jeu afin de donner lieu ` a une ´ emergence de comportement, permettant l’obtention de comportements modulables et adaptatifs.

L’utilisation d’une telle approche doit ` a terme permettre de renforcer les interactions entre agents en environnement virtuel. Dans un premier temps toutefois, il est n´ ecessaire de mettre en œuvre une ´ etude de cas n’implicant pas n´ ecessairement plusieurs agents afin d’´ evaluer les r´ esultats obtenus par cette approche. Le cas d’´ etude que nous avons trait´ e dans le cas pr´ esent est une tˆ ache consistant ` a faire rebondir une balle sur une raquette ; on se place donc dans un cadre d’interactions agent/environnement.

La partie 1 dresse un ´ etat de l’art des agents interactifs virtuels ou robotis´ es. Les limitations d’ approches ` a base de r` egles ou de raisonnement m` enent ` a l’introduction de la dynamique du comportement telle qu’´ etudi´ ee en psychologie cognitive ´ ecologique ` a travers l’approche de Warren (2006). Son approche, bas´ ee sur le couplage de syst` emes dynamiques autonomes doit donner lieu ` a l’observation d’´ emergence de comportement telle que nous l’avons d´ efinie ` a travers la dynamique de l’interaction.

La partie 2 pr´ esente une ´ etude de cas permettant la mise en œuvre de l’approche de War- ren (2006) : La tˆ ache du cas d’´ etude consiste ` a faire rebondir une balle sur une raquettede mani` ere rythmique . Le choix d’un cas d’´ etude est indispensable pour ´ evaluer la possibilit´ e de faire ´ emerger des comportements par des syst` emes dynamiques puisqu’il faut d´ eterminer les informations n´ ecessaires au couplage des syst` emes utilis´ es dans la tˆ ache.

La partie 3 concerne la mod´ elisation de cette tˆ ache en environnement virtuel. Un premier point concerne la descriptions des syst` emes dynamiques utilis´ es pour la tˆ ache et un second point traite du couplage de ces syst` emes dans l’environnement.

La partie 4 pr´ esente les r´ esultats obtenus en simulation en environnement virtuel et propose une r´ eflexion sur les r´ esultats par rapport ` a la probl´ ematique du sujet.

dumas-00636431, version 1 - 27 Oct 2011

(5)

Etat de l’art ´

1.1 Contexte

Les humano¨ıdes peuplant les environnements virtuels b´ en´ eficient aujourd’hui d’animations gestuelles de qualit´ e. L’av` enement des dispositifs tels que les Wiimotes ou Kinect offrent ` a leurs utilisateurs la possibilit´ e d’une plus grande interaction avec les personnages virtuels, et ces derniers trouvent leur place dans de nombreux domaines tels que les jeux vid´ eos, l’´ education, la simulation ou encore les arts.

Il convient donc d’accroˆıtre et d’am´ eliorer les interactions en d´ eveloppant le r´ ealisme et l’au- tonomie comportementale des humano¨ıdes virtuels : c’est sur ce point que portera le stage. Plus pr´ ecis´ ement, nous aborderons l’autonomie sous l’angle de la capacit´ e ` a maintenir une dynamique des interactions entre plusieurs entit´ es virtuelles, mais ´ egalement entre une entit´ e virtuelle et un humain. Dans un tel cas, les approches ` a base de sc´ enarios ou de langages script´ es sont difficilement utilisables car synth´ etiser des interactions dynamiques implique l’introduction de propri´ et´ es telles que l’adaptativit´ e, l’anticipation et la prise de d´ ecision en temps r´ eel.

La capacit´ e de prise de d´ ecision suivant les intentions et l’environnement est intrins` eque ` a l’humain. Il est toutefois difficile, dans un monde virtuel, de g´ erer la complexit´ e d’une inter- action humaine et sa mod´ elistion peut ˆ etre l’objet de diff´ erentes propositions. Des approches visent ` a pourvoir les humano¨ıdes virtuels d’une autonomie comportementale pouss´ ee, ` a l’aide d’ architectures en couches g´ erant chacune un niveau diff´ erent (perception–d´ ecision–action). On peut citer par exemple des architectures pour la coordination de mouvement (Multon et coll., 2001, Turvey et coll., 1991) o` u les PaT-Nets (Badler et Webber, 1995).

D’une mani` ere g´ en´ erale, en simulation de comportement, on trouve trois niveaux : la cogni- tion, repr´ esent´ ee par les architectures cognitives telles que Soar, ACT-R ; la dynamique de l’inter- action avec par exemple les architectures pour la coordination de mouvement cit´ ees pr´ ec´ edemment ; la gestuelle avec des techniques comme la cin´ ematique ou la capture de mouvement. La figure 1.1 illustre ces trois niveaux.

La dynamique de l’interaction constitue le cadre dans lequel le pr´ esent travail se situe. Dans ce contexte, les architectures cognitives sont peu interactives car elles sont bas´ ees sur du raison- nement et sont assez lentes (donc peu adapt´ ees ` a la r´ eactivit´ e). Toutefois, dans le domaine des agents conversationnels anim´ es, SAIBA fait figure d’exception car de r´ ecents travaux visent ` a rendre possible la g´ en´ eration de comportements r´ eactifs dans cette architecture (section 1.2.1).

Les techniques pour la gestuelle concernent quant ` a elles le r´ ealisme des gestes des agents virtuels.

Le domaine de la psychologie cognitive a mis en avant un certain nombre d’approches pour la mod´ elisation du comportement humain, que l’on peut s´ eparer en deux familles principales :

1. Les approches bas´ ees mod` eles ;

2. Les approches non-repr´ esentationnelles.

dumas-00636431, version 1 - 27 Oct 2011

(6)

Etat de l’art ´ 1.1 Contexte

Cognition

Dynamique de l'interaction

Gestuelle

Inférence Règles Probabilités

Planification dynamique Automates parallèles

Couplage d'oscillateurs (robotique)

Cinématique directe/inverse Contrôle dynamique

Capture de mouvement

Figure 1.1 – Diff´ erents niveaux de mod´ elisation en simulation de comportement et repr´ esentation de ces niveaux par des techniques existantes.

Approches bas´ ees mod` eles Il existe des approches dans lesquelles les mouvements sont mod´ elis´ es comme des plans moteurs d´ ecrivant une s´ equence de commandes musculaires (Keele, 1968). Cependant, les aspects environnementaux n’y sont que tr` es peu pris en compte : au mieux, la notion de perception y est utilis´ ee pour traiter une entr´ ee telle que la position d’une cible ` a atteindre. Dans l’ensemble, il n’y a pas d’approche agent-environnement dans ce type de mod` ele.

Des approches orient´ ees

contrˆ ole optimal

existent ´ egalement (Todorov et Jordan, 2002).

Le but de ces approches est de minimiser une fonction objectif ou une fonction de coˆ ut satisfaisant des contraintes donn´ ees. Les trajectoires des mouvements sont ainsi issues de la fonction objectif.

Les travaux dans ce type d’approche se focalisent principalement sur la nature de la fonction objectif, comme par exemple la minimisation des tressaillements.

Approches non-repr´ esentationnelles Les approches non-repr´ esentationnelles mettent quant

`

a elles en avant la dynamique pour d´ ecrire le monde, le corps et le couplage sensori-moteur im- pliqu´ e dans la coordination. Plusieurs approches existent ; parmi elles on peut citer l’approche

perception-action ´ ecologique

propos´ ee par Gibson (1986) : l’information per¸ cue dicte le com- portement, et il faut alors d´ eterminer la quantit´ e d’informations n´ ecessaires ` a la g´ en´ eration de comportements aux allures naturelles.

Dans le domaine de l’intelligence artificielle, l’approche par vision active de Ballard (1991) propose par exemple d’exploiter les caract´ eristiques des images per¸ cues, comme les limites d’une route dans le cas du contrˆ ole d’un v´ ehicule.

La robotique bas´ ee sur le comportement initi´ ee par Brooks (1991) propose quant ` a elle de doter un agent de routines comportementales ´ el´ ementaires, mais ces syst` emes sont purement r´ eactifs et disposent d’un panel de comportements limit´ e.

Des chercheurs proposent d´ esormais des mod` eles dynamiques (Warren, 2006). Afin de comprendre comment les motifs comportementaux sont g´ en´ er´ es de fa¸ con harmonis´ ee avec l’en- vironnement, deux points sont pris en compte :

– la coordination de l’action ;

dumas-00636431, version 1 - 27 Oct 2011

(7)

– la perception de l’environnement.

Les perceptions et les actions sont mod´ elis´ ees par des syst` emes dynamiques en int´ eraction ; les comportements sont alors modulables et ´ emergent de l’interaction entre l’agent et son environnement.

Le but de ce stage est d’´ evaluer la possibilit´ e d’utiliser ces approches, et en particulier celle de Warren (2006) afin d’am´ eliorer les interactions avec des humano¨ıdes virtuels en donnant ` a ceux-ci une meilleure adaptabilit´ e ` a des perturbations pouvant avoir lieu dans leur environnement.

1.2 Agents interactifs temps r´ eel

Cette partie est consacr´ ee ` a l’introduction de m´ ethodes ayant pour but de renforcer les ca- pacit´ es d’interaction des humano¨ıdes virtuels. Dans un premier temps, nous pr´ esentons quelques techniques utilis´ ees en environnement virtuel pour l’interaction d’agents, puis dans un dernier temps, on quitte le monde virtuel pour la robotique en ´ etudiant l’´ emergence de synchronicit´ es entre deux robots grˆ ace ` a deux oscillateurs coupl´ es.

1.2.1 Interaction et adaptation chez les humano¨ıdes virtuels

La r´ ealisation de mod` eles permettant ` a un humano¨ıde virtuel de b´ en´ eficier d’autonomie et de capacit´ es d’interaction prend en compte les concepts de perception, de d´ ecision et d’action. Les mod` eles que nous allons pr´ esenter ici sont des architectures construites sur plusieurs niveaux.

Chacune d’entre elles reprend les concepts ci-dessus, mˆ eme s’ils ne sont pas n´ ecessairement aussi explicites. La figure 1.2 illustre le cycle de perception–d´ ecision–action.

Perception Action

Décision Agent

Environnement

Entrée Sortie

Figure 1.2 – Cycle de perception–d´ ecision–action. Les informations per¸ cues permettent ` a l’agent d’effectuer une prise de d´ ecision (en accord avec son but si l’agent est intentionnel) afin de r´ ealiser une action.

Perception : la perception est la prise d’information depuis l’environnement. Ces informations sont de nature sensorielle, comme des informations visuelles, haptiques. . .

D´ ecision : suivant les informations per¸ cues, l’agent doit d´ ecider de l’action ` a entreprendre.

Les agents intentionnels ne prendront pas leurs d´ ecisions seulement en fonction de leur perception de l’environnement, mais aussi en fonction de leurs intentions (buts ` a atteindre).

dumas-00636431, version 1 - 27 Oct 2011

(8)

Etat de l’art ´ 1.2 Agents interactifs temps r´ eel

Action : l’agent ex´ ecute l’action d´ etermin´ ee. Cette action peut modifier l’environnement.

La repr´ esentation du cycle de perception–d´ ecision–action n’est qu’une structure g´ en´ erale pour la r´ ealisation de personnages virtuels autonomes et interactifs. Cependant, l’´ etude de divers travaux a montr´ e l’omnipr´ esence de cette structure g´ en´ erale, bien qu’` a un grain plus fin, des diff´ erences significatives existent dans chaque architecture.

Etudes de cas ´

Coordination de mouvements Multon et coll. (2001) proposent une architecture bas´ ee sur la planification et des techniques d’intelligence artificielle pour la coordination de mouvements appliqu´ ee ` a un jongleur pouvant jongler avec un nombre dynamique de balles.

Le comportement du jongleur n’est pas bas´ e sur un but global mais sur une d´ ecomposition d’actions complexes en s´ equences d’actions ´ el´ ementaires. Ces actions ´ el´ ementaires sont d´ efinies sur un intervalle de temps pouvant ´ evoluer suite ` a des ´ ev´ enements externes. Dans le cas du jongleur, les actions ´ el´ ementaires sont :

– lancer une balle ; – attraper une balle.

Les actions ´ el´ ementaires sont compos´ ees de pr´ e/post conditions, mod´ elis´ ees par des pr´ edicats valant faux avant l’ex´ ecution de l’action et vrai apr` es.

Les bras sont des unit´ es motrices concurrentes ex´ ecutant les actions ´ el´ ementaires. Le choix de l’unit´ e motrice requise pour ex´ ecuter une action est effectu´ ee par un niveau de coordination : ce dernier d´ etermine, selon un taux d’occupation (sur un intervalle de temps) de l’unit´ e motrice, et un crit` ere de succ` es (distance au but de l’unit´ e motrice), quelle est l’unit´ e motrice la plus adapt´ ee ` a produire l’action.

Le mod` ele se compose donc des trois couches suivantes :

1. Haut-niveau : d´ ecomposition d’actions complexes en actions ´ el´ ementaires et s´ election de l’action ` a effectuer suivant l’´ etat du syst` eme ;

2. Niveau de coordination : suivant l’action ´ el´ ementaire renvoy´ ee par le haut-niveau, s´ election de l’unit´ e motrice requise pour ex´ ecuter l’action ;

3. Niveau des unit´ es motrices : ex´ ecution des actions ´ el´ ementaires fournies par le niveau de coordination.

Le syst` eme a ´ et´ e test´ e avec un nombre vari´ e de balles. Elles ne peuvent cependant pas ˆ etre introduites ` a tout moment dans la simulation sous peine de donner lieu ` a des ´ etranget´ es visuelles ou ` a des vitesses anormales des bras.

Parallel Transition Networks Badler et Webber (1995) proposent de mod´ eliser le compor- tement d’humano¨ıdes virtuels ` a l’aide de la planification et de PaT-Nets (Parallel Transition Networks). L’architecture est en fait compos´ ee de deux niveaux : la boucle SCA (Sense-Control- Action) correspond au bas niveau de l’architecture tandis que les Pat-Nets et la planification correspondent au haut niveau.

Sense : perception de l’environnement (objets, autres agents, topologie du terrain) ; Control : r´ eception des signaux sensoriels puis s´ election d’un type de contrˆ ole :

– attraction : cr´ eation d’un signal en direction du signal re¸ cu ;

– r´ epulsion : cr´ eation d’un signal dans la direction oppos´ ee du signal re¸ cu.

Action : ex´ ecution d’une action (marche, position des mains, etc) suivant le signal de contrˆ ole re¸ cu.

Un agent muni seulement d’une boucle SCA sera purement r´ eactif. La structure de contrˆ ole de plus haut niveau obtenue grˆ ace aux PaT-Nets et ` a la planification permet d’obtenir des agents d´ elib´ eratifs.

dumas-00636431, version 1 - 27 Oct 2011

(9)

Les PaT-Nets sont des automates parall` eles surveillant la boucle SCA et adaptent le com- portement de l’agent suivant ses buts et sa perception de l’environnement. Ils sont compos´ es d’´ etats repr´ esentant une action ` a r´ ealiser et de transitions permettant le passage d’un ´ etat ` a un autre.

La planification permet de pr´ evoir la prochaine action ` a r´ ealiser dans la r´ ealisation d’une tˆ ache. La planification d´ epend surtout de ce que l’on souhaite faire faire aux agents du syst` eme.

Un exemple de syst` eme ` a base de planification et de PaT-Nets est le syst` eme Gesture Jack (Cassell et coll., 1994). Ce syst` eme consiste en deux agents conversationnels : l’un ` a un but ` a atteindre tandis que l’autre doit l’aider ` a y parvenir. Ici le planificateur g` ere la g´ en´ eration des dialogues selon une base de faits contenant des informations sur le monde, les buts des agents, les croyances des agents (` a la fois qu’ils ont du monde et qu’ils ont l’un de l’autre). Les PaT-Nets sont utilis´ es pour la synchronisation du dialogue et de la gestuelle des agents (mains et regards).

Il y a dans le syst` eme deux types de PaT-Nets : un pour la gestuelle, l’autre pour le regard. Les mouvements sont alors pr´ evus selon le contexte.

Introduction de comportements r´ eactifs dans l’architecture SAIBA SAIBA (Bevac- qua et coll., 2009) est une architecture pour la g´ en´ eration de comportements, mod´ elis´ ee sur trois niveaux (figure 1.3).

Figure 1.3 – Architecture SAIBA (Bevacqua et coll., 2009)

Le planificateur d’intention d´ etermine les buts courant de l’agent, et les encode en FML (Function Markup Langage). Les intentions de l’agent sont ensuite pr´ evues par le planificateur de comportement qui les encode en BML (Behavior Markup Langage ) et qui seront r´ ealis´ ees par le module de r´ ealisation de comportement.

Estimant que FML seul ne pouvait rendre compte de toutes les interactions pouvant avoir lieu entre humains, les auteurs ont d´ ecid´ e de compl´ eter l’architecture afin de rendre possible des comportements r´ eactifs lors d’une interaction. Ces extensions font que SAIBA se situe mainte- nant ` a la limite du niveau cognitif et du niveau de la dynamique de l’interaction (voir figure 1.1).

Les modifications ont principalement lieu dans le module de planification de comportement : celui-ci comprend d´ esormais les trois sous-modules visibles sur la figure 1.4.

Le but de cette extension est de permettre aux agents de r´ eagir ` a de nouveaux ´ ev´ enements (pr´ evus ou non) survenant dans l’environnement. Lorsqu’un tel ´ ev´ enement survient, le module de comportement r´ eactif (Reactive behavior) va calculer une r´ eaction imm´ ediate. Le module de s´ election (Action selection) va soit s´ electionner l’action calcul´ ee par le module de comportement r´ eactif, soit s´ electionner l’action planifi´ ee pr´ ec´ edente. Le choix s’effectue grˆ ace ` a des priorit´ es sur chaque action, d´ etermin´ ees suivant les intentions de l’agent. Une replanification dynamique du comportement est possible par le module de repr´ esentation FML (FML chunked representation).

L’utilisation de morceaux de fichiers FML (FML chunk ) doit permettre au syst` eme de g´ en´ erer des comportements en temps r´ eel : un fichier FML trop important va engendrer des temps de

dumas-00636431, version 1 - 27 Oct 2011

(10)

Etat de l’art ´ 1.2 Agents interactifs temps r´ eel

Figure 1.4 – Extension de l’architecture SAIBA. Le module de planification de comportement est compos´ e de plusieurs sous-modules permettant de g´ en´ erer des comportements r´ eactifs.

r´ eponse plus long de la part de l’agent, ce qui est en contradiction avec la notion de comportement r´ eactif.

Les trois mod` eles pr´ esent´ es dans cette partie ont montr´ e l’introduction de dynamique de l’interaction dans des agents virtuels grˆ ace ` a diff´ erentes m´ ethodes. La question est de savoir s’il est possible pour des comportements d’´ emerger d’un syst` eme sans qu’il soit n´ ecessaire au pr´ ealable de les avoir explicit´ es (` a l’aide de pr´ edicats, de modules, etc). Ce point est l’objet du prochain paragraphe, traitant de l’´ emergence de synchronicit´ es chez des robots.

1.2.2 Emergence de synchronicit´ ´ es chez des robots

Le turn-taking est caract´ eristique de la communication entre humains. Ce ph´ enom` ene consiste en un ´ echange (de parole par exemple) entre deux personnes (ou plus) alternativement. Prepin et Revel (2007) exploitent cette caract´ eristique dans le domaine de la robotique. Leur mod` ele est bas´ e sur deux oscillateurs coupl´ es desquels va ´ emerger une synchronisation entre les agents : la provoquation de synchronisation chez les robots revient ` a faire en sorte d’une part que chaque robot soit sensible au comportement de l’autre et d’autre part qu’il puisse influencer l’autre robot par son propre comportement.

Bien qu’appartenant au domaine de la robotique, ce mod` ele et ses r´ esultats se rapprochent le plus de la probl´ ematique soulev´ ee dans le cadre de ce travail, ` a savoir l’´ emergence de compor- tement adaptatif ` a l’aide de syst` emes dynamiques.

Le syst` eme est constitu´ e de deux robots. Chacun d’entre eux est ´ equip´ e d’un bras avec une articulation (une ´ epaule). Un bras est pilot´ e par un oscillateur constitu´ e de trois neurones ayant la capacit´ e de s’inhiber. Lorsque l’oscillateur est

haut

, il provoque un mouvement du bras.

S’il est

bas

, le bras s’immobilise.

Si une perturbation survient dans l’oscillateur, celui-ci va conserver la phase induite par la perturbation et sa fr´ equence revient ` a la fr´ equence d’origine ` a l’arrˆ et de la perturbation (figure 1.5).

Les robots sont ´ egalement munis d’une cam´ era, chacun voyant l’autre. De cette mani` ere, si l’un voit que l’autre est en mouvement, il va inhiber sont propre oscillateur : il se produira ainsi des alternances de mouvements et de p´ eriodes d’attente.

dumas-00636431, version 1 - 27 Oct 2011

(11)

Figure 1.5 – Perturbation d’un oscillateur : la phase induite par la perturbation est conserv´ ee et la fr´ equence d’origine est retrouv´ ee ` a l’arrˆ et de la perturbation.

La cam´ era est donc le module de perception du robot : si un mouvement est per¸ cu, un signal d’inhibition est envoy´ e ` a l’oscillateur et l’activit´ e du bras cesse. L’activation motrice est quant

`

a elle r´ esultante de l’activation de l’oscillateur.

La figure 1.6 illustre l’´ emergence du turn-taking au sein du syst` eme : apr` es une phase d’amorce, les deux robots se stabilisent dans une anti-synchronisation.

Figure 1.6 – Stabilisation du syst` eme : lorsque les oscillateurs s’activent, les robots commencent par bouger ensemble puis les oscillateurs s’anti-synchronisent apr` es un certain temps.

Cet exemple montre un usage de syst` eme dynamique appliqu´ e ` a l’interaction entre deux agents. Chaque agent a la capacit´ e d’influencer l’autre et les oscillateurs sont sensibles aux perturbations pouvant survenir dans l’environnement.

La section suivante porte sur la mod´ elisation comportementale dans les sciences cognitives, et en particulier sur le mod` ele propos´ e par Warren (2006), bas´ e sur les syt` emes dynamiques.

1.3 Dynamique du comportement en psychologie cognitive

Le domaine de la psychologie cognitive a mis en avant un certain nombre d’approches pour mod´ eliser les comportements, comme vu dans la section 1.1. Le mod` ele propos´ e par Warren

dumas-00636431, version 1 - 27 Oct 2011

(12)

Etat de l’art ´ 1.3 Dynamique du comportement en psychologie cognitive

(2006) est bas´ e sur les syst` emes dynamiques et met en avant la notion de perception et d’action dans le cadre des interactions agent–environnement. Apr` es une introduction aux syst` emes dy- namiques, le mod` ele de Warren est pr´ esent´ e. Nous verrons ´ egalement comment l’´ emergence de comportement a lieu avec un tel mod` ele, et quelles sont les limites de cette approche.

1.3.1 Introduction aux syst` emes dynamiques

Les syst` emes dynamiques permettent de d´ ecrire l’´ evolution d’un syst` eme au cours du temps.

Les quelques d´ efinitions suivantes introduisent des notions n´ ecessaires ` a la compr´ ehension de ces syst` emes :

D´ efinition 1 Les variables d’´ etat sont un ensemble de variables d´ ecrivant un syst` eme dyna- mique.

D´ efinition 2 Une loi dynamique d´ ecrit l’´ evolution des variables d’´ etat (et donc du syst` eme) au cours du temps. La loi dynamique d’un syst` eme est donn´ e par un ensemble d’´ equations diff´ erentielles.

D´ efinition 3 L’ espace d’´ etats est l’ensemble de toutes les valeurs possibles des variables d’´ etat.

Le comportement du syst` eme correspond aux changements des variables d’´ etats et il peut ˆ etre repr´ esent´ e par des trajectoires dans l’espace d’´ etats.

D´ efinition 4 Attracteurs, r´ epulseurs et bifurcation :

– Un attracteur est une location dans l’espace d’´ etats vers laquelle les trajectoires convergent.

Si l’´ etat d’un syst` eme est perturb´ e, pour peu que la distance de l’attracteur soit suffisam- ment petite, la loi dynamique permet de ramener l’´ etat ` a l’attracteur.

– Un r´ epulseur est une location dans l’espace d’´ etats de laquelle les trajectoires divergent. En cas de perturbation dans le syst` eme, mˆ eme si celle-ci n’a ´ eloign´ e l’´ etat que d’une distance infinit´ esimale du r´ epulseur, la loi dynamique l’en ´ eloignera.

– Une bifurcation est un changement dans le nombre ou la stabilit´ e des attracteurs et des r´ epulseurs.

D´ efinition 5 Un param` etre est un terme changeant sur une ´ echelle de temps plus longue que les variables d’´ etat.

1.3.2 Dynamique comportementale (Warren, 2006)

L’approche propos´ ee par Warren (2006), la dynamique comportementale, est une approche dirig´ ee vers le but et est bas´ ee sur l’utilisation des syst` emes dynamiques avec le postulat suivant : dans le syst` eme dynamique, les solutions comportementales stables (autrement dit le but ` a atteindre) sont les attracteurs et les transitions entre comportements sont des bifurcations. Le syst` eme global est compos´ e de deux syst` emes dynamiques coupl´ es : l’agent et l’environnement.

Environnement L’´ equation suivante caract´ erise le syst` eme dynamique correspondant ` a l’en- vironnement :

˙

e = Φ(e, f )

O` u e est un vecteur de variables d’´ etat de l’environnement, f un vecteur de forces ext´ erieures. Φ sont les lois de la physique gouvernant l’environnement. Un changement dans l’environnement correspond ` a une fonction de son ´ etat courant en fonction des forces ext´ erieures agissant sur lui.

dumas-00636431, version 1 - 27 Oct 2011

(13)

Agent L’agent est quant ` a lui caract´ eris´ e par l’´ equation :

˙

a = Ψ(a, i)

O` u a est un vecteur de variables d’´ etats de l’agent qui d´ ecrit l’´ etat courant du syst` eme d’action et i est un vecteur de variables informationnelles. La loi dynamique (ou loi de contrˆ ole) de l’agent est donn´ ee par Ψ . On d´ efinit une action par une fonction de l’´ etat courant du syst` eme d’action avec des variables informationnelles (c’est-` a-dire l’action ` a effectuer suivant les informations per¸ cues de l’environnement).

Couplage de l’agent et de l’environnement Deux fonctions sont utilis´ ees pour coupler les deux syst` emes dynamiques correspondant ` a l’agent et ` a l’environnement. La premi` ere, la fonction effecteur, transforme le vecteur de variables d’action en activations musculaires produisant des forces dans l’environnement. La fonction effecteur est d´ efinie comme suit :

f = β(a)

La seconde fonction utilis´ ee pour le couplage est la fonction d’information qui transforme les propri´ et´ es du syst` eme agent-environnement en des variables informationnelles :

i = λ(e)

Le syst` eme dans sa globalit´ e (c’est-` a-dire les deux syst` emes agent et environnement ainsi que leur couplage) est repr´ esent´ e sur la figure 1.7.

La dynamique de la perception et de l’action se voit comme un cycle : l’agent per¸ coit des infor- mations de l’environnement. Ces informations peuvent ˆ etre optiques, acoustiques, haptiques. . . L’agent va ensuite effectuer une action et les changements dans les variables du syst` eme d’action sont susceptibles d’induire des changements dans les variables informationnelles de l’environne- ment ; il faut donc mettre ` a jour l’´ etat courant du syst` eme agent-environnement.

Environnement Agent

e ˙ =ϕ e , f  a=Ψ ˙ a ,i

information

i= λ e

action

f = β a 

Figure 1.7 – Dynamique de la perception et de l’action

La dynamique comportementale du syst` eme est alors d´ efinie, ` a un plus haut niveau, par l’´ equation suivante :

˙

x = Ω(x, s)

O` u x est un vecteur de variables d’´ etat du comportement et s un vecteur de param` etres du syst` eme. De cette mani` ere, les buts correspondent ` a des attracteurs dans l’espace d’´ etat. Du fait des interactions entre l’agent et l’environnement, les emplacements des attracteurs et des r´ epulseurs dans l’espace d’´ etat peuvent ˆ etre sujet ` a des modifications. Les bifurcations de l’agents peuvent alors permettre de nouveaux comportements.

dumas-00636431, version 1 - 27 Oct 2011

(14)

Etat de l’art ´ 1.3 Dynamique du comportement en psychologie cognitive

Emergence de comportements ´

L’usage de syst` emes dynamiques permet l’´ emergence de comportements r´ esultants du cou- plage entre l’agent et l’environnement. L’interaction de ces deux composants cr´ ee un champ de vecteurs dont les attracteurs correspondent ` a des solutions stables de la tˆ ache. L’

explora- tion

du champ de vecteurs (autrement dit la recherche d’une solution) par l’agent lui permet de percevoir le r´ esultat de ces actions, conduisant ainsi ` a un retour permettant d’affiner la recherche d’un comportement stable.

Warren ´ evoque trois niveaux auxquels la dynamicit´ e d’une tˆ ache doit ˆ etre envisag´ ee : – La dynamique du graphe correspondant aux relations fonctionnelles dans les composants

du syst` eme et d´ eterminant un r´ egime dynamique (autrement dit la fonction d´ efinissant le syst` eme dynamique).

– La dynamique des param` etres correspondant aux changements dans les param` etres de cette fonction : les attracteurs peuvent alors changer de place dans l’espace ou encore faire faire une bifurcation au syst` eme.

– La dynamique d’´ etat correspondant ` a l’´ evolution du syst` eme depuis ces conditions initiales jusqu’` a un attracteur.

L’apprentissage d’un comportement par un agent passe par l’obtention d’un r´ egime dyna- mique qui d´ epend du but ` a atteindre. Par exemple, lors d’une tˆ ache consistant ` a faire rebondir une balle sur une raquette, le r´ egime dynamique correspond ` a un r´ egime oscillatoire qui est atteint par l’agent grˆ ace aux contraintes physiques de la tˆ ache.

La modification des param` etres (tel que la hauteur du rebond) du syst` eme permet de faire

´

evoluer ce dernier afin d’en d´ ecouvrir les ´ etats stables et instables. L’agent proc` ede donc ` a l’ex- ploration d’espaces de variables de contrˆ ole et d’information lui permettant ainsi de d´ eterminer la loi dynamique de la tˆ ache :

1. L’obtention d’un r´ egime dynamique limite la dimensionnalit´ e de l’espace des variables de contrˆ ole, permettant ainsi ` a l’agent d’identifier rapidement les variables utiles (c’est-` a-dire les variables dont les changements sont imm´ ediatement r´ epercut´ es sur la stabilit´ e de la tˆ ache). Un exemple de variable de contrˆ ole est la phase oscillatoire de la raquette.

2. La dimension de l’espace des variables informationelles est limit´ ee par les contraintes im- pos´ ees par la tˆ ache. Une telle variable est par exemple la trajectoire de la balle dans le cas du rebond de balle.

L’´ emergence de comportement est donc r´ ealis´ ee par l’exploration des espaces de variables de contrˆ ole et d’information, dont les dimensions sont r´ eduites du fait de la sp´ ecificit´ e de la tˆ ache

`

a accomplir. De plus, la perception de la stabilit´ e ou de l’instabilit´ e dans le champ de vecteur permet l’´ etablissement de la loi dynamique de la tˆ ache.

Mod´ eliser le comportement avec cette approche requiert d’identifier avec soin les variables utiles pour l’ex´ ecution d’une tˆ ache, de d´ eduire les ´ equations du syst` eme, mais rencontre aussi des limites en termes de but et d’informations disponibles : Warren a ´ etudi´ e ces limitations et

´

emis des hypoth` eses pour chacune d’elles.

1.3.3 Limitations de la dynamique comportementale

S´ equences d’actions La r´ ealisation d’une tˆ ache passe souvent par la r´ ealisation de s´ equences d’actions (sous-tˆ aches). Warren illustre bien ce probl` eme avec une tˆ ache pourtant tr` es simple : faire un sandwich au beurre de cacahu` ete : il faut rassembler les ingr´ edients, disposer une tranche de pain, ouvrir le pot, etc. De plus, ces actions peuvent ˆ etre li´ ees entre elles par des d´ ependances (ouvrir le pot avant de pouvoir se servir).

De tels comportements seraient hi´ erarchis´ es par une repr´ esentation interne pr´ e-existante de la s´ equence d’actions. Mais la variabilit´ e observ´ ee par les psychologues peut ´ egalement laisser penser que les s´ equences sont r´ ealis´ ees dynamiquement lors de la tˆ ache.

Une approche propos´ ee par Keijzer (1998) est l’´ etude des changements des r´ egimes dyna- miques au cours du temps. Pour cela, l’utilisation de syst` emes dynamiques multi-´ echelles coupl´ es

dumas-00636431, version 1 - 27 Oct 2011

(15)

permettent de mod´ eliser des interactions entre agent et environnement se d´ eroulant sur plu- sieurs ´ echelles de temps. Coupl´ es ` a des r´ eseaux de neurones, les syst` emes sur une courte ´ echelle de temps sont ensuite coupl´ es ` a des syst` emes dont l’´ echelle est plus grande. Le comportement global modifie les r´ eseaux de neurones afin de permettre un apprentissage.

Toutefois, les comportements s´ equentiels restent encore ` a ´ etudier et une piste int´ eressante pour poursuivre dans cette voie serait l’utilisation de r´ eseaux de neurones r´ ecurrents.

Comportements anticipatifs Warren d´ efinit les comportements anticipatifs comme ´ etant des actions ne d´ ependant pas seulement des informations actuelles, mais ´ egalement d’un but

distant

. Aussi, on retrouve dans ce cas de figure la notion de multi-´ echelles propos´ ee par Keijzer. Il faut parvenir ` a faire ´ emerger une trajectoire ` a long terme dans l’espace d’´ etat ` a partir des interactions agent/environnement ` a court terme.

Les param` etres de contrˆ ole de la dynamique ` a court terme permettent d’aller vers des tra- jectoires ` a plus long terme, et ` a l’inverse, la dynamique ` a long terme permet de modifier les interactions ` a court terme grˆ ace ` a la disponibilit´ e de nouvelles informations par exemple.

Comportements pr´ edictifs Le comportement pr´ edictif est lui d´ efinit par des actions d´ ependant de propri´ et´ es cach´ ees de l’environnement, telles que la masse d’un objet, sa fragilit´ e, etc. Dans ce cas, l’id´ ee est que l’agent doit avoir une repr´ esentation interne des objets comprenant ´ egalement leurs propri´ et´ es. L’agent utiliserait donc ces repr´ esentations internes avec d’autres informations disponibles (visuelles par exemple) afin de pr´ edire l’´ evolution des entit´ es avec lesquelles il inter- agit.

Une modification des propri´ et´ es d’un objet impliquerait une adaptation de l’agent. L’appren- tissage des liens entre un objet et ses propri´ et´ es cach´ ees doit se faire par l’exp´ erience pass´ ee de l’agent de fa¸ con ` a pouvoir les incorporer dans une loi dynamique par exemple.

De nouveau, il ressort donc des comportements pr´ edictif la notion d’interactions entre agent et environnement sur plusieurs ´ echelles.

Comportements strat´ egiques Le dernier type de comportement ´ etudi´ e par Warren est le comportement strat´ egique : lors de ses interactions avec l’environnement, l’agent peut ˆ etre amen´ e ` a prendre en compte l’historique de cet environnement ou encore des statistiques sur les ´ ev´ enements. L’apprentissage de ces faits est possible lors des interactions entre l’agent et l’environnement et, encore une fois, a une influence sur la dynamique ` a plusieurs ´ echelles.

dumas-00636431, version 1 - 27 Oct 2011

(16)

Etat de l’art ´ 1.4 Synth` ese

1.4 Synth` ese

Depuis plusieurs ann´ ees, des mod` eles ont ´ et´ e ´ elabor´ es afin de r´ epondre aux probl´ ematiques de l’interaction d’agents virtuels autonomes. Bˆ aties sur la boucle de perception–d´ ecision–action, ces mod` eles explorent diff´ erentes voies pour d´ evelopper la cr´ edibilit´ e des interactions, comme l’utilisation de pr´ ecicats (Multon et coll., 2001) ou les automates parall` eles (Badler et Webber, 1995). Ces mod` eles utilisent des couches, des symboles, de la planification ; cependant ils ne se focalisent pas en priorit´ e sur la dynamique ´ emergeant de l’interaction.

En revanche, cette ´ emergence apparaˆıt dans le domaine de la robotique : l’approche uti- lis´ ee par Prepin et Revel (2007) a montr´ e que le couplage de syst` emes dynamiques (ici deux oscillateurs) permet l’´ emergence d’une interaction entre les deux agents du syst` eme. Ce syst` eme n’a pas n´ ecessit´ e l’utilisation de couches pour g´ erer les comportements des agents, et n’est pas non plus bas´ e sur la planification d’actions : la dynamique de l’interaction ´ emerge sans que les comportements aient ´ et´ e explicit´ es, mˆ eme dynamiquement.

En psychologie cognitive, une hypoth` ese concernant les interactions agent/environnement est que l’humain est adaptatif et utilise les propri´ et´ es de stabilit´ e de la tˆ ache dans sa recherche d’efficacit´ e. La r´ ealisation d’une tˆ ache sp´ ecifique n´ ecessite l’identification des variables essentielles du syst` eme pour atteindre une solution stable. Une telle tˆ ache doit donc avoir fait l’objet d’´ etudes en psychologie cognitive pour que nous puissions la mod´ eliser dans un environnement virtuel.

Nous avons choisi de porter notre mod´ elisation sur la tˆ ache consistant ` a faire rebondir une balle sur une raquette de mani` ere rhytmique. Bien que cette tˆ ache n’implique la pr´ esence que d’un agent dans l’environnement, elle a fait l’objet de nombreuses ´ etudes et est donc adapt´ ee ` a une mod´ elisation en environnement virtuel permettant l’´ evaluation de l’approche par couplage de syst` emes dynamique dans l’optique de renforcer le r´ ealisme des interactions entre agents.

dumas-00636431, version 1 - 27 Oct 2011

(17)

Cas d’´ etude : le rebond de balle

Cette partie donne la description des syst` emes en jeu dans le cas du rebond de balle ainsi que les clefs pour r´ ealiser le couplage entres ces syst` emes.

2.1 G´ en´ eralit´ es

Faire rebondir une balle sur une raquette dans une dimension (verticale) est un cas d’´ etude simple pour appr´ ehender la dynamique comportementale et est bas´ e sur le cycle de perception- action suivant : la force appliqu´ ee par la raquette sur la balle influe sur l’´ etat de l’environnement (la balle en particulier). Cela g´ en` ere des perturbations donnant lieu ` a de nouvelles informations sur la trajectoire de la balle. Ainsi, une modification de la force appliqu´ ee par la raquette permet de modifier la dynamique de la balle, et en retour le cycle de la raquette. On retrouve bien ici le cycle de perception/action explicit´ e par Warren (2006) et illustr´ e sur la figure 1.7 page 10.

Les ´ etudes de psychologie cognitive ´ ecologique ont pour objet de comprendre comment un acteur r´ ealisant cette tˆ ache exploite les contraintes de l’environnement afin de r´ ealiser ladite tˆ ache ; ces contraintes peuvent ˆ etre physiques ou encore informationnelles et doivent permettre

`

a l’acteur de se stabiliser dans un rebond stable, c’est-` a-dire de frapper rhytmiquement la balle de fa¸ con ` a ce que la hauteur de celle-ci soit stable.

Il existe deux types majeurs de contrˆ ole : l’un est passif, autrement dit le syst` eme peut se trouver dans un ´ etat stable sans qu’il soit n´ ecessaire de percevoir les informations de l’environ- nement. L’autre est actif : dans ce cas, l’analyse cognitive des informations per¸ cues permet de mener le syst` eme dans un ´ etat stable.

Rebond passivement stable Schaal et coll. (1996) ont montr´ e que le rebond de balle peut ˆ

etre passivement stable, c’est-` a-dire que le rebond a lieu ind´ efiniment et peut compenser de petites perturbations pouvant parvenir dans le syst` eme sans contrˆ ole actif de la raquette. Ces perturbations peuvent ˆ etre de diff´ erentes natures, comme la modification de l’acc´ el´ eration de la pesanteur, obtenue grˆ ace ` a un syst` eme de r´ ealit´ e virtuelle.

L’analyse du syst` eme de rebond de balle a permis de d´ eterminer sous quelle contrainte physique on peut qualifier le rebond de passivement stable : l’impact doit avoir lieu dans le dernier quart du cycle de la raquette (figure 2.1 p. 16), phase φ r pendant laquelle l’accel´ eration de la raquette a r est n´ egative. En particulier, on a :

−2g(1 + α 2 )

(1 + α) 2 < a r < 0 (2.1)

O` u g est l’acc´ el´ eration de la pesanteur et α ∈ [0; 1] est le coefficient de restitution, caract´ erisant l’´ elasticit´ e de l’impact (autrement dit la perte d’´ energie au moment de l’impact).

dumas-00636431, version 1 - 27 Oct 2011

(18)

Cas d’´ etude : le rebond de balle 2.2 Modes de contrˆ ole

La capacit´ e ` a maintenir un rebond stable sans contrˆ ole actif d´ epend tr` es fortement des valeurs initiales des param` etres du syst` eme : le coefficient de restitution, la gravit´ e, la p´ eriode et l’amplitude de la raquette, la position et la vitesse de la balle.

Les notions de rebond passif et actif ne sont pas exclusives l’une par rapport ` a l’autre. En effet, selon Sternad et coll. (2001), les acteurs exploitent cette stabilit´ e passive afin de r´ ealiser la tˆ ache, mais ils stabilisent ´ egalement activement le rebond grˆ ace aux informations per¸ cues depuis l’environnement (Morice et coll., 2007).

Contrˆ ole perceptuel Les informations per¸ cues depuis l’environnement peuvent ˆ etre de nature visuelle (trajectoire de la balle), haptique (moment et force de l’impact courant) et acoustique (moment et force de l’impact ´ egalement). Les variables essentielles sont exploit´ ees par les acteurs dans leur recherche de stabilit´ e. La question est de savoir, parmi les informations cit´ ees, quelles sont celles consid´ er´ ees comme essentielles car permettant de stabiliser le rebond.

Cycles de la balle et de la raquette La figure 2.1 p.16 illustre les cycles respectifs de la balle et de la raquette.

Le cycle de la balle est caract´ eris´ ee par sa p´ eriode, mesur´ ee comme ´ etant le temps entre deux impacts successifs. Les informations concernant la balle sont sa vitesse initiale (mesur´ ee imm´ ediatement apr` es l’impact), la hauteur maximale du rebond h b . L’erreur au rebond est calcul´ ee comme ´ etant la diff´ erence entre h b et la hauteur cible ` a atteindre h t . Les variables t up et t down repr´ esentent respectivement la demi-p´ eriode ascendante et la demi-p´ eriode descendante de la balle.

La trajectoire de la raquette est repr´ esent´ e par des oscillations harmoniques. Son cycle est caract´ eris´ e par sa p´ eriode P r , mesur´ ee comme ´ etant le temps s’´ ecoulant entre deux positions de hauteur maximale successives. L’amplitude correspond ` a la distance s´ eparant les positions maximale et minimale de la raquette. Le cycle de la raquette peut ˆ etre d´ ecoup´ e en quatre quartiers correspondant ` a des phases d’acc´ el´ eration et de d´ ec´ el´ eration ; φ r est la phase de la raquette au moment de l’impact.

2.2 Modes de contrˆ ole

Si de nombreuses ´ etudes ont port´ es sur le rebond de balle, et notamment sur les crit` eres permettant de d´ eterminer comment est d´ efinie la stabilit´ e passive, peu d’´ etudes proposent des hypoth` eses concernant le contrˆ ole de la raquette entre deux impacts.

Bien que la tˆ ache du rebond de balle soit r´ ealisable en r´ egime passivement stable, il est

´

egalement possible d’inclure dans un mod` ele un contrˆ ole perceptuel. Le syst` eme, d´ ej` a pertur- bable en r´ egime passivement stable, doit permettre d’offrir une robustesse accrue face aux per- turbations pouvant survenir dans l’environnement.

Siegler et coll. (2010) ont avanc´ e l’existence de quatres modes de contrˆ oles. Le premier est le contrˆ ole purement passif. Dans ce cas, aucun contrˆ ole n’est exerc´ e sur la raquette pour compenser sa trajectoire ; seules de petites perturbations peuvent ˆ etre compens´ ees.

Le contrˆ ole purement actif est un mode dans lequel un contrˆ ole est exerc´ e ` a chaque cycle mais dans lequel la propri´ et´ e de stabilit´ e passive du syst` eme n’est pas prise en compte. On peut citer l’algorithme miroir de Buehler et coll. (1994) qui calque la vitesse de la raquette sur celle de la balle : les impacts ont dans ce cas lieu avec une acc´ el´ eration positive.

Le contrˆ ole hybride prend en compte la propri´ et´ e de stabilit´ e passive de la tˆ ache : les petites perturbations sont compens´ ees grˆ ace ` a cette propri´ et´ e et les perturbations plus grandes sont compens´ ees activement. De Rugy et coll. (2003) ont utilis´ e ce mode de contrˆ ole dans leur mod` ele : le rebond devant avoir lieu ` a une hauteur constante, pass´ e un certain seuil d’erreur, la p´ eriode de la raquette est r´ e-ajust´ ee suivant la p´ eriode de la balle afin de compenser les perturbations de l’environnement (dans ce cas, des modifications du coefficient de restitution).

dumas-00636431, version 1 - 27 Oct 2011

(19)

t up t down

h bh t

T b P r

Cycle

raquette Cycle

balle

r

1 /4

2/ 4 3 /4

4 /4 A r

Figure 2.1 – Cycle balle/raquette.

Enfin, le dernier mode de contrˆ ole est le contrˆ ole mixte. Dans ce cas ´ egalement, la propri´ et´ e de stabilit´ e passive de la tˆ ache est prise en compte. Un contrˆ ole perceptuel est exerc´ e ` a chaque cycle, ayant pour effet non seulement de compenser les perturbations de l’environnement, mais aussi de maintenir/ramener le syst` eme dans son ´ etat passivement stable.

Selon Siegler et coll. (2010), le contrˆ ole mixte est utilis´ e par les acteurs lors de la r´ ealisation de la tˆ ache. Ce mode de contrˆ ole doit permettre de r´ eduire les ajustements ainsi que le temps de relaxation du syst` eme, menant ainsi ` a une plus grande stabilit´ e par rapport aux autres modes de contrˆ oles.

2.2.1 Contrˆ ole actif de la raquette

Dans le cadre de l’approche de la dynamique de la perception et de l’action mise en avant par Warren (2006), la mise en place d’un contrˆ ole actif dans un mod` ele informatique revient ` a r´ ealiser un couplage entre les syst` emes repr´ esentant respectivement l’agent et son environnement. Le couplage de ces deux syst` emes est r´ ealis´ e par le couplage les variables propres ` a chaque syst` eme, bas´ e sur les observations r´ ealis´ ees en psychologie cognitive ´ ecologique sur une tˆ ache donn´ ee – en l’occurence faire rebondir une balle sur une raquette.

Le couplage r´ ealis´ e donne lieu ` a un contrˆ ole actif mixte, duquel on doit voir ´ emerger la propri´ et´ e de stabilit´ e passive de la tˆ ache r´ ealis´ ee, c’est-` a-dire une acc´ el´ eration ` a l’impact n´ egative, dont la valeur se situe dans l’intervalle pr´ esent´ e ` a la relation (2.1).

Un certain nombre de variables sont suceptibles d’ˆ etre extraites de l’environnement. Il convient de distinguer les variables essentielles de celles qui ne le sont pas, c’est ` a dire les variables effec- tivement utilis´ ees par un acteur r´ ealisant cette tˆ ache.

Informations disponibles depuis l’environnement L’´ etude de Siegler et coll. (2010) a pour objet de d´ eterminer quelles sont les informations perceptuelles utilis´ ees par les acteurs

dumas-00636431, version 1 - 27 Oct 2011

(20)

Cas d’´ etude : le rebond de balle 2.3 Le syst` eme balle/raquette

r´ ealisant cette tˆ ache. Trois types d’informations sont susceptibles d’ˆ etre utilis´ ees : visuelles, acoustiques et haptiques (voir paragraphe 2.1).

Sternad et coll. (2001) ont montr´ e que l’utilisation d’informations haptiques et acoustiques seules permettent de r´ ealiser un rebond stable, les informations visuelles aidant ` a la conservation de la stabilit´ e. Cependant, Siegler et coll. (2010) estiment que les seules informations haptiques et acoustiques ne permettent pas d’apporter les corrections n´ ecessaires suite ` a une perturbation de l’environnement. En effet, d’apr` es leurs exp´ eriences, les perturbations sont compens´ ees en un court laps de temps (la compensation peut avoir lieu en un cycle seulement suivant l’information utilis´ ee).

Informations per¸ cues pour le contrˆ ole actif Les informations visuelles extraites de la trajectoire de la balle semblent ˆ etre les informations les plus efficaces pour maintenir le rebond en r´ egime stable et apporter les corrections n´ ecessaires en cas de perturbation de l’environnement.

Les r´ esultats de Siegler et coll. (2010) tendent ` a confirmer la pr´ esence d’un contrˆ ole mixte durant la r´ ealisation d’un rebond de balle par un acteur humain. Les informations per¸ cues de l’environnement permettant de mener ` a bien cette tˆ ache seraient les suivantes : la demi-p´ eriode ascendante de la balle t up , la demi-p´ eriode descendante de la balle t down (la p´ eriode de la balle peut s’exprimer de diff´ erentes mani` eres : T b = 2t up = 2t down ) et la hauteur maximale du rebond h b qui permet d’estimer l’erreur au rebond.

Exploitation des informations per¸ cues Les informations visuelles extraites de l’environ- nement doivent servir ` a piloter la raquette afin d’obtenir un comportement ` a la fois stable et adaptatif.

Les oscillations de la raquette sont contrˆ ol´ ees par des param` etres modulant de mani` ere ind´ ependante leur p´ eriode et leur amplitude (Siegler et coll., 2010).

Le contrˆ ole de la p´ eriode de la raquette est li´ e ` a la perception des informations visuelles concernant la p´ eriode de vol de la balle : suite ` a l’analyse des donn´ ees recueillies lors de leurs exp´ erimentations, Siegler et coll. (2010) ont observ´ e que la demi-p´ eriode ascendante de la balle t up est fortement corr´ el´ ee ` a la p´ eriode des oscillations de la raquette. La demi-p´ eriode des- cendante de la balle t down est ´ egalement corr´ el´ ee ` a la p´ eriode des oscillations de la raquette, vraissemblablement pour effectuer un r´ e-ajustement. Sachant que la p´ eriode de la raquette doit approximer la p´ eriode de la balle, l’ajustement de la p´ eriode de la raquette a lieu sitˆ ot que t up a ´ et´ e per¸ cue par l’acteur r´ ealisant la tˆ ache.

Si les informations visuelles ` a propos de la hauteur du rebond devraient permettre le contrˆ ole de l’amplitude, la situation est cependant plus probl´ ematique en r´ ealit´ e : en effet, Siegler et coll.

(2010) ont bel et bien not´ e des ajustements lors des exp´ eriences r´ ealis´ ees, mais aucune des va- riables pr´ esent´ ees ne semble ˆ etre directement li´ ee ` a ces ajustements. Ils ont alors ´ emis l’hypoth` ese que la modulation de l’amplitude ´ etait r´ ealis´ ee sur une ´ echelle de temps plus longue, grˆ ace ` a la moyenne de l’erreur au rebond sur les rebonds pr´ ec´ edents.

2.3 Le syst` eme balle/raquette

Les variables permettant de caract´ eriser la balle sont sa position x b et sa vitesse x ˙ b . la trajectoire de la balle entre deux impacts suit l’´ equation suivante :

x b (t) = x + b + ˙ x + b t − 0.5gt 2 (2.2) O` u x + b et x ˙ + b sont respectivement la position et la vitesse de la balle imm´ ediatement apr` es l’impact, et g est l’acc´ el´ eration due ` a la pesanteur.

Les impacts entre la balle et la raquette correspondent ` a l’´ equation suivante :

( ˙ x + b − x ˙ r ) = −α( ˙ x b − x ˙ r ) (2.3)

dumas-00636431, version 1 - 27 Oct 2011

(21)

O` u x ˙ b et x ˙ + b est la vitesse de la balle imm´ ediatement avant et apr` es l’impact, x ˙ r est la vitesse de la raquette.

La raquette est quant ` a elle caract´ eris´ ee par sa p´ eriode P r , son amplitude A r et sa phase φ r . Les d´ etails concernant la mod´ elisation du syst` eme sont donn´ es dans la partie 3.2.

dumas-00636431, version 1 - 27 Oct 2011

(22)

Partie 3

Mod´ elisation du syst` eme balle/raquette

3.1 Environnement de simulation

L’impl´ ementation du cas d’´ etude est r´ ealis´ e en environnement virtuel. Cet environnement a

´

et´ e cr´ e´ e avec la biblioth` eque AR´ eVi 1 , d´ evelopp´ ee au CERV, permettant de r´ ealiser des simula- tions 3D en temps r´ eel. Le comportement physique des objets dans l’environnement est g´ er´ e par le moteur physique ODE 2 offrant entre autres la possibilit´ e d’exploiter des propri´ et´ es physiques de l’environnement, comme la gravit´ e.

Si les oscillations de la raquette sont exclusivement contrˆ ol´ ees grˆ ace ` a l’oscillateur pr´ esent´ e dans la section 3.2 ci-dessous, les mouvements de la balle sont enti` erement g´ er´ es par le moteur physique. Les deux syst` emes interagissent dans l’environnement. ` A aucun moment les ´ equations mod´ elisant le vol de la balle et les impacts avec la raquette ne sont utilis´ ees pour calculer la vitesse ou position de la balle : les informations relatives ` a l’´ etat de la balle sont per¸ cues dans l’environnement et utilis´ ees pour le couplage (section 3.3).

L’environnement de simulation a ´ et´ e param´ etr´ e dans un premier temps afin de pouvoir ob- server un rebond de balle passif. La mise en place d’un rebond passif maintenu est fortement d´ ependant des conditions initiales ` a la fois de l’environnement (gravit´ e, coefficient de restitu- tion), de la balle (vitesse et position initiales) et de la raquette (p´ eriode et amplitude). Pour les conditions environnementales g = 9.81 m.s −2 et α = 0.48 , les conditions initiales de chaque syst` eme (balle et raquette) choisies sont les suivantes :

– Balle : x b,0 = 0.16 m et v b,0 = 4.6 m.s −1 – Raquette : P r = 0.66 s et A r = 0.18 m

3.2 Oscillateur et pilotage de la raquette

Dans l’environnement virtuel, la raquette est pilot´ ee par un oscillateur constitu´ e de deux neurones (figure 3.1) s’inhibant l’un l’autre et produisant alors des sch´ emas oscillatoires. Ce mod` ele a ´ et´ e propos´ e par Matsuoka (1985, 1987) et l’activit´ e des neurones du r´ eseau est g´ en´ er´ ee par les ´ equations (3.1).

T r x ˙ i = −x i

n

X

j=1

a ij y j + s i − bf i

T a f ˙ i = −f i + y i y i = g(x i )

 

 

 

 

(3.1)

1. Atelier de R´ ealit´ e Virtuelle, http ://svn.cerv.fr/trac/AReVi, sous licence LGPL 2. Open Dynamics Engine, http ://www.ode.org/, sous licence LGPL ou BSD

dumas-00636431, version 1 - 27 Oct 2011

(23)

Figure 3.1 – Oscillateur constitu´ e d’un r´ eseau de deux neurones.

O` u n est le nombre de neurones dans le r´ eseau, s est une entr´ ee externe au r´ eseau, x i est l’´ etat interne du neurone i , f i est le degr´ e d’auto-inhibition du neurone i modul´ e par b , a ij est le poids connectant le neurone j au neurone i , y i est la sortie du neurone i , g(x) = max(0, x) , et T r et T a sont deux constantes de temps.

Seuls deux param` etres dans ce syst` eme sont fix´ es et constants durant toute simulation : a et b , permettant de r´ eguler l’inhibition d’un neurone ` a l’autre ou d’un neurone sur lui mˆ eme. Ici ces param` etres ont pour valeur : a = 1.4 et b = 2.5 . Ces valeurs permettent aux neurones de b´ en´ eficier d’une inhibition suffisamment grande pour qu’un changement d’amplitude mod´ er´ ee soit r´ epercut´ e rapidement sur les oscillations : en effet, avec un oscillateur de ce type une modu- lation de p´ eriode ou d’amplitude ne se produit pas en un temps ´ egal ` a z´ ero (ce qui est id´ eal ici, puisque mˆ eme si le focus n’est pas fait sur la dynamique du geste, l’apparence des oscillations doivent avoir une coh´ erence par rapport ` a un geste humain). L’adaptation aux nouvelles valeurs de p´ eriode ou d’amplitude inject´ ees dans l’oscillateur doit toutefois ˆ etre r´ epercut´ ee suffisam- ment rapidement ` a cause du fait que l’on r´ ealise un contrˆ ole actif ayant lieu ` a chaque cycle : une modulation ` a une oscillation doit ˆ etre r´ epercut´ ee sur l’oscillation la suivant imm´ ediatement.

Si on souhaite injecter un changement dont l’amplitude est plus importante, l’adaptation prendra cependant un temps plus grand pour peu que a et b aient toujours les valeurs 1.4 et 2.5. Ces valeurs constituent donc un compromis permettant de ne pas causer d’aberration dans les oscillations lorsque l’on cherche ` a les moduler, mais qui a ses limites en terme d’amplitude de changement.

Contrˆ ole de la p´ eriode La p´ eriode de l’oscillateur est contrˆ ol´ ee avec les deux param` etres T r et T a :

T r = P t ∗ c 1

T a = P t ∗ c 2 (3.2)

P t est la p´ eriode cible ` a laquelle on souhaite fixer l’oscillateur. Les coefficients c 1 et c 2 ont pour valeurs respectives 0.1456 et 0.363 dans l’environnement virtuel. Ces valeurs ont ´ et´ e choisies de mani` ere ` a ce qu’en sortie, la p´ eriode effective de l’oscillateur corresponde ` a la p´ eriode en entr´ ee.

Contrˆ ole de l’amplitude L’amplitude de l’oscillateur est quant ` a elle modul´ ee par le pa- ram` etre s :

s = A t ∗ β (3.3)

dumas-00636431, version 1 - 27 Oct 2011

(24)

Mod´ elisation du syst` eme balle/raquette 3.3 Algorithme de contrˆ ole

O` u A t est l’amplitude que l’on souhaite fixer ` a l’oscillateur. Le coefficient β a pour valeur 1.219 dans l’environnement virtuel. La valeur de β a ´ et´ e choisie afin d’obtenir une amplitude effective de l’oscillateur ´ egale ` a l’amplitude en entr´ ee.

Cet oscillateur permet donc un contrˆ ole ind´ ependant de la p´ eriode et de l’amplitude, conform´ e- ment aux hypoth` eses avanc´ ees par Siegler et coll. (2010).

3.3 Algorithme de contrˆ ole

L’algorithme de contrˆ ole est en fait la r´ ealisation du couplage entre les syst` emes de la balle et de la raquette. Ce couplage a ´ et´ e r´ ealis´ e de mani` ere ` a ce que les propositions de Siegler et coll. (2010) soit respect´ ees : en particulier, le contrˆ ole r´ ealis´ e est mixte, c’est-` a-dire qu’il a lieu ` a chaque cycle et permet non seulement de corriger les erreurs dues ` a des perturbations survenant dans l’environnement, mais ´ egalement de maintenir ou ramener le syst` eme dans son

´

etat passivement stable.

Il est possible d’utiliser les ´ equations mod´ elisant le vol et l’impact de la balle, pr´ esent´ ees au paragraphe 2.3 afin de connaˆıtre l’´ etat de la balle au cours du rebond. Dans le cas pr´ esent, les

´

equations ne sont pas utilis´ ees, la trajectoire de la balle et les impacts sont enti` erement g´ er´ es par le moteur physique et l’´ etat de la balle est connu grˆ ace ` a un module de perception qui permet de connaˆıtre les informations n´ ecessaires au contrˆ ole actif, en particulier la p´ eriode de la balle.

Le couplage r´ ealis´ e permet de moduler la p´ eriode et l’amplitude de l’oscillateur pilotant la raquette. Pour cela, les informations n´ ecessaires sont tout d’abord extraites de l’environnement puis utilis´ ees pour moduler p´ eriode et amplitude de l’oscillateur. Celui-ci pilote la raquette, qui va influencer la trajectoire de la balle et le cycle recommence. Le couplage d´ ecrit est illustr´ e sur la figure 3.2 et le d´ etail des ajustements pour la p´ eriode et l’amplitude de l’oscillateur est d´ ecrit dans les paragraphes 3.3.1 et 3.3.2.

La modulation de la p´ eriode de la raquette seulement ou de l’amplitude de la raquette seulement ne permet pas d’obtenir un rebond stable sur une longue p´ eriode de temps.

Pour ´ eviter de donner lieu ` a des comportements de raquette aberrants (vitesse trop ´ elev´ ee, amplitude quasi nulle), l’amplitude A r de la raquette ne peut ˆ etre inf´ erieure ` a 0.08m et sa p´ eriode P r ne peut ˆ etre inf´ erieure ` a 0.3s. Bien qu’on ne se focalise pas sur la gestuelle, ces valeurs ont

´

et´ e choisies afin d’obtenir une visualisation plus r´ ealiste dans l’environnement.

3.3.1 Modulation de p´ eriode

La modulation de la p´ eriode de la raquette est r´ ealis´ ee d` es que la demi-p´ eriode ascendante t up de la balle a ´ et´ e per¸ cue. La p´ eriode per¸ cue est alors inject´ ee dans l’oscillateur : P r = 2t up . Un second ajustement est possible en fin de cycle de balle puisqu’` a ce moment l` a, t down et T b ont ´ et´ e per¸ cus.

Les r´ esultats pr´ esent´ es partie 4 sont r´ ealis´ es avec d’une part un ajustement unique avec t up et d’autre par avec un second ajustement r´ ealis´ e ` a la fin du cycle de la balle lorsque T b a ´ et´ e per¸ cu.

3.3.2 Modulation d’amplitude

La modulation de l’amplitude doit d’une part permettre de conserver une phase ` a l’impact coh´ erente avec les crit` eres de stabilit´ e passive de la tˆ ache et d’autre part permettre de conserver une hauteur de rebond r´ eguli` ere. Cependant, Siegler et coll. (2010) n’ont pas identifi´ e de variable li´ ee ` a la balle permettant de contrˆ oler l’amplitude : bien que celle-ci doive ˆ etre modul´ ee de fa¸ con

`

a conserver une hauteur de rebond constante, la corr´ elation avec l’erreur ` a la hauteur du rebond est tr` es faible. Dans le cas pr´ esent, l’hypoth` ese de Siegler et coll. (2010) selon laquelle l’amplitude

dumas-00636431, version 1 - 27 Oct 2011

(25)

t down t up

Algorithme de contrôle

Oscillateur

Système balle/raquette

Perception

Modulation de période

Modulation d'amplitude T r =2t up ∗c 1 T a =2t up ∗c 2

A r = A r ±

s= A r ∗

T r , T a , s

Ajustement des paramètres de l'oscillateur

t up , t down ,

Pilotage de la raquette

Figure 3.2 – Couplage des syst` emes dynamiques avec l’algorithme de contrˆ ole

est modul´ ee grˆ ace ` a une moyenne de l’erreur au rebond sur les cycles pr´ ec´ edents a ´ et´ e retenue.

En outre, les questions suivantes n’ont pas trouv´ e r´ eponse dans l’´ etude cit´ ee, et il a donc ´ et´ e n´ ecessaire d’effectuer des choix :

– Combien de cycle(s) faut-il prendre en compte pour mesurer l’erreur moyenne ? – Comment moduler l’amplitude en fonction de l’erreur mesur´ ee ?

– ` A quel moment dans le cycle doit intervenir la modulation de l’amplitude ?

Mesure de l’erreur moyenne Le nombre de cycles retenu pour la mesure de l’erreur moyenne est 4 : autrement dit, ` a chaque cycle, l’erreur moyenne des 4 derniers rebonds est retenue pour r´ ealiser l’ajustement de l’amplitude de la raquette. Cependant, le fait de travailler avec un moteur physique (et donc un environnement bruit´ e) fait que, mˆ eme dans le cas du rebond passif :

– La hauteur au rebond ne sera jamais constante au del` a d’un certain seuil (on consid` erera par exemple une hauteur constante ` a ±0.2 m ).

– Des rebonds

aberrants

peuvent se produire, c’est-` a-dire des rebonds dont la hauteur est disproportionn´ ee par rapport aux autres rebonds de l’essai.

Une id´ ee est alors de tenir compte de la sensibilit´ e de la moyenne aux valeurs extr` emes : lors du calcul de la moyenne sur les 4 derniers rebonds, on ´ ecarte la plus grande et la plus petite valeur. C’est la raison pour laquelle nous proposons de prendre en compte 4 rebonds.

Modulation de l’amplitude suivant l’erreur mesur´ ee Les ajustements de l’amplitude doivent bien entendu ˆ etre relatifs ` a l’erreur mesur´ ee. Une mani` ere de moduler les changements d’amplitude de la raquette selon l’erreur retenue est d’utiliser la relation suivante :

A r = A r ± λ (3.4)

O` u est l’erreur mesur´ ee et λ un coefficient multiplicateur. Si > 0 alors le rebond a d´ epass´ e la hauteur cible et il faut diminuer l’amplitude. Si < 0 alors le rebond est trop petit et il faut augmenter l’amplitude.

dumas-00636431, version 1 - 27 Oct 2011

Références

Documents relatifs

– Il ne peut y avoir plus d’un processus dans sa section critique en mˆeme temps – Un processus en dehors de sa section critique ne peut bloquer un autre

Jacques Gangloff (ENSPS) Syst `emes temps r ´eel et syst `emes embarqu ´es Ann ´ee scolaire 2007-2008 1 /

– Obligation de publier les sources (pas de module binaire dans le noyau) – Pas adapt´e aux syst`emes `a taille m´emoire tr`es

[r]

[r]

a partie r´ eelle non nulle... Le syst` eme est dit simplement commandable lorsqu’il est commandable pour au moins un temps T &gt; 0... n’admet pas d’int´ egrale premi` ere)....

Hofbauer and Weibull (1996) show that if f is not convex, then there are games where pure strategies strictly dominated by mixed strategies survive, for many interior

Si dans le grand syst` eme aucun vecteur n’est combinaison lin´ eaire des autres, ceux du petit syst` eme sont encore moins combinaisons lin´ eaires des autres vecteurs du petit