• Aucun résultat trouvé

Système motivationnel

adaptatif

A.1 Initialisation des ρ

i

Les paramètres initiaux ρ0i de la fonction g ont été ajustés à la main afin de retrouver des performances comparables à celles du CBG original dans la tâche de survie (voir Tab. A.1).

A.2 Mise à jour des ρ

i

L’adaptation des ρiau cours d’une expérience s’effectue de la manière sui-vante : sur chaque période de 25 secondes consécutives, pour chaque type de source E ou Ep, un décompte du nombre de fois où une source de ce type entre dans le champ de vision de l’agent est effectué. On calcule en permanence des moyennes glissantes de ces décomptes sur les 100 der-nières periodes, ce qui donne deux mesures de disponibilité des sources, aE et aEp.

Ces mesures définissent des valeurs cibles de ρi, ρTi, obtenues par des variations affines autour de ρ0i :

ρTi =ρ0i+βEi(aE−a0E) +βEpi (aEp−a0Ep) (A.1) où a0Eet a0Ep sont les disponibilités mesurées dans l’environnement de référence (1 E, 1Ep) sans adaptation (on trouve a0E = a0Ep = 0.59). Ainsi, dans cet environnement, on a ρTi = ρ0i, et dans des environnements plus ou moins riches en sources, le coefficient ρTi est modifié en fonction des coefficients de proportionnalité β : Action βEi βEip ReloadE 0 0 ReloadEp 0 0 WanderE 0.25 0 WanderEp 0 0.25 Sleep 0.125 0.125 AvoidObstacle 0 0 ApproachE 0.25 0 ApproachEp 0 0.25 145

Tab. A.1 – ρ0initiaux. Action ρ0 ReloadE 0.98 ReloadEp 0.95 WanderE 0.88 WanderEP 0.88 Sleep 0.60 AvoidObstacle 0.95 ApproachE 0.71 ApproachEp 0.71

Les valeurs ρi sont alors adaptées à chaque pas de temps vers les va-leurs ρTi :

ρiρi+α(ρTiρi) (A.2)

Dans nos expériences, le coefficient d’apprentissage vaut α = 0.002 unités par seconde.

B

Curriculum Vitae

Benoît Girard CR1 CNRS

3rue Leneveux benoit.girard@isir.fr

75014Paris 01 44 27 63 81

Né le 9 nov. 1975 (Paris 14) Nationalité Française Entrée au CNRS : 01/09/2005 Agent : 00035560

Formation

2000-2003 Thèse en Informatique. Université Pierre et Marie Curie (UPMC).

Intégration de la navigation et de la sélection de l’action dans une architec-ture de contrôle inspirée des ganglions de la base.

Sous la direction de A. Guillot et A. Berthoz.

1998-2000 DEA IARFA (Intelligence Artificielle, Reconnaissance des Formes et Applications) de l’UPMC, section Vie Artificielle, mention Bien.

1995-1998 Ingénieur ECN (Ecole Centrale Nantes), option Informa-tique, mention Bien.

Expérience

2009-présent Chargé de recherche (CR1 - CID 44).

Institut des systèmes intelligents et de robotique (ISIR - UMR 7222, CNRS - UPMC),

équipe Systèmes Intégrés Mobiles et Autonomes (SIMA). 2005-2008 Chargé de recherche (CR2 - CID 44).

Laboratoire de Physiologie de la Perception et de l’Action (LPPA -UMR 7152, CNRS - Collège de France),

équipe Mémoire spatiale et contrôle du mouvement.

2003-2005 Post-Doctorat au LPPA (UMR 7124, CNRS - Collège de France).

Modèle computationnel contractant du système saccadique : du tronc céré-bral au cortex.

C

Enseignements &

Encadrement

Activités d’enseignement (depuis 2005)

2009-2010

– University of British Columbia (UBC, Vancouver, Canada) – Neural substrate of ocular movements, cours, Master , 1h30.

2008-2010

– UPMC

– Traitement de l’information pour la sélection de l’action, cours, M2 Bio-logie Intégrative et PhysioBio-logie (BIP), 3h.

– Modélisation des stratégies de navigation et de leurs interactions, cours, M2 BIP, 3h.

2006-2010

– UPMC

– Sélection de l’action, cours, M2 Intelligence Artificielle et Décision (IAD), 3h.

2006-2009

– UPMC

– Bases neurales du contrôle du regard, cours, M2 BIP, 2h.

2007-2008

– Ecole des Hautes Etudes en Sciences Sociales (EHESS).

– Mouvements des yeux : Neurophysiologie, cours, M2 Sciences Cogni-tives (CogMaster), 3h

2005-2006

– UPMC

– Modélisation neuromimétique de la sélection de l’action : les ganglions de la base, cours, M2 IAD, 2h.

Activités d’encadrement

2009–. . .

– Jean Liénard, Université Pierre et Marie Curie (UPMC), doctorat, co-direction A. Guillot (HdR)

Evolution artificielle de modèles neuromimétiques de sélection de l’action – David Tlalolini-Romero, post-doctorat, durée 14 mois,

co-encadrement avec A. Berthoz Locomotion humanoïde bio-inspirée

– Mariella Dimiccoli, post-doctorat, durée 12 mois, co-encadrement avec A. Berthoz et D. Bennequin

Modélisation du rôle de la géométrie dans la fonction du système vestibu-laire

– Charles Thurat, UPMC, stage de M2 de Biologie Intégrative et Phy-siologie, durée 6 mois,

Modélisation des mécanismes de sélection dans les boucles tecto-basales.

2008–2009

– Jean Liénard, Université Paris Sud (Paris XI) & Ecole Nationale Su-périeure d’Informatique pour l’Industrie et l’Entreprise (ENSIIE), stage de M2 d’Informatique et de 3ème année d’école d’ingénieur, durée 6 mois

Mise au point d’un modèle neuromimétique de sélection de stratégie de na-vigation en environnement simulé

– Cécile Masson, Polytech Paris Sud, stage de M2 de Sciences Cogni-tives et de 3ème année d’école d’ingénieur, durée 5 mois

Modélisation de l’intégration de chemin chez le rat à partir des cellules de grilles

2007–2008

– Alexandre Coninx, Ecole des Hautes Etudes en Sciences Sociales (EHESS), stage de M2 de Sciences Cognitives, durée 5 mois, co-direction A. Guillot

Modulation motivationnelle adaptative dans un modèle des ganglions de la base pour la sélection de l’action

– Charles Thurat, Ecole Normale Supérieure de Cachan, stage de M1, durée 2 mois

Etude de la paramétrisation d’un modèle des ganglions de la base – Francis Colas, post-doctorat, durée 18 mois

Modélisation bayesienne des processus de sélection de cible dans une tâche de MOT

2006

– Fabien Flacher, post-doctorat, durée 6 mois

Modélisation bayesienne des processus de sélection de cible dans une tâche de MOT

151

2004; 2005–2008

– Nicolas Tabareau, Ecole Normale Supérieure de Cachan, stage de M1, durée 2 mois

Utilisation de la contraction en neurosciences computationnelles (check) Après la fin officielle de ce stage, j’ai continué à encadrer les tra-vaux de N. Tabareau au LPPA (à raison d’un jour par semaine en moyenne), alors qu’il poursuivait en parallèle son M2 puis sa thèse en Informatique au laboratoire Preuve, Programmes et Systèmes (PPS, UMR7126) . Il a, pendant cette période (2005–2008), produit un travail du niveau d’une thèse en sciences cognitives, comme en témoignent ses publications (Girard et al., 2005b, 2006a; Manfredi et al., 2006; Tabareau et al., 2007; Girard et al., 2008).

2003

– Mehdi Khamassi, Université Pierre et Marie Curie (UPMC), stage de DEA de Sciences Cognitives, durée 6 mois, co-encadrement A. Guillot

Un modèle d’apprentissage par renforcement dans une architecture de contrôle de la sélection de l’action chez le rat artificiel Psikharpax

2002

– Sébastien Laithier, Université Pierre et Marie Curie (UPMC), stage de DEA Intelligence Artificielle, Reconnaissance des Formes et Ap-plications, durée 6 mois, co-encadrement A. Guillot

D

Publications

L

istesdes publications principales, approuvées par des comités de lec-ture, tout d’abord dans les journaux scientifiques (10), puis dans les conférences (16).

D.1 Journaux à comité de lecture

– L. Dollé, D. Sheynikhovich, B. Girard, R. Chavarriaga, A. Guillot (2010). Path planning versus cue responding : a bioinspired mo-del of switching between navigation strategies. Biological Cybernetics, 103(4) :299-317.

– F. Colas, F. Flacher, T. Tanner, P. Bessière and B. Girard (2009). Baye-sian models of eye movement selection with retinotopic maps. Biolo-gical Cybernetics, 100(3) :203-214.

– B. Girard, N. Tabareau, Q.C. Pham, A. Berthoz and J.-J. Slotine (2008). Where neuroscience and dynamic system theory meet au-tonomous robotics : a contracting basal ganglia model for action se-lection. Neural Networks, 21(4) :628-641.

– N. Tabareau, D. Bennequin, A. Berthoz, J.-J. Slotine and B. Girard (2007). Geometry of the superior colliculus mapping and efficient oculomotor computation. Biological Cybernetics, 97(4) :279-292. – B. Girard and A. Berthoz (2005). From brainstem to cortex :

compu-tational models of the saccade generation circuitry. Progress in Neu-robiology. 77(4) :215-251.

– B. Girard, D. Filliat, J.-A. Meyer, A. Berthoz and A. Guillot (2005). Integration of navigation and action selection in a computational model of cortico-basal ganglia-thalamo-cortical loops. Adaptive Beha-vior. 13(2) :115-130.

– M. Khamassi, L. Lachèze, B. Girard, A. Berthoz and A. Guillot (2005). Actor-critic models of reinforcement learning in the basal ganglia : From natural to artificial rats. Adaptive Behavior, 13(2) : 131-148.

– J.-A. Meyer, A. Guillot, B. Girard, M. Khamassi, P. Pirim and A. Ber-thoz (2005). The Psikharpax project : Towards building an artificial rat. Robotics and Autonomous Systems, 50(4) :211-223.

– B. Girard, V. Cuzin, A. Guillot, K.N. Gurney and T.J. Prescott (2003). A Basal ganglia inspired model of action selection evaluated in a robotic survival task. Journal of Integrative Neuroscience, 2(2) :179-200. – B. Girard, G. Robert and A. Guillot (2001). Jeux Vidéo et Intelligence

Artificielle Située. In Cognito 22 :57-72.