• Aucun résultat trouvé

3.3 Discussion et applications

4.1.1 Cadre expérimental : la tâche de navigation continue

En quoi la tâche de navigation continue est-elle intéressante dans le cadre de la modélisation d’un système d’apprentissage de séquences temporelles ? En fait, le protocole expérimental se révèle aussi intéressant du point de vue des neurobiologistes que des roboticiens. En effet, les en-registrements effectués chez les rats au niveau du lieu but, pendant la phase d’attente, permettent d’étudier les activités dans l’hippocampe sans qu’il y ait changement de lieu (animal immo-bile) ni consommation de nourriture représentant une récompense. D’un point de vue robotique, cette tâche implique l’utilisation de multiples stratégies motrices (navigation vers un but, attente,

(endroit aléatoire) Lieu visuel Nourriture trouvée Distributeur de nourriture Lieu but Zone colorée Lieu visuelou Nourriture lâchée Son Planification Attente Exploration

FIGURE 4.1 – La tâche de navigation continue (indicée ou non indicée) vue comme une séquence de comportements moteurs déclenchés par des événements perceptifs multi-modaux.

exploration aléatoire). De plus, ces stratégies motrices interviennent de manière séquentielle et sont liées à des événements perceptifs précis. On peut donc décomposer la réalisation de la tâche en tant que séquence de comportements moteurs contrôlés par des stimuli perceptifs (fig4.1).

Comment l’aspect temporel intervient-il dans cette séquence ? En fait, la régularité tempo-relle principale se trouve dans le délai d’attente avant le lâcher de la nourriture qui est fixé à 2 secondes. Pour le rat, apprendre la durée du délai pourrait ne pas être nécessaire, puisqu’il lui suffit de rejoindre le lieu but et d’attendre jusqu’à ce que la nourriture tombe. Cependant, dans la tâche non indicée (c’est-à-dire pour laquelle le lieu d’arrêt n’est pas indiqué par une zone colo-rée), il est nécessaire pour le rongeur de savoir s’il a bien atteint la bonne zone, afin qu’il puisse éventuellement corriger sa position. Il ne peut se rendre compte de son erreur de positionnement que s’il détecte l’absence de récompense. Cela montre qu’il est capable de prédire l’arrivée de celle-ci avec une certaine précision temporelle. Dans le cas de la tâche indicée, un tel mécanisme de prédiction temporelle ne devrait pas être indispensable, étant donné que le lieu but est visible. Cependant, lors d’essais où la récompense n’était pas donnée après la fin du délai de 2 secondes, les rats reprenaient leurs mouvements après 2 secondes sur le lieu but, que ce soit dans le cas indicé ou non [Hok et al.,2007b]. Il semble donc que :

• Les rats ont appris le timing lors des essais où la récompense est donnée à chaque fois, dans les cas indicé et non indicé, alors que cet apprentissage n’est pas indispensable pour la réalisation de la tâche.

• Les rats sont capables d’utiliser leur connaissance du délai pour détecter l’absence de récompense et reprendre leur mouvement par la suite.

C’est finalement dans le cas des essais d’extinction où aucune récompense n’est donnée que l’on comprend la nécessité d’un système d’estimation temporelle. En effet, sans celui-ci, le rat serait incapable de savoir combien de temps il doit attendre sa récompense. Il pourrait donc at-tendre indéfiniment une récompense qui ne viendra jamais, ou bien quitter le lieu but une fois un certain niveau de frustration atteint (mais probablement bien après la fin du délai). L’appren-tissage du délai permet donc ici de détecter précisément le moment où une récompense attendue aurait du être reçue, et d’agir en conséquence. Ces résultats viennent renforcer ceux obtenus lors d’autres tâches de conditionnement avec un délai et correspondent bien à l’hypothèse de modèle fixée dans les chapitres précédents, supposant un apprentissage des relations temporelles entre les divers événements perçus lors de la tâche, même lorsque cet aspect temporel n’est pas crucial pour la réalisation.

Dans notre modèle, cette prédiction du délai entre l’entrée sur le lieu but et le lâcher de la nourriture pourrait facilement être apprise. En effet, si l’arrivée sur le but et le son déclenchent

des événements perceptifs, alors la transition Lieu but → Son sera apprise avec le délai corres-pondant. Lors de la reproduction, le pic de prédiction donnera alors le timing auquel l’arrivée du son est attendue. Le son étant une modalité à part entière, nous pouvons catégoriser simplement au niveau entorhinal un événement correspondant à la perception d’un son. La catégorisation de l’entrée sur le lieu but peut néanmoins être différente selon le type de tâche, indicée ou non. Dans le cadre de la tâche indicée, l’arrivée sur le lieu but est détectée directement par un retour visuel marquant l’entrée sur la zone de couleur. Dans le cas non indicé, un premier traitement spatial doit être effectué. Dans l’expérience chez les rongeurs, le lieu but est appris par shaping, en réduisant progressivement la taille pour laisser au rat le temps de construire un code spatial suffisamment précis pour caractériser ce lieu de petite taille (environ 20cm tandis que les rats font dans les 12cm). On n’observe cependant pas de sur-représentation du lieu but dans la ré-partition des cellules de lieu. Ce code spatial est donc probablement construit en intégrant les informations provenant des cellules de lieu avoisinantes (et possiblement des informations di-rectes sur les amers visuels). L’implémentation du système pour la catégorisation spatiale d’un lieu de taille précise devrait donc faire appel à des aspects de patterning. Cette catégorisation s’effectue probablement dans DG. En effet, des observations montrent que les aspects émotion-nels et motivationémotion-nels, gérés par l’amygdale, influent sur les apprentissages à long terme ayant lieu dans DG [Almaguer-Melian et al.,2003]. Ces aspects de patterning sont discutés plus en détail dans le chapitre7. En attendant la mise en place d’un tel système, les expériences menées dans ce chapitre utiliseront un lieu but indicé, ou bien feront l’association entre la cellule de lieu gagnante et le son (limitant alors la précision du code spatial du lieu but à la taille du champ de lieu de cette cellule après compétition).

Outre cette simplification concernant le code spatial du lieu but dans la tâche non indicée, une autre simplification concernera la modélisation de l’objectif de la tâche lui-même. Dans le cadre de la modélisation de tâches orientées vers un but, il est souvent question de récompenses, motivations, buts, besoins etc. Nous nous référerons au terme de récompenses pour la réception d’une récompense matérielle (nourriture, eau, etc.) satisfaisant un besoin de bas niveau (faim, soif, etc.). Le terme de but sera utilisé pour des objectifs plus abstraits intervenant dans la réa-lisation de la tâche, et la motivation représente la volonté de satisfaire ce but. Pour l’expérience de navigation continue, la récompense réelle est la consommation de la nourriture. Le lâcher de la nourriture, déclenché par la phase d’attente, représente un sous-objectif permettant d’at-teindre cette récompense. Cependant la phase de recherche menant à la nourriture correspond à un comportement d’exploration aléatoire de l’environnement, la nourriture pouvant être tombée n’importe où. Nous ferons donc la simplification de considérer le but de la tâche comme étant le lâcher de la nourriture (donc la perception du son correspondant). Chez le rat, la valeur moti-vationnelle de ce son doit être apprise par conditionnement à travers les nombreuses répétitions du protocole. Le son est alors associé à la consommation future de la nourriture et représente un objectif en soi, menant à cette nourriture. Nous considérerons ainsi que cet apprentissage a déjà eu lieu. La tâche sera alors modélisée en définissant le son comme un but à satisfaire. La phase de recherche de la nourriture correspondra à une période d’exploration aléatoire de durée fixe. La fin de cette période sera marquée par le moment où la motivation à satisfaire le but, dont le niveau augmente constamment, atteindra un seuil suffisant pour déclencher l’utilisation d’une stratégie de planification visant à atteindre le but (fig4.2). L’utilisation d’une carte cogni-tive peut ne pas être nécessaire pour la navigation. Une répétition de la tâche pourrait entraîner l’apprentissage par renforcement d’une stratégie de navigation plus “automatique”. De même,

Temps M ot iva ti on Pha s e s Exploration aléatoire Navigation planifiée vers le lieu d'attente

...

Attente immobile (2s)

Son

Seuil

FIGURE 4.2 – Niveau de motivation à satisfaire le but, représenté par le son, au cours des différents épisodes de la tâche de navigation continue. L’utilisation de la navigation par planification pour rejoindre le but est déclenchée lorsque la motivation dépasse un seuil fixé. La durée de la période d’exploration est fonction de ce seuil.

les nombreuses visites du lieu but et son importance dans la tâche pourraient mener à l’utilisa-tion de stratégies de “retour au nid” se basant sur des informal’utilisa-tions visuelles ou proprioceptives. Ces questions concernant l’existence de plusieurs stratégies de navigation en parallèle seront abordées dans le chapitre5.