• Aucun résultat trouvé

1.3 Temporalité et anticipation

1.3.3 Expérience et apprentissage

Si trop d’anticipations au cours du mouvement ne sont pas vérifiées, c’est le signe que le comportement actuel n’est pas adapté. Le choc avec un obstacle inconnu sur la trajectoire introduit une incohérence dans les anticipations passées ("je contracte un muscle mais le bras ne bouge pas"), permettant l’exploration et l’apprentissage de nouvelles trajectoires, mieux adaptées à la situation. L’expérience permet ainsi de découvrir et reproduire des pointages d’objets plus efficaces ou d’éviter les blocages articulaires.

Le premier constat nécessaire pour aborder l’apprentissage concerne le déterminisme de notre environnement, pourtant complexe et chaotique. Certains aspects sont peut-être non détermi- nistes relativement à l’échelle humaine, mais la majorité des phénomènes perçus ou compatibles avec nos capacités perceptives le sont. Certaines situations peuvent nécessiter localement l’utili- sation de variables cachées, mais la prise en compte d’un historique plus large permet générale- ment de dissoudre le non déterminisme momentané apparent. Les régularités spatio-temporelles de notre environnement permettent la structuration progressive du monde par l’individu.

Que l’apprentissage se fasse par la génétique sur une population entière ou durant la vie d’un individu particulier, la mémorisation d’événements et de régularités peut influencer le cours des interactions à venir. Comme détaillé au chapitre sur l’évolution, les gènes ne peuvent rendre compte de la variabilité locale de l’environnement passé un certain degré de complexité du sys- tème vivant. De nombreuses régularités, ne serait-ce que les limites physiques de notre corps, évoluent durant la vie et sont influencées par quantité de facteurs eux aussi dynamiques. De même qu’une action appliquée au bon moment sur l’embryon peut profondément impacter son développement (voir les bifurcations du paysage de Waddington pour une analogie graphique), les interactions d’un individu avec son environnement durant toute sa vie peuvent affecter son comportement. Plutôt que de modéliser intérieurement tous les paramètres qui peuvent affecter notre dynamique, il paraît plus aisé de réviser continûment nos connaissances.

Les types d’interactions avec l’environnement et leur influence sur notre comportement et notre équilibre sont décrits ci-dessous. Toutes les caractéristiques introduites peuvent aussi bien concerner des interactions physiques que sociales :

– Force : L’influence de l’environnement sur l’individu peut être plus ou moins forte. Une amputation ou la perte d’un proche sont vécus comme des chocs et nécessitent une refonte profonde de l’organisation des processus physiques et/ou mentaux pour retrouver un équi- libre. Des expériences moins déstabilisantes peuvent devenir de simples souvenirs ou être tout simplement négligées.

– Dynamique : Des interactions répétées ou prolongées constituent des régularités et les comportements adaptés sont progressivement renforcés. A l’inverse, un phénomène éphé- mère et unique n’aura qu’une faible influence sur l’individu, noyé dans la variabilité de l’environnement. Sans rentrer dans la controverse du conditionnement subliminal, on no- tera simplement que des interactions ont généralement d’autant plus d’influence qu’elles sont étendues ou répétées.

– Source : Selon que les variations dans les interactions viennent principalement de la dyna- mique interne ou externe, l’apprentissage sera respectivement actif ou passif. On différencie ainsi l’exploration ou la curiosité, toutes deux de nature intrinsèque [Oudeyer and Kaplan, 2004;Oudeyer et al., 2007], de contraintes purement extérieures.

Les modifications structurelles et fonctionnelles qui résultent de ces interactions dépendent de notre apprentissage passé :

– Assimilation : Malgré l’unicité de chaque instant, une situation très bien assimilée par un individu n’entraîne pas de changement structurel et la dynamique en est faiblement affectée. Les interactions habituelles sont ainsi maintenues et la situation est connue, même si elle n’est pas forcément maîtrisée. Cet état d’assimilation est le but de tout processus (et celui du méta-processus d’apprentissage).

– Incompréhension : Si la dynamique externe est totalement inassimilable, l’environne- ment et l’individu ne sont pas en phase et un comportement adapté ne peut être généré spontanément40. L’individu est alors perdu et ne peut maintenir son équilibre.

– Accommodation : Entre les deux extrêmes précédents, la structure de l’individu peut être légèrement modifiée pour s’adapter durablement et permettre l’adoption d’une dynamique compatible avec l’environnement. L’apprentissage permet ainsi à l’individu d’acquérir pro- gressivement de nouvelles compétences. Bien que l’environnement soit objectivement de plus en plus complexe, il reste toujours majoritairement assimilable.

On doit noter que certains aspects de la situation peuvent être parfaitement assimilés alors que d’autres sont nouveaux et déstabilisants. Ainsi un adulte ne sera totalement perdu que dans des situations extrêmes puisqu’il a déjà connu de nombreuses variations dans sa vie. Le processus d’apprentissage doit donc combiner généralisation et spécialisation ; la mémorisation des particularités de situations passées permet de fournir des réponses adaptées et spécifiques, alors qu’une assimilation vague ou partielle permet de s’adapter aux situations nouvelles et à la variabilité permanente de l’environnement.

Si l’on considère des représentations exclusivement fondées sur des processus anticipateurs et interactifs comme précédemment décrits, l’apprentissage consiste en la création ou l’altération de ces mêmes processus. Si de plus la plupart des fonctions cognitives résultent des interactions entre divers processus en l’absence de tout contrôle centralisé, il est impossible au niveau global de déterminer quel élément doit être modifié en cas de mauvaise assimilation de la situation. L’approche choisie ici combine apprentissage par renforcement pour les processus existants et variation/sélection pour la génération de nouveaux processus. Le renforcement permet de stabi- liser les processus fonctionnels, à la manière de la règle de Hebb [Hebb, 1949] pour les synapses. De son côté, une population de processus régie par un algorithme de type génétique permet de limiter l’explosion du nombre de processus en favorisant la disparition des processus les moins adaptés, mais aussi de rendre redondants et robustes les processus les plus actifs. De nombreux détails supplémentaires seront fournis dans le chapitre apprentissage.

40. Il s’agit là d’un clin d’œil et parallèle avec l’hétérogénie soutenue par Jean-Baptiste de Lamarck au XIXèmesiècle, c’est-à-dire la génération spontanée d’êtres vivants sans présence préalable d’un organisme simi- laire ou moins mature.

2

Structure du modèle mathématique

Sommaire 2.1 Espace d’interaction . . . . 78 2.1.1 Dimensions. . . 78 2.1.2 Éléments de l’espace . . . 79 2.1.3 Mesure de similarité. . . 80 2.2 Champ d’activité . . . . 81 2.2.1 Diffusion d’activité . . . 82

2.2.2 Réduction des potentialités en une valeur unique . . . 83