• Aucun résultat trouvé

Le concept d'apprentissage par renforcement est né à la n des années 1980 de la rencontre entre deux domaines de recherche. L'un s'occupait des problèmes de commande optimale, l'autre de la psychologie animale. Puis, émanant des premiers travaux sur l'intelligence articielle, des modèles informatiques basés sur l'apprentissage par essais et erreurs se sont développés et ont conduit à la formulation actuelle des modèles théoriques de l'apprentissage par renforcement.

2.2.1 Commande optimale

A la n des années 1950 émerge la théorie du contrôle optimal, dont l'objectif est de concevoir des contrôleurs capables de minimiser une mesure de performance du contrôle d'un système dynamique. Une approche développée par Richard Bellman utilise le concept d'état du système dynamique et de fonction de valeur pour dénir une équa- tion fonctionnelle à résoudre, appelée équation de Bellman. La classe des méthodes pour résoudre les problèmes de contrôle optimal en résolvant cette équation est connue sous le nom de programmation dynamique [Bel57a]. Richard Bellman [Bel57b] in- troduit aussi la version stochastique discrète du problème de contrôle optimal appelée Processus Décisionnel de Markov (PDM) qui est le cadre habituel des algorithmes d'apprentissage par renforcement. Il propose une méthode de résolution par itérations sur les valeurs [Bel57a] et en 1960, Ronald Howard publie une méthode de résolution par itérations de politiques [How60]. Ces méthodes sont à la base des algorithmes d'apprentissage par renforcement.

2.2.2 Psychologie animale

L'autre source d'inspiration de l'apprentissage par renforcement fut les théories em- piriques sur l'apprentissage animal, et notamment les modèles relevant de la tendance béhavioriste en psychologie. Le béhaviorisme1 est une approche de la psychologie qui

étudie l'interaction de l'individu avec son milieu. On distingue en psychologie animale plusieurs modèles d'apprentissage, notamment le conditionnement opérant de Buhrrus F. Skinner à qui nous devons la notion de renforcement. Ces modèles rendent compte de la manière dont une association entre des stimuli et des réexes ou conséquences peut être renforcée.

Conditionnement classique

Le conditionnement classique, appelé aussi conditionnement pavlovien, a été ini- tié par le physiologiste russe Ivan Pavlov [Pav27] au début du XXème siècle. Au cours

de ses travaux sur la salivation des chiens, il remarque qu'un chien salive lorsqu'il voit le plat où l'on met habituellement sa nourriture ou lorsqu'il sent l'odeur de la viande. Il établit alors un protocole expérimental destiné à montrer la création d'une association dans le cerveau de l'animal entre le réexe salivaire et un stimulus neutre (par exemple le son d'une cloche) qui n'a rien à voir avec la nourriture. Pour mettre en évidence le phénomène de conditionnement pavlovien, il sut d'associer temporellement un stimu- lus initialement neutre avec un second stimulus induisant un réexe, appelé stimulus inconditionnel (par exemple l'apport de nourriture). Après un certain nombre d'exposi- tions à la succession de ces deux stimuli, l'association se forme et il sut de présenter uniquement le premier stimulus, devenu alors stimulus conditionnel, pour déclencher le réexe conditionné. Ainsi, le simple son d'une cloche sut à faire saliver le chien sans qu'aucune nourriture ne soit servie. Ivan Pavlov a ainsi mis en évidence un proces- sus d'apprentissage dû à l'association entre un réexe conditionné et un stimulus de l'environnement.

La loi de l'eet

Le premier à exprimer l'idée d'une sélection du comportement d'un animal en le récompensant ou non fut Edward L. Thorndike [Tho11]. Il formula une loi dite loi de l'eet établissant qu'une réponse est plus susceptible d'être reproduite si elle entraîne une satisfaction pour l'organisme et d'être abandonnée s'il en résulte une insatisfac- tion. Ainsi, les conséquences d'un comportement auront un eet sur la probabilité que ce comportement se reproduise ou non. Bien que parfois controversée, cette méthode a principalement inspiré l'apprentissage par essais et erreurs car elle renferme deux de ses principes : la sélectivité et l'associativité. La sélectivité permet la recherche d'al- ternatives nouvelles, tandis que l'associativité permet d'associer chaque solution trouvée à une situation particulière.

Conditionnement opérant

Le psychologue américain Buhrrus F. Skinner [Ski38] approfondit les travaux de Thorndike et élabora au milieu du XXème siècle le concept de conditionnement opé-

rant. Celui-ci se distingue du conditionnement classique par le fait que la réponse ne soit pas un réexe de l'organisme. Skinner a observé que la pression exercée par un animal sur un levier s'accroît de manière considérable lorsqu'elle entraîne la distribution de nourri- ture. Il s'établit ainsi un processus d'apprentissage de relations entre un comportement et ses conséquences. Les conséquences rendent plus ou moins probables la reproduction du comportement selon que ce soit des récompenses ou des punitions.

2.2.3 Modélisation informatique

Les premières spéculations sur l'intelligence articielle datent des années 1950 avec Alan Turing. Il fut le premier à s'intéresser à la programmation d'une machine auto- matique pour reproduire le fonctionnement du cerveau. Dans l'article L'ordinateur et l'intelligence [Tur50], Turing explore le problème de l'intelligence articielle et pose la question :  Les machines peuvent-elles penser ? . Il propose une expérience, maintenant célèbre sous le nom de  test de Turing , qui consiste à dire que si, au cours d'un échange composé de questions et de réponses, on ne peut distinguer si l'interlocuteur est un ordi- nateur ou un humain, alors il est indéniable que l'ordinateur fasse preuve d'intelligence. Cet article est le document fondateur du vaste domaine de l'intelligence articielle.

De ces premiers travaux sur l'intelligence articielle émane l'idée de programmer un ordinateur pour apprendre une tâche par essais et erreurs. Dans les années 1960, de nombreux chercheurs travaillent alors sur l'apprentissage par essais et erreurs appliqué à des problèmes de contrôle. En 1961, Donald Michie [Mic61] décrit un système capable d'apprendre à jouer au morpion par essais et erreurs. Puis avec R. Chambers, ils écrivent en 1968 un programme capable d'apprendre à maintenir un pendule inversé en équilibre [MC68], exemple désormais classique de l'apprentissage par renforcement.

Parallèlement à ces recherches, Arthur Samuel [Sam59] réalise un logiciel qui apprend à jouer aux dames en utilisant une notion de diérence temporelle. Cette notion intro- duit l'idée d'apprendre progressivement en utilisant la diérence entre les estimations successives d'une même quantité. La synthèse entre les deux courants, apprentissage par essais et erreurs et diérence temporelle, est réalisée par Harry Klopf [Klo72,Cd75]. Dans la lignée de ces travaux, Andrew G. Barto, Richard S. Sutton et Charles W. Anderson

[BSA88] proposent une méthode connue sous le nom d'AHC-learning2, qui est consi-

dérée comme la première méthode d'apprentissage par renforcement. Elle repose sur une architecture acteur-critique. Dans ces architectures, la structure de mémoire est séparée pour représenter la fonction qui sélectionne les actions (l'acteur) et celle qui les évalue (le critique).

Enn, la formalisation mathématique des algorithmes d'apprentissage par renforce- ment telle que nous la connaissons aujourd'hui date de 1988 lorsque Richard S. Sutton

[Sut88] et Christopher J.C.H. Watkins [Wat89] publient les algorithmes du TD(λ) et du

Q-Learning. Ils font ainsi le lien entre la diérence temporelle et l'apprentissage par essais et erreurs et utilisent le cadre théorique de la commande optimale par itérations sur les valeurs.

2.3 Fondements théoriques