Les syst`emes de classeurs anticipatoires

Chapitre 2 Intelligence artificielle et robotique 9

2.4 Les syst`emes de classeurs

2.4.4 Les syst`emes de classeurs anticipatoires

Les ACS (Anticipatory Classifier Systems) ont ´et´e introduits par [Stolzmann, 1998].

Une des différences majeures avec les autres systèmes de classeurs se situe au niveau de la création de nouveaux classeurs : ce ne sont plus des algorithmes de type génétiques ou

évolutionnaires qui sont utilisés, mais des heuristiques spécifiques. Le principe du système de classeur ACS est représenté sur la figure 2.6.

Dans ce nouveau type de classeur, l’accent est mis autant sur la capacit´e des classeurs

a entraˆıner des récompenses pour le robot qu’à anticiper sur les futurs états de ses capteurs compte-tenu de l’action envisagée. Un terme binaire additionnel est ajouté après les parties

s=0.56 sa=0.89

Fig. 2.6 –Le principe du classeur anticipatoire ACS

conditions et actions, qui a la même structure que le terme de condition puisqu’il tente de prédire quelles seront les sensations (conditions) au tempst+ 1. Et au terme de force des classeurs LCS classiques, qui est ici encore la récompense espérée R, et représente toujours la qualité du classeur en vue de l’obtention d’une éventuelle récompense finale, est ajoutée une force A qui représente la capacité du classeur à anticiper correctement ses futures sensations.

Rappelons que le signe # dans S_t est le caractère “joker”, indiquant que l’attribut en question peut prendre indifféremment la valeur 0 ou 1. Par contre, le caractère # dans la partie anticipatoire (les prédictions par le classeur pourS_t+1) signifie le “passage à travers”

(passthrough) de l’attribut correspondant : sa valeur dansS_t+1reste inchang´ee par rapport

a sa valeur dans St. Sur l’exemple de la figure 2.6, la valeur du deuxième attribut dans S_t est de 0, par conséquent, la valeur du deuxième attribut dans la prédiction de S_t+1 représentée par # sera aussi 0.

La mise à jour des forces des classeurs est similaire à celle utilisée dans l’algorithme Bu-cket Brigade, avec une différence notable : si une récompense r est prévue à partir d’un en-droit précis de l’environnement, cette récompense ne sera pas seulement rétro-propagée sur les classeurs qui ont permis d’atteindre cette récompense, mais elle augmentera également la force de tous les classeurs qui anticipent pourS_t+1 une situation représentant le même

´etat des capteurs que sur la case de r´ecompense.

En ce qui concerne, la mise à jour de la force d’anticipation, les classeurs actifs sont testés sur le robot (en simulation), les sensations à t+1 réellement obtenues sont com-parées aux sensations anticipées. Si les sensations correspondent, alors la force d’anticipa-tions_aest augmentée, si elles ne correspondent pas, on tente de créer un nouveau classeur possédant les bons paramètres d’anticipation (on constate donc ici que l’utilisation d’al-gorithmes évolutionnaires n’est plus nécessaire contrairement aux classeurs classiques ou de type XCS précédemment décrit). Cependant, si la création d’un tel classeur n’est pas

2.4. Les syst`emes de classeurs

réalisable, alors la force d’anticipation du classeur étudié baisse.

Après avoir laissé l’algorithme évoluer un moment, certains des classeurs finissent par possèder une grande force d’anticipation. Lorsque cette force d’anticipation atteint une valeur dépassant un certain seuil (par exemple 0.9), le classeur est dénomméclasseur sûr, indiquant que l’utilisation de classeur va conduire à partir des actions précisées dans le classeur dans plus de 90% des cas, aux sensations anticipées par ce classeur à l’instant d’avant. Indiquer une position finale que le robot doit atteindre (sensations désirées) suffit alors à ce dernier pour planifier le chemin qu’il va emprunter, puisqu’il suffit pour cela de construire la chaˆıne minimale de classeurs sûrs, à partir des sensations initiales du robot jusqu’aux sensations finales (le but).

Le type de classeurs apparaˆıt donc comme idéal dans des expériences d’apprentissage latent. De nombreuses expériences d’apprentissage latent ont été menées par les biologistes, notamment avec des rats. Tolman, en 1948, a fait évoluer des rats dans un labyrinthe avec des couleurs différentes aux différentes extrémités. Après que le rat se soit promené dans le labyrinthe, sans but, on le place dans une case colorée avec une récompense (nourriture).

Ensuite, lorsque le rat se retrouve au début du labyrinthe, il se dirige directement vers la case de la même couleur que celle ayant contenu de la nourriture. Le rat a donc emmagasiné une très bonne connaissance du monde, puisqu’il est capable d’aller directement dans la case colorée (représentant une sensation particulière). L’analogie avec les systèmes de classeurs ACS est flagrante : lorsque le robot explore son environnement, il fortifie au fur et à mesure sa connaissance du monde, qu’il est capable de mettre en valeur par la construction d’une chaˆıne de classeurs sûrs. Lorsque les environnements deviennent non markoviens (impossibilité de prédire correctement les sensations futures à plusieurs reprises, dûe à une ambigu¨ıté dans la perception (deux cases différentes peuvent engendrer les mêmes sensations à l’instant t mais le fait d’exécuter la même action pour les deux, peut engendrer des sensations futures différentes.)), le formalisme ACS est capable d’utiliser des séquences d’actions permettant de se retrouver sur une situation non ambiguë.

Ces techniques d’apprentissage par renforcement, et par système de classeur, ont fait leur preuve dans les mondes discrets, cependant peu d’expérimentations ont été tentées sur des robots réels : le nombre de sensations disponibles explose avec la discrétisation, et les bruits qui apparaissent sur les capteurs perturbent l’apprentissage.

Dans cette thèse, bien que la majorité des expérimentations aient été effectuées en si-mulation, la simulation tend à modéliser aux mieux les contraintes engendrées par le pas-sage au réel. C’est pourquoi nous avons utilisé la technique de la robotique évolutionnaire utilisant des techniques d’évolution artificielle et des réseaux de neurones artificiels.

Dans le document TH`ESE Approches´evolutionnairespourlarobotiquemodulaireetanticipatoire (Page 39-42)