• Aucun résultat trouvé

Les syst`emes de classeurs anticipatoires

Chapitre 2 Intelligence artificielle et robotique 9

2.4 Les syst`emes de classeurs

2.4.4 Les syst`emes de classeurs anticipatoires

Les ACS (Anticipatory Classifier Systems) ont ´et´e introduits par [Stolzmann, 1998].

Une des diff´erences majeures avec les autres syst`emes de classeurs se situe au niveau de la cr´eation de nouveaux classeurs : ce ne sont plus des algorithmes de type g´en´etiques ou

´evolutionnaires qui sont utilis´es, mais des heuristiques sp´ecifiques. Le principe du syst`eme de classeur ACS est repr´esent´e sur la figure 2.6.

Dans ce nouveau type de classeur, l’accent est mis autant sur la capacit´e des classeurs

`

a entraˆıner des r´ecompenses pour le robot qu’`a anticiper sur les futurs ´etats de ses capteurs compte-tenu de l’action envisag´ee. Un terme binaire additionnel est ajout´e apr`es les parties

s=0.56 sa=0.89

Fig. 2.6 –Le principe du classeur anticipatoire ACS

conditions et actions, qui a la mˆeme structure que le terme de condition puisqu’il tente de pr´edire quelles seront les sensations (conditions) au tempst+ 1. Et au terme de force des classeurs LCS classiques, qui est ici encore la r´ecompense esp´er´ee R, et repr´esente toujours la qualit´e du classeur en vue de l’obtention d’une ´eventuelle r´ecompense finale, est ajout´ee une force A qui repr´esente la capacit´e du classeur `a anticiper correctement ses futures sensations.

Rappelons que le signe # dans St est le caract`ere “joker”, indiquant que l’attribut en question peut prendre indiff´eremment la valeur 0 ou 1. Par contre, le caract`ere # dans la partie anticipatoire (les pr´edictions par le classeur pourSt+1) signifie le “passage `a travers”

(passthrough) de l’attribut correspondant : sa valeur dansSt+1reste inchang´ee par rapport

`

a sa valeur dans St. Sur l’exemple de la figure 2.6, la valeur du deuxi`eme attribut dans St est de 0, par cons´equent, la valeur du deuxi`eme attribut dans la pr´ediction de St+1 repr´esent´ee par # sera aussi 0.

La mise `a jour des forces des classeurs est similaire `a celle utilis´ee dans l’algorithme Bu-cket Brigade, avec une diff´erence notable : si une r´ecompense r est pr´evue `a partir d’un en-droit pr´ecis de l’environnement, cette r´ecompense ne sera pas seulement r´etro-propag´ee sur les classeurs qui ont permis d’atteindre cette r´ecompense, mais elle augmentera ´egalement la force de tous les classeurs qui anticipent pourSt+1 une situation repr´esentant le mˆeme

´etat des capteurs que sur la case de r´ecompense.

En ce qui concerne, la mise `a jour de la force d’anticipation, les classeurs actifs sont test´es sur le robot (en simulation), les sensations `a t+1 r´eellement obtenues sont com-par´ees aux sensations anticip´ees. Si les sensations correspondent, alors la force d’anticipa-tionsaest augment´ee, si elles ne correspondent pas, on tente de cr´eer un nouveau classeur poss´edant les bons param`etres d’anticipation (on constate donc ici que l’utilisation d’al-gorithmes ´evolutionnaires n’est plus n´ecessaire contrairement aux classeurs classiques ou de type XCS pr´ec´edemment d´ecrit). Cependant, si la cr´eation d’un tel classeur n’est pas

2.4. Les syst`emes de classeurs

r´ealisable, alors la force d’anticipation du classeur ´etudi´e baisse.

Apr`es avoir laiss´e l’algorithme ´evoluer un moment, certains des classeurs finissent par poss`eder une grande force d’anticipation. Lorsque cette force d’anticipation atteint une valeur d´epassant un certain seuil (par exemple 0.9), le classeur est d´enomm´eclasseur sˆur, indiquant que l’utilisation de classeur va conduire `a partir des actions pr´ecis´ees dans le classeur dans plus de 90% des cas, aux sensations anticip´ees par ce classeur `a l’instant d’avant. Indiquer une position finale que le robot doit atteindre (sensations d´esir´ees) suffit alors `a ce dernier pour planifier le chemin qu’il va emprunter, puisqu’il suffit pour cela de construire la chaˆıne minimale de classeurs sˆurs, `a partir des sensations initiales du robot jusqu’aux sensations finales (le but).

Le type de classeurs apparaˆıt donc comme id´eal dans des exp´eriences d’apprentissage latent. De nombreuses exp´eriences d’apprentissage latent ont ´et´e men´ees par les biologistes, notamment avec des rats. Tolman, en 1948, a fait ´evoluer des rats dans un labyrinthe avec des couleurs diff´erentes aux diff´erentes extr´emit´es. Apr`es que le rat se soit promen´e dans le labyrinthe, sans but, on le place dans une case color´ee avec une r´ecompense (nourriture).

Ensuite, lorsque le rat se retrouve au d´ebut du labyrinthe, il se dirige directement vers la case de la mˆeme couleur que celle ayant contenu de la nourriture. Le rat a donc emmagasin´e une tr`es bonne connaissance du monde, puisqu’il est capable d’aller directement dans la case color´ee (repr´esentant une sensation particuli`ere). L’analogie avec les syst`emes de classeurs ACS est flagrante : lorsque le robot explore son environnement, il fortifie au fur et `a mesure sa connaissance du monde, qu’il est capable de mettre en valeur par la construction d’une chaˆıne de classeurs sˆurs. Lorsque les environnements deviennent non markoviens (impossibilit´e de pr´edire correctement les sensations futures `a plusieurs reprises, dˆue `a une ambigu¨ıt´e dans la perception (deux cases diff´erentes peuvent engendrer les mˆemes sensations `a l’instant t mais le fait d’ex´ecuter la mˆeme action pour les deux, peut engendrer des sensations futures diff´erentes.)), le formalisme ACS est capable d’utiliser des s´equences d’actions permettant de se retrouver sur une situation non ambigu¨e.

Ces techniques d’apprentissage par renforcement, et par syst`eme de classeur, ont fait leur preuve dans les mondes discrets, cependant peu d’exp´erimentations ont ´et´e tent´ees sur des robots r´eels : le nombre de sensations disponibles explose avec la discr´etisation, et les bruits qui apparaissent sur les capteurs perturbent l’apprentissage.

Dans cette th`ese, bien que la majorit´e des exp´erimentations aient ´et´e effectu´ees en si-mulation, la simulation tend `a mod´eliser aux mieux les contraintes engendr´ees par le pas-sage au r´eel. C’est pourquoi nous avons utilis´e la technique de la robotique ´evolutionnaire utilisant des techniques d’´evolution artificielle et des r´eseaux de neurones artificiels.

Documents relatifs