Illustration du problème de la représentation de l’espace d’état

Partie I Un formalisme graphique 11

^Qi(s,a) V isits(s,a)

Illustration du problème de la représentation de l’espace d’état

Partie I Un formalisme graphique 11

8.6 Illustration du problème de la représentation de l’espace d’état

(s

, a

, s

, r

)visitée :

Q(s

, a

) ← (1−α)Q(s

, a

) +

α

r

+γmax

Q(s

, a

)

.

Sous certaines conditions il peut être montré que l’algorithme converge vers Q

.

Cet algorithme se fonde sur l’opérateur de Bellman (voir paragraphe 8.1.5) pour calculer

l’es-pérance de récompense en séparant d’un côté la récompense immédiater

et de l’autre l’espérance

de récompense future qui serait obtenue en prenant la meilleure action suivantemax

Q(s

, a

).

L’espérance est calculée en ligne grâce à l’utilisation du taux d’apprentissageα.

Dans le cas d’un apprentissage hors ligne, c’est à dire à partir d’une séquence déterminée

d’échantillons, il est possible d’utiliser l’algorithme Q-learning en rejouant un grand nombre de

fois la même séquence. Cette technique, parfois utilisée, ne nous paraît cependant pas être la plus

adaptée puisque l’utilisation d’un taux d’apprentissage n’a pas vraiment de sens si nous travaillons

hors ligne et pose un certain nombre de problèmes, comme le réglage de sa décroissance. Nous

proposons l’algorithme 5 dans lequel l’utilisation du facteur de mise à jour α est remplacée par

un calcul explicite de la moyenne sur l’ensemble des visites pour estimer l’espérance de la valeur :

Q

s, a) =E

R

+γmax

Q

(s

, a

)

S

=s, A

=a

. (8.22)

Cette opération est répétée jusqu’à la convergence de Q

. Il est probable que certaines actions

n’apparaissent jamais dans certains états ou bien qu’elle ne soient prises qu’un nombre insignifiant

de fois. Nous supposons alors que ces actions, qui n’ont pas été explorées par l’expert humain

et que nous ne pouvons donc pas évaluer, sont potentiellement dangereuses et ne doivent pas

apparaître dans la politique. Les Q-valeurs sont initialisées de façon « pessimiste » et nous

utilisons un seuil (th) pour éviter de les mettre à jour si le nombre de visites n’est pas significatif.

L’algorithme que nous proposons s’apparente en fait à l’algorithmeFitted Q-iterationexprimé

dans le cas d’une approximation tabulaire de la fonction de valeur. La gestion « pessimiste » des

actions non explorées est spécifique à notre cadre expérimental.

8.6 Illustration du problème de la représentation de l’espace d’état

Nous étudions ici le problème de l’apprentissage d’une politique sur des grilles de différentes

tailles avec la contrainte que l’exploration du système est limitée à la base de trajectoires. Comme

mentionné précédemment, travailler avec un ensemble limité de trajectoires implique que l’espace

d’état ne sera que partiellement exploré. Ceci peut être illustré en dessinant la fonction de valeur

obtenue en utilisant l’algorithme 5 sur une grille100×100. Etant donné que la grille est composée

de 10000 états et que nous ne disposons que de 6500 échantillons, le nombre moyen d’échantillons

par état est inférieur à un. Nous pouvons vérifier sur la figure 8.6 que la majorité des états restent

inexplorés.

Pour mesurera posteriori la qualité du modèle, nous lançons 40 trajectoires sur le simulateur,

de 500 pas de temps chacune, en utilisant la politique issue des Q-valeurs calculées. La moyenne de

la récompense reçue est calculée sur les 20000 pas de temps. La position de départ des trajectoires

est définie à θ=

(position basse) avec une petite perturbation aléatoire (−0,5≤θ˙≤0,5).

Entrées : Une séquence du triplet état-action-récompense (s

, a

, r

) avect= 1...T

V isits←0;

pour t= 1 à T−1faire

V isits(s

(position basse) avec une petite perturbation aléatoire (−0,5≤θ^˙≤0,5).