• Aucun résultat trouvé

Illustration du problème de la représentation de l’espace d’état

Partie I Un formalisme graphique 11

8.6 Illustration du problème de la représentation de l’espace d’état

(s

t

, a

t

, s

t+1

, r

t

)visitée :

Q(s

t

, a

t

) ← (1−α)Q(s

t

, a

t

) +

α

r

t

+γmax

a

Q(s

t+1

, a

)

.

Sous certaines conditions il peut être montré que l’algorithme converge vers Q

.

Cet algorithme se fonde sur l’opérateur de Bellman (voir paragraphe 8.1.5) pour calculer

l’es-pérance de récompense en séparant d’un côté la récompense immédiater

t

et de l’autre l’espérance

de récompense future qui serait obtenue en prenant la meilleure action suivantemax

a

Q(s

t+1

, a

).

L’espérance est calculée en ligne grâce à l’utilisation du taux d’apprentissageα.

Dans le cas d’un apprentissage hors ligne, c’est à dire à partir d’une séquence déterminée

d’échantillons, il est possible d’utiliser l’algorithme Q-learning en rejouant un grand nombre de

fois la même séquence. Cette technique, parfois utilisée, ne nous paraît cependant pas être la plus

adaptée puisque l’utilisation d’un taux d’apprentissage n’a pas vraiment de sens si nous travaillons

hors ligne et pose un certain nombre de problèmes, comme le réglage de sa décroissance. Nous

proposons l’algorithme 5 dans lequel l’utilisation du facteur de mise à jour α est remplacée par

un calcul explicite de la moyenne sur l’ensemble des visites pour estimer l’espérance de la valeur :

Q

i+1(

s, a) =E

R

t

+γmax

a

Q

i

(s

t+1

, a

)

S

t

=s, A

t

=a

. (8.22)

Cette opération est répétée jusqu’à la convergence de Q

i

. Il est probable que certaines actions

n’apparaissent jamais dans certains états ou bien qu’elle ne soient prises qu’un nombre insignifiant

de fois. Nous supposons alors que ces actions, qui n’ont pas été explorées par l’expert humain

et que nous ne pouvons donc pas évaluer, sont potentiellement dangereuses et ne doivent pas

apparaître dans la politique. Les Q-valeurs sont initialisées de façon « pessimiste » et nous

utilisons un seuil (th) pour éviter de les mettre à jour si le nombre de visites n’est pas significatif.

L’algorithme que nous proposons s’apparente en fait à l’algorithmeFitted Q-iterationexprimé

dans le cas d’une approximation tabulaire de la fonction de valeur. La gestion « pessimiste » des

actions non explorées est spécifique à notre cadre expérimental.

8.6 Illustration du problème de la représentation de l’espace d’état

Nous étudions ici le problème de l’apprentissage d’une politique sur des grilles de différentes

tailles avec la contrainte que l’exploration du système est limitée à la base de trajectoires. Comme

mentionné précédemment, travailler avec un ensemble limité de trajectoires implique que l’espace

d’état ne sera que partiellement exploré. Ceci peut être illustré en dessinant la fonction de valeur

obtenue en utilisant l’algorithme 5 sur une grille100×100. Etant donné que la grille est composée

de 10000 états et que nous ne disposons que de 6500 échantillons, le nombre moyen d’échantillons

par état est inférieur à un. Nous pouvons vérifier sur la figure 8.6 que la majorité des états restent

inexplorés.

Pour mesurera posteriori la qualité du modèle, nous lançons 40 trajectoires sur le simulateur,

de 500 pas de temps chacune, en utilisant la politique issue des Q-valeurs calculées. La moyenne de

la récompense reçue est calculée sur les 20000 pas de temps. La position de départ des trajectoires

est définie à θ=

32π

(position basse) avec une petite perturbation aléatoire (−0,5≤θ˙≤0,5).

Entrées : Une séquence du triplet état-action-récompense (s

t

, a

t

, r

t

) avect= 1...T

V isits←0;

pour t= 1 à T−1faire

V isits(s

t

, a

t

)←V isits(s

t

, a

t

) + 1;

fin

Q

0

←V aleursInitiales;

i←0;

répéter

i←i+ 1;

Q

i

←0;

pour t= 1 à T−1faire

q ←r

t

+γmax

a

(Q

i1

(s

t+1

, a

));

Q

i

(s

t

, a

t

)←Q

i

(s

t

, a

t

) +q;

fin

pour tous les s, a∈S, Afaire

siV isits(s, a)> thalors

Q

i

(s, a)←

Qi(s,a) V isits(s,a)

;

sinon

Q

i

(s, a)←Q

i1

(s, a);

fin

fin

jusqu’à Convergence de Q;

Algorithme 5: QD-Iteration : Itération sur les valeurs de Q, calculées à partir d’un

en-semble fini de transitions.

8.6. Illustration du problème de la représentation de l’espace d’état

Figure 8.6 – Fonction de valeur calculée sur une grille100×100en utilisant QD-Iteration avec

un facteur d’affaiblissement γ = 0.95. Le fond, gris sombre, correspond à des états non visités.

Avec 10000 états, la récompense moyenne reçue est inférieure à 0 (≈ −0.3) ce qui signifie que le

contrôleur n’arrive pas à amener le pendule en position verticale. Le découpage est manifestement

trop fin et le modèle n’a pas de capacité de généralisation. Comment l’algorithme d’apprentissage

se comporte-t-il sur des grilles de différentes tailles ? La figure 8.7 montre la fonction de valeur

pour une grille composée de 25 états. Sur cette grille 5×5, la fonction de valeur semble couvrir

une zone plus importante de l’espace d’état (en comparaison avec la grille100×100). Cependant

la grille à 25 états ne permet pas de produire un contrôleur efficace. La récompense moyenne

reçue avec ce modèle est également négative (≈ −0.6).

Nous avons utilisé l’algorithme 5sur différentes tailles de grilles. La récompense reçue par le

contrôleur résultant de l’apprentissage est tracée sur la figure 8.8. Les meilleures politiques ont

été obtenues pour les grilles de tailles 64 (0.62), 169 (0.85) et 289 (0.76). Ces résultats illustrent le

fait que le nombre d’états doit être choisi en fonction du nombre d’échantillons d’apprentissage.

Nous faisons face à un dilemme précision - capacité de généralisation. Des modèles simples ont

de meilleures capacités de généralisation avec le coût d’une précision plus faible. Il est intéressant

de noter la forme générale de la courbe sur la figure 8.8, composée d’une croissance brutale pour

atteindre rapidement une zone maximum suivie par une décroissance lente au fur et à mesure que

le modèle se complexifie. Le principe d’Ockham semble s’appliquer ici. Les meilleurs modèles sont

les plus simples permettant d’expliquer nos observations. Relativement peu de modèles en forme

de grilles permettent d’atteindre l’objectif et nous ne découvrons la qualité du modèle qu’après

exécution. Notre objectif ici étant de choisir un espace d’état pour faire de l’apprentissage sur

des trajectoires, nous avons besoin d’un critère permettant d’évaluer le modèle a priori, c’est à

dire en ne se basant que sur les trajectoires.

Figure 8.7 – Fonction de valeur calculée sur une grille 5×5 en utilisant QD-Iteration avec un

facteur d’actualisationγ = 0.95.

!

Figure 8.8 – Récompense moyenne reçue par le contrôleur construit avec QD-Iteration sur

différentes tailles de grilles avec un facteur d’actualisation γ = 0.95.