Partie I Un formalisme graphique 11
8.6 Illustration du problème de la représentation de l’espace d’état
(s
t, a
t, s
t+1, r
t)visitée :
Q(s
t, a
t) ← (1−α)Q(s
t, a
t) +
α
r
t+γmax
a′Q(s
t+1, a
′)
.
Sous certaines conditions il peut être montré que l’algorithme converge vers Q
∗.
Cet algorithme se fonde sur l’opérateur de Bellman (voir paragraphe 8.1.5) pour calculer
l’es-pérance de récompense en séparant d’un côté la récompense immédiater
tet de l’autre l’espérance
de récompense future qui serait obtenue en prenant la meilleure action suivantemax
a′Q(s
t+1, a
′).
L’espérance est calculée en ligne grâce à l’utilisation du taux d’apprentissageα.
Dans le cas d’un apprentissage hors ligne, c’est à dire à partir d’une séquence déterminée
d’échantillons, il est possible d’utiliser l’algorithme Q-learning en rejouant un grand nombre de
fois la même séquence. Cette technique, parfois utilisée, ne nous paraît cependant pas être la plus
adaptée puisque l’utilisation d’un taux d’apprentissage n’a pas vraiment de sens si nous travaillons
hors ligne et pose un certain nombre de problèmes, comme le réglage de sa décroissance. Nous
proposons l’algorithme 5 dans lequel l’utilisation du facteur de mise à jour α est remplacée par
un calcul explicite de la moyenne sur l’ensemble des visites pour estimer l’espérance de la valeur :
Q
i+1(s, a) =E
R
t+γmax
a′Q
i(s
t+1, a
′)
S
t=s, A
t=a
. (8.22)
Cette opération est répétée jusqu’à la convergence de Q
i. Il est probable que certaines actions
n’apparaissent jamais dans certains états ou bien qu’elle ne soient prises qu’un nombre insignifiant
de fois. Nous supposons alors que ces actions, qui n’ont pas été explorées par l’expert humain
et que nous ne pouvons donc pas évaluer, sont potentiellement dangereuses et ne doivent pas
apparaître dans la politique. Les Q-valeurs sont initialisées de façon « pessimiste » et nous
utilisons un seuil (th) pour éviter de les mettre à jour si le nombre de visites n’est pas significatif.
L’algorithme que nous proposons s’apparente en fait à l’algorithmeFitted Q-iterationexprimé
dans le cas d’une approximation tabulaire de la fonction de valeur. La gestion « pessimiste » des
actions non explorées est spécifique à notre cadre expérimental.
8.6 Illustration du problème de la représentation de l’espace d’état
Nous étudions ici le problème de l’apprentissage d’une politique sur des grilles de différentes
tailles avec la contrainte que l’exploration du système est limitée à la base de trajectoires. Comme
mentionné précédemment, travailler avec un ensemble limité de trajectoires implique que l’espace
d’état ne sera que partiellement exploré. Ceci peut être illustré en dessinant la fonction de valeur
obtenue en utilisant l’algorithme 5 sur une grille100×100. Etant donné que la grille est composée
de 10000 états et que nous ne disposons que de 6500 échantillons, le nombre moyen d’échantillons
par état est inférieur à un. Nous pouvons vérifier sur la figure 8.6 que la majorité des états restent
inexplorés.
Pour mesurera posteriori la qualité du modèle, nous lançons 40 trajectoires sur le simulateur,
de 500 pas de temps chacune, en utilisant la politique issue des Q-valeurs calculées. La moyenne de
la récompense reçue est calculée sur les 20000 pas de temps. La position de départ des trajectoires
est définie à θ=
32π(position basse) avec une petite perturbation aléatoire (−0,5≤θ˙≤0,5).
Entrées : Une séquence du triplet état-action-récompense (s
t, a
t, r
t) avect= 1...T
V isits←0;
pour t= 1 à T−1faire
V isits(s
t, a
t)←V isits(s
t, a
t) + 1;
fin
Q
0←V aleursInitiales;
i←0;
répéter
i←i+ 1;
Q
i←0;
pour t= 1 à T−1faire
q ←r
t+γmax
a′(Q
i−1(s
t+1, a
′));
Q
i(s
t, a
t)←Q
i(s
t, a
t) +q;
fin
pour tous les s, a∈S, Afaire
siV isits(s, a)> thalors
Q
i(s, a)←
Qi(s,a) V isits(s,a);
sinon
Q
i(s, a)←Q
i−1(s, a);
fin
fin
jusqu’à Convergence de Q;
Algorithme 5: QD-Iteration : Itération sur les valeurs de Q, calculées à partir d’un
en-semble fini de transitions.
8.6. Illustration du problème de la représentation de l’espace d’état
Figure 8.6 – Fonction de valeur calculée sur une grille100×100en utilisant QD-Iteration avec
un facteur d’affaiblissement γ = 0.95. Le fond, gris sombre, correspond à des états non visités.
Avec 10000 états, la récompense moyenne reçue est inférieure à 0 (≈ −0.3) ce qui signifie que le
contrôleur n’arrive pas à amener le pendule en position verticale. Le découpage est manifestement
trop fin et le modèle n’a pas de capacité de généralisation. Comment l’algorithme d’apprentissage
se comporte-t-il sur des grilles de différentes tailles ? La figure 8.7 montre la fonction de valeur
pour une grille composée de 25 états. Sur cette grille 5×5, la fonction de valeur semble couvrir
une zone plus importante de l’espace d’état (en comparaison avec la grille100×100). Cependant
la grille à 25 états ne permet pas de produire un contrôleur efficace. La récompense moyenne
reçue avec ce modèle est également négative (≈ −0.6).
Nous avons utilisé l’algorithme 5sur différentes tailles de grilles. La récompense reçue par le
contrôleur résultant de l’apprentissage est tracée sur la figure 8.8. Les meilleures politiques ont
été obtenues pour les grilles de tailles 64 (0.62), 169 (0.85) et 289 (0.76). Ces résultats illustrent le
fait que le nombre d’états doit être choisi en fonction du nombre d’échantillons d’apprentissage.
Nous faisons face à un dilemme précision - capacité de généralisation. Des modèles simples ont
de meilleures capacités de généralisation avec le coût d’une précision plus faible. Il est intéressant
de noter la forme générale de la courbe sur la figure 8.8, composée d’une croissance brutale pour
atteindre rapidement une zone maximum suivie par une décroissance lente au fur et à mesure que
le modèle se complexifie. Le principe d’Ockham semble s’appliquer ici. Les meilleurs modèles sont
les plus simples permettant d’expliquer nos observations. Relativement peu de modèles en forme
de grilles permettent d’atteindre l’objectif et nous ne découvrons la qualité du modèle qu’après
exécution. Notre objectif ici étant de choisir un espace d’état pour faire de l’apprentissage sur
des trajectoires, nous avons besoin d’un critère permettant d’évaluer le modèle a priori, c’est à
dire en ne se basant que sur les trajectoires.
Figure 8.7 – Fonction de valeur calculée sur une grille 5×5 en utilisant QD-Iteration avec un
facteur d’actualisationγ = 0.95.
!
Figure 8.8 – Récompense moyenne reçue par le contrôleur construit avec QD-Iteration sur
différentes tailles de grilles avec un facteur d’actualisation γ = 0.95.
Dans le document
Modélisation stochastique pour le raisonnement médical et ses applications à la télémédecine
(Page 175-179)