Apprentissage par renforcement
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y.
Privat et C. Court` es
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 1/83 1
/
83Cadre th´ eorique
Programmation dynamique
M´ ethodes Stochastiques I: Monte-Carlo
M´ ethodes Stochastiques II: Diff´ erences temporelles Grand probl` emes: m´ ethodes avec approximation Grand probl` emes: gradients de politiques M´ ethodes bas´ ees sur les mod` eles
Conclusion
2
/
Introduction
Apprentissage automatique
Branche de l’informatique et des math´ematiques qui porte sur la construction de mod`eles param´etriques`a partir de donn´ees. Mod`eles: d´eterministe ou al´eatoire:
y=fθ(x), Pθ(y|x)
Type d’apprentissage:
Supervis´e: on connaˆıt un certain nombre de couple entr´ee/sortie ((x,y)1, ...,(x,y)n) et on les utilise pour ajuster le mod`ele.
Non supervis´e: On ne connaˆıt pas d’exemples des sortiesy. L’apprentissage est fait `a partir de l’analyse des donn´ees (x1, ..,xn).
Par renforcement: Apprentissage par unagent autonome`a travers un processus:
essai-erreur + r´ecompense.
Apprentissage par renforcement
Il s’agit decontrˆole optimal stochastiquecoupl´e avec del’apprentissage.
Applications
Robotique, v´ehicules autonomes, optimisatio de production, de traitement m´edical,
IA pour les jeux: ´echec, Go et r´ecemment Starcraft.
EDP/physique ? Nouveaumod`ele de turbulence: paper (Nature machine intelligence).
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 3/83 3
/
83Cadre th´ eorique
4
/
Principe
Etat:st, ´etat courant de l’agent (ex: un ´echiquier),
Action:at, action qui, en int´eraction avec l’environnement modifie l’´etat de l’agent (ex: un mouvement de pi`ece).
Environnement: il d´ecrit comme une action g´en`ere l’´etat suivant et la recompense (mouvement de l’adversaire aux ´echecs),
R´ecompense:rt+1,´evalue l’action(aux ´echecs: pas de r´ecompense pendant la partie, une r´ecompense en cas de victoire).
Plan
Partie I: probl`emes de petites tailles, espace des ´etats/actions finis et pas trop grand.
Partie II: probl`emes de grandes tailles, espace des ´etats/actions finis et grand o`u infinis.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 5/83 5
/
83Cadre th´ eorique: processus de d´ ecision Markovien I
Processus de d´ ecision
UnProcessus de d´ecisionest d´efinit par le quadruplet (S,A,P(.),r(.)):
Sest l’espace d’´etats dans lequel ´evolue le processus ;
Aest l’espace des actions qui contrˆolent la dynamique de l’´etat ;
P(.|., .) :S×A×S→[0,1] sont les probabilit´es de transition entre les ´etats;
r(., .) :S×A→Rest la fonction de r´ecompense sur les transitions entre les ´etats.
On parle demod`ele parfaitsiP(., .|.) etr(., .) sont connus.
Enjeu central(en robotique): Trouver des m´ethodes qui neconnaissance pas le mod`ele mais interargissent avec.
Processus de d´ ecision Markovien
Un processus de d´ecision est ditMarkoviensi
P(st+1|a0,s0, ...,at,st) =P(st+1|at,st)
En pratiquePest donc une loi de probabilit´e des ´etatss0atteignableen partant des avec l’actiona.
6
/
Cadre th´ eorique: processus de d´ ecision Markovien II
Exemple de PDM stochastique: pas un seul ´etat associ´e a un couple ´etat/action.
Ici: 3 ´etats, 2 actions, 2 r´ecompenses possibles pour certaines transitions.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 7/83 7
/
83Processus de d´ ecision Markovien: exemples
Maintenance de stock: Le responsable d’un entrepˆot dispose d’un stockst de marchandise. Il doit satisfaire la demandeDt des clients (Processus de Poisson).
Action: quantit´eat suppl´ementaire command´ee `a son fournisseur. L’entrepˆot a une capacit´e limiteM doncA={0,1, ...M−st}.
La dynamique est donn´ee par
st+1= [st+at−Dt]+
L’objectif est de maximiser le profit. On obtient les r´ecompenses:
rt=−C(at)−h(st+at) +f([st+at−xt+1]+)
avec coˆut de stockh(s), un coˆut de commandeC(a) et une fonction de revenuf(q) qui d´epend du stock vendu. Crit`ere:
E
"
T−1X
i=1
rt+g(sT)
#
Contrˆole d’EDO/EDS et de chaine de Markov(mod`ele ´epid´emique stochastique etc).
8
/
Processus de d´ ecision Markovien: exemples II
Optimisation de traitement du cancerTraitement multi-modalit´es(chirurgie, radioth´erapie ou chimioth´erapie). L’articulation de ces modalit´es tr`es d´ependante du praticien.
But: automatiser la construction de ces traitements? Ici, il est consid´er´e trois types de traitements:
Modalit´e 1 (M1): fort risque d’effets secondaires sur les tissus sains, efficacit´e importante (fr´equence d’utilisation limit´ee)
Modalit´e 2 (M2): faible risque d’effets s´econdaires sur les tissus sains, efficacit´e mod´er´e,
Modalit´e 3 (M3) :pas de traitement, baisse de la probabilit´e d’effets secondaires, progression de la tumeur plus importante.
Etat: st = (ht,φt,τt) avec:
ht ∈ {0,1}qui d´efinit l’utilisation de la modalit´e de TYPE 1 (ht= 1 la modalit´e a d´ej`a ´et´e utilis´ee).
φt ={0, ..,m}repr´esente l’effet sur les tissus sains (0 pas d’effet,mbeaucoup d’effet),
τt ={0, ..,n}repr´esente la progression de la tumeur (0 r´emission,nd´ec`es du patient).
L’espace des action est donn´e parat∈ {M1,M2,M3}.
Applications importantes: IA de jeux (Echec, Starcraft..), Robotique, vehicules autonomes.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 9/83 9
/
83Cadre th´ eorique: politique I
R` egles Markovienne
On nomme uner´egle de d´ecision d´eterministe Markovienneune fonction µt(st) :S→A
qui connaissant un ´etat renvoie une action. On nomme uner´egle de d´ecision stochastique Markovienneune loi de probabilit´e:
πt(at|st) :A×S→[0,1]
tel que
P
a∈Aπt(a|st) = 1 qui connaissant un ´etat renvoie les probabilit´es des actions.
R` egles Histoire d´ ependante
On nomme uner´egle de d´ecision d´eterministe histoire d´ependanteune fonction µt(ht) :S×A×...×S×A→A
qui connaissant l’historiqueht des ´etats/actions renvoie une action. On nomme uner´egle de d´ecision stochastique Histoire-d´ependanteune loi de probabilit´e:
πt(at|ht) :A×S×A×...×S×A→[0,1]
tel que
P
a∈Aπt(a|ht) = 1 qui connaissant l’historique renvoie les probabilit´es des actions.
10
/
Cadre th´ eorique: politique II
Politique
On nommepolitique Markovienne/histoire d´ependanteune s´equence de r´egle Markovienne/Histoire d´ependante:
π= (π0,π1, ...πt) et unepolitique stationnaire:
π= (π,π, ...,π).
Connaissant une politique on peut d´efinir les probabilit´es de transition:
Pπ(st+1=s0 |st=s) =
X
a∈A
π(a|s)P(s0|a,s)
et la r´ecompense moyenne associ´ee `a la politiqueπ:
rπ(s) =
X
a∈A
π(a|s)r(s,a)
Proposition: Siπest Markovienne, le triplet (S,Pπ,rπ) forme unechaine de Markov valu´ee.
Proposition: Si la politique est stationnaire la chaine de Markov esthomog`ene.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 11/83 11
/
83Processus de d´ ecision Markovien: cumul esp´ er´ e
On est dans un probl`eme de contrˆole optimal: trouver la trajectoire (suite d’action) maximisant la r´ecompense.
Probl`eme Markovien: le probl`eme ne depend que del’´etat courant.
Quel crit`ere maximiser: le cumul esp´er´e`a partir du tempst(d´efini `a partir de l’´etat st):
le cumul esp´er´e fini:
Gt =
T
X
k=0
rt+k+1,
le cumul esp´er´e amorti:
Gt=
∞
X
k=0
γkrt+k+1, avecγ <1.
le cumul esp´er´e moyen:
Gt = limn→∞
1 n
n
X
k=0
rt+k+1.
On d´efinit le cumul esp´er´e `a partir dest. On pourrait partir d’un ´etat z´ero `a cause du caract´ere Markovien.
En g´en´eral et pour la suite on utilise lecumul esp´er´e amorti.
12
/
Fonction valeur et Q fonction
But: trouver la meilleur action/meilleur politique pour l’agent.
On doit donc d´efinir des objets pour´evaluer une politique/action
La fonction valeur
Lafonction valeurassoci´ee `a une politiqueπest une fonctionS→Rqui estime le cumul esp´er´e suivant la politiqueπ:
Vπ(s) =E[Gt|st =s;π]
La Q fonction
LaQ fonctionassoci´ee `a une politiqueπest une fonctionS×A→Rqui estime le cumul esp´er´e avecacomme premi`ere action puis suivant la politiqueπ:
Qπ(s,a) =E[Gt|st =s,at=a;π]
Lien entreV et Q:V(s) =
P
aQ(s,a)π(a|s) (cas d´eterministeQ(s,µ(s)) =V(s)).
Les fonctionsV etQpermettent d’´evaluer les politiques. Elles permettent donc de construire la notion depolitique optimale.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 13/83 13
/
83Politique optimale I
SoitΠAH/ΠAM l’espace des politiques al´eatoires histoire-d´ependante/Markovienne.
SoitDAM/DM l’espace des politiques al´eatoires/d´eterministes stationnaires Markoviennes.
Afin de d´efinir une politique optimale. On d´efinit une relation d’ordre: soit π,π0 ∈ΠAMon dit que
π0 < π si ∀s∈S, Vπ
0
(s)<Vπ(s)
Politique optimale
Unepolitiqueπ∗est optimalesi la fonction valeur associ´ee est optimale au sens Vπ∗(s) =V∗(s) = maxπ∈ΠAHVπ(s) ∀s∈S
Remarques:
On peut d´efinir la Q fonction optimale aussi:
Q∗(s,a) = maxπ∈ΠAHQπ(s,a) ∀s∈S,a∈A.
D´efinition: On appelle unepolitique gloutonnela politique donn´ee par µ(s) = argmaxaQ(s,a).
14
/
Politique optimale II
´ Equivalence entre Π
AM= Π
AHSoitπ1∈ΠAH. Pour chaque ´etat initials∈Sil existe une politiqueπ2∈ΠAMtel que Vπ1(s) =Vπ2(s)
D´ebut preuve Soitπ1la politique histoire-d´ependante. On peut d´efinir une politique Markovienne associ´ee:
π2(at+k=a|st+k=s) =Pπ
1(at+k=a|st+k=s,st=x), ∀k≥t,∀a∈A,s∈S Par r´ecurrence (on ne d´etaille pas), on obtient:
Pπ
1(st+k=s,at+k=a|st=x) =Pπ
2(st+k=s,at+k=a|st =x)
Or pour une politiqueπ:
Vπ(x) =E[
∞
X
k
γtrt+k+1|st=s;π] =
∞
X
k
γtE[rt+k+1|st =s;π]
avec
E[rt+k+1|st=s;π] =
X
s∈S
X
a∈A
r(s,a)Pπ(st+k=s,at+k=a|st =x)
L’´egalit´e des probabilit´es permet de conclure associ´eesπ1/π2. Fin preuve
Remarque: On peut se restreindre `a l’ensemble des politiques Markovienne.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 15/83 15
/
83Recherche de la meilleure action
A ce stade deux questions possibles:
calculer unetrajectoire optimale.Contrˆole optimal stochastique en boucle ouverte.
calculer unepolitique optimale(meilleure politique pour l’ensemble des trajectoires/´etats). Contrˆole optimal stochastique en boucle ferm´ee.
Meilleure action`a partir d’un ´etats: action qui maximise l’esp´erance des r´ecompenses cumul´ees sur une trajectoire:
a∗∈argmaxaQ∗(s,a).
Cela revient `a d´eterminer la meilleure trajectoire (la meilleure action =1`ere action).
Comment la d´eterminer? on peut voir le probl`eme comme unarbre (stochastique ou d´eterministe) avec comme poids les r´ecompenses.
Meilleure action:recherche du chemin `a poids maximum(algorithme de Dijkstra, algorithme par recherche avant avec horizon).
Probl`eme: l’arbre peut rapidement devenir tr`es tr`es large. Coˆut:O((Smax|A|)T) avecSmaxle nombre max de successeur etTle nombre de temps.
16
/
Programmation dynamique
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 17/83 17
/
83Caract´ erisation des fonctions valeur
D´ efinition
On se place dans lecadre horizon infini amorti. On d´efinit l’op´erateurLπsur les fonctions valeursV ∈R|S| d´efinies par
LπV =rπ+γPπV avec
Pπ(st+1=s0|st=s) =
X
a∈A
π(a|s)P(s0 |a,s), rπ(s) =
X
a∈A
π(a|s)r(s,a)
dans le cas stochastique et
Pπ(st+1=s0|st =s) =P(s0|µ(s),s), rπ= (s,µ(s)) dans le cas d´eterministe.
Th´ eor` eme: Caract´ erisation
Soientγ <1 etπ∈DAM une politiquestationnaire al´eatoire Markovienne. Alors la fonction valeurVπest l’unique solution de l’´equationVπ=LπVπ, ce qui ´equivaut `a
Vπ(s) =E[rt+γVπ(st+1)|st =s] =rπ(s) +γ
X
s0∈S
Pπ(s0|s)Vπ(s0)
Qπ(s,a) =E[rt+γQπ(st+1,at+1)|st =s,at=a] =r(s,a) +γ
X
s0∈S
P(s0|s,a)Vπ(s0) 18
/
Preuve de la caract´ erisation
Cas stochastique. On consid`ere la fonction valeur au temps initial:
Vπ(s) =Eπ
"
∞X
t=0
γkrt+1|s0=s
#
=Eπ[r1+γr2+γ2r3+...|s0=s]
Vπ(s) =Eπ[r1|s0=s] +γEπ[r2+γ1r3+...|s0=s]
Pour une politique stochastique:
Eπ[r1|s0=s] =
X
a
π(a|s)r(s,a) =rπ(s)
car la politique est une variable al´eatoire sur les actions. On estimeEπ[r2...|s0=s]
(esp´erance des r´ecompenses partant des). Caract`ere Markovienimplique:
Eπ[r2+γr3+...|s0=s] =
X
s0
Pπ(s0|s)Eπ
r2+γr3+...|s1=s0
avecPπd´efinit au-dessus. On note queEπ
r2+γr3+...|s1=s0
=Vπ(s0), ce qui permet d’obtenir:Vπ=LπVπ.
Unicit´e: on r´e´ecrit l’op´erateur sous la forme suivante:
(Id−γPπ)Vπ=rπ
PuisquePπest unematrice de probabilit´e, toute les valeurs propres de module inf´erieur ou ´egal `a 1. Siγ <1 idem. L’op´erateur est donc inversible.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 19/83 19
/
83Fonction valeur et politique optimale I
Equation d’optimalit´ e de Bellman
On suppose le crit`ere d’horizon infini amorti. Pourγ <1, la fonction valeur optimale V∗(.)∈ V est l’unique solution del’´equation de Bellman:
V∗(s) =LV∗(s), ∀s∈S
avec l’op´erateur
LV(s) = maxa r(s,a) +γ
X
s0
P(s0|s,a)V(s0)
!
Notation vectorielle:
maxµ∈DM(rµ+γPµV), ∀V On a aussi
Q∗(s,a) =LQQ∗(s,a), ∀s∈S,∀a∈A avec l’op´erateur
LQQ(s,a) = r(s,a) +γ
X
s0
P(s0|s,a) maxa0Q(s0,a0)
!
20
/
Preuve Bellman I
Equivalence d´ eterministe/al´ eatoire
∀V on a
LV = maxµ∈DM(rµ+γPµV) = maxπ∈DMA(rπ+γPπV)
D´ebut preuve
Premier sens imm´ediat: DM⊂DAM
Autre sens: Soitπ∈DAM. On consid`ere LπV(s) =
X
a
π(s,a) r(s,a) +γ
X
s0
P(s0|s,a)V(s0)
!
, ∀s∈S
LπV(s)≤
X
a
π(s,a) maxa0 r(s,a0) +γ
X
s0
P(s0|s,a0)V(s0)
!
=LV(s), ∀s∈S donc
LπV = (rπ+γPπV)≤LV = maxµ∈DM(rµ+γPµV) ce qui donne
maxπ∈DMA(rπ+γPπV)≤maxµ∈DM(rµ+γPµV)
fin preuve.
On peut donc consid´erer l’ensemble des politiques d´eterministes.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 21/83 21
/
83Preuve Bellman II
Caract´erisation:
Siµ∗existe par d´efinition de la politique optimale d´eterministe, on a:
V∗= maxµ∈ΠVµ= maxµ(rµ+γPµVµ).
Toutes politiques s’´ecritµ= (µ0,µ1, ...µn, ...) = (µ0,µ0). Dans ce cas on obtient : V∗= maxµVµ= max(µ
0,µ0)Vµ= max(a,µ0 )Vµ
On a donc max(a,µ0
)Vµ= max(a,µ0
)E[r(s0,a) +γr(s1,µ1(s1)) +...|s0=s;µ]
max(a,µ0)Vµ= max(a,µ0)
r(s,a) +γP(s0|s,a)Vµ
0
(s0)
max(a,µ0
)Vµ= maxa
r(s,a) +γP(s0|s,a) maxµ0Vµ
0
(s0)
max(a,µ0
)Vµ= maxa r(s,a) +γP(s0|s,a)V∗(s0)
22
/
Preuve Bellman III
Justification de la derni`ere ´egalit´e:
1`ere in´egalit´e maxµ0
X
s0
P(s0|s,a)Vµ
0
γ (s0)≤
X
s0
P(s0|s,a) maxµ0Vµ
0
(s0)
2`eme in´egalit´e: On part de (∗) =
X
s0
P(s0|s,a) maxµ0Vµ
0
(s0)
Soit ¯µ= argmaxµ0Vµ
0
donc (∗) =
X
s0
P(s0|s,a)Vγµ¯(s0)≤maxµ0
X
s0
P(s0 |s,a)Vµ
0
(s0)
Les deux in´egalit´es permettent de conclure.
Remarque: l’´equation de Bellman optimale caract´erise les fonctions valeurs optimales.
Cette fonction valeur peut ˆetre atteinte sur l’ensembledes politiques stationnaires Markovienne d´eterministes.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 23/83 23
/
83Preuve Bellman IV
Unicit´e:
Probl`eme depoint fixedans un espace de Banach, donc th´eor`eme de point-fixe.
Unicit´e =Lest contractante pour la normeL∞.
On va calculerA=|LV(s)−LU(s)|
Puisque le maximum des valeurs absolues d´efini une norme on peut donc utiliser la propri´et´ekxk − kyk<kx−yk. On a donc
A≤maxa
r(s,a) +γ
X
s0
P(s0|s,a)V(s0)
!
− r(s,a) +γ
X
s0
P(s0|s,a)U(s0)
!
|LV(s)−LU(s)|≤γmaxa
X
s0
P(s0|s,a) V(s0)−U(s0)
Puisque la fonction valeur ne d´epend pas de l’action on a:
|V(s)−U(s)|≤γmaxa
X
s0
P(s0|s,a)|V(s0)−U(s0)|≤γkV −Uk∞
Pr´ec´edente relation vrai pour tous les ´etats donc:
kLV−LUk∞= maxs|LV(s)−LU(s)|≤γkV−Uk∞
24
/
Caract´ erisation de la politique optimale
Politique optimale
Une politique stationnaire est dit optimale si et ssi sa fonction valeur satisfait l’´equation de Bellman ce qui ´equivaut `a
π∈argmaxa r(s,a) +γ
X
s0
p(s0|s,a)V∗(s0)
!
(1)
D´ebut Preuve.
1) (1) vers optimalit´e:
L’´equation (1) ´equivaut `aLV∗=LπV∗carLcorrespond `aLπquand π= argmaxπV∗.
On suppose queπsatisfait (1) donc
V∗=LV∗=LπV∗=V∗
et par unicit´e de l’´equationV =LπV on aVπ=V∗. Donc siπdans (1) alors Vπ=V∗.
2) Optimalit´e vers (1) :
On a doncVπ=V∗. PuisqueVπ=LπVπon aV∗=LπV∗. Puisqu’elle est optimaleLπ=LdoncV∗=LV∗.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 25/83 25
/
83Algorithme bas´ e sur les valeurs
1er Id´ee: L’´equation de Bellman est unest un probl`eme de point fixe. On veut donc faire un Picard.
Algorithme:
InitialiserV0la fonction valeur initiale,
n=0
Tant que|Vn+1−Vn|> ε:
Pour touts∈S:Vn+1= maxa r(s,a) +γ
P
s0P(s0|s,a)Vn(s0)
Pour touts∈S:µ(s) = argmaxa r(s,a) +γ
P
s0P(s0|s,a)Vn(s0)
Remarque: l’algorithme construit lapolitique gloutonne.
Complexit´e par it´eration: O(|S|2|A|).
Question: A chaque it´eration on am´elioreV mais est cequ’on am´elioreµ? En effet Vµn 6=Vn
Am´ elioration de la politique
kV∗−Vµn k∞≤ 2γ
1−γkV∗−Vnk∞ Convergence asymptotique: O
log−1 logγ−1it´erations pour avoir une erreur≈.
26
/
Algorithme bas´ e sur les valeurs II
Preuve:
On part donc dekV∗−Vµnk∞et on d´eveloppe:
kV∗−Vµnk∞=kV∗−LµnVn+LµnVn−Vµnk∞
≤kV∗−LµnVnk+kLµnVn−Vµnk∞
≤kLV∗−LµnVnk+kLµnVn−LµnVµnk∞ On a utilis´e queLV∗=V∗par d´efinition de la fonction valeur optimale,
On a utilis´e queLµVµn=Vµn(caract´erisation des politiques).
Puisqueµnest gloutonne (obtenu par argmax)LµnV =LV. On a donc kV∗−Vµnk∞≤kLV∗−LVnk∞+kLVn−LVµnk∞
≤γkV∗−Vnk∞+γkVn−Vµnk∞
≤γkV∗−Vnk∞+γ kVn−V∗k∞+kV∗−Vµnk∞
on a donc
(1−γ)kV∗−Vµnk∞≤2γkVn−V∗k∞
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 27/83 27
/
83Algorithme bas´ e sur la politique
Algorithme pr´ec´edent: politique calcul´ee `a la fin.
Id´ee:processus d’´evaluation/am´elioration:
π0
−→e V0
−→a π1
−→e v1
−→a π2....−→a π∗ e
−
→v∗ Algorithme:
InitialiserV0la fonction valeur initiale,
n=0
Tant que|µn+1−µn|> ε:
On r´esoud
Vn= r(s,µn(s)) +γ
X
s0
P(s0|s,µn(s))Vn(s0)
!
, ∀s∈S
Pour touts∈S:µn+1(s) = argmaxa r(s,a) +γ
P
s0P(s0|s,a)Vn(s0)
Complexit´e par it´eration: O(|S|2|A|) +O(|S|3).
Ici on inverse un syst`eme lin´eaire. Il existe des variantes ou on r´esout le syst`eme de fac¸on it´erative avec une faible pr´ecision.
Convergence au pire en:O |S||A|1−γ log1−γ1
28
/
M´ ethodes avec/sans mod` eles
Avec ou sans mod` ele ?
Un algorithme est ditavec mod`eles’ il utilise les lois de probabilit´eP(.|., .) etr(., .).
Il est ditsans mod`elesi il utilise des transitions (st,at,rt,st+1) sans connaˆıtre les lois de probabilit´es.
Dans certaines applicationson ne connaˆıt pas ou on ne peut pas calculer le mod`ele.
Suite: On va introduire desalgorithmes sans mod`elesbas´es sur des approches stochastiques.
D´efinition: On parle deplanificationlorsque le mod`ele est connu, d’apprentissage par renforcementsi il est inconnu.
Exemple: robot aspirateur.Id´eal: il connaˆıt le plan de la pi`ece. 1`ere mod`ele:
politique al´eatoire. Mod`eles r´ecents: RL lien.
Int´ erˆ et pour les EDP
Le mod`ele est en gros connu. Int´erˆet de la planification/renforcement pour les EDP ?
Beaucoup de m´ethodes pour construire des contrˆoles en boucle ferm´ee,
Contrˆole en boucle ferm´ee: contrˆole en temps r´eel. Utile en m´edecine, pour contrˆoler des m´ethodes num´eriques.
Cadre plus flexible que le contrˆole optimal classique ?
Possibilit´e: codes qui optimisent au gr´e des simulations.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 29/83 29
/
83M´ ethodes Stochastiques I: Monte-Carlo
30
/
Rappel sur Monte-carlo
Estimateur
Soit (Xn)n≥0une suite de variable al´eatoire idd de loiPθ. Un estimateur deθest une variable al´eatoire ˆθntelle qu’il existe une fonctionFn:En→Θ, ˆθn=Fn(X1, ...,Xn). Il est dit, consistant si ˆθn
−−→p.s. θpar rapport `aPθquandn→+∞
M´ ethode de Monte Carlo
SoitX une variable al´eatoire et (X1, ...,Xn) un ´echantillon deX. La moyenne empirique
En=1 n
n
X
i=1
g(Xi)
est unestimateur sans biais consistantdeE[g(X)].
Th´ eor` eme
Sous hypoth`eses, l’algorithme converge:
E¯n+1= (1−αn) ¯En+αng(Xn+1) versE[g(X)].αn=n+11 donne exactement Monte-Carlo.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 31/83 31
/
83Echantillonnage pr´ ´ ef´ erentiel
L’erreur commise `a Monte-Carlo d´epend de la variance deX.
Modification de la variance:´Echantillonnage pr´ef´erentiel.
Cas discret:
E[g(X)] =
m
X
i=1
g(xi)p(xi) =
m
X
i=1
g(xi)p(xi)
˜
p(xi) ˜p(xi) =E
h
g(Y)p(Y)˜ p(Y)
i
avecY une variable al´eatoire suivant une loi de probabilit´e ˜p.
Deux possibilit´es: appliquer la m´ethode de MC sur la 1`ere esp´erance (loi X) ou sur la derni`ere (loi Y).
But: trouver la probabilit´e ˜ptel que
V
h
g(Y)p(Y)˜ p(Y)
i
≤V[g(X)]
et dans ce cas on estime l’esp´erance d´ependante deY.
Int´erˆet: Permet de g´en´erer des ´echantillons avec une autre loi que celle dont on calcul l’esp´erance.
32
/
Application aux MDP: 1er algorithme I
On rappelle les fonctions valeurs [Rlin2020]:
V(s) =E[Gt |st=s], Q(s,a) =E[Gt|st =s,at=a]
Les m´ethodes de recherche consiste `a calculer l’esp´erance compl`ete (arbre) et `a trouver le plus court chemin.
Les m´ethodes de programmation dynamique utilisent une r´ecurrence et calcul l’esp´erance compl`ete sur une transition.
Monte-Carlo: calculer unestimateur de l’esp´erance par Monte-Carlo(moyenne empirique) + processus´evaluation/am´elioration.
π0
−→e V0
−→a π1
−→e v1
−→a π2....−→a π∗ e
−
→v∗ Calcul deQ (´evaluation):
Q(s,a) =E
"
TX
k
rπ(sk)|s0=s,a0=a
#
≈1 n
n
X
i=1 T
X
k
r(sk,ak)≈ 1 Ns
n
X
i=1 T
X
k
r(sk,ak)
avecnun certains nombre de trajectoires g´en´er´ees etNsle nombre de fois ques est crois´e.
Une fois une politique ´evalu´ee, onl’am´eliore en la calculant avecQ.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 33/83 33
/
83Application aux MDP: 1er algorithme II
On introduit un1er algorithme de MC(chaque visite).
Initialisation deQ0(., .) etπ0(.) arbitraire,
Pour tout episodek≤n:
initialiserG(., .) = 0 etN(., .) = 0
choisir al´eatoirement un ´etats0et une actiona0
calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,rT) selon la politiqueπk
tout couple (st,at) de la trajectoire:
calculerGloc=
P
Ti=0γirr+t+1,
G(st,at)+ =GlocetN(st,at)+ = 1,
Qk(st,at) = N(s1
t,at)G(st,at)
Politique gloutonne: πk+1(st) = argmaxaQk(st,a)
Version ”1`ere visite de l’algorithme”: on ne compte un ´etat qu’une fois par transition.
Avantage MC vs DP: M´ethodes MC utilisent desestimations ind´ependantes les unes des autres. DP: utilise les fonctions valeurs associ´ees aux autres ´etats. MC plus adapt´ees au sous ensemble d’´etat.
34
/
Application aus MDP: MC soft
D´efaut: Convergence globale = explorer toutes les paires (s,a). Exploration al´eatoire avec la 1er action, pas suffisant. Ex : environnement comme les jeux.
Solution : politique stochastique
G´en´erer les trajectoires avec unepolitique stochastiqueπ(a|s). Cette politique stochastique sera la politique ´evalu´ee parV (m´ethode ”on-policy”)
Monte-Carlo soft(chaque visite).
Pour tout episodek≤n:
initialiserG(., .) = 0 etN(., .) = 0
choisir al´eatoirement un ´etats0et une actiona0
calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,rT) selon la politiqueπk tout couple (st,at) de la trajectoire:
calculerGloc=
P
Ti=0γirr+t+1,
G(st,at)+ =GlocetN(st,at)+ = 1,
Qk(st,at) = N(s1
t,at)G(st,at)
la politique est donn´ee par π(a|st) =
1−+|A(st)| sia= argmaxaQk(st,a)
|A(st)| sia6= argmaxaQk(st,a)
En g´en´erald´ecroˆıt au fur et `a mesure.Convergence vers la politique gloutonne.
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 35/83 35
/
83Application aux MDP: MC soft II
On peut d´emontrer que chaque it´eration am´eliore la politique.
MC soft (cas standard= 0):
Vπk+1(s) =Qπk(s,πk+1(s)) =
X
a
πk+1(a|s)Qπk(s,a)
puisqu’on utilise une politique stochastique avec
P
aπk+1(a|s) = 1.
Vπl+1(s) =
|A(s)|
X
a
Qπk(s,a) + (1−) maxaQπk(s,a) on utilise l’in´egalit´e
maxaQπk(s,a)≥
X
a
πk(a|s)−|A(s)|
1− Qπlk(s,a) Pour obtenir cette in´egalit´e on utilise:
P
a
πk(a|s)−
|A(s)|
1− = 1 et que les coefficients≥ 0. On a donc une combinaison convexe. En utilisant l’in´egalit´e pr´ec´edente on obtient:
Vπk+1(s)≥
|A(s)|
X
a
Qπl(s,a)−
|A(s)|
X
a
Qπk(s,a) +
X
a
πk(a|s)Qπk(s,a)
Vπk+1(s)≥Vπk(s)
36
/
M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel I
Pour explorer on utilise unepolitique stochastique. Si on veut construire la politique gloutonne on fait tendreπ(a|s) vers la politique gloutonne. Pas toujours ´evident.
Id´ ee: m´ ethodes ”off-policy”
S´eparer la politique d’explorationb(a|s) utilis´ee pour g´en´erer la trajectoire de celle
´evalu´ee (politique cible) parQ(s,a) not´eeπ(a|s).
Avantages: plus souple pour l’exploration. On peut brasser les trajectoires (on y reviendra). Etc
Construction de la m´ethode Monte-Carlo ”off-policy”:
Condition de couverture: pour ´evaluerπavec les trajectoires g´en´er´ees parbil faut:
π(a|s)>0⇒b(a|s)>0
Outil naturel:´echantillonnage pr´ef´erentiel.
Id´ee: on pond`ere lesretoursen fonction de la probabilit´e que leurs trajectoires soit donn´ees par les politiques cible et d’exploration.
Ratio pourGt =
P
krt+k+1:
ρt:T−1=P(at,st+1,at+1, ...,sT|st,π) P(at,st+1,at+1, ...,sT|st,b)
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 37/83 37
/
83M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel II
On remarque rapidement que
P(at,st+1,at+1, ...,sT|st,π) =π(at |st)P(st+1|st,at)π(at+1|st+1)...P(sT|sT−1,aT−1)
P(at,st+1,at+1, ...,sT|st,π) =ΠT−1k=t π(ak|sk)P(sk+1|sk,ak) ce qui donne
ρt:T−1=ΠT−1k=t π(ak|sk)P(sk+1|sk,ak)
ΠT−1k=t b(ak|sk)P(sk+1|sk,ak) =ΠT−1k=t π(ak|sk) b(ak|sk)
Lorsqu’on g´en`ere les trajectoires avec la politiquebet qu’on estimeE[Gt|st=s] en pratique on calculE[Gt|st =s;b] =Vb(s). Par contre si on estime, avec les trajectoires g´en´er´ees parb, l’esp´erance:
E[ρt:T−1Gt |st =s]≈
P
t∈τ(s)ρt:T−1Gt
|τ(s)|
estime bienVπ(s) (avecτ(s) l’ensemble des temps ou on passe par l’´etats).
En pratique: soft politique pour l’explorationb(a|s) etune politique cible gloutonne.
38
/
M´ ethodes Stochastiques II: Diff´ erences temporelles
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 39/83 39
/
83Principe des diff´ erences temporelles et TD(0)
R´ esum´ e
On doit calculerV(s) =E[Gt|s0=s,a0=a]∀s∈S. Solutions:
Recherche exhaustive: calcul total de l’esp´erance.
Programmation dynamique:relation de r´ecurrenceentreV(s) etV0(s) et calcul total de l’esp´erance.
Monte-Carlo:estimation empirique de l’esp´erance.
Diff´ erence temporelle
Combiner DP et MC:relation de r´ecurrenceetestimation empirique de l’esp´erance.
On rappelle la caract´erisation de la fonction valeur:
Vπ(s) =E[rπ(st) +γVπ(st+1)|st=s;π]
Monte Carlo sur la caract´erisation:
Vπ(st) = 1 N(st)
X
t
rπ(st) +γVπ(st+1)
Version incr´ementale g´en´erique:
Vn+1π (st) =Vnπ(st) +αn(rπ(st) +γVnπ(st+1)−Vn(st))
40
/
Algorithme Sarsa
1er algorithme bas´e sur la Q-fonction:
Q(s,a) =E[Gt |st=s,at=a;π(, .|.)]
Caract´erisation par r´ecurrence:
Q(s,a) =E[r(st,at) +γQ(st+1,at+1)|st=s,at =a;π]
Mˆeme principe qu’avant: Monte-Carlo sur la caract´erisation. Version incr´ementale:
Qπn+1(st,at) =Qn+1π (st,at) +αn(r(st,at) +γQπn(st+1,at+1)−Qnπ(st,at)) Algorithme (SARSA):
Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0
pour tout ´episodek≤n:
initialisers0de fac¸on al´eatoire
choisira0selon la politiqueπ(d´ependante de Q) `a partir des0 pour toutt∈ {0, ...,T}
calculerst+1etrt+1en utilisant l’environnement et (st,at)
choisirat+1selon la politiqueπ`a partir dest+1
Q(st,at) =Q(st,at) +α(rt+1+γQ(st+1,at+1)−Q(st,at))
on met `a jour la politiqueπ(si d´epend de Q)
st =st+1,at=at+1
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 41/83 41
/
83Algorithme Q Learning
SARSA est un algorithme”on-policy”.
Version”off-policy”app´el´eeQ-learning(algo star). Preuve de convergence.
On applique MC (incr´ementale) sur la caract´erisation duQ optimal:
Q(s,a) =E[r(st,at) +γmaxa0Q(st+1,a0)|st=s,at =a;b]
On d´efinit la politique gloutonneµ(s) = argmaxQ(s,a):
Q(s,a) =E[r(st,at) +γQ(st+1,µ(st+1))|st=s,at=a,b]
On g´en`ere les trajectoires du MC avec une politique d’exploration stochastiqueb(.|.).
Algorithme (Q-learning):
Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0
pour tout ´episodek≤n:
initialisers0de fac¸on al´eatoire;
pour toutt∈ {0, ...,T}:
calculerst+1etrt+1en utilisant l’environnement et (st,at):
Q(st,at) =Q(st,at) +α(rt+1+γmaxa0Q(st+1,a0)−Q(st,at)):
on met `a jour la politiqueb(.|.) (si d´epend de Q):
st =st+1.
42