Apprentissage par renforcement

(1)

Apprentissage par renforcement

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y.

Privat et C. Court` es

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 1/83 1

/

₈₃

(2)

Cadre th´ eorique

Programmation dynamique

M´ ethodes Stochastiques I: Monte-Carlo

M´ ethodes Stochastiques II: Diff´ erences temporelles Grand probl` emes: m´ ethodes avec approximation Grand probl` emes: gradients de politiques M´ ethodes bas´ ees sur les mod` eles

Conclusion

2

/

(3)

Introduction

Apprentissage automatique

Branche de l’informatique et des mathématiques qui porte sur la construction de modèles paramétriquesà partir de données. Modèles: déterministe ou aléatoire:

y=fθ(x), Pθ(y|x)

Type d’apprentissage:

Supervis´e: on connaˆıt un certain nombre de couple entr´ee/sortie ((x,y)1, ...,(x,y)n) et on les utilise pour ajuster le mod`ele.

Non supervisé: On ne connaˆıt pas d’exemples des sortiesy. L’apprentissage est fait à partir de l’analyse des données (x1, ..,xn).

Par renforcement: Apprentissage par unagent autonome`a travers un processus:

essai-erreur + r´ecompense.

Apprentissage par renforcement

Il s’agit decontrˆole optimal stochastiquecoupl´e avec del’apprentissage.

Applications

Robotique, v´ehicules autonomes, optimisatio de production, de traitement m´edical,

IA pour les jeux: ´echec, Go et r´ecemment Starcraft.

EDP/physique ? Nouveaumod`ele de turbulence: paper (Nature machine intelligence).

/

₈₃

(4)

Cadre th´ eorique

4

/

(5)

Principe

Etat:st, ´etat courant de l’agent (ex: un ´echiquier),

Action:at, action qui, en intéraction avec l’environnement modifie l’état de l’agent (ex: un mouvement de pièce).

Environnement: il d´ecrit comme une action génère l’état suivant et la recompense (mouvement de l’adversaire aux échecs),

Récompense:rt+1,évalue l’action(aux échecs: pas de récompense pendant la partie, une récompense en cas de victoire).

Plan

Partie I: probl`emes de petites tailles, espace des ´etats/actions finis et pas trop grand.

Partie II: probl`emes de grandes tailles, espace des ´etats/actions finis et grand o`u infinis.

/

₈₃

(6)

Cadre th´ eorique: processus de d´ ecision Markovien I

Processus de d´ ecision

UnProcessus de d´ecisionest d´efinit par le quadruplet (S,A,P(.),r(.)):

Sest l’espace d’´etats dans lequel ´evolue le processus ;

Aest l’espace des actions qui contrˆolent la dynamique de l’´etat ;

P(.|., .) :S×A×S→[0,1] sont les probabilit´es de transition entre les ´etats;

r(., .) :S×A→Rest la fonction de r´ecompense sur les transitions entre les ´etats.

On parle demod`ele parfaitsiP(., .|.) etr(., .) sont connus.

Enjeu central(en robotique): Trouver des m´ethodes qui neconnaissance pas le mod`ele mais interargissent avec.

Processus de d´ ecision Markovien

Un processus de d´ecision est ditMarkoviensi

P(st+1|a0,s0, ...,at,st) =P(st+1|at,st)

En pratiquePest donc une loi de probabilit´e des ´etatss⁰atteignableen partant des avec l’actiona.

6

/

(7)

Cadre th´ eorique: processus de d´ ecision Markovien II

Exemple de PDM stochastique: pas un seul état associé a un couple état/action.

Ici: 3 ´etats, 2 actions, 2 r´ecompenses possibles pour certaines transitions.

/

₈₃

(8)

Processus de d´ ecision Markovien: exemples

Maintenance de stock: Le responsable d’un entrepˆot dispose d’un stockst de marchandise. Il doit satisfaire la demandeDt des clients (Processus de Poisson).

Action: quantitéat supplémentaire commandée à son fournisseur. L’entrepôt a une capacité limiteM doncA={0,1, ...M−st}.

La dynamique est donn´ee par

st+1= [st+at−Dt]⁺

L’objectif est de maximiser le profit. On obtient les r´ecompenses:

rt=−C(at)−h(st+at) +f([st+at−xt+1]⁺)

avec coût de stockh(s), un coût de commandeC(a) et une fonction de revenuf(q) qui dépend du stock vendu. Critère:

E

"

_T−1

X

i=1

rt+g(s_T)

#

Contrôle d’EDO/EDS et de chaine de Markov(modèle épidémique stochastique etc).

8

/

(9)

Processus de d´ ecision Markovien: exemples II

Optimisation de traitement du cancerTraitement multi-modalités(chirurgie, radiothérapie ou chimiothérapie). L’articulation de ces modalités très dépendante du praticien.

But: automatiser la construction de ces traitements? Ici, il est consid´er´e trois types de traitements:

Modalité 1 (M1): fort risque d’effets secondaires sur les tissus sains, efficacité importante (fréquence d’utilisation limitée)

Modalité 2 (M2): faible risque d’effets sécondaires sur les tissus sains, efficacité modéré,

Modalit´e 3 (M3) :pas de traitement, baisse de la probabilit´e d’effets secondaires, progression de la tumeur plus importante.

Etat: st = (ht,φt,τt) avec:

ht ∈ {0,1}qui définit l’utilisation de la modalité de TYPE 1 (ht= 1 la modalité a déjà été utilisée).

φt ={0, ..,m}repr´esente l’effet sur les tissus sains (0 pas d’effet,mbeaucoup d’effet),

τt ={0, ..,n}représente la progression de la tumeur (0 rémission,ndécès du patient).

L’espace des action est donn´e parat∈ {M1,M2,M3}.

Applications importantes: IA de jeux (Echec, Starcraft..), Robotique, vehicules autonomes.

/

₈₃

(10)

Cadre th´ eorique: politique I

R` egles Markovienne

On nomme unerégle de décision déterministe Markovienneune fonction µt(st) :S→A

qui connaissant un état renvoie une action. On nomme unerégle de décision stochastique Markovienneune loi de probabilité:

πt(at|st) :A×S→[0,1]

tel que

P

a∈Aπt(a|st) = 1 qui connaissant un ´etat renvoie les probabilit´es des actions.

R` egles Histoire d´ ependante

On nomme unerégle de décision déterministe histoire dépendanteune fonction µt(ht) :S×A×...×S×A→A

qui connaissant l’historiqueht des états/actions renvoie une action. On nomme unerégle de décision stochastique Histoire-dépendanteune loi de probabilité:

πt(at|ht) :A×S×A×...×S×A→[0,1]

tel que

P

a∈Aπt(a|ht) = 1 qui connaissant l’historique renvoie les probabilit´es des actions.

10

/

(11)

Cadre th´ eorique: politique II

Politique

On nommepolitique Markovienne/histoire dépendanteune séquence de régle Markovienne/Histoire dépendante:

π= (π0,π1, ...πt) et unepolitique stationnaire:

π= (π,π, ...,π).

Connaissant une politique on peut d´efinir les probabilit´es de transition:

P^π(st+1=s⁰ |st=s) =

X

a∈A

π(a|s)P(s⁰|a,s)

et la récompense moyenne associée à la politiqueπ:

r^π(s) =

X

a∈A

π(a|s)r(s,a)

Proposition: Siπest Markovienne, le triplet (S,P^π,r^π) forme unechaine de Markov valu´ee.

Proposition: Si la politique est stationnaire la chaine de Markov esthomog`ene.

/

₈₃

(12)

Processus de d´ ecision Markovien: cumul esp´ er´ e

On est dans un problème de contrôle optimal: trouver la trajectoire (suite d’action) maximisant la récompense.

Probl`eme Markovien: le probl`eme ne depend que del’´etat courant.

Quel critère maximiser: le cumul espéréà partir du tempst(défini à partir de l’état st):

le cumul esp´er´e fini:

Gt =

T

X

k=0

rt+k+1,

le cumul esp´er´e amorti:

Gt=

∞

X

k=0

γ^krt+k+1, avecγ <1.

le cumul esp´er´e moyen:

Gt = limn→∞

1 n

n

X

k=0

rt+k+1.

On définit le cumul espéré à partir dest. On pourrait partir d’un état zéro à cause du caractére Markovien.

En général et pour la suite on utilise lecumul espéré amorti.

12

/

(13)

Fonction valeur et Q fonction

But: trouver la meilleur action/meilleur politique pour l’agent.

On doit donc d´efinir des objets pour´evaluer une politique/action

La fonction valeur

Lafonction valeurassociée à une politiqueπest une fonctionS→Rqui estime le cumul espéré suivant la politiqueπ:

V^π(s) =E[Gt|st =s;π]

La Q fonction

LaQ fonctionassociée à une politiqueπest une fonctionS×A→Rqui estime le cumul espéré avecacomme première action puis suivant la politiqueπ:

Q^π(s,a) =E[Gt|st =s,at=a;π]

Lien entreV et Q:V(s) =

P

aQ(s,a)π(a|s) (cas d´eterministeQ(s,µ(s)) =V(s)).

Les fonctionsV etQpermettent d’´evaluer les politiques. Elles permettent donc de construire la notion depolitique optimale.

/

₈₃

(14)

Politique optimale I

SoitΠÂH/ΠÂM l’espace des politiques aléatoires histoire-dépendante/Markovienne.

SoitDÂM/D^M l’espace des politiques aléatoires/déterministes stationnaires Markoviennes.

Afin de définir une politique optimale. On définit une relation d’ordre: soit π,π⁰ ∈ΠÂMon dit que

π⁰ < π si ∀s∈S, V^π

0

(s)<V^π(s)

Politique optimale

Unepolitiqueπ^∗est optimalesi la fonction valeur associ´ee est optimale au sens V^π^∗(s) =V^∗(s) = max_π∈ΠAHV^π(s) ∀s∈S

Remarques:

On peut d´efinir la Q fonction optimale aussi:

Q^∗(s,a) = max_π∈ΠAHQ^π(s,a) ∀s∈S,a∈A.

D´efinition: On appelle unepolitique gloutonnela politique donn´ee par µ(s) = argmax_aQ(s,a).

14

/

(15)

Politique optimale II

´ Equivalence entre Π

^AM

= Π

^AH

Soitπ¹∈ΠÂH. Pour chaque état initials∈Sil existe une politiqueπ2∈ΠÂMtel que V_π1(s) =V_π2(s)

Début preuve Soitπ¹la politique histoire-dépendante. On peut définir une politique Markovienne associée:

π²(at+k=a|st+k=s) =P^π

1(at+k=a|st+k=s,st=x), ∀k≥t,∀a∈A,s∈S Par r´ecurrence (on ne d´etaille pas), on obtient:

P^π

1(st+k=s,at+k=a|st=x) =P^π

2(st+k=s,at+k=a|st =x)

Or pour une politiqueπ:

Vπ(x) =E[

∞

X

k

γ^trt+k+1|st=s;π] =

∞

X

k

γ^tE[rt+k+1|st =s;π]

avec

E[rt+k+1|st=s;π] =

X

s∈S

X

a∈A

r(s,a)P^π(st+k=s,at+k=a|st =x)

L’égalité des probabilités permet de conclure associéesπ1/π2. Fin preuve

Remarque: On peut se restreindre `a l’ensemble des politiques Markovienne.

/

₈₃

(16)

Recherche de la meilleure action

A ce stade deux questions possibles:

calculer unetrajectoire optimale.Contrˆole optimal stochastique en boucle ouverte.

calculer unepolitique optimale(meilleure politique pour l’ensemble des trajectoires/états). Contrôle optimal stochastique en boucle fermée.

Meilleure actionà partir d’un états: action qui maximise l’espérance des récompenses cumulées sur une trajectoire:

a^∗∈argmax_aQ^∗(s,a).

Cela revient à déterminer la meilleure trajectoire (la meilleure action =1ère action).

Comment la déterminer? on peut voir le problème comme unarbre (stochastique ou déterministe) avec comme poids les récompenses.

Meilleure action:recherche du chemin `a poids maximum(algorithme de Dijkstra, algorithme par recherche avant avec horizon).

Problème: l’arbre peut rapidement devenir tr`es très large. Coût:O((Smax|A|)^T) avecSmaxle nombre max de successeur etTle nombre de temps.

16

/

(17)

Programmation dynamique

/

₈₃

(18)

Caract´ erisation des fonctions valeur

D´ efinition

On se place dans lecadre horizon infini amorti. On définit l’opérateurLπsur les fonctions valeursV ∈R^|S| définies par

LπV =rπ+γP^πV avec

P^π(st+1=s⁰|st=s) =

X

a∈A

π(a|s)P(s⁰ |a,s), r^π(s) =

X

a∈A

π(a|s)r(s,a)

dans le cas stochastique et

P^π(st+1=s⁰|st =s) =P(s⁰|µ(s),s), rπ= (s,µ(s)) dans le cas d´eterministe.

Th´ eor` eme: Caract´ erisation

Soientγ <1 etπ∈DÂM une politiquestationnaire aléatoire Markovienne. Alors la fonction valeurV^πest l’unique solution de l’équationV^π=LπV^π, ce qui équivaut à

V^π(s) =E[rt+γV^π(st+1)|st =s] =r^π(s) +γ

X

s⁰∈S

P^π(s⁰|s)V^π(s⁰)

Q^π(s,a) =E[rt+γQ^π(st+1,at+1)|st =s,at=a] =r(s,a) +γ

X

s⁰∈S

P(s⁰|s,a)V^π(s⁰) 18

/

(19)

Preuve de la caract´ erisation

Cas stochastique. On consid`ere la fonction valeur au temps initial:

V^π(s) =E^π

"

_∞

X

t=0

γ^krt+1|s0=s

#

=E^π[r1+γr2+γ2r3+...|s0=s]

V^π(s) =E^π[r1|s0=s] +γE^π[r2+γ1r3+...|s0=s]

Pour une politique stochastique:

E^π[r1|s0=s] =

X

a

π(a|s)r(s,a) =r^π(s)

car la politique est une variable al´eatoire sur les actions. On estimeE^π[r2...|s0=s]

(espérance des récompenses partant des). Caractère Markovienimplique:

E^π[r2+γr3+...|s0=s] =

X

s⁰

P^π(s⁰|s)E^π

r2+γr3+...|s1=s⁰

avecP^πd´efinit au-dessus. On note queE^π

r2+γr3+...|s1=s⁰

=V^π(s⁰), ce qui permet d’obtenir:V^π=LπV^π.

Unicité: on réécrit l’opérateur sous la forme suivante:

(Id−γP^π)V^π=r^π

PuisqueP^πest unematrice de probabilité, toute les valeurs propres de module inférieur ou égal à 1. Siγ <1 idem. L’opérateur est donc inversible.

/

₈₃

(20)

Fonction valeur et politique optimale I

Equation d’optimalit´ e de Bellman

On suppose le crit`ere d’horizon infini amorti. Pourγ <1, la fonction valeur optimale V^∗(.)∈ V est l’unique solution del’´equation de Bellman:

V^∗(s) =LV^∗(s), ∀s∈S

avec l’op´erateur

LV(s) = maxa r(s,a) +γ

X

s⁰

P(s⁰|s,a)V(s⁰)

!

Notation vectorielle:

max_µ∈DM(rµ+γPµV), ∀V On a aussi

Q^∗(s,a) =LQQ^∗(s,a), ∀s∈S,∀a∈A avec l’op´erateur

LQQ(s,a) = r(s,a) +γ

X

s⁰

P(s⁰|s,a) max_a0Q(s⁰,a⁰)

!

20

/

(21)

Preuve Bellman I

Equivalence d´ eterministe/al´ eatoire

∀V on a

LV = max_µ∈DM(rµ+γPµV) = max_π∈DMA(rπ+γPπV)

D´ebut preuve

Premier sens imm´ediat: D^M⊂D^AM

Autre sens: Soitπ∈D^AM. On consid`ere LπV(s) =

X

a

π(s,a) r(s,a) +γ

X

s⁰

P(s⁰|s,a)V(s⁰)

!

, ∀s∈S

LπV(s)≤

X

a

π(s,a) max_a0 r(s,a⁰) +γ

X

s⁰

P(s⁰|s,a⁰)V(s⁰)

!

=LV(s), ∀s∈S donc

LπV = (rπ+γPπV)≤LV = max_µ∈DM(rµ+γPµV) ce qui donne

max_π∈DMA(rπ+γPπV)≤max_µ∈DM(rµ+γPµV)

fin preuve.

On peut donc consid´erer l’ensemble des politiques d´eterministes.

/

₈₃

(22)

Preuve Bellman II

Caract´erisation:

Siµ^∗existe par d´efinition de la politique optimale d´eterministe, on a:

V^∗= maxµ∈ΠV^µ= maxµ(rµ+γP^µV^µ).

Toutes politiques s’´ecritµ= (µ0,µ1, ...µn, ...) = (µ0,µ⁰). Dans ce cas on obtient : V^∗= maxµV^µ= max_(µ

0,µ⁰)V^µ= max_(a,µ0 )V^µ

On a donc max_(a,µ0

)V^µ= max_(a,µ0

)E[r(s0,a) +γr(s1,µ1(s1)) +...|s0=s;µ]

max_(a,µ⁰₎V^µ= max_(a,µ⁰₎

r(s,a) +γP(s⁰|s,a)V^µ

0

(s⁰)

max_(a,µ0

)V^µ= maxa

r(s,a) +γP(s⁰|s,a) max_µ0V^µ

0

(s⁰)

max_(a,µ0

)V^µ= maxa r(s,a) +γP(s⁰|s,a)V^∗(s⁰)

22

/

(23)

Preuve Bellman III

Justification de la dernière égalité:

1ère inégalité max_µ0

X

s⁰

P(s⁰|s,a)V^µ

0

γ (s⁰)≤

X

s⁰

P(s⁰|s,a) max_µ0V^µ

0

(s⁰)

2ème inégalité: On part de (∗) =

X

s⁰

P(s⁰|s,a) max_µ⁰V^µ

0

(s⁰)

Soit ¯µ= argmax_µ0V^µ

0

donc (∗) =

X

s⁰

P(s⁰|s,a)Vγ^µ^¯(s⁰)≤max_µ0

X

s⁰

P(s⁰ |s,a)V^µ

0

(s⁰)

Les deux in´egalit´es permettent de conclure.

Remarque: l’´equation de Bellman optimale caract´erise les fonctions valeurs optimales.

Cette fonction valeur peut ˆetre atteinte sur l’ensembledes politiques stationnaires Markovienne d´eterministes.

/

₈₃

(24)

Preuve Bellman IV

Unicit´e:

Problème depoint fixedans un espace de Banach, donc théorème de point-fixe.

Unicit´e =Lest contractante pour la normeL^∞.

On va calculerA=|LV(s)−LU(s)|

Puisque le maximum des valeurs absolues défini une norme on peut donc utiliser la propriétékxk − kyk<kx−yk. On a donc

A≤maxa

^r^(s,^{a) +}^γ

X

s⁰

P(s⁰|s,a)V(s⁰)

!

− r(s,a) +γ

X

s⁰

P(s⁰|s,a)U(s⁰)

!

|LV(s)−LU(s)|≤γmaxa

X

s⁰

P(s⁰|s,a) V(s⁰)−U(s⁰)

Puisque la fonction valeur ne d´epend pas de l’action on a:

|V(s)−U(s)|≤γmaxa

X

s⁰

P(s⁰|s,a)|V(s⁰)−U(s⁰)|≤γkV −Uk∞

Précédente relation vrai pour tous les états donc:

kLV−LUk∞= maxs|LV(s)−LU(s)|≤γkV−Uk∞

24

/

(25)

Caract´ erisation de la politique optimale

Politique optimale

Une politique stationnaire est dit optimale si et ssi sa fonction valeur satisfait l’équation de Bellman ce qui équivaut à

π∈argmax_a r(s,a) +γ

X

s⁰

p(s⁰|s,a)V^∗(s⁰)

!

(1)

D´ebut Preuve.

1) (1) vers optimalit´e:

L’équation (1) équivaut àLV^∗=LπV^∗carLcorrespond àLπquand π= argmax_πV^∗.

On suppose queπsatisfait (1) donc

V^∗=LV^∗=LπV^∗=V^∗

et par unicit´e de l’´equationV =LπV on aVπ=V^∗. Donc siπdans (1) alors Vπ=V^∗.

2) Optimalit´e vers (1) :

On a doncVπ=V^∗. PuisqueVπ=LπVπon aV^∗=LπV^∗. Puisqu’elle est optimaleLπ=LdoncV^∗=LV^∗.

/

₈₃

(26)

Algorithme bas´ e sur les valeurs

1er Id´ee: L’´equation de Bellman est unest un probl`eme de point fixe. On veut donc faire un Picard.

Algorithme:

InitialiserV0la fonction valeur initiale,

n=0

Tant que|Vn+1−Vn|> ε:

Pour touts∈S:Vn+1= maxa r(s,a) +γ

P

s⁰P(s⁰|s,a)Vn(s⁰)

Pour touts∈S:µ(s) = argmax_a r(s,a) +γ

P

s⁰P(s⁰|s,a)Vn(s⁰)

Remarque: l’algorithme construit lapolitique gloutonne.

Complexit´e par it´eration: O(|S|²|A|).

Question: A chaque it´eration on am´elioreV mais est cequ’on am´elioreµ? En effet V^µⁿ 6=Vn

Am´ elioration de la politique

kV^∗−V^µⁿ k∞≤ 2γ

1−γkV^∗−Vnk∞ Convergence asymptotique: O

log⁻¹ logγ⁻¹

it´erations pour avoir une erreur≈.

26

/

(27)

Algorithme bas´ e sur les valeurs II

Preuve:

On part donc dekV^∗−V^µⁿk∞et on d´eveloppe:

kV^∗−V^µⁿk∞=kV^∗−LµⁿVn+LµⁿVn−V^µⁿk∞

≤kV^∗−LµⁿVnk+kLµⁿVn−V^µⁿk∞

≤kLV^∗−LµⁿVnk+kLµⁿVn−LµⁿV^µⁿk∞ On a utilis´e queLV^∗=V^∗par d´efinition de la fonction valeur optimale,

On a utilis´e queLµV^µⁿ=V^µⁿ(caract´erisation des politiques).

Puisqueµnest gloutonne (obtenu par argmax)LµⁿV =LV. On a donc kV^∗−V^µⁿk∞≤kLV^∗−LVnk∞+kLVn−LV^µⁿk∞

≤γkV^∗−Vnk∞+γkVn−V^µⁿk∞

≤γkV^∗−Vnk∞+γ kVn−V^∗k∞+kV^∗−V^µⁿk∞

on a donc

(1−γ)kV^∗−V^µⁿk∞≤2γkVn−V^∗k∞

/

₈₃

(28)

Algorithme bas´ e sur la politique

Algorithme précédent: politique calcul´ee à la fin.

Idée:processus d’évaluation/amélioration:

π0

−→e V0

−→a π1

−→e v1

−→a π2....−→^a π∗ e

−

→v∗ Algorithme:

InitialiserV0la fonction valeur initiale,

n=0

Tant que|µn+1−µn|> ε:

On r´esoud

Vn= r(s,µn(s)) +γ

X

s⁰

P(s⁰|s,µn(s))Vn(s⁰)

!

, ∀s∈S

Pour touts∈S:µn+1(s) = argmax_a r(s,a) +γ

P

s⁰P(s⁰|s,a)Vn(s⁰)

Complexit´e par it´eration: O(|S|²|A|) +O(|S|³).

Ici on inverse un système linéaire. Il existe des variantes ou on résout le système de façon itérative avec une faible précision.

Convergence au pire en:O ^|S||A|_1−γ log_1−γ¹

28

/

(29)

M´ ethodes avec/sans mod` eles

Avec ou sans mod` ele ?

Un algorithme est ditavec mod`eles’ il utilise les lois de probabilit´eP(.|., .) etr(., .).

Il est ditsans mod`elesi il utilise des transitions (st,at,rt,st+1) sans connaˆıtre les lois de probabilit´es.

Dans certaines applicationson ne connaˆıt pas ou on ne peut pas calculer le mod`ele.

Suite: On va introduire desalgorithmes sans mod`elesbas´es sur des approches stochastiques.

D´efinition: On parle deplanificationlorsque le mod`ele est connu, d’apprentissage par renforcementsi il est inconnu.

Exemple: robot aspirateur.Idéal: il connaˆıt le plan de la pièce. 1ère modèle:

politique aléatoire. Modèles récents: RL lien.

Int´ erˆ et pour les EDP

Le modèle est en gros connu. Intérêt de la planification/renforcement pour les EDP ?

Beaucoup de méthodes pour construire des contrôles en boucle fermée,

Contrôle en boucle fermée: contrˆole en temps réel. Utile en médecine, pour contrôler des méthodes numériques.

Cadre plus flexible que le contrˆole optimal classique ?

Possibilit´e: codes qui optimisent au gr´e des simulations.

/

₈₃

(30)

M´ ethodes Stochastiques I: Monte-Carlo

30

/

(31)

Rappel sur Monte-carlo

Estimateur

Soit (Xn)n≥0une suite de variable al´eatoire idd de loiPθ. Un estimateur deθest une variable al´eatoire ˆθntelle qu’il existe une fonctionFn:Eⁿ→Θ, ˆθn=Fn(X1, ...,Xn). Il est dit, consistant si ˆθn

−−→p.s. θpar rapport `aP_θquandn→+∞

M´ ethode de Monte Carlo

SoitX une variable al´eatoire et (X1, ...,Xn) un ´echantillon deX. La moyenne empirique

En=1 n

n

X

i=1

g(Xi)

est unestimateur sans biais consistantdeE[g(X)].

Th´ eor` eme

Sous hypoth`eses, l’algorithme converge:

E¯n+1= (1−αn) ¯En+αng(Xn+1) versE[g(X)].αn=_n+1¹ donne exactement Monte-Carlo.

/

₈₃

(32)

Echantillonnage pr´ ´ ef´ erentiel

L’erreur commise `a Monte-Carlo d´epend de la variance deX.

Modification de la variance:Échantillonnage préférentiel.

Cas discret:

E[g(X)] =

m

X

i=1

g(xi)p(xi) =

m

X

i=1

g(xi)p(xi)

˜

p(xi) ˜p(xi) =E

h

_g(Y_)p(Y₎

˜ p(Y)

i

avecY une variable al´eatoire suivant une loi de probabilit´e ˜p.

Deux possibilités: appliquer la méthode de MC sur la 1ère espérance (loi X) ou sur la dernière (loi Y).

But: trouver la probabilit´e ˜ptel que

V

h

_g_(Y_)p(Y₎

˜ p(Y)

i

≤V[g(X)]

et dans ce cas on estime l’esp´erance d´ependante deY.

Intérêt: Permet de g´enérer des échantillons avec une autre loi que celle dont on calcul l’espérance.

32

/

(33)

Application aux MDP: 1er algorithme I

On rappelle les fonctions valeurs [Rlin2020]:

V(s) =E[Gt |st=s], Q(s,a) =E[Gt|st =s,at=a]

Les méthodes de recherche consiste à calculer l’espérance complète (arbre) et à trouver le plus court chemin.

Les méthodes de programmation dynamique utilisent une récurrence et calcul l’espérance complète sur une transition.

Monte-Carlo: calculer unestimateur de l’espérance par Monte-Carlo(moyenne empirique) + processusévaluation/amélioration.

π0

−→e V0

−→a π1

−→e v1

−→a π2....−→^a π∗ e

−

→v∗ Calcul deQ (´evaluation):

Q(s,a) =E

"

_T

X

k

rπ(s_k)|s0=s,a0=a

#

≈1 n

n

X

i=1 T

X

k

r(s_k,a_k)≈ 1 Ns

n

X

i=1 T

X

k

r(s_k,a_k)

avecnun certains nombre de trajectoires générées etNsle nombre de fois ques est croisé.

Une fois une politique évaluée, onl’améliore en la calculant avecQ.

/

₈₃

(34)

Application aux MDP: 1er algorithme II

On introduit un1er algorithme de MC(chaque visite).

Initialisation deQ0(., .) etπ0(.) arbitraire,

Pour tout episodek≤n:

initialiserG(., .) = 0 etN(., .) = 0

choisir al´eatoirement un ´etats0et une actiona0

calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,r_T) selon la politiqueπ_k

tout couple (st,at) de la trajectoire:

calculerG_loc=

P

T

i=0γⁱrr+t+1,

G(st,at)+ =GlocetN(st,at)+ = 1,

Qk(st,at) = _N(s¹

t,a_t)G(st,at)

Politique gloutonne: πk+1(st) = argmax_aQk(st,a)

Version ”1`ere visite de l’algorithme”: on ne compte un ´etat qu’une fois par transition.

Avantage MC vs DP: M´ethodes MC utilisent desestimations indépendantes les unes des autres. DP: utilise les fonctions valeurs associées aux autres états. MC plus adaptées au sous ensemble d’état.

34

/

(35)

Application aus MDP: MC soft

D´efaut: Convergence globale = explorer toutes les paires (s,a). Exploration al´eatoire avec la 1er action, pas suffisant. Ex : environnement comme les jeux.

Solution : politique stochastique

Générer les trajectoires avec unepolitique stochastiqueπ(a|s). Cette politique stochastique sera la politique évaluée parV (méthode ”on-policy”)

Monte-Carlo soft(chaque visite).

Pour tout episodek≤n:

initialiserG(., .) = 0 etN(., .) = 0

choisir al´eatoirement un ´etats0et une actiona0

calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,rT) selon la politiqueπk tout couple (st,at) de la trajectoire:

calculerGloc=

P

T

i=0γⁱrr+t+1,

G(st,at)+ =GlocetN(st,at)+ = 1,

Qk(st,at) = _N(s¹

t,a_t)G(st,at)

la politique est donn´ee par π(a|st) =

1−+_|A(s

t)| sia= argmax_aQk(st,a)

|A(s_t)| sia6= argmax_aQk(st,a)

En généraldécroˆıt au fur et à mesure.Convergence vers la politique gloutonne.

/

₈₃

(36)

Application aux MDP: MC soft II

On peut démontrer que chaque itération améliore la politique.

MC soft (cas standard= 0):

Vπ_k+1(s) =Qπ_k(s,πk+1(s)) =

X

a

πk+1(a|s)Qπ_k(s,a)

puisqu’on utilise une politique stochastique avec

P

aπ_k+1(a|s) = 1.

Vπ_l+1(s) =

|A(s)|

X

a

Qπ_k(s,a) + (1−) maxaQπ_k(s,a) on utilise l’in´egalit´e

maxaQπ_k(s,a)≥

X

a

πk(a|s)−_|A(s)|

1− Qπ_lk(s,a) Pour obtenir cette in´egalit´e on utilise:

P

a

π_k(a|s)−

|A(s)|

1− = 1 et que les coefficients≥ 0. On a donc une combinaison convexe. En utilisant l’inégalité précédente on obtient:

Vπ_k+1(s)≥

|A(s)|

X

a

Qπ_l(s,a)−

|A(s)|

X

a

Qπ_k(s,a) +

X

a

πk(a|s)Qπ_k(s,a)

Vπ_k+1(s)≥Vπ_k(s)

36

/

(37)

M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel I

Pour explorer on utilise unepolitique stochastique. Si on veut construire la politique gloutonne on fait tendreπ(a|s) vers la politique gloutonne. Pas toujours ´evident.

Id´ ee: m´ ethodes ”off-policy”

Séparer la politique d’explorationb(a|s) utilis´ee pour générer la trajectoire de celle

évaluée (politique cible) parQ(s,a) notéeπ(a|s).

Avantages: plus souple pour l’exploration. On peut brasser les trajectoires (on y reviendra). Etc

Construction de la m´ethode Monte-Carlo ”off-policy”:

Condition de couverture: pour évaluerπavec les trajectoires générées parbil faut:

π(a|s)>0⇒b(a|s)>0

Outil naturel:échantillonnage préférentiel.

Idée: on pond`ere lesretoursen fonction de la probabilité que leurs trajectoires soit données par les politiques cible et d’exploration.

Ratio pourGt =

P

kr_t+k+1:

ρt:T−1=P(at,st+1,at+1, ...,sT|st,π) P(at,st+1,at+1, ...,s_T|st,b)

/

₈₃

(38)

M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel II

On remarque rapidement que

P(at,st+1,at+1, ...,sT|st,π) =Π^T−1_k=t π(ak|sk)P(sk+1|sk,ak) ce qui donne

ρt:T−1=Π^T−1_k=t π(ak|sk)P(sk+1|sk,ak)

Π^T−1_k=t b(a_k|s_k)P(s_k+1|s_k,a_k) =Π^T−1_k=t π(ak|sk) b(ak|sk)

Lorsqu’on génère les trajectoires avec la politiquebet qu’on estimeE[Gt|st=s] en pratique on calculE[Gt|st =s;b] =Vb(s). Par contre si on estime, avec les trajectoires générées parb, l’espérance:

E[ρt:T−1Gt |st =s]≈

P

t∈τ(s)ρt:T−1Gt

|τ(s)|

estime bienVπ(s) (avecτ(s) l’ensemble des temps ou on passe par l’´etats).

En pratique: soft politique pour l’explorationb(a|s) etune politique cible gloutonne.

38

/

(39)

M´ ethodes Stochastiques II: Diff´ erences temporelles

/

₈₃

(40)

Principe des diff´ erences temporelles et TD(0)

R´ esum´ e

On doit calculerV(s) =E[Gt|s0=s,a0=a]∀s∈S. Solutions:

Recherche exhaustive: calcul total de l’esp´erance.

Programmation dynamique:relation de r´ecurrenceentreV(s) etV⁰(s) et calcul total de l’esp´erance.

Monte-Carlo:estimation empirique de l’esp´erance.

Diff´ erence temporelle

Combiner DP et MC:relation de r´ecurrenceetestimation empirique de l’esp´erance.

On rappelle la caract´erisation de la fonction valeur:

V^π(s) =E[rπ(st) +γVπ(st+1)|st=s;π]

Monte Carlo sur la caract´erisation:

V^π(st) = 1 N(st)

X

t

rπ(st) +γVπ(st+1)

Version incrémentale générique:

V_n+1^π (st) =V_n^π(st) +αn(rπ(st) +γV_n^π(st+1)−Vn(st))

40

/

(41)

Algorithme Sarsa

1er algorithme bas´e sur la Q-fonction:

Q(s,a) =E[Gt |st=s,at=a;π(, .|.)]

Caract´erisation par r´ecurrence:

Q(s,a) =E[r(st,at) +γQ(st+1,at+1)|st=s,at =a;π]

Même principe qu’avant: Monte-Carlo sur la caractérisation. Version incrémentale:

Q^π_n+1(st,at) =Q_n+1^π (st,at) +αn(r(st,at) +γQ^π_n(st+1,at+1)−Q_n^π(st,at)) Algorithme (SARSA):

Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0

pour tout ´episodek≤n:

initialisers0de fac¸on al´eatoire

choisira0selon la politiqueπ(d´ependante de Q) `a partir des0 pour toutt∈ {0, ...,T}

calculerst+1etrt+1en utilisant l’environnement et (st,at)

choisirat+1selon la politiqueπ`a partir dest+1

Q(st,at) =Q(st,at) +α(rt+1+γQ(st+1,at+1)−Q(st,at))

on met `a jour la politiqueπ(si d´epend de Q)

st =st+1,at=at+1

/

₈₃

(42)

Algorithme Q Learning

SARSA est un algorithme”on-policy”.

Version”off-policy”app´el´eeQ-learning(algo star). Preuve de convergence.

On applique MC (incr´ementale) sur la caract´erisation duQ optimal:

Q(s,a) =E[r(st,at) +γmax_a0Q(st+1,a⁰)|st=s,at =a;b]

On d´efinit la politique gloutonneµ(s) = argmaxQ(s,a):

Q(s,a) =E[r(st,at) +γQ(st+1,µ(st+1))|st=s,at=a,b]

On g´en`ere les trajectoires du MC avec une politique d’exploration stochastiqueb(.|.).

Algorithme (Q-learning):

Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0

pour tout ´episodek≤n:

initialisers0de fac¸on al´eatoire;

pour toutt∈ {0, ...,T}:

calculerst+1etrt+1en utilisant l’environnement et (st,at):

Q(st,at) =Q(st,at) +α(rt+1+γmax_a0Q(st+1,a⁰)−Q(st,at)):

on met `a jour la politiqueb(.|.) (si d´epend de Q):

st =st+1.

42