• Aucun résultat trouvé

Apprentissage par renforcement

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage par renforcement"

Copied!
83
0
0

Texte intégral

(1)

Apprentissage par renforcement

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y.

Privat et C. Court` es

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 1/83 1

/

83

(2)

Cadre th´ eorique

Programmation dynamique

M´ ethodes Stochastiques I: Monte-Carlo

M´ ethodes Stochastiques II: Diff´ erences temporelles Grand probl` emes: m´ ethodes avec approximation Grand probl` emes: gradients de politiques M´ ethodes bas´ ees sur les mod` eles

Conclusion

2

/

(3)

Introduction

Apprentissage automatique

Branche de l’informatique et des math´ematiques qui porte sur la construction de mod`eles param´etriques`a partir de donn´ees. Mod`eles: d´eterministe ou al´eatoire:

y=fθ(x), Pθ(y|x)

Type d’apprentissage:

Supervis´e: on connaˆıt un certain nombre de couple entr´ee/sortie ((x,y)1, ...,(x,y)n) et on les utilise pour ajuster le mod`ele.

Non supervis´e: On ne connaˆıt pas d’exemples des sortiesy. L’apprentissage est fait `a partir de l’analyse des donn´ees (x1, ..,xn).

Par renforcement: Apprentissage par unagent autonome`a travers un processus:

essai-erreur + r´ecompense.

Apprentissage par renforcement

Il s’agit decontrˆole optimal stochastiquecoupl´e avec del’apprentissage.

Applications

Robotique, v´ehicules autonomes, optimisatio de production, de traitement m´edical,

IA pour les jeux: ´echec, Go et r´ecemment Starcraft.

EDP/physique ? Nouveaumod`ele de turbulence: paper (Nature machine intelligence).

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 3/83 3

/

83

(4)

Cadre th´ eorique

4

/

(5)

Principe

Etat:st, ´etat courant de l’agent (ex: un ´echiquier),

Action:at, action qui, en int´eraction avec l’environnement modifie l’´etat de l’agent (ex: un mouvement de pi`ece).

Environnement: il d´ecrit comme une action g´en`ere l’´etat suivant et la recompense (mouvement de l’adversaire aux ´echecs),

R´ecompense:rt+1,´evalue l’action(aux ´echecs: pas de r´ecompense pendant la partie, une r´ecompense en cas de victoire).

Plan

Partie I: probl`emes de petites tailles, espace des ´etats/actions finis et pas trop grand.

Partie II: probl`emes de grandes tailles, espace des ´etats/actions finis et grand o`u infinis.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 5/83 5

/

83

(6)

Cadre th´ eorique: processus de d´ ecision Markovien I

Processus de d´ ecision

UnProcessus de d´ecisionest d´efinit par le quadruplet (S,A,P(.),r(.)):

Sest l’espace d’´etats dans lequel ´evolue le processus ;

Aest l’espace des actions qui contrˆolent la dynamique de l’´etat ;

P(.|., .) :S×A×S→[0,1] sont les probabilit´es de transition entre les ´etats;

r(., .) :S×A→Rest la fonction de r´ecompense sur les transitions entre les ´etats.

On parle demod`ele parfaitsiP(., .|.) etr(., .) sont connus.

Enjeu central(en robotique): Trouver des m´ethodes qui neconnaissance pas le mod`ele mais interargissent avec.

Processus de d´ ecision Markovien

Un processus de d´ecision est ditMarkoviensi

P(st+1|a0,s0, ...,at,st) =P(st+1|at,st)

En pratiquePest donc une loi de probabilit´e des ´etatss0atteignableen partant des avec l’actiona.

6

/

(7)

Cadre th´ eorique: processus de d´ ecision Markovien II

Exemple de PDM stochastique: pas un seul ´etat associ´e a un couple ´etat/action.

Ici: 3 ´etats, 2 actions, 2 r´ecompenses possibles pour certaines transitions.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 7/83 7

/

83

(8)

Processus de d´ ecision Markovien: exemples

Maintenance de stock: Le responsable d’un entrepˆot dispose d’un stockst de marchandise. Il doit satisfaire la demandeDt des clients (Processus de Poisson).

Action: quantit´eat suppl´ementaire command´ee `a son fournisseur. L’entrepˆot a une capacit´e limiteM doncA={0,1, ...M−st}.

La dynamique est donn´ee par

st+1= [st+atDt]+

L’objectif est de maximiser le profit. On obtient les r´ecompenses:

rt=−C(at)−h(st+at) +f([st+atxt+1]+)

avec coˆut de stockh(s), un coˆut de commandeC(a) et une fonction de revenuf(q) qui d´epend du stock vendu. Crit`ere:

E

"

T−1

X

i=1

rt+g(sT)

#

Contrˆole d’EDO/EDS et de chaine de Markov(mod`ele ´epid´emique stochastique etc).

8

/

(9)

Processus de d´ ecision Markovien: exemples II

Optimisation de traitement du cancerTraitement multi-modalit´es(chirurgie, radioth´erapie ou chimioth´erapie). L’articulation de ces modalit´es tr`es d´ependante du praticien.

But: automatiser la construction de ces traitements? Ici, il est consid´er´e trois types de traitements:

Modalit´e 1 (M1): fort risque d’effets secondaires sur les tissus sains, efficacit´e importante (fr´equence d’utilisation limit´ee)

Modalit´e 2 (M2): faible risque d’effets s´econdaires sur les tissus sains, efficacit´e mod´er´e,

Modalit´e 3 (M3) :pas de traitement, baisse de la probabilit´e d’effets secondaires, progression de la tumeur plus importante.

Etat: st = (ht,φt,τt) avec:

ht ∈ {0,1}qui d´efinit l’utilisation de la modalit´e de TYPE 1 (ht= 1 la modalit´e a d´ej`a ´et´e utilis´ee).

φt ={0, ..,m}repr´esente l’effet sur les tissus sains (0 pas d’effet,mbeaucoup d’effet),

τt ={0, ..,n}repr´esente la progression de la tumeur (0 r´emission,nd´ec`es du patient).

L’espace des action est donn´e parat∈ {M1,M2,M3}.

Applications importantes: IA de jeux (Echec, Starcraft..), Robotique, vehicules autonomes.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 9/83 9

/

83

(10)

Cadre th´ eorique: politique I

R` egles Markovienne

On nomme uner´egle de d´ecision d´eterministe Markovienneune fonction µt(st) :SA

qui connaissant un ´etat renvoie une action. On nomme uner´egle de d´ecision stochastique Markovienneune loi de probabilit´e:

πt(at|st) :A×S→[0,1]

tel que

P

a∈Aπt(a|st) = 1 qui connaissant un ´etat renvoie les probabilit´es des actions.

R` egles Histoire d´ ependante

On nomme uner´egle de d´ecision d´eterministe histoire d´ependanteune fonction µt(ht) :S×A×...×S×AA

qui connaissant l’historiqueht des ´etats/actions renvoie une action. On nomme uner´egle de d´ecision stochastique Histoire-d´ependanteune loi de probabilit´e:

πt(at|ht) :A×S×A×...×S×A→[0,1]

tel que

P

a∈Aπt(a|ht) = 1 qui connaissant l’historique renvoie les probabilit´es des actions.

10

/

(11)

Cadre th´ eorique: politique II

Politique

On nommepolitique Markovienne/histoire d´ependanteune s´equence de r´egle Markovienne/Histoire d´ependante:

π= (π0,π1, ...πt) et unepolitique stationnaire:

π= (π,π, ...,π).

Connaissant une politique on peut d´efinir les probabilit´es de transition:

Pπ(st+1=s0 |st=s) =

X

a∈A

π(a|s)P(s0|a,s)

et la r´ecompense moyenne associ´ee `a la politiqueπ:

rπ(s) =

X

a∈A

π(a|s)r(s,a)

Proposition: Siπest Markovienne, le triplet (S,Pπ,rπ) forme unechaine de Markov valu´ee.

Proposition: Si la politique est stationnaire la chaine de Markov esthomog`ene.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 11/83 11

/

83

(12)

Processus de d´ ecision Markovien: cumul esp´ er´ e

On est dans un probl`eme de contrˆole optimal: trouver la trajectoire (suite d’action) maximisant la r´ecompense.

Probl`eme Markovien: le probl`eme ne depend que del’´etat courant.

Quel crit`ere maximiser: le cumul esp´er´e`a partir du tempst(d´efini `a partir de l’´etat st):

le cumul esp´er´e fini:

Gt =

T

X

k=0

rt+k+1,

le cumul esp´er´e amorti:

Gt=

X

k=0

γkrt+k+1, avecγ <1.

le cumul esp´er´e moyen:

Gt = limn→∞

1 n

n

X

k=0

rt+k+1.

On d´efinit le cumul esp´er´e `a partir dest. On pourrait partir d’un ´etat z´ero `a cause du caract´ere Markovien.

En g´en´eral et pour la suite on utilise lecumul esp´er´e amorti.

12

/

(13)

Fonction valeur et Q fonction

But: trouver la meilleur action/meilleur politique pour l’agent.

On doit donc d´efinir des objets pour´evaluer une politique/action

La fonction valeur

Lafonction valeurassoci´ee `a une politiqueπest une fonctionS→Rqui estime le cumul esp´er´e suivant la politiqueπ:

Vπ(s) =E[Gt|st =s;π]

La Q fonction

LaQ fonctionassoci´ee `a une politiqueπest une fonctionS×A→Rqui estime le cumul esp´er´e avecacomme premi`ere action puis suivant la politiqueπ:

Qπ(s,a) =E[Gt|st =s,at=a;π]

Lien entreV et Q:V(s) =

P

aQ(s,a)π(a|s) (cas d´eterministeQ(s,µ(s)) =V(s)).

Les fonctionsV etQpermettent d’´evaluer les politiques. Elles permettent donc de construire la notion depolitique optimale.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 13/83 13

/

83

(14)

Politique optimale I

SoitΠAHAM l’espace des politiques al´eatoires histoire-d´ependante/Markovienne.

SoitDAM/DM l’espace des politiques al´eatoires/d´eterministes stationnaires Markoviennes.

Afin de d´efinir une politique optimale. On d´efinit une relation d’ordre: soit π,π0 ∈ΠAMon dit que

π0 < π si ∀s∈S, Vπ

0

(s)<Vπ(s)

Politique optimale

Unepolitiqueπest optimalesi la fonction valeur associ´ee est optimale au sens Vπ(s) =V(s) = maxπ∈ΠAHVπ(s) ∀s∈S

Remarques:

On peut d´efinir la Q fonction optimale aussi:

Q(s,a) = maxπ∈ΠAHQπ(s,a) ∀s∈S,aA.

D´efinition: On appelle unepolitique gloutonnela politique donn´ee par µ(s) = argmaxaQ(s,a).

14

/

(15)

Politique optimale II

´ Equivalence entre Π

AM

= Π

AH

Soitπ1∈ΠAH. Pour chaque ´etat initialsSil existe une politiqueπ2∈ΠAMtel que Vπ1(s) =Vπ2(s)

D´ebut preuve Soitπ1la politique histoire-d´ependante. On peut d´efinir une politique Markovienne associ´ee:

π2(at+k=a|st+k=s) =Pπ

1(at+k=a|st+k=s,st=x), ∀k≥t,∀aA,sS Par r´ecurrence (on ne d´etaille pas), on obtient:

Pπ

1(st+k=s,at+k=a|st=x) =Pπ

2(st+k=s,at+k=a|st =x)

Or pour une politiqueπ:

Vπ(x) =E[

X

k

γtrt+k+1|st=s;π] =

X

k

γtE[rt+k+1|st =s;π]

avec

E[rt+k+1|st=s;π] =

X

s∈S

X

a∈A

r(s,a)Pπ(st+k=s,at+k=a|st =x)

L’´egalit´e des probabilit´es permet de conclure associ´eesπ12. Fin preuve

Remarque: On peut se restreindre `a l’ensemble des politiques Markovienne.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 15/83 15

/

83

(16)

Recherche de la meilleure action

A ce stade deux questions possibles:

calculer unetrajectoire optimale.Contrˆole optimal stochastique en boucle ouverte.

calculer unepolitique optimale(meilleure politique pour l’ensemble des trajectoires/´etats). Contrˆole optimal stochastique en boucle ferm´ee.

Meilleure action`a partir d’un ´etats: action qui maximise l’esp´erance des r´ecompenses cumul´ees sur une trajectoire:

a∈argmaxaQ(s,a).

Cela revient `a d´eterminer la meilleure trajectoire (la meilleure action =1`ere action).

Comment la d´eterminer? on peut voir le probl`eme comme unarbre (stochastique ou d´eterministe) avec comme poids les r´ecompenses.

Meilleure action:recherche du chemin `a poids maximum(algorithme de Dijkstra, algorithme par recherche avant avec horizon).

Probl`eme: l’arbre peut rapidement devenir tr`es tr`es large. Coˆut:O((Smax|A|)T) avecSmaxle nombre max de successeur etTle nombre de temps.

16

/

(17)

Programmation dynamique

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 17/83 17

/

83

(18)

Caract´ erisation des fonctions valeur

D´ efinition

On se place dans lecadre horizon infini amorti. On d´efinit l’op´erateurLπsur les fonctions valeursV ∈R|S| d´efinies par

LπV =rπ+γPπV avec

Pπ(st+1=s0|st=s) =

X

a∈A

π(a|s)P(s0 |a,s), rπ(s) =

X

a∈A

π(a|s)r(s,a)

dans le cas stochastique et

Pπ(st+1=s0|st =s) =P(s0|µ(s),s), rπ= (s,µ(s)) dans le cas d´eterministe.

Th´ eor` eme: Caract´ erisation

Soientγ <1 etπDAM une politiquestationnaire al´eatoire Markovienne. Alors la fonction valeurVπest l’unique solution de l’´equationVπ=LπVπ, ce qui ´equivaut `a

Vπ(s) =E[rt+γVπ(st+1)|st =s] =rπ(s) +γ

X

s0∈S

Pπ(s0|s)Vπ(s0)

Qπ(s,a) =E[rt+γQπ(st+1,at+1)|st =s,at=a] =r(s,a) +γ

X

s0∈S

P(s0|s,a)Vπ(s0) 18

/

(19)

Preuve de la caract´ erisation

Cas stochastique. On consid`ere la fonction valeur au temps initial:

Vπ(s) =Eπ

"

X

t=0

γkrt+1|s0=s

#

=Eπ[r1+γr2+γ2r3+...|s0=s]

Vπ(s) =Eπ[r1|s0=s] +γEπ[r2+γ1r3+...|s0=s]

Pour une politique stochastique:

Eπ[r1|s0=s] =

X

a

π(a|s)r(s,a) =rπ(s)

car la politique est une variable al´eatoire sur les actions. On estimeEπ[r2...|s0=s]

(esp´erance des r´ecompenses partant des). Caract`ere Markovienimplique:

Eπ[r2+γr3+...|s0=s] =

X

s0

Pπ(s0|s)Eπ

r2+γr3+...|s1=s0

avecPπd´efinit au-dessus. On note queEπ

r2+γr3+...|s1=s0

=Vπ(s0), ce qui permet d’obtenir:Vπ=LπVπ.

Unicit´e: on r´e´ecrit l’op´erateur sous la forme suivante:

(IdγPπ)Vπ=rπ

PuisquePπest unematrice de probabilit´e, toute les valeurs propres de module inf´erieur ou ´egal `a 1. Siγ <1 idem. L’op´erateur est donc inversible.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 19/83 19

/

83

(20)

Fonction valeur et politique optimale I

Equation d’optimalit´ e de Bellman

On suppose le crit`ere d’horizon infini amorti. Pourγ <1, la fonction valeur optimale V(.)∈ V est l’unique solution del’´equation de Bellman:

V(s) =LV(s), ∀s∈S

avec l’op´erateur

LV(s) = maxa r(s,a) +γ

X

s0

P(s0|s,a)V(s0)

!

Notation vectorielle:

maxµ∈DM(rµ+γPµV), ∀V On a aussi

Q(s,a) =LQQ(s,a), ∀s∈S,∀a∈A avec l’op´erateur

LQQ(s,a) = r(s,a) +γ

X

s0

P(s0|s,a) maxa0Q(s0,a0)

!

20

/

(21)

Preuve Bellman I

Equivalence d´ eterministe/al´ eatoire

∀V on a

LV = maxµ∈DM(rµ+γPµV) = maxπ∈DMA(rπ+γPπV)

D´ebut preuve

Premier sens imm´ediat: DMDAM

Autre sens: SoitπDAM. On consid`ere LπV(s) =

X

a

π(s,a) r(s,a) +γ

X

s0

P(s0|s,a)V(s0)

!

, ∀s∈S

LπV(s)≤

X

a

π(s,a) maxa0 r(s,a0) +γ

X

s0

P(s0|s,a0)V(s0)

!

=LV(s), ∀s∈S donc

LπV = (rπ+γPπV)≤LV = maxµ∈DM(rµ+γPµV) ce qui donne

maxπ∈DMA(rπ+γPπV)≤maxµ∈DM(rµ+γPµV)

fin preuve.

On peut donc consid´erer l’ensemble des politiques d´eterministes.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 21/83 21

/

83

(22)

Preuve Bellman II

Caract´erisation:

Siµexiste par d´efinition de la politique optimale d´eterministe, on a:

V= maxµ∈ΠVµ= maxµ(rµ+γPµVµ).

Toutes politiques s’´ecritµ= (µ0,µ1, ...µn, ...) = (µ00). Dans ce cas on obtient : V= maxµVµ= max

00)Vµ= max(a,µ0 )Vµ

On a donc max(a,µ0

)Vµ= max(a,µ0

)E[r(s0,a) +γr(s1,µ1(s1)) +...|s0=s;µ]

max(a,µ0)Vµ= max(a,µ0)

r(s,a) +γP(s0|s,a)Vµ

0

(s0)

max(a,µ0

)Vµ= maxa

r(s,a) +γP(s0|s,a) maxµ0Vµ

0

(s0)

max(a,µ0

)Vµ= maxa r(s,a) +γP(s0|s,a)V(s0)

22

/

(23)

Preuve Bellman III

Justification de la derni`ere ´egalit´e:

1`ere in´egalit´e maxµ0

X

s0

P(s0|s,a)Vµ

0

γ (s0)≤

X

s0

P(s0|s,a) maxµ0Vµ

0

(s0)

2`eme in´egalit´e: On part de (∗) =

X

s0

P(s0|s,a) maxµ0Vµ

0

(s0)

Soit ¯µ= argmaxµ0Vµ

0

donc (∗) =

X

s0

P(s0|s,a)Vγµ¯(s0)≤maxµ0

X

s0

P(s0 |s,a)Vµ

0

(s0)

Les deux in´egalit´es permettent de conclure.

Remarque: l’´equation de Bellman optimale caract´erise les fonctions valeurs optimales.

Cette fonction valeur peut ˆetre atteinte sur l’ensembledes politiques stationnaires Markovienne d´eterministes.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 23/83 23

/

83

(24)

Preuve Bellman IV

Unicit´e:

Probl`eme depoint fixedans un espace de Banach, donc th´eor`eme de point-fixe.

Unicit´e =Lest contractante pour la normeL.

On va calculerA=|LV(s)−LU(s)|

Puisque le maximum des valeurs absolues d´efini une norme on peut donc utiliser la propri´et´ekxk − kyk<kxyk. On a donc

A≤maxa

r(s,a) +γ

X

s0

P(s0|s,a)V(s0)

!

r(s,a) +γ

X

s0

P(s0|s,a)U(s0)

!

|LV(s)−LU(s)|≤γmaxa

X

s0

P(s0|s,a) V(s0)−U(s0)

Puisque la fonction valeur ne d´epend pas de l’action on a:

|V(s)−U(s)|≤γmaxa

X

s0

P(s0|s,a)|V(s0)−U(s0)|≤γkVUk

Pr´ec´edente relation vrai pour tous les ´etats donc:

kLVLUk= maxs|LV(s)−LU(s)|≤γkVUk

24

/

(25)

Caract´ erisation de la politique optimale

Politique optimale

Une politique stationnaire est dit optimale si et ssi sa fonction valeur satisfait l’´equation de Bellman ce qui ´equivaut `a

π∈argmaxa r(s,a) +γ

X

s0

p(s0|s,a)V(s0)

!

(1)

D´ebut Preuve.

1) (1) vers optimalit´e:

L’´equation (1) ´equivaut `aLV=LπVcarLcorrespond `aLπquand π= argmaxπV.

On suppose queπsatisfait (1) donc

V=LV=LπV=V

et par unicit´e de l’´equationV =LπV on aVπ=V. Donc siπdans (1) alors Vπ=V.

2) Optimalit´e vers (1) :

On a doncVπ=V. PuisqueVπ=LπVπon aV=LπV. Puisqu’elle est optimaleLπ=LdoncV=LV.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 25/83 25

/

83

(26)

Algorithme bas´ e sur les valeurs

1er Id´ee: L’´equation de Bellman est unest un probl`eme de point fixe. On veut donc faire un Picard.

Algorithme:

InitialiserV0la fonction valeur initiale,

n=0

Tant que|Vn+1Vn|> ε:

Pour toutsS:Vn+1= maxa r(s,a) +γ

P

s0P(s0|s,a)Vn(s0)

Pour toutsS:µ(s) = argmaxa r(s,a) +γ

P

s0P(s0|s,a)Vn(s0)

Remarque: l’algorithme construit lapolitique gloutonne.

Complexit´e par it´eration: O(|S|2|A|).

Question: A chaque it´eration on am´elioreV mais est cequ’on am´elioreµ? En effet Vµn 6=Vn

Am´ elioration de la politique

kVVµn k≤ 2γ

1−γkVVnk Convergence asymptotique: O

log−1 logγ−1

it´erations pour avoir une erreur≈.

26

/

(27)

Algorithme bas´ e sur les valeurs II

Preuve:

On part donc dekVVµnket on d´eveloppe:

kVVµnk=kVLµnVn+LµnVnVµnk

≤kVLµnVnk+kLµnVnVµnk

≤kLVLµnVnk+kLµnVnLµnVµnk On a utilis´e queLV=Vpar d´efinition de la fonction valeur optimale,

On a utilis´e queLµVµn=Vµn(caract´erisation des politiques).

Puisqueµnest gloutonne (obtenu par argmax)LµnV =LV. On a donc kVVµnk≤kLVLVnk+kLVnLVµnk

γkVVnk+γkVnVµnk

γkVVnk+γ kVnVk+kVVµnk

on a donc

(1−γ)kVVµnk≤2γkVnVk

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 27/83 27

/

83

(28)

Algorithme bas´ e sur la politique

Algorithme pr´ec´edent: politique calcul´ee `a la fin.

Id´ee:processus d’´evaluation/am´elioration:

π0

−→e V0

−→a π1

−→e v1

−→a π2....−→a π e

v Algorithme:

InitialiserV0la fonction valeur initiale,

n=0

Tant que|µn+1µn|> ε:

On r´esoud

Vn= r(s,µn(s)) +γ

X

s0

P(s0|s,µn(s))Vn(s0)

!

, ∀s∈S

Pour toutsS:µn+1(s) = argmaxa r(s,a) +γ

P

s0P(s0|s,a)Vn(s0)

Complexit´e par it´eration: O(|S|2|A|) +O(|S|3).

Ici on inverse un syst`eme lin´eaire. Il existe des variantes ou on r´esout le syst`eme de fac¸on it´erative avec une faible pr´ecision.

Convergence au pire en:O |S||A|1−γ log1−γ1

28

/

(29)

M´ ethodes avec/sans mod` eles

Avec ou sans mod` ele ?

Un algorithme est ditavec mod`eles’ il utilise les lois de probabilit´eP(.|., .) etr(., .).

Il est ditsans mod`elesi il utilise des transitions (st,at,rt,st+1) sans connaˆıtre les lois de probabilit´es.

Dans certaines applicationson ne connaˆıt pas ou on ne peut pas calculer le mod`ele.

Suite: On va introduire desalgorithmes sans mod`elesbas´es sur des approches stochastiques.

D´efinition: On parle deplanificationlorsque le mod`ele est connu, d’apprentissage par renforcementsi il est inconnu.

Exemple: robot aspirateur.Id´eal: il connaˆıt le plan de la pi`ece. 1`ere mod`ele:

politique al´eatoire. Mod`eles r´ecents: RL lien.

Int´ erˆ et pour les EDP

Le mod`ele est en gros connu. Int´erˆet de la planification/renforcement pour les EDP ?

Beaucoup de m´ethodes pour construire des contrˆoles en boucle ferm´ee,

Contrˆole en boucle ferm´ee: contrˆole en temps r´eel. Utile en m´edecine, pour contrˆoler des m´ethodes num´eriques.

Cadre plus flexible que le contrˆole optimal classique ?

Possibilit´e: codes qui optimisent au gr´e des simulations.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 29/83 29

/

83

(30)

ethodes Stochastiques I: Monte-Carlo

30

/

(31)

Rappel sur Monte-carlo

Estimateur

Soit (Xn)n≥0une suite de variable al´eatoire idd de loiPθ. Un estimateur deθest une variable al´eatoire ˆθntelle qu’il existe une fonctionFn:En→Θ, ˆθn=Fn(X1, ...,Xn). Il est dit, consistant si ˆθn

−−→p.s. θpar rapport `aPθquandn→+∞

M´ ethode de Monte Carlo

SoitX une variable al´eatoire et (X1, ...,Xn) un ´echantillon deX. La moyenne empirique

En=1 n

n

X

i=1

g(Xi)

est unestimateur sans biais consistantdeE[g(X)].

Th´ eor` eme

Sous hypoth`eses, l’algorithme converge:

E¯n+1= (1−αn) ¯En+αng(Xn+1) versE[g(X)].αn=n+11 donne exactement Monte-Carlo.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 31/83 31

/

83

(32)

Echantillonnage pr´ ´ ef´ erentiel

L’erreur commise `a Monte-Carlo d´epend de la variance deX.

Modification de la variance:´Echantillonnage pr´ef´erentiel.

Cas discret:

E[g(X)] =

m

X

i=1

g(xi)p(xi) =

m

X

i=1

g(xi)p(xi)

˜

p(xi) ˜p(xi) =E

h

g(Y)p(Y)

˜ p(Y)

i

avecY une variable al´eatoire suivant une loi de probabilit´e ˜p.

Deux possibilit´es: appliquer la m´ethode de MC sur la 1`ere esp´erance (loi X) ou sur la derni`ere (loi Y).

But: trouver la probabilit´e ˜ptel que

V

h

g(Y)p(Y)

˜ p(Y)

i

≤V[g(X)]

et dans ce cas on estime l’esp´erance d´ependante deY.

Int´erˆet: Permet de g´en´erer des ´echantillons avec une autre loi que celle dont on calcul l’esp´erance.

32

/

(33)

Application aux MDP: 1er algorithme I

On rappelle les fonctions valeurs [Rlin2020]:

V(s) =E[Gt |st=s], Q(s,a) =E[Gt|st =s,at=a]

Les m´ethodes de recherche consiste `a calculer l’esp´erance compl`ete (arbre) et `a trouver le plus court chemin.

Les m´ethodes de programmation dynamique utilisent une r´ecurrence et calcul l’esp´erance compl`ete sur une transition.

Monte-Carlo: calculer unestimateur de l’esp´erance par Monte-Carlo(moyenne empirique) + processus´evaluation/am´elioration.

π0

−→e V0

−→a π1

−→e v1

−→a π2....−→a π e

v Calcul deQ (´evaluation):

Q(s,a) =E

"

T

X

k

rπ(sk)|s0=s,a0=a

#

≈1 n

n

X

i=1 T

X

k

r(sk,ak)≈ 1 Ns

n

X

i=1 T

X

k

r(sk,ak)

avecnun certains nombre de trajectoires g´en´er´ees etNsle nombre de fois ques est crois´e.

Une fois une politique ´evalu´ee, onl’am´eliore en la calculant avecQ.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 33/83 33

/

83

(34)

Application aux MDP: 1er algorithme II

On introduit un1er algorithme de MC(chaque visite).

Initialisation deQ0(., .) etπ0(.) arbitraire,

Pour tout episodekn:

initialiserG(., .) = 0 etN(., .) = 0

choisir al´eatoirement un ´etats0et une actiona0

calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,rT) selon la politiqueπk

tout couple (st,at) de la trajectoire:

calculerGloc=

P

T

i=0γirr+t+1,

G(st,at)+ =GlocetN(st,at)+ = 1,

Qk(st,at) = N(s1

t,at)G(st,at)

Politique gloutonne: πk+1(st) = argmaxaQk(st,a)

Version ”1`ere visite de l’algorithme”: on ne compte un ´etat qu’une fois par transition.

Avantage MC vs DP: M´ethodes MC utilisent desestimations ind´ependantes les unes des autres. DP: utilise les fonctions valeurs associ´ees aux autres ´etats. MC plus adapt´ees au sous ensemble d’´etat.

34

/

(35)

Application aus MDP: MC soft

D´efaut: Convergence globale = explorer toutes les paires (s,a). Exploration al´eatoire avec la 1er action, pas suffisant. Ex : environnement comme les jeux.

Solution : politique stochastique

G´en´erer les trajectoires avec unepolitique stochastiqueπ(a|s). Cette politique stochastique sera la politique ´evalu´ee parV (m´ethode ”on-policy”)

Monte-Carlo soft(chaque visite).

Pour tout episodekn:

initialiserG(., .) = 0 etN(., .) = 0

choisir al´eatoirement un ´etats0et une actiona0

calculer une trajectoire (s0,a0,r1, ...sT−1,aT−1,rT) selon la politiqueπk tout couple (st,at) de la trajectoire:

calculerGloc=

P

T

i=0γirr+t+1,

G(st,at)+ =GlocetN(st,at)+ = 1,

Qk(st,at) = N(s1

t,at)G(st,at)

la politique est donn´ee par π(a|st) =

1−+|A(s

t)| sia= argmaxaQk(st,a)

|A(st)| sia6= argmaxaQk(st,a)

En g´en´erald´ecroˆıt au fur et `a mesure.Convergence vers la politique gloutonne.

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 35/83 35

/

83

(36)

Application aux MDP: MC soft II

On peut d´emontrer que chaque it´eration am´eliore la politique.

MC soft (cas standard= 0):

Vπk+1(s) =Qπk(s,πk+1(s)) =

X

a

πk+1(a|s)Qπk(s,a)

puisqu’on utilise une politique stochastique avec

P

aπk+1(a|s) = 1.

Vπl+1(s) =

|A(s)|

X

a

Qπk(s,a) + (1) maxaQπk(s,a) on utilise l’in´egalit´e

maxaQπk(s,a)

X

a

πk(a|s)|A(s)|

1− Qπlk(s,a) Pour obtenir cette in´egalit´e on utilise:

P

a

πk(a|s)−

|A(s)|

1− = 1 et que les coefficients≥ 0. On a donc une combinaison convexe. En utilisant l’in´egalit´e pr´ec´edente on obtient:

Vπk+1(s)≥

|A(s)|

X

a

Qπl(s,a)−

|A(s)|

X

a

Qπk(s,a) +

X

a

πk(a|s)Qπk(s,a)

Vπk+1(s)≥Vπk(s)

36

/

(37)

M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel I

Pour explorer on utilise unepolitique stochastique. Si on veut construire la politique gloutonne on fait tendreπ(a|s) vers la politique gloutonne. Pas toujours ´evident.

Id´ ee: m´ ethodes ”off-policy”

S´eparer la politique d’explorationb(a|s) utilis´ee pour g´en´erer la trajectoire de celle

´evalu´ee (politique cible) parQ(s,a) not´eeπ(a|s).

Avantages: plus souple pour l’exploration. On peut brasser les trajectoires (on y reviendra). Etc

Construction de la m´ethode Monte-Carlo ”off-policy”:

Condition de couverture: pour ´evaluerπavec les trajectoires g´en´er´ees parbil faut:

π(a|s)>0⇒b(a|s)>0

Outil naturel:´echantillonnage pr´ef´erentiel.

Id´ee: on pond`ere lesretoursen fonction de la probabilit´e que leurs trajectoires soit donn´ees par les politiques cible et d’exploration.

Ratio pourGt =

P

krt+k+1:

ρt:T−1=P(at,st+1,at+1, ...,sT|st,π) P(at,st+1,at+1, ...,sT|st,b)

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 37/83 37

/

83

(38)

M´ ethode ”Off-policy”, ´ echantillonnage pr´ ef´ erentiel II

On remarque rapidement que

P(at,st+1,at+1, ...,sT|st,π) =π(at |st)P(st+1|st,at)π(at+1|st+1)...P(sT|sT−1,aT−1)

P(at,st+1,at+1, ...,sT|st,π) =ΠT−1k=t π(ak|sk)P(sk+1|sk,ak) ce qui donne

ρt:T−1T−1k=t π(ak|sk)P(sk+1|sk,ak)

ΠT−1k=t b(ak|sk)P(sk+1|sk,ak) =ΠT−1k=t π(ak|sk) b(ak|sk)

Lorsqu’on g´en`ere les trajectoires avec la politiquebet qu’on estimeE[Gt|st=s] en pratique on calculE[Gt|st =s;b] =Vb(s). Par contre si on estime, avec les trajectoires g´en´er´ees parb, l’esp´erance:

E[ρt:T−1Gt |st =s]

P

t∈τ(s)ρt:T−1Gt

|τ(s)|

estime bienVπ(s) (avecτ(s) l’ensemble des temps ou on passe par l’´etats).

En pratique: soft politique pour l’explorationb(a|s) etune politique cible gloutonne.

38

/

(39)

ethodes Stochastiques II: Diff´ erences temporelles

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 39/83 39

/

83

(40)

Principe des diff´ erences temporelles et TD(0)

R´ esum´ e

On doit calculerV(s) =E[Gt|s0=s,a0=a]∀s∈S. Solutions:

Recherche exhaustive: calcul total de l’esp´erance.

Programmation dynamique:relation de r´ecurrenceentreV(s) etV0(s) et calcul total de l’esp´erance.

Monte-Carlo:estimation empirique de l’esp´erance.

Diff´ erence temporelle

Combiner DP et MC:relation de r´ecurrenceetestimation empirique de l’esp´erance.

On rappelle la caract´erisation de la fonction valeur:

Vπ(s) =E[rπ(st) +γVπ(st+1)|st=s;π]

Monte Carlo sur la caract´erisation:

Vπ(st) = 1 N(st)

X

t

rπ(st) +γVπ(st+1)

Version incr´ementale g´en´erique:

Vn+1π (st) =Vnπ(st) +αn(rπ(st) +γVnπ(st+1)−Vn(st))

40

/

(41)

Algorithme Sarsa

1er algorithme bas´e sur la Q-fonction:

Q(s,a) =E[Gt |st=s,at=a;π(, .|.)]

Caract´erisation par r´ecurrence:

Q(s,a) =E[r(st,at) +γQ(st+1,at+1)|st=s,at =a;π]

Mˆeme principe qu’avant: Monte-Carlo sur la caract´erisation. Version incr´ementale:

Qπn+1(st,at) =Qn+1π (st,at) +αn(r(st,at) +γQπn(st+1,at+1)−Qnπ(st,at)) Algorithme (SARSA):

Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0

pour tout ´episodekn:

initialisers0de fac¸on al´eatoire

choisira0selon la politiqueπ(d´ependante de Q) `a partir des0 pour toutt∈ {0, ...,T}

calculerst+1etrt+1en utilisant l’environnement et (st,at)

choisirat+1selon la politiqueπ`a partir dest+1

Q(st,at) =Q(st,at) +α(rt+1+γQ(st+1,at+1)−Q(st,at))

on met `a jour la politiqueπ(si d´epend de Q)

st =st+1,at=at+1

Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Court`es 41/83 41

/

83

(42)

Algorithme Q Learning

SARSA est un algorithme”on-policy”.

Version”off-policy”app´el´eeQ-learning(algo star). Preuve de convergence.

On applique MC (incr´ementale) sur la caract´erisation duQ optimal:

Q(s,a) =E[r(st,at) +γmaxa0Q(st+1,a0)|st=s,at =a;b]

On d´efinit la politique gloutonneµ(s) = argmaxQ(s,a):

Q(s,a) =E[r(st,at) +γQ(st+1,µ(st+1))|st=s,at=a,b]

On g´en`ere les trajectoires du MC avec une politique d’exploration stochastiqueb(.|.).

Algorithme (Q-learning):

Initialisation deQ(., .) arbitraire avecQ(sterminal, .) = 0

pour tout ´episodekn:

initialisers0de fac¸on al´eatoire;

pour toutt∈ {0, ...,T}:

calculerst+1etrt+1en utilisant l’environnement et (st,at):

Q(st,at) =Q(st,at) +α(rt+1+γmaxa0Q(st+1,a0)−Q(st,at)):

on met `a jour la politiqueb(.|.) (si d´epend de Q):

st =st+1.

42

/

Références

Documents relatifs

Si T est inf´ erieur ` a la distance de K ` a la fronti` ere de Ω, la solution explicite donn´ ee par l’exercice pr´ ec´ edent est aussi solution de l’´ equation des ondes dans

Autrement dit, on peut paver le quart de plan si et seulement si M ne s’arrˆete pas sur le mot vide3.

Un peu plus subtile, ne modifie pas b, donc on peut utiliser la même décomposition pour tout vecteur b, donne A-1 et les vecteurs propres.. Gauss Jordan (pivot

A travers cet exemple, on peut identifier plusieurs ´ el´ ements : L’ensemble de tous les candidats possibles :. tous les parcours possibles Une fonction de coˆ

Optimisation combinatoire : Espace de recherche dont les variables sont discr` etes (cas NP-difficile). Optimisation num´ erique (continue) : Espace de recherche dont les variables

Docking mol´ eculaire Mod´ elisation cognitive Calibration de mod` ele agronomique Apprentissage artificiel?. Tˆ ache de m´ emorisation

Introduction Probl` emes d’optimisation combinatoire Probl` emes d’optimisation num´ erique

Fonction f θ d´ ependant de param` etres θ du diam` etre pupillaire en fonction de l’unit´ e de temps pour chacune des situations Comment d´ efinir un comportement moyen. Voir