ClémentRambour ValueFunctionApproximationandDeepQLearning

(1)

Value Function Approximation and Deep Q Learning

Clément Rambour

(2)

Plan

1 Introduction

2 Approximation de la fonction de valeur Stochastic gradient descent

Monte Carlo with value function approximation TD Learning with value function approximation Control with value function approximation

3 Deep Reinforcement Learning End to end learning ofQ Double DQN

Dueling DQN

4 Bibliographie

(3)

Cours précédent

Comment apprendre une bonne politique grâce à l’expérience

Pour l’instant : représentation tabulaire de la fonction de valeur d’état ou d’état-action

Souvent trop d’états pour être applicable

(4)

Introduction Approximation de la fonction de valeur Deep Reinforcement Learning Bibliographie

Aujourd’hui

Motivation:

Ne pas stocker ou apprendre explicitement pour chaque état Une dynamique

Une récompense Valeur d’action-état Politique

Recherche d’une représentation compacte qui se généralise mieux

Réduction du coût en calcul

Réduit la quantité d’expérience nécessaire

(5)

Aujourd’hui

Motivation:

Ne pas stocker ou apprendre explicitement pour chaque état Une dynamique

Une récompense Valeur d’action-état Politique

Recherche d’une représentation compacte qui se généralise mieux Réduction de l’impact mémoire

Réduction du coût en calcul

(6)

Plan

1 Introduction

Dueling DQN

4 Bibliographie

(7)

Principe

Inférence de la valeur d’un état/ d’un couple action-état grâce à un modèle

(8)

Fonctions approximatrices

De nombreuses fonctions nont possible pour calculer la fonction de valeur : Combinaison linaire de features

Réseaux de neurones Arbres de décisions Plus proches voisins Fourier / ondelettes

(9)

Fonctions approximatrices

De nombreuses fonctions nont possible pour calculer la fonction de valeur : Combinaison linaire de features←différentiable

Réseaux de neurones←différentiable Arbres de décisions

Plus proches voisins Fourier / ondelettes

(10)

Apprentissage avec un oracle

Intuition: se ramener à un cas supervisé Si on connaît la valeur devπ(s)∀s Apprentissage supervisé(s, vπ(s))

L’ojectif est d’obtenir la meilleure approximation devπgrâce à la fonction paramétréev(s,ˆ w)

(12)

Descente de gradient stochastique

But: trouver les paramètreswqui minimisent la lossL(vπ(s),ˆv(s,w)) Générallement,L= MSE :

L(vπ(s),v(s,ˆ w)) =Eπ[(vπ(s)−v(s,ˆ w))²] Minimum trouvé par descente de gradient :

∆w=−1 2α∇wL

Descente de gradient stochastique : gradient approché par une moyenne sur un nombre finit d’échantillons (souvent un seul)

(13)

Model Free Approximation

Ne nécessite pas forcément d’être calculé avec un oracle/les labels Model free policy evaluation :

On suit une politiqueπ Convergence versv_π ouq_π

Valeurs d’état / d’actions-états stockées en mémoire

Mise à jour après un épisode (MC) ou après chaque étape (TD)

Modificationde l’approche existente pour inclure la mise à jour des paramètres du modèle

(14)

Approximation linéaire

Chaque étatsest représenté par un ensemble de descripteurs/features: x(s) = [x1(s), ..., xn(s)]

L’approximation de la fonction de valeur est obtenue par approximation linéaire :v(s,ˆ w) =w^Tx(s)

La loss est donnée parL(w) =E^π[(vπ(s)−ˆv(s,w))²] Gradient donné par :

∇_wL=Eπ[2(vπ(s)−v(s,ˆ w))]∇_wv(s,ˆ w)

(16)

Monte Carlo Value function apprixmation

Monte Carlo : Le retourGtest un estimateur non biaisé devπ(s) Apprentissage supervisé :(s1, G1), ...,(sT, GT)

Le gradient s’écrit :

∇wL=−2(Gt−v(s,ˆ w))∇wˆv(s,w) La mise à jour :

∆w=−1 2α∇wL

=α Gt−v(s,ˆ w)

∇wˆv(s,w)

=α Gt−x(st)^Tw x(st)

(17)

Monte Carlo Value function approximation

(18)

TD Learing

Bootstraping

Mise à jour après chaque transition(s, a, r, s⁰): V(s) =V(s) +α r+γV(s⁰)

| {z }

TD Target

−V(s)

TD Target : estimattion biaisée devπ(s)

(s1, r1+γˆv(s2,w)), ...,(sT, rT+1+γˆv(sT,w)) But: Trouver les poids qui minimisent la loss :

L(w) =Eπ[(rt+1+γˆv(st,w)−v(sˆ t,w))²] Pour TD(0), mise à jour cas linéaire :

∆w=α r+γˆv(s⁰,w)−ˆv(s,w)

∇_Wv(s,ˆ w)

=α r+γx(s⁰)^Tw−x(s)^Tw

x(s) (1)

(20)

TD Learing

Bootstraping

Mise à jour après chaque transition(s, a, r, s⁰): V(s) =V(s) +α r+γV(s⁰)

| {z }

TD Target

−V(s)

TD Target : estimattion biaisée devπ(s)

⇒Utilisation de la TD Targetapprochéecomme supervision : (s1, r1+γˆv(s2,w)), ...,(sT, rT+1+γˆv(sT,w))

But: Trouver les poids qui minimisent la loss :

L(w) =Eπ[(rt+1+γˆv(st,w)−v(sˆ t,w))²] Pour TD(0), mise à jour cas linéaire :

∆w=α r+γˆv(s⁰,w)−v(s,ˆ w)

∇_Wv(s,ˆ w)

0 T − ^T

(21)

TD(0) Linear value function approximaton

(22)

Control et approximation de la valeur

Approximation de la fonction de valeur état-action : Qπ(s, a)'Q(s, a;ˆ w) Q(s, a;ˆ w)paramétrée parw

Schéma classique possible (légèrement modifié) : Approximation de la fonction de valeur -greedy amélioration

Amélioration possible : Approximation bien choisie Bootstrapping

Off-policy learning

(24)

Control et approximation de la valeur

Approximation de la fonction de valeur état-action : Qπ(s, a)'Q(s, a;ˆ w) Q(s, a;ˆ w)paramétrée parw

Schéma classique possible (légèrement modifié) : Approximation de la fonction de valeur -greedy amélioration

Parfois instable Amélioration possible :

Approximation bien choisie Bootstrapping

Off-policy learning

(25)

Contrôle avec un oracle

Qπ(s, a)'Q(s, a;w)ˆ Mean Square Error :

L(w) =Eπ[(Qπ(s, a)−Q(s, a;ˆ w))²] Minimum obtenu par stoachastic gradient descent :

∇wL(w) =1 2Eπ

Qπ(s, a)−Q(s, a;ˆ w)

∇wQ(s, a;ˆ w)

(26)

SARSA et approximation de la valeur

Résumé en deux étapes :

À partir deschoix d’une actionaassociée à une politique-greedy(π)→s⁰ Mise à jour de la fonction de valeur en fonction du couple(s⁰, a⁰)associé à la prochaine action :

Q_π(s, a)←Q_π(s, a) +α r+γQ_π(s⁰, a⁰)−Q(s, a)

SARSA avec approximationQπ(s, a)'Q(s, a;ˆ w) Loss avec ojectif SARSA :

L(w) =Eπ[(r+γQπ(s⁰, a⁰;w)−Q(s, a;ˆ w))²] L(w)'(r+γQπ(s⁰, a⁰;w)−Q(s, a;ˆ w))² gradient de la loss %w:

∇wL(w) = 2 r+γQ(sˆ ⁰, a⁰;w)−Q(s, a;ˆ w)

∇wQ(s, a;w)ˆ Mise à jour :

(27)

SARSA et approximation de la valeur : cas linéaire

Couple états actions représentés par un vecteur de features : x(s, a) = [x1(s, a), ..., xn(s, a)]

Approximation linéaire :

Q(s, a;ˆ w) =w^tx(s, a)

Loss avec ojectif SARSA :

L(w)'(r+γQπ(s⁰, a⁰;w)−Q(s, a;ˆ w))² gradient de la loss %wcas linéaire :

∇wL(w) = 2 r+γQ(sˆ ⁰, a⁰;w)−Q(s, a;ˆ w)

∇wQ(s, a;w)ˆ

= r+γx(s⁰, a⁰)^Tw−x(s, a)^Tw x(s, a)

(28)

Q-learning et approximation de la valeur

Résumé en deux étapes :

À partir deschoix d’une actionaassociée à une politique-greedy(π)←s⁰ Mise à jour de la fonction de valeur en fonction du couple(s⁰, a⁰)associé à la meilleureaction possible :

Q_π(s, a)←Q_π(s, a) +α r+γmax

a0 Q_π(s⁰, a⁰)−Q(s, a) Q-learning avec approximationQπ(s, a)'Q(s, a;ˆ w)

Loss avec ojectif Q-learning : L(w) =E^π[(r+γmax

a⁰ Qπ(s⁰, a⁰;w)−Q(s, a;w))ˆ ²] L(w)'(r+ max

a⁰ γQπ(s⁰, a⁰;w)−Q(s, a;ˆ w))² gradient de la loss %w:

∇wL(w) = 2 r+γmax

a⁰

Q(sˆ ⁰, a⁰;w)−Q(s, a;ˆ w)

∇wQ(s, a;ˆ w)

Mise à jour :

(29)

Q-learning et approximation de la valeur : cas linéaire

Couple états actions représentés par un vecteur de features : x(s, a) = [x1(s, a), ..., xn(s, a)]

Approximation linéaire :

Q(s, a;ˆ w) =w^tx(s, a)

Loss avec ojectif Q-learning : L(w)'(r+ max

a⁰ γQπ(s⁰, a⁰;w)−Q(s, a;w))ˆ ² gradient de la loss %wcas linéaire :

∇wL(w) = 2 r+γmax

a⁰

Q(sˆ ⁰, a⁰;w)−Q(s, a;ˆ w)

∇wQ(s, a;ˆ w)

= r+γmaxx(s⁰, a⁰)^Tw−x(s, a)^Tw x(s, a)

(30)

Plan

1 Introduction

Dueling DQN

4 Bibliographie

(31)

Deep RL

Utiliser des réseaux de neurones pour approcher La fonction de valeur (vouQ)

La politique

Le modèle (de l’environnement)

Optimisation par descente de gradient stochastique

(32)

Deep Q-Networks (DQNs)

Représentation de la table de valeur état-action par unQ-networkde paramètreθ

(34)

DQNs dans Atari

(35)

DQNs dans Atari

Apprentissageend to enddes valeurs deQ(s, a)d’après les pixelss←vecteur de features décrivant l’état

Entrée du réseausconcaténation des dernières frames observées (ex : 4 dernières)

Sortie :Q(s, a)pour les actions réalisables (∼18 bouttons) Architectures et hyperparmètres fixés pour toute la partie

(36)

DQ-learning

Loss : MSE optimisée par descente de gradient stochastique Deux problèmes (principaux) pouvant amener à diverger :

Correlation entre les échantillons Targets/labels non stationnaires

Deux solutions proposées pour le Deep Q-Learning (Mnih et Al. 2015) Experience replay

Fixed Q-targets

(37)

DQNs : Experience replay

Pour éviter la forte correlation entre échantillons successifs : les données sont stockées dans unbufferD ←replay buffer

Experience replayconsiste à répéter les étapes suivantes : Échantillonnage d’une expérience(s, a, r, s⁰∼ D) Calcul de la TDtargetpour l’échantillon :r+γmax

a0 Q_θ(s⁰, a⁰) Calcul de la loss :

(38)

Fixed Q-Targets

Pour améliorer la stabilité, on peut fixer les poids du réseaux pour évaluer la TDtarget

Deux réseaux : un réseaux cible et un réseaux apprenant la fonction de valeur θ⁻: les paramètres du réseau cible

θ: les paramètres du réseaux mis à jour Léger changement dans le schéma précédent :

Échantillonnage d’une expérience(s, a, r, s⁰)∼ D Calcul de la TDtargetpour l’échantillon :r+γmax

a0 Q_θ₋(s⁰, a⁰) Calcul de la loss :

L(θ) = (r+γmax

a0 Q_θ−(s⁰, a⁰)−Qθ(s, a))² Mise à jour des paramètres :

θ←θ−α1 2∇θL(θ)

(39)

DQN Pseudocode

(40)

DQN results dans Atari

Figure–Human-level control through deep reinforcement learning, Mnih et al, 2015

(41)

Vanilla DQN vs. Fixed Target and experience replay

(42)

Double DQN

Q-learning : biaisé vers l’estimation du maximum dans la tableQ Combinaison d’estimateur peut réduire le biais (∼bagging) Double Q-Learning :

Combinaison de deux estimations deQ

Probabilité non nulle de sélectionner la meileure option pour l’une ou pour l’autre des estimations

réduction du biais

(44)

Prioritized experience replay

Soitil’index dui-eme tuple dans le buffer d’expérience(si, ai, ri, si+1) Échantillonnage des tuples pour mettre à jour suivant une distributionp Probabilitépide sélectionner le tupleiproportionelle à l’erreur DQNei:

ei=|r+ max

a⁰ Qθ(si+1, a⁰)−Qθ(si, ai)|

Mise à jour despià chaque mise à jour deQθ

une méthode :

pi= p^β_i P

kp^β_k βfacteur de température

(45)

Fonctions valeur et avantage

Intuition: représentations pour décrire les états pas forcément adaptées pour décrire les actions

Exemple : le score dans un jeu indique l’intérêt d’un états:v(s)mais pas l’intérêt entre deux actionQ(s, a1)<> Q(s, a2)

Fonction d’avantage /Advantage function:

Aπ(s, a) =Qπ(s, a)−vπ(s, a) Aπdonne la valeur d’une action

(47)

Dueling DQN

(48)

Dueling DQN

(49)

Non unicité de l’avantage

Qest reconstruit à partir de l’avantage et la valeur d’état : Qθ(s, a) =Vθ(s, a) +Aθ(s, a)

Infinité deV etAdonnant le mêmeQ: solution à une constante prêt Nécessité de "punaiser"V etAen rajoutant une constante

Qθ(s, a) =Vθ(s, a) +

Aθ(s, a)−max

a⁰ Aθ(s, a⁰)

Méthode 2 : Utiliser la moyenne sur les actionsAθ(s, a⁰)comme origine (plus stable)

Aθ(s, a)−Aθ(s, a⁰)

(50)

Non unicité de l’avantage

Qest reconstruit à partir de l’avantage et la valeur d’état : Qθ(s, a) =Vθ(s, a) +Aθ(s, a)

Infinité deV etAdonnant le mêmeQ: solution à une constante prêt Nécessité de "punaiser"V etAen rajoutant une constante

Méthode 1 : ForcerQθ(s, a) =Vθ(s)pour la meilleure action possible

Aθ(s, a)−max

a⁰ Aθ(s, a⁰)

Méthode 2 : Utiliser la moyenne sur les actionsAθ(s, a⁰)comme origine (plus stable)

Q_θ(s, a) =V_θ(s, a) +

A_θ(s, a)−A_θ(s, a⁰)

(51)

Dueling DQN vs. Double DQN

(52)

Conseils pratiques

Huber Loss sur l’erreur de Bellman (= l’erreur TD) Double DQN (peu d’effort par rapport à simple DQN) Essayer plusieurs seeds pendant les experiences

Learning rate scheduling. Haut learning rate au départ pour l’exploration

(53)

Plan

1 Introduction

Dueling DQN

(54)

Bibliographie

Double DQN (Deep Reinforcement Learning with Double Q-Learning, Van Hasselt et al, AAAI 2016)

Prioritized Replay (Prioritized Experience Replay, Schaul et al, ICLR 2016) Dueling DQN (best paper ICML 2016) (Dueling Network Architectures for Deep Reinforcement Learning, Wang et al, ICML 2016)

ClémentRambour ValueFunctionApproximationandDeepQLearning

Value Function Approximation and Deep Q Learning

Plan

Cours précédent

Aujourd’hui

Aujourd’hui

Plan

Principe

Fonctions approximatrices

Fonctions approximatrices

Table of Contents

Apprentissage avec un oracle

Descente de gradient stochastique

Model Free Approximation

Table of Contents

Approximation linéaire

Monte Carlo Value function apprixmation

Monte Carlo Value function approximation

Table of Contents

TD Learing

TD Learing

TD(0) Linear value function approximaton

Table of Contents

Control et approximation de la valeur

Control et approximation de la valeur

Contrôle avec un oracle

SARSA et approximation de la valeur

SARSA et approximation de la valeur : cas linéaire

Q-learning et approximation de la valeur

Q-learning et approximation de la valeur : cas linéaire

Plan

Deep RL

Table of Contents

Deep Q-Networks (DQNs)

DQNs dans Atari

DQNs dans Atari

DQ-learning

DQNs : Experience replay

Fixed Q-Targets

DQN Pseudocode

DQN results dans Atari

Vanilla DQN vs. Fixed Target and experience replay

Table of Contents

Double DQN

Prioritized experience replay

Table of Contents

Fonctions valeur et avantage

Dueling DQN

Dueling DQN

Non unicité de l’avantage

Non unicité de l’avantage

Dueling DQN vs. Double DQN

Conseils pratiques

Plan

Bibliographie