Programmation dynamique avec approximation de la fonction valeur

(1)

HAL Id: hal-00830192

https://hal.archives-ouvertes.fr/hal-00830192

Submitted on 4 Jun 2013

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

fonction valeur

Rémi Munos

To cite this version:

(2)

Processus Décisionnels de Markov

en Intelligence Artificielle

(3)

(4)

Table des matières

PREMIÈRE PARTIE. PRINCIPES GÉNÉRAUX . . . 15

Chapitre 1. Processus Décisionnels de Markov . . . 17

Frédérick GARCIA 1.1. Introduction . . . 17

1.2. Problèmes décisionnels de Markov . . . 18

1.2.1. Processus décisionnels de Markov . . . 18

1.2.2. Les politiques d’actions . . . 20

1.2.3. Critères de performance . . . 22 1.3. Fonctions de valeur . . . 23 1.3.1. Le critère fini . . . 23 1.3.2. Le critère γ-pondéré . . . 24 1.3.3. Le critère total . . . 24 1.3.4. Le critère moyen . . . 25 1.4. Politiques markoviennes . . . 25

1.4.1. Equivalence des politiques histoire-dépendantes et markoviennes 25 1.4.2. Politique markovienne et chaîne de Markov valuée . . . 27

1.5. Caractérisation des politiques optimales . . . 27

1.5.1. Le critère fini . . . 27

1.5.2. Le critère γ-pondéré . . . 29

1.5.3. Le critère total . . . 34

1.5.4. Le critère moyen . . . 36

1.6. Algorithmes de résolution desMDP . . . 40

1.6.1. Le critère fini . . . 40

1.6.2. Le critère γ-pondéré . . . 40

1.6.3. Le critère total . . . 45

1.6.4. Le critère moyen . . . 46

1.7. Conclusion et perspectives . . . 48

Chapitre 2. Apprentissage par renforcement . . . 51

(5)

Olivier SIGAUD, Frédérick GARCIA

2.1. Introduction . . . 51

2.1.1. Bref aperçu historique . . . 52

2.2. Apprentissage par renforcement : vue d’ensemble . . . 53

2.2.1. Approximation de la fonction de valeur . . . 53

2.2.2. Méthodes directes et indirectes . . . 54

2.2.3. Apprentissage temporel, non supervisé et par essais et erreurs . . 55

2.2.4. Le dilemme exploration/exploitation . . . 56

2.2.5. Des méthodes incrémentales fondées sur une estimation . . . 58

2.3. Méthodes de Monte Carlo . . . 59

2.3.1. Préliminaires généraux sur les méthodes d’estimation . . . 59

2.3.2. Les méthodes de Monte Carlo . . . 60

2.4. Les méthodes de différence temporelle . . . 62

2.4.1. L’algorithme TD(0) . . . 63

2.4.2. L’algorithme SARSA. . . 64

2.4.3. L’algorithme Q-learning . . . 66

2.4.4. Les algorithmes TD(λ), Sarsa(λ) et Q(λ) . . . 68

2.4.5. Les architectures acteur-critique . . . 69

2.4.6. Différences temporelles avec traces d’éligibilité : TD(λ) . . . 69

2.4.7. De TD(λ) à SARSA(λ) . . . 73

2.4.8. L’algorithme R-learning . . . 75

2.5. Méthodes indirectes : apprentissage d’un modèle . . . 77

2.5.1. Les architectures DYNA . . . 78

2.5.2. L’algorithme E3 _{. . . .} ₈₀

2.5.3. L’algorithme Rmax . . . 81

2.6. Conclusion . . . 82

Chapitre 3. PDM partiellement observables . . . 85

Alain DUTECH, Bruno SCHERRER 3.1. Définition formelle desPOMDP. . . 86

3.1.1. Définition d’unPOMDP . . . 86

3.1.2. Critères de performance . . . 88

3.1.3. Etat d’information . . . 88

3.1.4. Politique . . . 92

3.1.5. Fonctions de valeur . . . 93

3.2. Problèmes non-markoviens (information incomplète) . . . 95

3.2.1. Politiques adaptées . . . 95

3.2.2. Critère pondéré . . . 96

3.2.3. Algorithmes adaptés et critère moyen adapté . . . 100

3.3. Calculer une politique exacte sur les états d’information . . . 101

3.3.1. Cas général . . . 102

(6)

Table des matières 7

3.4. Algorithmes exacts d’itération sur les valeurs . . . 107

3.4.1. Etapes de l’opérateur de programmation dynamique . . . 107

3.4.2. Obtenir une représentation parcimonieuse de V . . . 110

3.4.3. L’algorithme WITNESS . . . 117

3.4.4. Elagage itératif (Iterative pruning) . . . 120

3.5. Algorithmes d’itération sur les politiques . . . 123

3.6. Conclusion et Perspectives . . . 125

Chapitre 4. Une introduction aux jeux stochastiques . . . 127

Andriy BURKOV, Brahim CHAIB-DRAA 4.1. Introduction . . . 127

4.2. Rappel sur la théorie des jeux . . . 128

4.2.1. Quelques définitions de base . . . 128

4.2.2. Jeux statiques en information complète . . . 133

4.2.3. Jeux dynamiques en information complète . . . 137

4.3. Jeux stochastiques . . . 143

4.3.1. Définition et équilibre d’un jeu stochastique . . . 143

4.3.2. Résolution des jeux stochastiques . . . 145

4.3.3. Complexité et extensibilité des algorithmes d’apprentissage mul-tiagent . . . 155

4.3.4. Au-delà de la recherche d’équilibre . . . 157

4.3.5. Discussion . . . 161

Chapitre 5. Critères non classiques . . . 165

Matthieu BOUSSARD , Maroua BOUZID , Abdel-Illah MOUADDIB , Régis SABBADIN, Paul WENG 5.1. Introduction . . . 165

5.2. Les approches multicritères . . . 166

5.2.1. Décision multicritère . . . 167

5.2.2. Processus décisionnel de Markov multicritères . . . 168

5.3. Prise en compte de la robustesse dans la résolution desMDP . . . 172

5.4. Processus Décisionnels de Markov Possibilistes . . . 175

5.4.1. Contreparties possibilistes de l’utilité espérée . . . 175

5.4.2. Programmation Dynamique Possibiliste . . . 178

5.4.3. Extensions des MDP possibilistes . . . 183

5.5. MDP algébriques . . . 187

5.5.1. Rappels . . . 188

5.5.2. Définition d’unMDPalgébrique . . . 190

5.5.3. Fonctions de valeur d’une politique . . . 191

5.5.4. Conditions . . . 192

5.5.5. Exemples deAMDP . . . 193

(7)

DEUXIÈME PARTIE. EXEMPLES D’APPLICATION DES(PO)MDP . . . 201

Chapitre 6. Apprentissage en ligne de la manipulation de micro-objets . . 203

Guillaume LAURENT 6.1. Introduction . . . 203

6.2. Dispositif de manipulation . . . 204

6.2.1. Objectif : le micro-positionnement par poussée . . . 204

6.2.2. Dispositif de manipulation . . . 205

6.2.3. Boucle de commande . . . 206

6.2.4. Représentation du système de manipulation sous la forme d’un MDP . . . 206

6.3. Choix de l’algorithme d’apprentissage par renforcement . . . 207

6.3.1. Caractéristiques duMDP . . . 207 6.3.2. Un algorithme adapté : STM-Q . . . 208 6.4. Résultats expérimentaux . . . 210 6.4.1. Mise en œuvre . . . 210 6.4.2. Résultats obtenus . . . 210 6.5. Conclusion . . . 211

Chapitre 7. Conservation de la biodiversité . . . 215

Iadine CHADÈS 7.1. Introduction . . . 215

7.2. Protéger, surveiller ou abandonner : gestion optimale d’espèces se-crètes et menacées . . . 216

7.2.1. Surveillance et gestion du tigre de Sumatra . . . 216

7.2.2. Modèle . . . 217

7.2.3. Résultats . . . 217

7.2.4. Extension à plusieurs populations . . . 220

7.3. Les loutres et les abalones peuvent-ils co-exister ? . . . 221

7.3.1. Les abalones et les loutres, deux espèces menacées . . . 221

7.3.2. Modèles . . . 223

7.3.3. Méthodes . . . 226

7.3.4. Résultats . . . 227

7.3.5. Discussion . . . 229

7.4. Conclusion . . . 231

TROISIÈME PARTIE. EXTENSIONS . . . 233

Chapitre 8. DEC-MDP/POMDP . . . 235

(8)

8.2. Observabilité . . . 236

8.3. Processus décisionnels de Markov multi-agents . . . 238

8.3.1. Formalisme . . . 238

8.3.2. Contrôle centralisé . . . 239

8.3.3. Contrôle décentralisé . . . 239

8.4. Contrôle décentralisé et processus décisionnels de Markov . . . 240

8.4.1. Les processus décisionnels de Markov décentralisés . . . 240

8.4.2. Multiagent Team Decision Problem . . . 241

8.4.3. Gestion de la communication dans lesDEC-POMDP . . . 244

8.5. Propriétés et classes particulières deDEC-POMDP . . . 247

8.5.1. Transitions, observations et buts . . . 248

8.5.2. DEC-MDPdirigés par les événements . . . 250

8.5.3. Modélisation deDEC-MDPavec contraintes . . . 251

8.6. La résolution desDEC-POMDP . . . 254

8.6.1. Algorithmes de résolution optimaux . . . 254

8.6.2. Algorithmes de résolution approchée . . . 264

8.7. Quelques exemples d’application . . . 270

8.7.1. Robotique mobile exploratoire . . . 270

Chapitre 9. Représentations factorisées . . . 275

Thomas DEGRIS, Olivier SIGAUD 9.1. Introduction . . . 275

9.2. Le formalisme desFMDP . . . 276

9.2.1. Représentation de l’espace d’état . . . 276

9.2.2. L’exemple Coffee Robot . . . 276

9.2.3. Décomposition et indépendances relatives aux fonctions . . . 278

9.2.4. Indépendances relatives aux contextes . . . 283

9.3. Planification dans lesFMDP. . . 284

9.3.1. Itérations structurées sur les valeurs et sur les politiques . . . 284

9.3.2. L’algorithme Stochastic Planning Using Decision Diagrams . . . 289

9.3.3. Programmation linéaire approchée dans un FMDP . . . 292

Chapitre 10. Approches de résolution en ligne . . . 301

Laurent PÉRET, Frédérick GARCIA 10.1.Introduction . . . 301

10.1.1.Exploiter le temps en ligne . . . 301

10.1.2.Recherche en ligne par simulation . . . 302

10.2.Algorithmes en ligne pour la résolution d’unMDP . . . 303

10.2.1.Algorithmes hors ligne, algorithmes en ligne . . . 303

10.2.2.Formalisation du problème . . . 303

(9)

10.2.4.L’algorithme par simulation de Kearns, Mansour et Ng . . . 310

10.2.5.L’algorithme Rollout de Tesauro et Galperin . . . 312

10.3.Contrôler la recherche . . . 314

10.3.1.Bornes sur l’erreur et pathologie de la recherche avant . . . 315

10.3.2.Allocation itérative des simulations . . . 317

10.3.3.Focused Reinforcement Learning . . . 320

10.3.4.Controlled Rollout . . . 325

10.4.Conclusion . . . 327

Chapitre 11. Programmation dynamique avec approximation . . . 329

Rémi MUNOS 11.1.Introduction . . . 330

11.2.Itérations sur les valeurs avec approximation (IVA) . . . 332

11.2.1.Implémentation à partir d’échantillons et apprentissage supervisé 333 11.2.2.Analyse de l’algorithme IVA . . . 335

11.2.3.Illustration numérique . . . 336

11.3.Itérations sur les politiques avec approximation (IPA) . . . 338

11.3.1.Analyse de l’algorithme IPA en norme L∞ _{. . . 340}

11.3.2.Évaluation approchée d’une politique . . . 342

11.3.3.Approximation linéaire et méthode des moindres carrés . . . 343

11.4.Minimisation directe du résidu de Bellman . . . 350

11.5.Vers une analyse de la programmation dynamique en norme Lp _{. . . . 351}

11.5.1.Intuition d’une analyse Lp_{en programmation dynamique . . . 352}

11.5.2.Bornes PAC pour des algorithmes d’A/R . . . 354

11.6.Conclusion et perspectives . . . 355

Chapitre 12. Méthodes de gradient . . . 357

Olivier BUFFET 12.1.Rappels sur la notion de gradient . . . 358

12.1.1.Gradient d’une fonction . . . 358

12.1.2.Descente de gradient . . . 359

12.2.Optimisation d’une politique paramétrée par méthode de gradient . . . 360

12.2.1.Application auxMDP: aperçu . . . 360

12.2.2.Estimation du gradient de f dans unMDP, cas de l’horizon tem-porel fini . . . 362

12.2.3.Extension au cas de l’horizon temporel infini : critère actualisé, critère moyen . . . 365

12.2.4.Cas partiellement observable . . . 369

12.3.Méthodes "Acteur-Critique" . . . 370

12.3.1.Estimateur du gradient utilisant les Q-valeurs . . . 371

12.3.2.Compatibilité avec l’approximation d’une fonction de valeur . . . 372

12.4.Compléments . . . 375

(10)

QUATRIÈME PARTIE. EXEMPLES D’APPLICATION(SUITE) . . . 379

Chapitre 13. Hélicoptère autonome . . . 381

Patrick FABIANI, Florent TEICHTEIL-KÖNIGSBUCH 13.1.Introduction . . . 381 13.2.Présentation du scénario . . . 383 13.2.1.Problème de planification . . . 384 13.2.2.États et actions . . . 385 13.2.3.Incertitudes . . . 386 13.2.4.Critère à optimiser . . . 386

13.2.5.Modèle formel de décision . . . 386

13.3.Architecture de décision embarquée . . . 387

13.3.1.Vue globale . . . 387

13.3.2.Planification multi-tâche sur requête du superviseur . . . 388

13.4.Programmation dynamique stochastique, incrémentale et locale . . . . 389

13.4.1.Obtention d’une première politique non optimisée . . . 390

13.4.2.Génération du sous-espace d’états atteignables . . . 391

13.4.3.Optimisation locale de la politique . . . 391

13.4.4.Replanifications locales . . . 392

13.5.Tests en vol et retour d’expérience . . . 392

Chapitre 14. Robotique mobile . . . 397

Simon LEGLOANNEC, Abdel-Illah MOUADDIB 14.1.La mission du robot explorateur . . . 397

14.2.Formalisme d’une mission constituée de tâches progressives . . . 399

14.3.ModélisationMDP/PRU . . . 400

14.3.1.Les états de l’agent . . . 401

14.3.2.Les actions de l’agent . . . 401

14.3.3.La fonction de transition . . . 402

14.3.4.La fonction de récompense . . . 403

14.4.Calcul de la politique de contrôle . . . 403

14.5.Modéliser concrètement une mission . . . 405

14.6.Extensions possibles . . . 406

Chapitre 15. Planification d’opérations . . . 407

Sylvie THIÉBAUX, Olivier BUFFET 15.1.Planification d’opérations . . . 407

15.1.1.Intuition . . . 407

15.1.2.Définitions formelles . . . 410

(11)

15.2.1.Modélisation sous la forme d’unCoMDP . . . 415

15.3.Algorithmes . . . 417

15.3.1.Résolution exacte . . . 417

15.3.2.Résolution heuristique . . . 419

15.3.3.Autres approches à base de modèles . . . 423

15.4.Apprentissage par renforcement : FPG . . . 425

15.4.1.Employer des méthodes approchées . . . 425

(12)

Avant-propos

Le présent volume est le second tome d’un ouvrage constitué de deux tomes, por-tant sur les problèmes de décision séquentielle dans l’incertain et de l’apprentissage par renforcement, deux classes de problèmes d’intelligence artificielle que l’on peut formaliser dans le cadre des processus décisionnels de Markov. Il a été écrit pour les étudiants, ingénieurs et chercheurs susceptibles de s’intéresser à ces disciplines et ces modèles.

L’opportunité de la rédaction de ces deux tomes est née de la structuration de la communauté « PDMIA », qui regroupe les chercheurs francophones en informatique, mathématiques appliquées et robotique qui utilisent le cadre des processus décision-nels de Markov (PDM) dans le cadre de l’intelligence artificielle (IA). Depuis 2001, des rencontres informelles annuelles puis la conférence JFPDA ont permis de mettre en évidence l’existence d’une activité de recherche significative dans ce domaine de la part de chercheurs francophones, au point de justifier la rédaction d’un ouvrage de référence sur ces travaux en langue française.

Les deux tomes, fortement complémentaires, sont organisés de la manière sui-vante.

Dans le premier tome, nous proposons une présentation introductive des bases et des principaux cadres de ce domaine (processus décisionnels de Markov, apprentis-sage par renforcement, processus décisionnels de Markov partiellement observables, jeux de Markov et critères non-classiques) et quelques applications des principes uti-lisés dans ces différents cadres dans les domaines de la micro-manipulation et de la gestion de systèmes naturels.

Dans le second tome, en supposant acquises les notions présentées dans le premier tome, nous rassemblons une sélection des travaux actuels plus avancés consistant en des extensions de ces cadres généraux (cadre multi-agent décentralisé, représentations

(13)

factorisées, représentations approchées, méthodes de gradient) et un choix d’applica-tions concrètes traitées par des équipes appartenant à notre communauté (planification d’opérations, hélicoptère autonome, robotique).

Il n’était pas possible de présenter dans le cadre de cet ouvrage la totalité des axes de recherche de ce domaine globalement très actif au niveau international. Nous donnons ici quelques références pour orienter le lecteur vers quelques aspects que nous n’avons pas couverts. Ainsi, nous avons choisi de ne pas parler d’apprentissage par renforcement en temps continu [?], d’apprentissage par renforcement relationnel [?], d’apprentissage par renforcement hiérarchique [?], de systèmes de classeurs [?] ou de représentations prédictives de l’état [LIT 02].

Par ailleurs, nous nous sommes efforcés au sein des différents chapitres de donner des références vers des travaux connexes à ceux présentés ici.

Les activités scientifiques de la communauté PDMIA sont présentées sur internet

à l’adresse suivante :http://www.loria.fr/projets/PDMIA/index.php. Le

(14)

P

REMIÈRE PARTIE

Principes généraux

(15)

(16)

Chapitre 1

Processus Décisionnels de Markov

1.1. Introduction

Les problèmes de décision traités dans cet ouvrage sont communément appelés problèmes de décision séquentielle dans l’incertain. La première caractéristique de ce type de problèmes est qu’il s’inscrit dans la durée et que ce n’est pas en fait un, mais plusieurs problèmes de décisions en séquence qu’un agent (ou décideur ou en-core acteur) doit résoudre, chaque décision courante influençant la résolution des pro-blèmes qui suivent. Ce caractère séquentiel des décisions se retrouve typiquement dans les problèmes de planification en intelligence artificielle et relève en particulier des méthodes de plus court chemin dans un graphe. La seconde caractéristique de ces problèmes est liée à l’incertitude des conséquences mêmes de chacune des décisions possibles. Ainsi, l’agent ne sait pas à l’avance précisément quels seront les effets des décisions qu’il prend. En tant que telle, cette problématique relève des théories de la décision dans l’incertain qui proposent de nombreuse voies de formalisation et ap-proches de résolution, en particulier la théorie classique de maximisation de l’utilité espérée.

Les problèmes de décision séquentielle dans l’incertain couplent donc les deux problématiques de décision séquentielle et de décision dans l’incertain. Les problèmes

décisionnels de Markov (MDP1) en sont une formalisation mathématique, qui

généra-lise les approches de plus court chemin dans un environnement stochastique. A la base

de ce formalisme, les processus décisionnels de Markov (que l’on note aussiMDP)

in-tègrent les concepts d’état qui résume la situation de l’agent à chaque instant, d’action

Chapitre rédigé par Frédérick GARCIA. 1. Pour Markov Decision Problem

(17)

(ou décision) qui influence la dynamique de l’état, de revenu (ou récompense) qui est

associé à chacune des transitions d’état. LesMDP sont alors des chaînes de Markov

visitant les états, contrôlées par les actions et valuées par les revenus. Résoudre un

MDP, c’est contrôler l’agent pour qu’il se comporte de manière optimale, c’est-à-dire

de façon à maximiser son revenu. Toutefois, les solutions d’unMDPne sont pas des

dé-cisions ou séquences de dédé-cisions, mais plutôt des politiques, ou stratégies, ou encore règles de décision, qui spécifient l’action à entreprendre en chacune des étapes pour toutes les situations futures possibles de l’agent. Du fait de l’incertitude, une même politique peut donner lieu à des séquences d’états / actions très variées selon les aléas. EXEMPLE.– Illustrons ces concepts de manière plus concrète en prenant l’exemple de l’entretien d’une voiture. La question qui se pose est de décider, en fonction de l’état de la voiture (présence de panne, usure, âge, etc.), quelle est la meilleure stratégie (ne rien faire, remplacer préventivement, réparer, changer de voiture, etc.) pour mini-miser le coût de l’entretien sur le long terme. Si on fait l’hypothèse que l’on connaît les conséquences et le coût des différentes actions pour chaque état (par exemple on connaît la probabilité qu’un moteur lâche si on ne répare pas une fuite d’huile) alors

on peut modéliser ce problème comme unMDPdont la solution nous donnera, en

fonc-tion de l’état de la voiture, l’acfonc-tion optimale. Ainsi, la suite des acfonc-tions prises au fur et à mesure de l’évolution de l’état de la voiture permettra, en moyenne, de minimiser son coût d’entretien.

Le cadre des problèmes décisionnels de Markov et ses généralisations que nous développerons dans des chapitres ultérieurs forment les modèles les plus classiques pour les problèmes de décision séquentielle dans l’incertain. Nous en exposons les bases dans ce chapitre, dans le cas d’un agent qui dispose a priori d’une connaissance parfaite du processus et de son état à tout instant, dont la tâche consiste donc à planifier a priori une politique optimale qui maximise son revenu au cours du temps.

1.2. Problèmes décisionnels de Markov 1.2.1. Processus décisionnels de Markov

Les processus décisionnels de Markov sont définis comme des processus sto-chastiques contrôlés satisfaisant la propriété de Markov, assignant des récom-penses aux transitions d’états [BER 87, PUT 94]. On les définit par un quintuplet : (S, A, T, p, r) où :

– S est l’espace d’états dans lequel évolue le processus ;

– A est l’espace des actions qui contrôlent la dynamique de l’état ; – T est l’espace des temps, ou axe temporel ;

– p() sont les probabilités de transition entre états ;

(18)

Processus Décisionnels de Markov 19

La figure 1.1 représente unMDP sous la forme d’un diagramme d’influence. A

chaque instant t de T , l’action atest appliquée dans l’état courant st, influençant le

processus dans sa transition vers l’état st+1. La récompense rtest émise au cours de

cette transition. s_t s_t+1 a_t t t r(s , a ) t+1 t p( s | s , a )_t

Figure 1.1. Processus décisionnel de Markov.

Le domaine T des étapes de décision est un ensemble discret, assimilé à un sous-ensemble de IN, qui peut être fini ou infini (on parle d’horizon fini ou d’horizon infini). Les domaines S et A sont supposés finis, même si de nombreux résultats peuvent être étendus aux cas où S et A sont dénombrables ou continus (voir [BER 95] pour une introduction au cas continu). Dans le cas général, l’espace A peut être dépendant

de l’état courant (Aspour s ∈ S). De même, S et A peuvent être fonction de l’instant t

(Stet At). Nous nous limiterons ici au cas classique où S et A sont constants tout au

long du processus.

Les probabilités de transition caractérisent la dynamique de l’état du système. Pour

une action a fixée, p(s′_{|s, a) représente la probabilité que le système passe dans l’état}

s′ _{après avoir exécuté l’action a dans l’état s. On impose classiquement que ∀s, a,}

P

s′p(s′|s, a) = 1. Par ailleurs, on utilise classiquement une représentation

matri-cielle de ces probabilités de transition, en notant Pala matrice de dimension |S| × |S|

dont les éléments sont ∀s, s′ _P

a s,s′ = p(s′ | s, a). Les probabilités décrites par p()

se décrivent donc par |A| matrices Pa, chacune des lignes de ces matrices ayant pour

somme 1 : les Pasont des matrices stochastiques.

Les distributions p() vérifient la propriété fondamentale qui donne son nom aux

processus décisionnels de Markov considérés ici. Si on note htl’historique à la date

t du processus, ht= (s0, a0, . . . , st−1, at−1, st), alors la probabilité d’atteindre un

nouvel état st+1suite à l’exécution de l’action atn’est fonction que de atet de l’état

(19)

probabilité conditionnelle de l’événement x sachant que y est vrai, on a : ∀ht, at, st+1 P (st+1 | ht, at) = P (st+1 | st, at) = p(st+1| st, at)

Il faut noter que cela n’implique pas que le processus stochastique induit (st)t∈T

soit lui-même markovien, tout dépend de la politique de choix des actions at.

Comme résultat d’avoir choisi l’action a dans l’état s à l’instant t, l’agent décideur

reçoit une récompense, ou revenu, rt = r(s, a) ∈ IR. Les valeurs de rt positives

peuvent être considérées comme des gains et les valeurs négatives comme des coûts. Cette récompense peut être instantanément perçue à la date t, ou accumulée de la date t à la date t + 1, l’important est qu’elle ne dépende que de l’état et de l’action choisie à l’instant courant. La représentation vectorielle de la fonction de récompense r(s, a)

consiste en |A| vecteurs rade dimension |S|.

Une extension classique est de considérer des récompenses r(s, a) aléatoires et

l’on considère alors la valeur moyenne rt = ¯r(s, a). En particulier, rtpeut ainsi

dé-pendre de l’état d’arrivée s′_{selon r(s, a, s}′_{). On considère alors la valeur moyenne est}

¯

r(s, a) =Ps′p(s′|s, a)r(s, a, s′). Dans tous les cas, on suppose rtbornée dans IR.

Par ailleurs, comme pour S et A, les fonctions de transition et de récompense

peuvent elles-mêmes varier au cours du temps, auquel cas on les note ptet rt. Lorsque

ces fonctions de varient pas, on parle de processus stationnaires : ∀t ∈ T, pt() =

p(), rt() = r(). Par la suite, nous supposerons vérifiée cette hypothèse de

stationna-rité dans l’étude desMDPà horizon infini.

1.2.2. Les politiques d’actions

Les processus décisionnels de Markov permettent de modéliser la dynamique de l’état d’un système soumis au contrôle d’un agent, au sein d’un environnement sto-chastique. On nomme alors politique (notée π), ou stratégie, la procédure suivie par l’agent pour choisir à chaque instant l’action à exécuter. Deux distinctions sont essen-tielles ici. Tout d’abord, une politique peut déterminer précisément l’action à effectuer, ou simplement définir une distribution de probabilité selon laquelle cette action doit

être sélectionnée. Ensuite, une politique peut se baser sur l’historique htdu processus,

ou peut ne simplement considérer que l’état courant st. Nous obtenons ainsi quatre

fa-milles distinctes de stratégies, comme indiqué sur le tableau 1.1 :

Pour une politique déterministe, πt(st) ou πt(ht) définit l’action a choisie à

l’ins-tant t. Pour une politique aléatoire, πt(a, st) ou πt(a, ht) représente la probabilité de

sélectionner a.

(20)

politique πt déterministe aléatoire

markovienne st−→ at at, st−→ [0, 1]

histoire-dépendante ht−→ at ht, st−→ [0, 1]

Tableau 1.1. Différentes familles de politiques pour lesMDP.

– ΠHA_{pour les politiques histoire-dépendantes aléatoires ;}

– ΠHD_{pour les politiques histoire-dépendantes déterministes ;}

– ΠM A_{pour les politiques markoviennes aléatoires ;}

– ΠM D_{pour les politiques markoviennes déterministes.}

Ces différentes familles de politiques sont imbriquées entre elles, de la plus géné-rale (histoire-dépendante aléatoire) à la plus spécifique (markovienne déterministe), comme le montre la figure 1.2.

histoire−dépendante déterministe

histoire−dépendante aléatoire

markovienne aléatoire

markovienne déterministe

Figure 1.2. Relations entre les différentes familles de politiques

Indépendamment de cela et comme pour le processus décisionnel de Markov lui-même, la définition des politiques peut ou non dépendre explicitement du temps.

Ainsi, une politique est stationnaire si ∀t πt = π. Parmi ces politiques stationnaires,

les politiques markoviennes déterministes sont centrales dans l’étude des MDP. Il

s’agit du modèle le plus simple de stratégie décisionnelle, on nomme leur ensemble D :

DÉFINITION 1.1.– Politiques markoviennes déterministes stationnaires

D est l’ensemble des fonctions π qui à tout état de S associent une action de A :

(21)

Un autre ensemble important, noté DA_{est constitué des politiques markoviennes}

aléatoires stationnaires. Les politiques de D et DA_{sont très importantes car, comme}

nous le verrons, D et DA _{contiennent les politiques optimales pour les principaux}

critères.

1.2.3. Critères de performance

Se poser un problème décisionnel de Markov, c’est rechercher parmi une famille de politiques celles qui optimisent un critère de performance donné pour le processus décisionnel markovien considéré. Ce critère a pour ambition de caractériser les poli-tiques qui permettront de générer des séquences de récompenses les plus importantes possibles. En termes formels, cela revient toujours à évaluer une politique sur la base d’une mesure du cumul espéré des récompenses instantanées le long d’une trajectoire,

comme on peut le voir sur les critères les plus étudiés au sein de la théorie desMDP,

qui sont respectivement :

– le critère fini : E[r0+ r1+ r2+· · · + rN −1| s0]

– le critère γ-pondéré : E[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0]

– le critère total : E[r0+ r1+ r2+· · · + rt+· · · | s0]

– le critère moyen : lim

n→∞

1

nE[r0+ r1+ r2+· · · + rn−1| s0]

Les deux caractéristiques communes à ces quatre critères sont en effet d’une part

leur formule additive en rt, qui est une manière simple de résumer l’ensemble des

récompenses reçues le long d’une trajectoire et, d’autre part, l’espérance E[.] qui est retenue pour résumer la distribution des récompenses pouvant être reçues le long des trajectoires, pour une même politique et un même état de départ. Ce choix d’un cumul espéré est bien sûr important, car il permet d’établir le principe d’optimalité de

Bell-man[BEL 57] (« les sous-politiques de la politique optimale sont des sous-politiques

optimales »), à la base des nombreux algorithmes de programmation dynamique

per-mettant de résoudre efficacement les MDP. On verra au chapitre 5 d’autres critères

qui étendent lesMDP, pour lesquels le principe d’optimalité n’est plus nécessairement

respecté.

(22)

1.3. Fonctions de valeur

Les critères fini, γ-pondéré, total et moyen que nous venons de voir permettent de définir une fonction de valeur qui, pour une politique π fixée, associe à tout état initial

s_{∈ S la valeur du critère considéré en suivant π à partir de s : ∀π V}π _{: S}

−→ IR. On note V l’espace des fonctions de S dans IR, identifiable à l’espace vectoriel

IR|S|. L’ensemble V est muni d’un ordre partiel naturel :

∀U, V ∈ V U ≤ V ⇔ ∀s ∈ S U(s) ≤ V (s).

L’objectif d’un problème décisionnel de Markov est alors de caractériser et de

rechercher – si elles existent – les politiques optimales π∗_{∈ Π}HA_{telles que}

∀π ∈ ΠHA ∀s ∈ S Vπ(s)_{≤ V}π∗(s)

soit encore

π∗_{∈ argmax}

π∈ΠHA

Vπ.

On note alors V∗ _{= max}

π∈ΠHAVπ = Vπ ∗

. Dans le cadre desMDP, on recherche

donc des politiques optimales meilleures que toute autre politique, quel que soit l’état de départ. Remarquons que l’existence d’une telle politique optimale n’est pas en soi évidente.

La spécificité des problèmes décisionnels de Markov est alors de pouvoir être tra-duits en terme d’équations d’optimalité portant sur les fonctions de valeur, dont la résolution est de complexité moindre que le parcours exhaustif de l’espace global des

politiques de ΠHA_{(la taille du simple ensemble D est déjà de |A|}|S|_).

1.3.1. Le critère fini

On suppose ici que l’agent doit contrôler le système en N étapes, avec N fini. Le critère fini conduit naturellement à définir la fonction de valeur qui associe à tout état s l’espérance de la somme des N prochaines récompenses en suivant la politique π à partir de s :

(23)

Dans cette définition, Eπ_{[.] dénote l’espérance mathématique sur l’ensemble des}

réalisations du MDP en suivant la politique π. Eπ est associée à la distribution de

probabilité Pπ_{sur l’ensemble de ces réalisations.}

Notons qu’il est parfois utile d’ajouter au critère une récompense terminale rN

fonction du seul état final sN. Il suffit pour cela de considérer une étape artificielle

supplémentaire où ∀s, a rN(s, a) = rN(s). C’est le cas par exemple lorsqu’il s’agit

de piloter un système vers un état but en N étapes et à moindre coût. 1.3.2. Le critère γ-pondéré

Le critère γ-pondéré, ou critère actualisé, est le critère à horizon infini le plus classique. La fonction de valeur du critère γ-pondéré est celle qui associe à tout état s la limite lorsque N tend vers l’infini de l’espérance en suivant la politique π à partir de s de la somme des N futures prochaines récompenses, pondérées par un facteur

d’actualisation2_{γ :}

DÉFINITION 1.3.– Fonctions de valeur pour le critère γ-pondéré Pour 0 ≤ γ < 1, on pose ∀s ∈ S Vγπ(s) = Eπ[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0= s] = Eπ[ ∞ X t=0 γtrt| s0= s]

Le terme γ représente la valeur à la date t d’une unité de récompense reçue à la

date t + 1. Reçue à la date t + τ, cette même unité vaudrait γτ_{. Cela implique que}

les instants de décision t = 0, 1, 2, . . . de T soient régulièrement répartis sur IN. Ce facteur γ a pour principal intérêt d’assurer la convergence de la série en horizon infini.

D’un point de vue pratique, il est naturellement utilisé au sein desMDPmodélisant des

processus de décision économique en posant γ = 1

1+τ, où τ est le taux d’actualisation.

1.3.3. Le critère total

Il est toutefois possible de choisir γ = 1 dans certains cas particuliers à horizon infini. Lorsque cela a un sens, on pose ainsi :

(24)

DÉFINITION 1.4.– Fonction de valeur pour le critère total

Vπ_{(s) = E}π_[

∞

X

t=0

rt| s0= s]

Ce critère est en pratique souvent utilisé pour des problèmes à horizon temporel aléatoire fini non borné : on sait que le processus de décision va s’arrêter à une étape terminale, mais on ne peut borner cet instant. Ce type de modèle est particulièrement utilisé dans des applications de type optimal stopping (à tout instant, la décision de l’agent porte simplement sur l’arrêt ou non du processus aléatoire), ou plus générale-ment de type jeux et paris.

1.3.4. Le critère moyen

Lorsque la fréquence des décisions est importante, avec un facteur d’actualisation proche de 1, ou lorsqu’il n’est pas possible de donner une valeur économique aux récompenses, on préfère considérer un critère qui représente la moyenne des récom-penses le long d’une trajectoire et non plus leur somme pondérée. On associe ainsi à une politique l’espérance du gain moyen par étape. On définit alors le gain moyen

ρπ_{(s) associé à une politique particulière π et à un état s :}

DÉFINITION 1.5.– Le gain moyen

ρπ(s) = lim n→∞E π_[1 n n−1 X t=0 rt| s0= s]

Pour le critère moyen, une politique π∗ _{est dite gain-optimale si ρ}π∗_(s)_{≥ ρ}π_(s)

pour toute politique π et tout état s.

Ce critère est particulièrement utilisé dans des applications de type gestion de file d’attente, de réseau de communication, de stock etc.

1.4. Politiques markoviennes

1.4.1. Equivalence des politiques histoire-dépendantes et markoviennes

Nous allons établir ici une propriété fondamentale desMDPpour ces différents

cri-tères, qui est d’accepter comme politiques optimales des politiques simplement

mar-koviennes, sans qu’il soit nécessaire de considérer l’espace total ΠHA_{des politiques}

(25)

PROPOSITION 1.1.– Soit π ∈ ΠHA une politique aléatoire histoire-dépendante. Pour chaque état initial x ∈ S, il existe alors une politique aléatoire markovienne

π′ _{∈ Π}M A_{telle que} 1) Vπ′ N (x) = VNπ(x), 2) Vπ′ γ (x) = Vγπ(x), 3) Vπ′ (x) = Vπ_(x), 4) ρπ′_{(x) = ρ}π_(x)

PREUVE_{.– Soit x ∈ S et π une politique aléatoire histoire-dépendante. Soit π}′ la politique aléatoire markovienne définie à partir de π et x selon :

∀t = 0, 1, . . . , ∀s ∈ S, ∀a ∈ A π′_(a

t= a, st= s) = Pπ(at= a| st= s, s0= x)

On a ainsi Pπ′

(at= a| st= s) = Pπ(at= a| st= s, s0= x). On montre alors

par récurrence sur t que Pπ_(s

t= s, at= a| s0 = x) = Pπ

′

(st= s, at= a| s0 =

x).

ce qui établit la récurrence.

On conclut en remarquant alors que pour tout x ∈ S

(26)

Processus Décisionnels de Markov 27 et Eπ[r(st, at)| s0= x] = X s∈S X a∈A r(s, a)Pπ(st= s, at= a| s0= x). Ce résultat permet d’affirmer que lorsque l’on connaît l’état initial (ou une dis-tribution de probabilité sur l’état initial), toute politique histoire-dépendante aléatoire peut être remplacée par une politique markovienne aléatoire ayant la même fonction de valeur.

1.4.2. Politique markovienne et chaîne de Markov valuée

Pour toute politique markovienne π ∈ ΠM A_{, le processus décrit par l’état s}

t

vérifie, pour tout s0, s1,· · · , st+1, Pπ(st+1 | s0, s1,· · · , st) = Pa∈APπ(at =

a _{| s}0, s1,· · · , st)Pπ(st+1 | s0, s1,· · · , st, at = a) = Pa∈Aπ(a, st)Pπ(st+1 |

st, at= a) = Pπ(st+1| st).

Il s’agit donc d’un processus markovien, qui forme une chaîne de Markov dont la

matrice de transition notée Pπest définie par

∀s, s′ Pπs,s′ = Pπ(s_t+1= s′| s_t= s) =

X

a

π(a, s)p(s′_{| s, a).}

Dans le cas où π est déterministe (π ∈ ΠM D_{), P}

πs,s′est simplement égal à p(s′|

s, π(s)). La matrice Pπ est construite simplement en retenant pour chaque état s la

ligne correspondante dans la matrice Pa avec a = π(s). De même, on note rπ le

vecteur de composante r(s, π(s)) pour π ∈ ΠM D _et P

aπ(a, s)r(s, a) pour π ∈

ΠM A_.

Le triplet (S, Pπ, rπ) définit ce que l’on nomme un processus de Markov valué, ou

chaîne de Markov valuée. Il s’agit simplement d’une chaîne de Markov avec des reve-nus associés aux transitions. Nous verrons qu’évaluer une politique π consiste alors à calculer certaines grandeurs asymptotiques (pour les critères infinis) caractéristiques de la chaîne de Markov valuée associée.

1.5. Caractérisation des politiques optimales 1.5.1. Le critère fini

1.5.1.1. Equations d’optimalité

(27)

s’ajouter à celles qu’il a déjà perçues. On a ainsi : πN −1∗ (s)∈ argmax a∈A rN −1(s, a) et V1∗(s) = max a∈ArN −1(s, a) où π∗

N −1est la politique optimale à suivre à l’étape N − 1 et V1∗la fonction de valeur

optimale pour un horizon de longueur 1, obtenue en suivant cette politique optimale. Supposons maintenant l’agent dans l’état s à l’étape N − 2. Le choix d’une action

a va lui rapporter de façon sûre la récompense rN −2(s, a) et l’amènera de manière

aléatoire vers un nouvel état s′ _{à l’étape N − 1. Là, il sait qu’en suivant la politique}

optimale π∗

N −1, il pourra récupérer une récompense moyenne V1∗(s′). Le choix d’une

action a à l’étape N − 2 conduit donc au mieux en moyenne à la somme de récom-penses rN −2(s, a) +Ps′pN −2(s′|s, a)V1∗(s′). Ainsi, le problème de l’agent à l’étape

N_{− 2 se ramène simplement à rechercher l’action qui maximise cette somme, soit :}

π∗N −2(s)∈ argmax a∈A {r N −2(s, a) + X s′ pN −2(s′|s, a)V1∗(s′)} et V2∗(s) = max a∈A{rN −2(s, a) + X s′ pN −2(s′|s, a)V1∗(s′)}.

Ce raisonnement peut s’étendre jusqu’à la première étape de décision, où l’on a donc : π∗0(s)∈ argmax a∈A {r0(s, a) + X s′ p0(s′|s, a)VN −1∗ (s′)} et V_N∗(s) = max a∈A{r0(s, a) + X s′ p0(s′|s, a)VN −1∗ (s′)}.

Cela conduit ainsi à l’énoncé du théorème suivant : THÉORÈME 1.1.– Equations d’optimalité pour le critère fini

Soit N < ∞. Les fonctions de valeurs optimales V∗ _{= (V}∗

N, . . . , V1∗) sont les

solu-tions uniques du système d’équasolu-tions

∀s ∈ S Vn+1∗ (s) = max

a∈A{rN −1−n(s, a) +

X

s′

pN −1−n(s′|s, a)Vn∗(s′)} (1.1)

avec n = 0, . . . , N − 1 et V0= 0. Les politiques optimales pour le critère fini π∗ =

(π∗0, π1∗, . . . , πN −1∗ ) sont alors déterminées par :

∀s ∈ S π∗t(s)∈ argmax

a∈A {rt

(s, a) +X

s′

(28)

pour t = 0, . . . , N − 1.

On voit donc ici dans le cadre du critère fini que les politiques optimales sont de type markovien déterministe, mais non stationnaire (le choix de la meilleure décision à prendre dépend de l’instant t).

1.5.1.2. Evaluation d’une politique markovienne déterministe

Soit une politique π markovienne déterministe. La même démarche permet alors

de caractériser sa fonction de valeur Vπ

N :

THÉORÈME 1.2.– Caractérisation de VN

Soient N < ∞ et π = (π0, π1, . . . , πN −1) une politique markovienne. Alors VNπ =

VN, avec (VN, VN −1, . . . , V1), solutions du système d’équations linéaires

∀s ∈ S Vn+1(s) = rN −1−n(s, πN −1−n(s))+ X s′ pN −1−n(s′|s, πN −1−n(s))Vn(s′) pour n = 0, . . . , N − 1 et V0= 0. 1.5.2. Le critère γ-pondéré

Ce critère est le plus classique en horizon infini et celui pour lequel il est assez simple de caractériser la fonction de valeur optimale et les politiques associées. On

rappelle que l’on suppose ici, dans le cas de l’horizon infini, que leMDPconsidéré est

stationnaire.

1.5.2.1. Evaluation d’une politique markovienne stationnaire

Pour une politique markovienne stationnaire π ∈ DA_{, on définit l’opérateur L}

π

de V dans V, espace vectoriel muni de la norme max : ∀V ∈ V, k V k= maxs∈S |

V (s)|.

DÉFINITION 1.6.– Opérateur Lπ

Pour π ∈ DA_,

∀V ∈ V LπV = rπ+ γPπV

Un premier résultat permet alors de relier la fonction de valeur Vπ

γ d’une politique

stationnaire π ∈ DA_{à cet opérateur L}

π:

THÉORÈME 1.3.– Caractérisation de V_γπ

Soient γ < 1 et π ∈ DA_{une politique stationnaire markovienne.}

Alors Vπ

γ est l’unique solution de l’équation V = LπV :

∀s ∈ S V (s) = rπ(s) + γ

X

s′_∈S

(29)

et Vπ

γ = (I− γPπ)−1rπ.

PREUVE.– Soit V solution de V = LπV . On a donc (I− γPπ)V = rπ. La matrice

Pπ étant stochastique, toutes les valeurs propres de la matrice γPπ sont de modules

inférieurs ou égaux à γ < 1 et donc la matrice I − γPπest inversible, avec

(I− γPπ)−1= ∞ X k=0 γkPπk d’où V = (I_{− γP}π)−1rπ= ∞ X k=0 γk_Pk πrπ. Or, ∀s ∈ S Vπ γ(s) = Eπ[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0= s] = ∞ X t=0 γtEπ[r(st, at)| s0= s] = ∞ X t=0 γtX s′_∈S X a∈A Pπ_(s t= s′, at= a| s0= s)r(s′, a) = ∞ X t=0 γtX s′_∈S X a∈A q(a, s′)Pπ(st= s′| s0= s)r(s′, a) = ∞ X t=0 γtX s′_∈S Pπ(st= s′ | s0= s)rπ(s′) = ∞ X t=0 γtX s′_∈S Pπ,s,st ′r_π(s′) = ∞ X t=0 γt_Pt πrπ(s), et donc V = Vπ γ . 1.5.2.2. Equations d’optimalité

Rappelons que l’on cherche à résoudre le problème d’optimisation ∀s ∈ S, V∗

γ(s) =

maxπ∈ΠHAV_γπ(s). Une politique π∗ est dite optimale si Vπ

(30)

Soit donc maintenant l’opérateur L de l’ensemble des fonctions de valeur V dans lui-même, nommé opérateur de programmation dynamique :

DÉFINITION 1.7.– Opérateur L

∀V ∈ V ∀s ∈ S LV (s) = max_a∈A r(s, a) + γX

s′_∈S

p(s′_{| s, a)V (s}′) !

soit en notation vectorielle

∀V ∈ V LV = max

π∈D(rπ+ γPπV )

Le théorème principal concernant l’optimalité des fonctions de valeur pour le cri-tère γ-pondéré est alors le suivant :

THÉORÈME 1.4.– Equation de Bellman

Soit γ < 1. Alors V∗

γ est l’unique solution de l’équation V = LV :

∀s ∈ S V (s) = max_a∈A r(s, a) + γ X s′_∈S p(s′ _{| s, a)V (s}′) ! . (1.3) PREUVE.–

Montrons que ∀V et pour 0 ≤ γ ≤ 1 LV = max

π∈D(rπ+ γPπV ) = maxπ∈DA(rπ+ γPπV )

Pour cela, considérons une fonction de valeur V et δ ∈ DA_{. Pour tout s, du fait du}

(31)

Ainsi, pour tout δ ∈ DA rδ+ γPδV ≤ max π∈D(rπ+ γPπV ) soit max δ∈DA(rδ+ γPδV )≤ max_π∈D(rπ+ γPπV )

L’inégalité inverse est immédiate car D ⊂ DA_.

Montrons alors que ∀V , V ≥ LV ⇒ V ≥ V∗

γ, et V ≤ LV ⇒ V ≤ Vγ∗.

Soit V telle que V ≥ LV . On a donc

V _{≥ max}

π∈D{rπ+ γPπV} = maxπ∈DA{rπ+ γPπV}

Soit π = (π0, π1, . . .)∈ ΠM A. Pour tout t, πt∈ DA, d’où

V ≥ rπ0+ γPπ0V ≥ rπ0+ γPπ0(rπ1+ γPπ1V ) ≥ rπ0+ γPπ0rπ1+ γ 2_P π0Pπ1rπ2+· · · + γ n−1_P π0· · · Pπn−2rπn−1+ γ n_Pn πV. On a donc V − Vπ γ ≥ γnPπnV − ∞ X k=n γkPπkrπk, car V π γ = ∞ X k=0 γkPπkrπk, avec Pk

π = Pπ0Pπ1· · · Pπk−1. Les deux termes de droite peuvent être rendus aussi

petits que désiré pour n suffisamment grand, car k γn_Pn

πV k≤ γn k V k et k P∞ k=nγkPπkrπk k≤ P∞ k=nγkR≤ γn

1−γR avec R = maxs,ar(s, a). On en déduit

V _{− V}π

γ ≥ 0

Cela tant vrai pour toute politique π ∈ ΠM A_{, on a donc}

V ≥ max π∈ΠM AV π γ = max π∈ΠHAV π γ = Vγ∗

Inversement, soit V telle que V ≤ LV . On a donc V ≤ maxπ∈D{rπ+ γPπV}

Supposons ce max atteint en π∗_{. On a donc}

(32)

Les termes de droite pouvant être rendus aussi proches de 0 que désiré, on a donc

V _{− V}π∗

γ ≤ 0, soit V ≤ Vπ

∗

γ ≤ Vγ∗.

On a ainsi montré que V ≥ LV ⇒ V ≥ V∗

γ, V ≤ LV ⇒ V ≤ Vγ∗, ce qui

implique que V = LV ⇒ V = V∗

γ : toute solution de l’équation LV = V est

né-cessairement égale à la fonction de valeur optimale V∗

γ. Montrons maintenant qu’une

telle solution existe.

Rappelons pour cela le théorème du point fixe de Banach : THÉORÈME 1.5.– Théorème du point fixe de Banach

Soient U un espace de Banach (i.e. espace vectoriel normé complet) et T une contrac-tion sur U (i.e. ∀u, v k T u − T v k≤ λ k u − v k pour 0 ≤ λ < 1). Alors

1) Il existe un unique u∗_{∈ U tel que T u}∗_{= u}∗_;

2) Pour tout u0∈ U, la suite (un)n≥0définie par

un+1= T un = Tn+1u0

converge vers u∗_.

L’espace V muni de la norme max est un espace vectoriel normé de dimension fini donc complet. Il suffit donc de montrer que l’opérateur L est une contraction pour cette norme.

PROPOSITION 1.2.– Soit γ < 1. L’opérateur de programmation dynamique L défini

par LV = maxπ∈D(rπ+ γPπV ) est une contraction surV.

PREUVE_{.– Soient U et V dans V et s ∈ S.}

Supposons LV (s) ≥ LU(s). Soit a∗

(33)

Cette propriété de contraction assure donc l’existence pour l’opérateur L d’un

point fixe unique qui est donc égal à V∗

γ.

On termine alors l’analyse du critère γ-pondéré avec le théorème suivant : THÉORÈME 1.6.– Caractérisation des politiques optimales

Soit γ < 1. Alors

1) π∗_{∈ Π}HA_{est optimale ⇔ V}π∗

γ est solution de LV = V et Vπ

∗

γ = Vγ∗;

2) toute politique stationnaire π∗_{définie par}

π∗ _{∈ argmax}

π∈D {rπ

+ γPπVγ∗}

est une politique optimale.

PREUVE.– La première équivalence est évidente du fait du théorème précédent. Soit

alors π∗_{∈ argmax} π∈D{rπ+ γPπVγ∗}. On a alors Lπ∗V_γ∗ = r_π∗+ γP_π∗V_γ∗ = max π∈D{rπ+ γPπV ∗ γ} = LVγ∗ = Vγ∗.

L’unicité de la solution de V = Lπ∗V démontrée par le théorème 1.3 permet de

déduire que V∗

γ = Vπ

∗

γ et donc que π∗est optimale.

L’existence de la limite définissant le critère total ne peut être assurée que sous certaines hypothèses. Nous considérons ici deux classes de problèmes pour lesquelles cette limite existe nécessairement, et est finie pour au moins une politique : les modèles positifs et les modèles négatifs.

DÉFINITION 1.8.– Soit π ∈ ΠHA. On définit les fonctions V₊πet V₋πpar

(34)

On appelle alors respectivement V+_{et V}−_{l’ensemble des fonctions positives et}

né-gatives de V

On suppose que pour toute politique π et état s, Vπ

+(s) ou V−π(s) est fini, ce qui

implique l’existence (finie ou infinie) de la limite Vπ_avec

∀s ∈ S Vπ(s) = V+π(s)− V−π(s).

LesMDPbornés positivement, ou encore positifs, sont tels que

– pour chaque s il existe au moins une action a ∈ A avec r(s, a) ≥ 0 et

– Vπ

+(s) <∞ pour tout s ∈ S et pour tout π ∈ ΠHA.

LesMDPnégatifs sont tels que

– r(s, a) ≤ 0 pour tout s ∈ S et a ∈ A et

– il existe π ∈ ΠHA_{telle que V}π_{(s) >}

−∞ pour tout s ∈ S.

L’existence d’une politique π pour laquelle Vπ(s) soit fini pour tout s ∈ S est

typiquement assurée par la présence d’un état absorbant s∞à récompense nulle :

∀s0 Pπ(∃t∗st∗ = s_∞) = 1

avec

p(s∞| s∞, π(s∞)) = 1, et r(s∞, π(s∞)) = 0

Pour un modèle positif, une politique optimale a un revenu total positif le plus éloigné de 0 possible. L’agent cherche à prolonger le plus possible les trajectoires pour accumuler des revenus positifs. Pour un modèle négatif, une politique optimale a un revenu négatif aussi proche de 0 possible. L’agent cherche à terminer aussi vite

que possible en s∞ pour minimiser les pertes. Les deux modèles ne sont donc pas

exactement symétriques.

Nous énonçons ci-dessous quelques résultats importants concernant ces deux

mo-dèles. Pour cela, nous introduisons une nouvelle définition des opérateurs Lπet L.

DÉFINITION 1.9.– Opérateurs Lπet L pour le critère total

Soit π stationnaire ∈ DA_,

∀V ∈ V LπV = rπ+ PπV

et

∀V ∈ V LV = max

(35)

On montre alors pour lesMDPpositifs et négatifs les résultats suivants : THÉORÈME 1.7 [PUT 94].– Soit unMDPpositif. Alors

1) pour tout π stationnaire ∈ D, Vπ_{est la solution minimale de V = L}

πV dans

V+_.

2) V∗_{est la solution minimale de l’équation V = LV dans V}+_.

3) une politique π∗_{∈ Π}HA_{est optimale ⇔ V}π∗

= LVπ∗

4) si π∗ _{∈ argmax}

π∈D(rπ+ PπV∗) et si limN →∞PπN∗V∗(s) = 0 pour tout

s∈ S, alors π∗_{est optimale.}

THÉORÈME 1.8 [PUT 94].– Soit unMDPnégatif. Alors

1) pour tout π stationnaire ∈ D, Vπ_{est la solution maximale de V = L}

πV dans

V−_.

2) V∗_{est la solution maximale de l’équation V = LV dans V}−_.

3) toute politique π∗_{∈ argmax}

π∈D(rπ+ PπV∗) est optimale.

On note que pour unMDP négatif, il peut exister une politique π vérifiant Vπ ₌

LVπqui ne soit pas optimale (voir l’exemple 7.3.1 dans [PUT 94]).

1.5.4. Le critère moyen

L’analyse théorique du critère moyen est plus complexe que pour les précédents critères. Elle fait intervenir le comportement limite du processus markovien valué sous-jacent. Nous nous limitons ici à présenter les résultats principaux, dans le cadre

desMDPrécurrents (pour toute politique markovienne déterministe, la chaîne de

Mar-kov correspondante est constituée d’une unique classe récurrente), unichaînes (chaque chaîne de Markov est constituée d’une unique classe récurrente plus éventuellement quelques états transitoires) ou multichaînes (il existe au moins une politique dont la chaîne de Markov correspondante soit constituée de deux classes récurrentes irréduc-tibles ou plus). On suppose de plus ici que pour toute politique, la chaîne de Markov correspondante est apériodique.

1.5.4.1. Evaluation d’une politique markovienne stationnaire

Soit π ∈ DA_{une politique stationnaire et (S, P}

π, rπ) le processus de Markov valué

qui lui est associé. Rappelons que le gain moyen ou critère moyen est défini par :

(36)

Sous forme matricielle, on a ainsi

ρπ = lim N →∞ 1 N N −1_X t=0 Pπtrπ. Soit P∗

π = limN →∞ _N1 PN −1t=0 Pπt la matrice limite de Pπ. On montre que Pπ∗

existe et est une matrice stochastique pour tout S fini. De plus, P∗

π vérifie

P Pπ∗= Pπ∗P = Pπ∗Pπ∗= Pπ∗.

Le coefficient P∗

π,s,s′ peut être interprété comme la fraction de temps que le

sys-tème passera dans l’état s′ _{en étant parti de l’état s. Pour des}_MDP _{apériodiques, on}

a de plus P∗

π = limN →∞PπN et Pπ,s,s∗ ′ peut être interprété comme la probabilité

à l’équilibre d’être dans l’état s′ _{en étant parti de s. Enfin, pour un}_MDP _unichaîne,

Pπ∗ est alors la matrice dont toutes les lignes sont identiques et égales à la mesure

invariante µπde la chaîne contrôlée par la politique π. Ainsi ∀s, s′Pπ,s,s∗ ′ = µπ(s′).

De la définition précédente de ρπ_{, on déduit que ρ}π _{= P}∗

πrπ. Pour unMDP

uni-chaîne on établit ainsi que ρ(s) = ρ est constant pour tout s, avec

ρ =X

s∈S

µπ(s)rπ(s)

Dans le cas général d’unMDPmultichaîne, ρ(s) est constant sur chaque classe de

récurrence.

Cette première caractérisation de ρπ fait intervenir Pπ∗ qu’il n’est pas facile de

calculer. Il est toutefois possible d’obtenir autrement ρπ, en introduisant une nouvelle

fonction de valeur pour le critère moyen, dite fonction de valeur relative : DÉFINITION 1.10.– Fonction de valeur relative pour le critère moyen

∀s ∈ S Uπ_{(s) = E}π_[

∞

X

t=0

(37)

En termes vectoriels, on a ainsi Uπ = ∞ X t=0 Pπt(rπ− ρπ) = ∞ X t=0 Pπt(rπ− Pπ∗rπ) = ∞ X t=0 (Pt π− Pπ∗)rπ = (I_{− P}_π∗+ ∞ X t=1 (Pπ− Pπ∗)t)rπ = (−P∗ π + (I− Pπ+ Pπ∗)−1)rπ,

car on montre que la matrice (I −Pπ+Pπ∗) est inversible et pour t > 0 : (Pπ−Pπ∗)t=

Pt

π− Pπ∗. En multipliant à gauche par (I − Pπ+ Pπ∗), on en déduit

Uπ = (I_{− P}π+ Pπ∗)−1(I− Pπ∗(I− Pπ+ Pπ∗))rπ

= (I_{− P}π+ Pπ∗)−1(I− Pπ∗)rπ.

On note HPπ = (I− Pπ+ P

∗

π)−1(I− Pπ∗) la matrice de déviation de Pπ, qui est

donc telle que

Uπ= HPπrπ.

On peut vérifier que HPπ est matrice pseudo-inverse de (I − Pπ), ce qui établit un

lien clair entre cette définition de Uπ_{et l’expression de V}π

γ établie au théorème 1.3.

On montre alors le résultat général suivant, valable pour tout processus de Markov valué qu’il soit récurrent, unichaîne ou multichaîne :

THÉORÈME 1.9 [PUT 94].– Soit (S, Pπ, rπ) un processus de Markov valué associé

à une politique stationnaire π ∈ DA_{. Alors}

1) si ρπ_{et U}π_{sont le gain moyen et la fonction de valeur relative de π}

a) (I − Pπ)ρπ = 0,

b) ρπ_{+ (I}_{− P}

π)Uπ = rπ.

2) réciproquement, si ρ et U vérifient les deux égalités précédentes, alors

a) ρ = P∗

(38)

b) U = HPπrπ+ u, où (I− Pπ)u = 0.

c) si de plus P∗

πU = 0, alors U = HPπrπ = U

π_.

On retiendra que la fonction de valeur relative Uπ_{est l’unique solution de (I −}

Pπ)U = (I− Pπ∗)rπtelle que Pπ∗U = 0, obtenue en utilisant la pseudo-inverse HPπ

de (I − Pπ).

Dans le cas simplifié d’un processus unichaîne, la première équation se simplifie

en ρπ(s) = ρπet la seconde peut s’écrire selon :

∀s ∈ S U(s) + ρ = rπ(s) +

X

s′_∈S

Pπ,s,s′U (s′). (1.4)

Toute solution (ρ, U) de cette équation vérifie alors ρ = ρπet U = Uπ+ ke, où k est

un scalaire quelconque et e le vecteur dont toutes les composantes sont égales à 1. Si

de plusP_s∈Sµπ(s)U (s) = 0 alors U = Uπ. Cette équation est bien sûr à rapprocher

de celle établie pour le critère γ-pondéré. 1.5.4.2. Equations d’optimalité

Enonçons maintenant les conditions d’optimalité qu’il est possible d’établir pour

le critère moyen. Rappelons que l’on recherche les politiques π∗_{∈ Π}HA_{telles que}

ρπ∗ = max

π∈ΠHAρπ= ρ

∗

Le résultat principal énoncé dans le cadre général desMDP multichaînes est le

(39)

Dans le cas unichaîne, le gain ρ est constant et Bs= A. Les équations d’optimalité

se réduisent alors à

∀s ∈ S U(s) + ρ = max_a∈A r(s, a) + X

s′_∈S

p(s′ _{| s, a)U(s}′) !

(1.5)

Le lien entre solutions des équations d’optimalité et politiques optimales est alors établi avec le théorème suivant :

THÉORÈME 1.11 [PUT 94].– Soit (ρ, U) une solution aux équations d’optimalité. Il

existe alors une politique stationnaire markovienne déterministe gain-optimale π∗ _∈

D, déterminée par : ∀s ∈ S π∗(s)_{∈ argmax} a∈Bs r(s, a) +X s′_∈S p(s′_{| s, a)U(s}′) !

Notons qu’il peut exister des politiques gain-optimales π∗ _{telles que (ρ}π∗_{, U}π∗₎

ne vérifient pas les équations d’optimalité.

Remarquons enfin que les solutions des équations d’optimalité ne sont pas uniques,

car si (ρ∗_{, U ) est solution, il en est au moins de même pour (ρ}∗_{, U + ke) pour tout}

scalaire k. Surtout, il peut y avoir plusieurs fonctions de valeur relative solutions,

définissant des politiques différentes, associées au même ρ∗_{optimal. Il est alors utile}

de rechercher parmi ces différentes solutions celles qui maximisent la fonction de valeur relative, on parle alors de bias-optimality.

1.6. Algorithmes de résolution desMDP

1.6.1. Le critère fini

Le cas de l’horizon fini est assez simple. Les équations d’optimalité permettent en effet de calculer récursivement à partir de la dernière étape les fonctions de valeur

optimales V∗

1, . . . , VN∗ selon l’algorithme 1.1.

La complexité temporelle et spatiale de cet algorithme est en O(N|S|2

|A|). 1.6.2. Le critère γ-pondéré

Trois grandes familles de méthodes existent pour résoudre de telsMDP : la

(40)

Algorithme 1.1 : Programmation dynamique à horizon fini

V0← 0

pour n ← 0 jusqu’à N − 1 faire pour s ∈ S faire

V∗

n+1(s) = maxa∈A{rN −1−n(s, a) +Ps′pN −1−n(s′|s, a)Vn∗(s′)}

πN −1−n(s)∈

argmaxa∈A{rN −1−n(s, a) +Ps′pN −1−n(s′|s, a)Vn∗(s′)}

retourner V∗_{, π}∗

1.6.2.1. Programmation linéaire

Il est immédiat de vérifier que si V ∈ V minimise la fonctionPs∈SV (s) sous

la contrainte V ≥ LV , alors V = V∗

γ. En effet, nous avons montré au cours de la

preuve du théorème 1.4 que V ≥ LV impliquait V ≥ V∗

γ et donc que

P

s∈SV (s)≥

P

s∈SVγ∗(s). Une manière de rechercher la fonction de valeur optimale Vγ∗est donc

de résoudre le système linéaire associé, comme décrit dans l’algorithme 1.2 ci-dessous. Algorithme 1.2 : Programmation linéaire pour le critère γ-pondéré

résoudre min V ∈V X s∈S V (s) avec V (s)_{≥ r(s, a) + γ} X s′_∈S p(s′ _{| s, a)V (s}′), _{∀s ∈ S, a ∈ A} pour s ∈ S faire π(s)∈ argmaxa∈A{r(s, a) + γ P s′p(s′|s, a)V (s′)} retourner V , π

Cette approche a été proposée initialement par [D’E 63]. Si n et m sont les tailles respectives de S et A, avec p() et r() codées sur b bits, la complexité d’un tel algo-rithme de programmation linéaire sur les rationnels est polynomiale en |S|, |A|, b, avec des temps de résolution assez lents [LIT 95c]. Nous verrons toutefois au chapitre 9 que des méthodes de programmation linéaire peuvent s’avérer très efficaces dans le

cadre desMDPadmettant une représentation factorisée.

1.6.2.2. Algorithme d’itération sur les valeurs

(41)

Comme le prouve le théorème 1.4, la solution de l’équation de Bellman est obtenue

comme limite de la suite Vn+1 = LVn, quelle que soit l’initialisation de V0. Il est

alors établi qu’un nombre maximum d’itérations polynomial en |S|, |A|, b, 1/(1 −

γ) log(1/(1−γ)) est nécessaire pour atteindre π∗_{, chaque itération étant de complexité}

O(_|A||S|2) [PAP 87]. Au delà de ce nombre d’itérations, la suite Vnest de plus en plus

proche de V∗_{mais la politique correspondante π}

n= π∗ne change plus.

En pratique, plusieurs conditions d’arrêt de l’itération peuvent être envisagées. La

plus classique consiste à stopper l’itération lorsque k Vn+1− Vn k< ǫ, où ǫ est un

seuil d’erreur fixé a priori. On aboutit à l’algorithme 1.3 suivant :

Algorithme 1.3 : Algorithme d’itération sur les valeurs - Critère γ-pondéré

initialiser V0∈ V n_{← 0} répéter pour s ∈ S faire Vn+1(s) = maxa∈A r(s, a) + γP_s′_∈Sp(s′| s, a)Vn(s′) n_{← n + 1} jusqu’à k Vn+1− Vnk< ǫ pour s ∈ S faire π(s)_{∈ argmax}a∈A{r(s, a) + γ P s′p(s′|s, a)Vn(s′)} retourner Vn, π

On montre alors que k Vn− Vγ∗k< ǫ′avec ǫ′ =

2γ

1−γǫ (voir chapitre 11).

Il est possible d’améliorer la vitesse de convergence de l’algorithme d’itération

sur les valeurs en modifiant légèrement le calcul de Vn+1. L’idée consiste à utiliser

Vn+1(s) à la place de Vn(s) lorsque cette valeur a déjà été calculée. On définit ainsi

l’algorithme de Gauss-Seidel, en numérotant les états de S de 1 à |S| (algorithme 1.4). Cette idée peut encore être généralisée au cas où les états mis à jour à chaque itération sont sélectionnés aléatoirement parmi S. On définit ainsi la programmation dynamique asynchrone [BER 89].

Il est enfin possible d’optimiser encore l’algorithme en éliminant dès que possible des actions qui s’avèrent être définitivement non optimales. Cela permet ainsi de ré-duire la complexité de l’opération de maximisation sur A.

1.6.2.3. Algorithme d’itération sur les politiques

(42)

Algorithme 1.4 : Algorithme d’itération sur les valeurs - Gauss-Seidel

initialiser V0∈ V

n← 0

répéter

pour i ← 1 jusqu’à |S| faire

Vn+1(si) = maxa∈A n r(s, a) + γP_1≤j<ip(sj | s, a)Vn+1(sj) + γP_i≤j≤|S|p(sj | s, a)Vn(sj) o n← n + 1 jusqu’à k Vn+1− Vnk< ǫ pour s ∈ S faire π(s)_{∈ argmax}a∈A{r(s, a) + γ P s′p(s′|s, a)Vn(s′)} retourner Vn, π

Considérons une politique stationnaire π ∈ D et Vπ

γ sa fonction de valeur.

L’algo-rithme d’itération sur les politiques exploite la propriété suivante : PROPRIÉTÉ 1.1.– Amélioration sur 1 coup de la politique

Soit π ∈ D. Toute politique π+_{définie par}

(43)

car si u ≥ v, (I − γPπ+)−1u = u + γP_π+u + γ2P2

π+u2· · · ≥ v + γPπ+v +

γ2_P2

π+v2· · · ≥ (I − γPπ+)−1v.

L’égalité n’est possible que si maxδ∈D{rδ+ γPδVγπ} = Vγπ, soit Vγπ= Vγ∗.

L’algorithme d’itération sur les politiques se décline donc ainsi (algorithme 1.5) :

soit la politique πn à l’itération n. Dans une première étape, on résout le système

d’équations linéaires Vn = LπnVn puis, dans un second temps, on améliore la

poli-tique courante en posant πn+1∈ argmaxδ∈D{rδ+ γPδVn}. On stoppe l’algorithme

lorsque πn= πn+1.

La suite Vn, croissante et bornée par Vγ∗, converge. Comme il y a un nombre fini

de politiques, la suite πn converge alors en un nombre fini d’itération. A la limite,

Vn= Vγ∗et πnest optimale.

Algorithme 1.5 : Algorithme d’itération sur les politiques - Critère γ-pondéré

initialiser π0∈ D n_{← 0} répéter résoudre Vn(s) = r(s, πn(s)) + γ X s′_∈S p(s′ _{| s, π}n(s))Vn(s′), ∀s ∈ S pour s ∈ S faire πn+1(s)∈ argmaxa∈A r(s, a) + γP_s′_∈Sp(s′| s, a)Vn(s′) n_{← n + 1} jusqu’à πn= πn+1 retourner Vn, πn+1

La complexité de l’algorithme d’itération sur les politiques est en O(|A||S|2

) +

O(|S|3) par itération, avec un nombre maximum d’itérations polynomial en|S|, |A|, b

à γ constant [PAP 87].

Là aussi, il est possible d’améliorer l’efficacité de cet algorithme en simplifiant

la phase d’évaluation de la politique courante πn. Une approche classique consiste à

résoudre l’équation Vn = LπnVnde manière itérative, comme pour l’itération sur les

(44)

Algorithme 1.6 : Algorithme modifié d’itération sur les politiques - Critère γ-pondéré

initialiser V0∈ V tel que LV0≥ V0

f lag← 0 n_{← 0} répéter pour s ∈ S faire πn+1(s)∈ argmaxa∈A r(s, a) + γP_s′_∈Sp(s′| s, a)Vn(s′) (πn+1(s) = πn(s) si possible) V0 n(s) = maxa∈A r(s, a) + γP_s′_∈Sp(s′| s, a)Vn(s′) m_{← 0} si k V0 n − Vnk< ǫ alors flag ← 1 sinon répéter pour s ∈ S faire Vm+1 n (s) = r(s, πn+1(s)) + γPs′_∈Sp(s′| s, πn+1(s))Vnm(s′) m_{← m + 1} jusqu’à k Vm+1 n − Vnmk< δ Vn+1← Vnm n_{← n + 1} jusqu’à flag = 1 retourner Vn, πn+1

ǫ _{→ 0, sous l’hypothèse LV}0 ≥ V0. Cette condition est par exemple vérifiée pour

le choix suivant de V0:

V0(s) =

1

1_{− γ}mins′∈Smina∈Ar(s

′_{, a)}

pour tout s ∈ S.

En pratique, les algorithmes d’itération sur les politiques et, en particulier, l’rithme modifié d’itération sur les politiques, apparaissent plus efficaces que les algo-rithmes d’itération sur les valeurs et doivent leur être préférés.

1.6.3.1. MDPpositifs

On montre pour les modèles bornés positivement que l’algorithme d’itération sur

les valeurs converge de manière monotone vers V∗ _{sous l’hypothèse que V}

0vérifie