HAL Id: hal-00830192
https://hal.archives-ouvertes.fr/hal-00830192
Submitted on 4 Jun 2013
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
fonction valeur
Rémi Munos
To cite this version:
Processus Décisionnels de Markov
en Intelligence Artificielle
Table des matières
PREMIÈRE PARTIE. PRINCIPES GÉNÉRAUX . . . 15
Chapitre 1. Processus Décisionnels de Markov . . . 17
Frédérick GARCIA 1.1. Introduction . . . 17
1.2. Problèmes décisionnels de Markov . . . 18
1.2.1. Processus décisionnels de Markov . . . 18
1.2.2. Les politiques d’actions . . . 20
1.2.3. Critères de performance . . . 22 1.3. Fonctions de valeur . . . 23 1.3.1. Le critère fini . . . 23 1.3.2. Le critère γ-pondéré . . . 24 1.3.3. Le critère total . . . 24 1.3.4. Le critère moyen . . . 25 1.4. Politiques markoviennes . . . 25
1.4.1. Equivalence des politiques histoire-dépendantes et markoviennes 25 1.4.2. Politique markovienne et chaîne de Markov valuée . . . 27
1.5. Caractérisation des politiques optimales . . . 27
1.5.1. Le critère fini . . . 27
1.5.2. Le critère γ-pondéré . . . 29
1.5.3. Le critère total . . . 34
1.5.4. Le critère moyen . . . 36
1.6. Algorithmes de résolution desMDP . . . 40
1.6.1. Le critère fini . . . 40
1.6.2. Le critère γ-pondéré . . . 40
1.6.3. Le critère total . . . 45
1.6.4. Le critère moyen . . . 46
1.7. Conclusion et perspectives . . . 48
Chapitre 2. Apprentissage par renforcement . . . 51
Olivier SIGAUD, Frédérick GARCIA
2.1. Introduction . . . 51
2.1.1. Bref aperçu historique . . . 52
2.2. Apprentissage par renforcement : vue d’ensemble . . . 53
2.2.1. Approximation de la fonction de valeur . . . 53
2.2.2. Méthodes directes et indirectes . . . 54
2.2.3. Apprentissage temporel, non supervisé et par essais et erreurs . . 55
2.2.4. Le dilemme exploration/exploitation . . . 56
2.2.5. Des méthodes incrémentales fondées sur une estimation . . . 58
2.3. Méthodes de Monte Carlo . . . 59
2.3.1. Préliminaires généraux sur les méthodes d’estimation . . . 59
2.3.2. Les méthodes de Monte Carlo . . . 60
2.4. Les méthodes de différence temporelle . . . 62
2.4.1. L’algorithme TD(0) . . . 63
2.4.2. L’algorithme SARSA. . . 64
2.4.3. L’algorithme Q-learning . . . 66
2.4.4. Les algorithmes TD(λ), Sarsa(λ) et Q(λ) . . . 68
2.4.5. Les architectures acteur-critique . . . 69
2.4.6. Différences temporelles avec traces d’éligibilité : TD(λ) . . . 69
2.4.7. De TD(λ) à SARSA(λ) . . . 73
2.4.8. L’algorithme R-learning . . . 75
2.5. Méthodes indirectes : apprentissage d’un modèle . . . 77
2.5.1. Les architectures DYNA . . . 78
2.5.2. L’algorithme E3 . . . . 80
2.5.3. L’algorithme Rmax . . . 81
2.6. Conclusion . . . 82
Chapitre 3. PDM partiellement observables . . . 85
Alain DUTECH, Bruno SCHERRER 3.1. Définition formelle desPOMDP. . . 86
3.1.1. Définition d’unPOMDP . . . 86
3.1.2. Critères de performance . . . 88
3.1.3. Etat d’information . . . 88
3.1.4. Politique . . . 92
3.1.5. Fonctions de valeur . . . 93
3.2. Problèmes non-markoviens (information incomplète) . . . 95
3.2.1. Politiques adaptées . . . 95
3.2.2. Critère pondéré . . . 96
3.2.3. Algorithmes adaptés et critère moyen adapté . . . 100
3.3. Calculer une politique exacte sur les états d’information . . . 101
3.3.1. Cas général . . . 102
Table des matières 7
3.4. Algorithmes exacts d’itération sur les valeurs . . . 107
3.4.1. Etapes de l’opérateur de programmation dynamique . . . 107
3.4.2. Obtenir une représentation parcimonieuse de V . . . 110
3.4.3. L’algorithme WITNESS . . . 117
3.4.4. Elagage itératif (Iterative pruning) . . . 120
3.5. Algorithmes d’itération sur les politiques . . . 123
3.6. Conclusion et Perspectives . . . 125
Chapitre 4. Une introduction aux jeux stochastiques . . . 127
Andriy BURKOV, Brahim CHAIB-DRAA 4.1. Introduction . . . 127
4.2. Rappel sur la théorie des jeux . . . 128
4.2.1. Quelques définitions de base . . . 128
4.2.2. Jeux statiques en information complète . . . 133
4.2.3. Jeux dynamiques en information complète . . . 137
4.3. Jeux stochastiques . . . 143
4.3.1. Définition et équilibre d’un jeu stochastique . . . 143
4.3.2. Résolution des jeux stochastiques . . . 145
4.3.3. Complexité et extensibilité des algorithmes d’apprentissage mul-tiagent . . . 155
4.3.4. Au-delà de la recherche d’équilibre . . . 157
4.3.5. Discussion . . . 161
4.4. Conclusion et perspectives . . . 162
Chapitre 5. Critères non classiques . . . 165
Matthieu BOUSSARD , Maroua BOUZID , Abdel-Illah MOUADDIB , Régis SABBADIN, Paul WENG 5.1. Introduction . . . 165
5.2. Les approches multicritères . . . 166
5.2.1. Décision multicritère . . . 167
5.2.2. Processus décisionnel de Markov multicritères . . . 168
5.3. Prise en compte de la robustesse dans la résolution desMDP . . . 172
5.4. Processus Décisionnels de Markov Possibilistes . . . 175
5.4.1. Contreparties possibilistes de l’utilité espérée . . . 175
5.4.2. Programmation Dynamique Possibiliste . . . 178
5.4.3. Extensions des MDP possibilistes . . . 183
5.5. MDP algébriques . . . 187
5.5.1. Rappels . . . 188
5.5.2. Définition d’unMDPalgébrique . . . 190
5.5.3. Fonctions de valeur d’une politique . . . 191
5.5.4. Conditions . . . 192
5.5.5. Exemples deAMDP . . . 193
DEUXIÈME PARTIE. EXEMPLES D’APPLICATION DES(PO)MDP . . . 201
Chapitre 6. Apprentissage en ligne de la manipulation de micro-objets . . 203
Guillaume LAURENT 6.1. Introduction . . . 203
6.2. Dispositif de manipulation . . . 204
6.2.1. Objectif : le micro-positionnement par poussée . . . 204
6.2.2. Dispositif de manipulation . . . 205
6.2.3. Boucle de commande . . . 206
6.2.4. Représentation du système de manipulation sous la forme d’un MDP . . . 206
6.3. Choix de l’algorithme d’apprentissage par renforcement . . . 207
6.3.1. Caractéristiques duMDP . . . 207 6.3.2. Un algorithme adapté : STM-Q . . . 208 6.4. Résultats expérimentaux . . . 210 6.4.1. Mise en œuvre . . . 210 6.4.2. Résultats obtenus . . . 210 6.5. Conclusion . . . 211
Chapitre 7. Conservation de la biodiversité . . . 215
Iadine CHADÈS 7.1. Introduction . . . 215
7.2. Protéger, surveiller ou abandonner : gestion optimale d’espèces se-crètes et menacées . . . 216
7.2.1. Surveillance et gestion du tigre de Sumatra . . . 216
7.2.2. Modèle . . . 217
7.2.3. Résultats . . . 217
7.2.4. Extension à plusieurs populations . . . 220
7.3. Les loutres et les abalones peuvent-ils co-exister ? . . . 221
7.3.1. Les abalones et les loutres, deux espèces menacées . . . 221
7.3.2. Modèles . . . 223
7.3.3. Méthodes . . . 226
7.3.4. Résultats . . . 227
7.3.5. Discussion . . . 229
7.4. Conclusion . . . 231
TROISIÈME PARTIE. EXTENSIONS . . . 233
Chapitre 8. DEC-MDP/POMDP . . . 235
Table des matières 9
8.2. Observabilité . . . 236
8.3. Processus décisionnels de Markov multi-agents . . . 238
8.3.1. Formalisme . . . 238
8.3.2. Contrôle centralisé . . . 239
8.3.3. Contrôle décentralisé . . . 239
8.4. Contrôle décentralisé et processus décisionnels de Markov . . . 240
8.4.1. Les processus décisionnels de Markov décentralisés . . . 240
8.4.2. Multiagent Team Decision Problem . . . 241
8.4.3. Gestion de la communication dans lesDEC-POMDP . . . 244
8.5. Propriétés et classes particulières deDEC-POMDP . . . 247
8.5.1. Transitions, observations et buts . . . 248
8.5.2. DEC-MDPdirigés par les événements . . . 250
8.5.3. Modélisation deDEC-MDPavec contraintes . . . 251
8.6. La résolution desDEC-POMDP . . . 254
8.6.1. Algorithmes de résolution optimaux . . . 254
8.6.2. Algorithmes de résolution approchée . . . 264
8.7. Quelques exemples d’application . . . 270
8.7.1. Robotique mobile exploratoire . . . 270
8.8. Conclusion et perspectives . . . 272
Chapitre 9. Représentations factorisées . . . 275
Thomas DEGRIS, Olivier SIGAUD 9.1. Introduction . . . 275
9.2. Le formalisme desFMDP . . . 276
9.2.1. Représentation de l’espace d’état . . . 276
9.2.2. L’exemple Coffee Robot . . . 276
9.2.3. Décomposition et indépendances relatives aux fonctions . . . 278
9.2.4. Indépendances relatives aux contextes . . . 283
9.3. Planification dans lesFMDP. . . 284
9.3.1. Itérations structurées sur les valeurs et sur les politiques . . . 284
9.3.2. L’algorithme Stochastic Planning Using Decision Diagrams . . . 289
9.3.3. Programmation linéaire approchée dans un FMDP . . . 292
9.4. Conclusion et perspectives . . . 299
Chapitre 10. Approches de résolution en ligne . . . 301
Laurent PÉRET, Frédérick GARCIA 10.1.Introduction . . . 301
10.1.1.Exploiter le temps en ligne . . . 301
10.1.2.Recherche en ligne par simulation . . . 302
10.2.Algorithmes en ligne pour la résolution d’unMDP . . . 303
10.2.1.Algorithmes hors ligne, algorithmes en ligne . . . 303
10.2.2.Formalisation du problème . . . 303
10.2.4.L’algorithme par simulation de Kearns, Mansour et Ng . . . 310
10.2.5.L’algorithme Rollout de Tesauro et Galperin . . . 312
10.3.Contrôler la recherche . . . 314
10.3.1.Bornes sur l’erreur et pathologie de la recherche avant . . . 315
10.3.2.Allocation itérative des simulations . . . 317
10.3.3.Focused Reinforcement Learning . . . 320
10.3.4.Controlled Rollout . . . 325
10.4.Conclusion . . . 327
Chapitre 11. Programmation dynamique avec approximation . . . 329
Rémi MUNOS 11.1.Introduction . . . 330
11.2.Itérations sur les valeurs avec approximation (IVA) . . . 332
11.2.1.Implémentation à partir d’échantillons et apprentissage supervisé 333 11.2.2.Analyse de l’algorithme IVA . . . 335
11.2.3.Illustration numérique . . . 336
11.3.Itérations sur les politiques avec approximation (IPA) . . . 338
11.3.1.Analyse de l’algorithme IPA en norme L∞ . . . 340
11.3.2.Évaluation approchée d’une politique . . . 342
11.3.3.Approximation linéaire et méthode des moindres carrés . . . 343
11.4.Minimisation directe du résidu de Bellman . . . 350
11.5.Vers une analyse de la programmation dynamique en norme Lp . . . . 351
11.5.1.Intuition d’une analyse Lpen programmation dynamique . . . 352
11.5.2.Bornes PAC pour des algorithmes d’A/R . . . 354
11.6.Conclusion et perspectives . . . 355
Chapitre 12. Méthodes de gradient . . . 357
Olivier BUFFET 12.1.Rappels sur la notion de gradient . . . 358
12.1.1.Gradient d’une fonction . . . 358
12.1.2.Descente de gradient . . . 359
12.2.Optimisation d’une politique paramétrée par méthode de gradient . . . 360
12.2.1.Application auxMDP: aperçu . . . 360
12.2.2.Estimation du gradient de f dans unMDP, cas de l’horizon tem-porel fini . . . 362
12.2.3.Extension au cas de l’horizon temporel infini : critère actualisé, critère moyen . . . 365
12.2.4.Cas partiellement observable . . . 369
12.3.Méthodes "Acteur-Critique" . . . 370
12.3.1.Estimateur du gradient utilisant les Q-valeurs . . . 371
12.3.2.Compatibilité avec l’approximation d’une fonction de valeur . . . 372
12.4.Compléments . . . 375
Table des matières 11
QUATRIÈME PARTIE. EXEMPLES D’APPLICATION(SUITE) . . . 379
Chapitre 13. Hélicoptère autonome . . . 381
Patrick FABIANI, Florent TEICHTEIL-KÖNIGSBUCH 13.1.Introduction . . . 381 13.2.Présentation du scénario . . . 383 13.2.1.Problème de planification . . . 384 13.2.2.États et actions . . . 385 13.2.3.Incertitudes . . . 386 13.2.4.Critère à optimiser . . . 386
13.2.5.Modèle formel de décision . . . 386
13.3.Architecture de décision embarquée . . . 387
13.3.1.Vue globale . . . 387
13.3.2.Planification multi-tâche sur requête du superviseur . . . 388
13.4.Programmation dynamique stochastique, incrémentale et locale . . . . 389
13.4.1.Obtention d’une première politique non optimisée . . . 390
13.4.2.Génération du sous-espace d’états atteignables . . . 391
13.4.3.Optimisation locale de la politique . . . 391
13.4.4.Replanifications locales . . . 392
13.5.Tests en vol et retour d’expérience . . . 392
13.6.Conclusion . . . 394
Chapitre 14. Robotique mobile . . . 397
Simon LEGLOANNEC, Abdel-Illah MOUADDIB 14.1.La mission du robot explorateur . . . 397
14.2.Formalisme d’une mission constituée de tâches progressives . . . 399
14.3.ModélisationMDP/PRU . . . 400
14.3.1.Les états de l’agent . . . 401
14.3.2.Les actions de l’agent . . . 401
14.3.3.La fonction de transition . . . 402
14.3.4.La fonction de récompense . . . 403
14.4.Calcul de la politique de contrôle . . . 403
14.5.Modéliser concrètement une mission . . . 405
14.6.Extensions possibles . . . 406
14.7.Conclusion . . . 406
Chapitre 15. Planification d’opérations . . . 407
Sylvie THIÉBAUX, Olivier BUFFET 15.1.Planification d’opérations . . . 407
15.1.1.Intuition . . . 407
15.1.2.Définitions formelles . . . 410
15.2.1.Modélisation sous la forme d’unCoMDP . . . 415
15.3.Algorithmes . . . 417
15.3.1.Résolution exacte . . . 417
15.3.2.Résolution heuristique . . . 419
15.3.3.Autres approches à base de modèles . . . 423
15.4.Apprentissage par renforcement : FPG . . . 425
15.4.1.Employer des méthodes approchées . . . 425
Avant-propos
Le présent volume est le second tome d’un ouvrage constitué de deux tomes, por-tant sur les problèmes de décision séquentielle dans l’incertain et de l’apprentissage par renforcement, deux classes de problèmes d’intelligence artificielle que l’on peut formaliser dans le cadre des processus décisionnels de Markov. Il a été écrit pour les étudiants, ingénieurs et chercheurs susceptibles de s’intéresser à ces disciplines et ces modèles.
L’opportunité de la rédaction de ces deux tomes est née de la structuration de la communauté « PDMIA », qui regroupe les chercheurs francophones en informatique, mathématiques appliquées et robotique qui utilisent le cadre des processus décision-nels de Markov (PDM) dans le cadre de l’intelligence artificielle (IA). Depuis 2001, des rencontres informelles annuelles puis la conférence JFPDA ont permis de mettre en évidence l’existence d’une activité de recherche significative dans ce domaine de la part de chercheurs francophones, au point de justifier la rédaction d’un ouvrage de référence sur ces travaux en langue française.
Les deux tomes, fortement complémentaires, sont organisés de la manière sui-vante.
Dans le premier tome, nous proposons une présentation introductive des bases et des principaux cadres de ce domaine (processus décisionnels de Markov, apprentis-sage par renforcement, processus décisionnels de Markov partiellement observables, jeux de Markov et critères non-classiques) et quelques applications des principes uti-lisés dans ces différents cadres dans les domaines de la micro-manipulation et de la gestion de systèmes naturels.
Dans le second tome, en supposant acquises les notions présentées dans le premier tome, nous rassemblons une sélection des travaux actuels plus avancés consistant en des extensions de ces cadres généraux (cadre multi-agent décentralisé, représentations
factorisées, représentations approchées, méthodes de gradient) et un choix d’applica-tions concrètes traitées par des équipes appartenant à notre communauté (planification d’opérations, hélicoptère autonome, robotique).
Il n’était pas possible de présenter dans le cadre de cet ouvrage la totalité des axes de recherche de ce domaine globalement très actif au niveau international. Nous donnons ici quelques références pour orienter le lecteur vers quelques aspects que nous n’avons pas couverts. Ainsi, nous avons choisi de ne pas parler d’apprentissage par renforcement en temps continu [?], d’apprentissage par renforcement relationnel [?], d’apprentissage par renforcement hiérarchique [?], de systèmes de classeurs [?] ou de représentations prédictives de l’état [LIT 02].
Par ailleurs, nous nous sommes efforcés au sein des différents chapitres de donner des références vers des travaux connexes à ceux présentés ici.
Les activités scientifiques de la communauté PDMIA sont présentées sur internet
à l’adresse suivante :http://www.loria.fr/projets/PDMIA/index.php. Le
P
REMIÈRE PARTIE
Principes généraux
Chapitre 1
Processus Décisionnels de Markov
1.1. Introduction
Les problèmes de décision traités dans cet ouvrage sont communément appelés problèmes de décision séquentielle dans l’incertain. La première caractéristique de ce type de problèmes est qu’il s’inscrit dans la durée et que ce n’est pas en fait un, mais plusieurs problèmes de décisions en séquence qu’un agent (ou décideur ou en-core acteur) doit résoudre, chaque décision courante influençant la résolution des pro-blèmes qui suivent. Ce caractère séquentiel des décisions se retrouve typiquement dans les problèmes de planification en intelligence artificielle et relève en particulier des méthodes de plus court chemin dans un graphe. La seconde caractéristique de ces problèmes est liée à l’incertitude des conséquences mêmes de chacune des décisions possibles. Ainsi, l’agent ne sait pas à l’avance précisément quels seront les effets des décisions qu’il prend. En tant que telle, cette problématique relève des théories de la décision dans l’incertain qui proposent de nombreuse voies de formalisation et ap-proches de résolution, en particulier la théorie classique de maximisation de l’utilité espérée.
Les problèmes de décision séquentielle dans l’incertain couplent donc les deux problématiques de décision séquentielle et de décision dans l’incertain. Les problèmes
décisionnels de Markov (MDP1) en sont une formalisation mathématique, qui
généra-lise les approches de plus court chemin dans un environnement stochastique. A la base
de ce formalisme, les processus décisionnels de Markov (que l’on note aussiMDP)
in-tègrent les concepts d’état qui résume la situation de l’agent à chaque instant, d’action
Chapitre rédigé par Frédérick GARCIA. 1. Pour Markov Decision Problem
(ou décision) qui influence la dynamique de l’état, de revenu (ou récompense) qui est
associé à chacune des transitions d’état. LesMDP sont alors des chaînes de Markov
visitant les états, contrôlées par les actions et valuées par les revenus. Résoudre un
MDP, c’est contrôler l’agent pour qu’il se comporte de manière optimale, c’est-à-dire
de façon à maximiser son revenu. Toutefois, les solutions d’unMDPne sont pas des
dé-cisions ou séquences de dédé-cisions, mais plutôt des politiques, ou stratégies, ou encore règles de décision, qui spécifient l’action à entreprendre en chacune des étapes pour toutes les situations futures possibles de l’agent. Du fait de l’incertitude, une même politique peut donner lieu à des séquences d’états / actions très variées selon les aléas. EXEMPLE.– Illustrons ces concepts de manière plus concrète en prenant l’exemple de l’entretien d’une voiture. La question qui se pose est de décider, en fonction de l’état de la voiture (présence de panne, usure, âge, etc.), quelle est la meilleure stratégie (ne rien faire, remplacer préventivement, réparer, changer de voiture, etc.) pour mini-miser le coût de l’entretien sur le long terme. Si on fait l’hypothèse que l’on connaît les conséquences et le coût des différentes actions pour chaque état (par exemple on connaît la probabilité qu’un moteur lâche si on ne répare pas une fuite d’huile) alors
on peut modéliser ce problème comme unMDPdont la solution nous donnera, en
fonc-tion de l’état de la voiture, l’acfonc-tion optimale. Ainsi, la suite des acfonc-tions prises au fur et à mesure de l’évolution de l’état de la voiture permettra, en moyenne, de minimiser son coût d’entretien.
Le cadre des problèmes décisionnels de Markov et ses généralisations que nous développerons dans des chapitres ultérieurs forment les modèles les plus classiques pour les problèmes de décision séquentielle dans l’incertain. Nous en exposons les bases dans ce chapitre, dans le cas d’un agent qui dispose a priori d’une connaissance parfaite du processus et de son état à tout instant, dont la tâche consiste donc à planifier a priori une politique optimale qui maximise son revenu au cours du temps.
1.2. Problèmes décisionnels de Markov 1.2.1. Processus décisionnels de Markov
Les processus décisionnels de Markov sont définis comme des processus sto-chastiques contrôlés satisfaisant la propriété de Markov, assignant des récom-penses aux transitions d’états [BER 87, PUT 94]. On les définit par un quintuplet : (S, A, T, p, r) où :
– S est l’espace d’états dans lequel évolue le processus ;
– A est l’espace des actions qui contrôlent la dynamique de l’état ; – T est l’espace des temps, ou axe temporel ;
– p() sont les probabilités de transition entre états ;
Processus Décisionnels de Markov 19
La figure 1.1 représente unMDP sous la forme d’un diagramme d’influence. A
chaque instant t de T , l’action atest appliquée dans l’état courant st, influençant le
processus dans sa transition vers l’état st+1. La récompense rtest émise au cours de
cette transition. st st+1 at t t r(s , a ) t+1 t p( s | s , a )t
Figure 1.1. Processus décisionnel de Markov.
Le domaine T des étapes de décision est un ensemble discret, assimilé à un sous-ensemble de IN, qui peut être fini ou infini (on parle d’horizon fini ou d’horizon infini). Les domaines S et A sont supposés finis, même si de nombreux résultats peuvent être étendus aux cas où S et A sont dénombrables ou continus (voir [BER 95] pour une introduction au cas continu). Dans le cas général, l’espace A peut être dépendant
de l’état courant (Aspour s ∈ S). De même, S et A peuvent être fonction de l’instant t
(Stet At). Nous nous limiterons ici au cas classique où S et A sont constants tout au
long du processus.
Les probabilités de transition caractérisent la dynamique de l’état du système. Pour
une action a fixée, p(s′|s, a) représente la probabilité que le système passe dans l’état
s′ après avoir exécuté l’action a dans l’état s. On impose classiquement que ∀s, a,
P
s′p(s′|s, a) = 1. Par ailleurs, on utilise classiquement une représentation
matri-cielle de ces probabilités de transition, en notant Pala matrice de dimension |S| × |S|
dont les éléments sont ∀s, s′ P
a s,s′ = p(s′ | s, a). Les probabilités décrites par p()
se décrivent donc par |A| matrices Pa, chacune des lignes de ces matrices ayant pour
somme 1 : les Pasont des matrices stochastiques.
Les distributions p() vérifient la propriété fondamentale qui donne son nom aux
processus décisionnels de Markov considérés ici. Si on note htl’historique à la date
t du processus, ht= (s0, a0, . . . , st−1, at−1, st), alors la probabilité d’atteindre un
nouvel état st+1suite à l’exécution de l’action atn’est fonction que de atet de l’état
probabilité conditionnelle de l’événement x sachant que y est vrai, on a : ∀ht, at, st+1 P (st+1 | ht, at) = P (st+1 | st, at) = p(st+1| st, at)
Il faut noter que cela n’implique pas que le processus stochastique induit (st)t∈T
soit lui-même markovien, tout dépend de la politique de choix des actions at.
Comme résultat d’avoir choisi l’action a dans l’état s à l’instant t, l’agent décideur
reçoit une récompense, ou revenu, rt = r(s, a) ∈ IR. Les valeurs de rt positives
peuvent être considérées comme des gains et les valeurs négatives comme des coûts. Cette récompense peut être instantanément perçue à la date t, ou accumulée de la date t à la date t + 1, l’important est qu’elle ne dépende que de l’état et de l’action choisie à l’instant courant. La représentation vectorielle de la fonction de récompense r(s, a)
consiste en |A| vecteurs rade dimension |S|.
Une extension classique est de considérer des récompenses r(s, a) aléatoires et
l’on considère alors la valeur moyenne rt = ¯r(s, a). En particulier, rtpeut ainsi
dé-pendre de l’état d’arrivée s′selon r(s, a, s′). On considère alors la valeur moyenne est
¯
r(s, a) =Ps′p(s′|s, a)r(s, a, s′). Dans tous les cas, on suppose rtbornée dans IR.
Par ailleurs, comme pour S et A, les fonctions de transition et de récompense
peuvent elles-mêmes varier au cours du temps, auquel cas on les note ptet rt. Lorsque
ces fonctions de varient pas, on parle de processus stationnaires : ∀t ∈ T, pt() =
p(), rt() = r(). Par la suite, nous supposerons vérifiée cette hypothèse de
stationna-rité dans l’étude desMDPà horizon infini.
1.2.2. Les politiques d’actions
Les processus décisionnels de Markov permettent de modéliser la dynamique de l’état d’un système soumis au contrôle d’un agent, au sein d’un environnement sto-chastique. On nomme alors politique (notée π), ou stratégie, la procédure suivie par l’agent pour choisir à chaque instant l’action à exécuter. Deux distinctions sont essen-tielles ici. Tout d’abord, une politique peut déterminer précisément l’action à effectuer, ou simplement définir une distribution de probabilité selon laquelle cette action doit
être sélectionnée. Ensuite, une politique peut se baser sur l’historique htdu processus,
ou peut ne simplement considérer que l’état courant st. Nous obtenons ainsi quatre
fa-milles distinctes de stratégies, comme indiqué sur le tableau 1.1 :
Pour une politique déterministe, πt(st) ou πt(ht) définit l’action a choisie à
l’ins-tant t. Pour une politique aléatoire, πt(a, st) ou πt(a, ht) représente la probabilité de
sélectionner a.
Processus Décisionnels de Markov 21
politique πt déterministe aléatoire
markovienne st−→ at at, st−→ [0, 1]
histoire-dépendante ht−→ at ht, st−→ [0, 1]
Tableau 1.1. Différentes familles de politiques pour lesMDP.
– ΠHApour les politiques histoire-dépendantes aléatoires ;
– ΠHDpour les politiques histoire-dépendantes déterministes ;
– ΠM Apour les politiques markoviennes aléatoires ;
– ΠM Dpour les politiques markoviennes déterministes.
Ces différentes familles de politiques sont imbriquées entre elles, de la plus géné-rale (histoire-dépendante aléatoire) à la plus spécifique (markovienne déterministe), comme le montre la figure 1.2.
histoire−dépendante déterministe
histoire−dépendante aléatoire
markovienne aléatoire
markovienne déterministe
Figure 1.2. Relations entre les différentes familles de politiques
Indépendamment de cela et comme pour le processus décisionnel de Markov lui-même, la définition des politiques peut ou non dépendre explicitement du temps.
Ainsi, une politique est stationnaire si ∀t πt = π. Parmi ces politiques stationnaires,
les politiques markoviennes déterministes sont centrales dans l’étude des MDP. Il
s’agit du modèle le plus simple de stratégie décisionnelle, on nomme leur ensemble D :
DÉFINITION 1.1.– Politiques markoviennes déterministes stationnaires
D est l’ensemble des fonctions π qui à tout état de S associent une action de A :
Un autre ensemble important, noté DAest constitué des politiques markoviennes
aléatoires stationnaires. Les politiques de D et DAsont très importantes car, comme
nous le verrons, D et DA contiennent les politiques optimales pour les principaux
critères.
1.2.3. Critères de performance
Se poser un problème décisionnel de Markov, c’est rechercher parmi une famille de politiques celles qui optimisent un critère de performance donné pour le processus décisionnel markovien considéré. Ce critère a pour ambition de caractériser les poli-tiques qui permettront de générer des séquences de récompenses les plus importantes possibles. En termes formels, cela revient toujours à évaluer une politique sur la base d’une mesure du cumul espéré des récompenses instantanées le long d’une trajectoire,
comme on peut le voir sur les critères les plus étudiés au sein de la théorie desMDP,
qui sont respectivement :
– le critère fini : E[r0+ r1+ r2+· · · + rN −1| s0]
– le critère γ-pondéré : E[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0]
– le critère total : E[r0+ r1+ r2+· · · + rt+· · · | s0]
– le critère moyen : lim
n→∞
1
nE[r0+ r1+ r2+· · · + rn−1| s0]
Les deux caractéristiques communes à ces quatre critères sont en effet d’une part
leur formule additive en rt, qui est une manière simple de résumer l’ensemble des
récompenses reçues le long d’une trajectoire et, d’autre part, l’espérance E[.] qui est retenue pour résumer la distribution des récompenses pouvant être reçues le long des trajectoires, pour une même politique et un même état de départ. Ce choix d’un cumul espéré est bien sûr important, car il permet d’établir le principe d’optimalité de
Bell-man[BEL 57] (« les sous-politiques de la politique optimale sont des sous-politiques
optimales »), à la base des nombreux algorithmes de programmation dynamique
per-mettant de résoudre efficacement les MDP. On verra au chapitre 5 d’autres critères
qui étendent lesMDP, pour lesquels le principe d’optimalité n’est plus nécessairement
respecté.
Processus Décisionnels de Markov 23
1.3. Fonctions de valeur
Les critères fini, γ-pondéré, total et moyen que nous venons de voir permettent de définir une fonction de valeur qui, pour une politique π fixée, associe à tout état initial
s∈ S la valeur du critère considéré en suivant π à partir de s : ∀π Vπ : S
−→ IR. On note V l’espace des fonctions de S dans IR, identifiable à l’espace vectoriel
IR|S|. L’ensemble V est muni d’un ordre partiel naturel :
∀U, V ∈ V U ≤ V ⇔ ∀s ∈ S U(s) ≤ V (s).
L’objectif d’un problème décisionnel de Markov est alors de caractériser et de
rechercher – si elles existent – les politiques optimales π∗∈ ΠHAtelles que
∀π ∈ ΠHA ∀s ∈ S Vπ(s)≤ Vπ∗(s)
soit encore
π∗∈ argmax
π∈ΠHA
Vπ.
On note alors V∗ = max
π∈ΠHAVπ = Vπ ∗
. Dans le cadre desMDP, on recherche
donc des politiques optimales meilleures que toute autre politique, quel que soit l’état de départ. Remarquons que l’existence d’une telle politique optimale n’est pas en soi évidente.
La spécificité des problèmes décisionnels de Markov est alors de pouvoir être tra-duits en terme d’équations d’optimalité portant sur les fonctions de valeur, dont la résolution est de complexité moindre que le parcours exhaustif de l’espace global des
politiques de ΠHA(la taille du simple ensemble D est déjà de |A||S|).
1.3.1. Le critère fini
On suppose ici que l’agent doit contrôler le système en N étapes, avec N fini. Le critère fini conduit naturellement à définir la fonction de valeur qui associe à tout état s l’espérance de la somme des N prochaines récompenses en suivant la politique π à partir de s :
Dans cette définition, Eπ[.] dénote l’espérance mathématique sur l’ensemble des
réalisations du MDP en suivant la politique π. Eπ est associée à la distribution de
probabilité Pπsur l’ensemble de ces réalisations.
Notons qu’il est parfois utile d’ajouter au critère une récompense terminale rN
fonction du seul état final sN. Il suffit pour cela de considérer une étape artificielle
supplémentaire où ∀s, a rN(s, a) = rN(s). C’est le cas par exemple lorsqu’il s’agit
de piloter un système vers un état but en N étapes et à moindre coût. 1.3.2. Le critère γ-pondéré
Le critère γ-pondéré, ou critère actualisé, est le critère à horizon infini le plus classique. La fonction de valeur du critère γ-pondéré est celle qui associe à tout état s la limite lorsque N tend vers l’infini de l’espérance en suivant la politique π à partir de s de la somme des N futures prochaines récompenses, pondérées par un facteur
d’actualisation2γ :
DÉFINITION 1.3.– Fonctions de valeur pour le critère γ-pondéré Pour 0 ≤ γ < 1, on pose ∀s ∈ S Vγπ(s) = Eπ[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0= s] = Eπ[ ∞ X t=0 γtrt| s0= s]
Le terme γ représente la valeur à la date t d’une unité de récompense reçue à la
date t + 1. Reçue à la date t + τ, cette même unité vaudrait γτ. Cela implique que
les instants de décision t = 0, 1, 2, . . . de T soient régulièrement répartis sur IN. Ce facteur γ a pour principal intérêt d’assurer la convergence de la série en horizon infini.
D’un point de vue pratique, il est naturellement utilisé au sein desMDPmodélisant des
processus de décision économique en posant γ = 1
1+τ, où τ est le taux d’actualisation.
1.3.3. Le critère total
Il est toutefois possible de choisir γ = 1 dans certains cas particuliers à horizon infini. Lorsque cela a un sens, on pose ainsi :
Processus Décisionnels de Markov 25
DÉFINITION 1.4.– Fonction de valeur pour le critère total
Vπ(s) = Eπ[
∞
X
t=0
rt| s0= s]
Ce critère est en pratique souvent utilisé pour des problèmes à horizon temporel aléatoire fini non borné : on sait que le processus de décision va s’arrêter à une étape terminale, mais on ne peut borner cet instant. Ce type de modèle est particulièrement utilisé dans des applications de type optimal stopping (à tout instant, la décision de l’agent porte simplement sur l’arrêt ou non du processus aléatoire), ou plus générale-ment de type jeux et paris.
1.3.4. Le critère moyen
Lorsque la fréquence des décisions est importante, avec un facteur d’actualisation proche de 1, ou lorsqu’il n’est pas possible de donner une valeur économique aux récompenses, on préfère considérer un critère qui représente la moyenne des récom-penses le long d’une trajectoire et non plus leur somme pondérée. On associe ainsi à une politique l’espérance du gain moyen par étape. On définit alors le gain moyen
ρπ(s) associé à une politique particulière π et à un état s :
DÉFINITION 1.5.– Le gain moyen
ρπ(s) = lim n→∞E π[1 n n−1 X t=0 rt| s0= s]
Pour le critère moyen, une politique π∗ est dite gain-optimale si ρπ∗(s)≥ ρπ(s)
pour toute politique π et tout état s.
Ce critère est particulièrement utilisé dans des applications de type gestion de file d’attente, de réseau de communication, de stock etc.
1.4. Politiques markoviennes
1.4.1. Equivalence des politiques histoire-dépendantes et markoviennes
Nous allons établir ici une propriété fondamentale desMDPpour ces différents
cri-tères, qui est d’accepter comme politiques optimales des politiques simplement
mar-koviennes, sans qu’il soit nécessaire de considérer l’espace total ΠHAdes politiques
PROPOSITION 1.1.– Soit π ∈ ΠHA une politique aléatoire histoire-dépendante. Pour chaque état initial x ∈ S, il existe alors une politique aléatoire markovienne
π′ ∈ ΠM Atelle que 1) Vπ′ N (x) = VNπ(x), 2) Vπ′ γ (x) = Vγπ(x), 3) Vπ′ (x) = Vπ(x), 4) ρπ′(x) = ρπ(x)
PREUVE.– Soit x ∈ S et π une politique aléatoire histoire-dépendante. Soit π′ la politique aléatoire markovienne définie à partir de π et x selon :
∀t = 0, 1, . . . , ∀s ∈ S, ∀a ∈ A π′(a
t= a, st= s) = Pπ(at= a| st= s, s0= x)
On a ainsi Pπ′
(at= a| st= s) = Pπ(at= a| st= s, s0= x). On montre alors
par récurrence sur t que Pπ(s
t= s, at= a| s0 = x) = Pπ
′
(st= s, at= a| s0 =
x).
L’égalité est directe pour t = 0. Pour t > 0, en supposant établie la propriété jusqu’à t − 1, on a Pπ(s t= s| s0= x) = X i∈S X a∈A Pπ(s t−1= i, at−1= a| s0= x)p(s| i, a) = X i∈S X a∈A Pπ′(st−1= i, at−1= a| s0= x)p(s| i, a) = Pπ′(st= s| s0= x) D’où Pπ′ (st= s, at= a| s0= x) = Pπ ′ (at= a| st= s)Pπ ′ (st= s| s0= x) = Pπ(a t= a| st= s, s0 = x)Pπ(st= s| s0 = x) = Pπ(st= s, at= a | s0= x),
ce qui établit la récurrence.
On conclut en remarquant alors que pour tout x ∈ S
Processus Décisionnels de Markov 27 et Eπ[r(st, at)| s0= x] = X s∈S X a∈A r(s, a)Pπ(st= s, at= a| s0= x). Ce résultat permet d’affirmer que lorsque l’on connaît l’état initial (ou une dis-tribution de probabilité sur l’état initial), toute politique histoire-dépendante aléatoire peut être remplacée par une politique markovienne aléatoire ayant la même fonction de valeur.
1.4.2. Politique markovienne et chaîne de Markov valuée
Pour toute politique markovienne π ∈ ΠM A, le processus décrit par l’état s
t
vérifie, pour tout s0, s1,· · · , st+1, Pπ(st+1 | s0, s1,· · · , st) = Pa∈APπ(at =
a | s0, s1,· · · , st)Pπ(st+1 | s0, s1,· · · , st, at = a) = Pa∈Aπ(a, st)Pπ(st+1 |
st, at= a) = Pπ(st+1| st).
Il s’agit donc d’un processus markovien, qui forme une chaîne de Markov dont la
matrice de transition notée Pπest définie par
∀s, s′ Pπs,s′ = Pπ(st+1= s′| st= s) =
X
a
π(a, s)p(s′| s, a).
Dans le cas où π est déterministe (π ∈ ΠM D), P
πs,s′est simplement égal à p(s′|
s, π(s)). La matrice Pπ est construite simplement en retenant pour chaque état s la
ligne correspondante dans la matrice Pa avec a = π(s). De même, on note rπ le
vecteur de composante r(s, π(s)) pour π ∈ ΠM D et P
aπ(a, s)r(s, a) pour π ∈
ΠM A.
Le triplet (S, Pπ, rπ) définit ce que l’on nomme un processus de Markov valué, ou
chaîne de Markov valuée. Il s’agit simplement d’une chaîne de Markov avec des reve-nus associés aux transitions. Nous verrons qu’évaluer une politique π consiste alors à calculer certaines grandeurs asymptotiques (pour les critères infinis) caractéristiques de la chaîne de Markov valuée associée.
1.5. Caractérisation des politiques optimales 1.5.1. Le critère fini
1.5.1.1. Equations d’optimalité
s’ajouter à celles qu’il a déjà perçues. On a ainsi : πN −1∗ (s)∈ argmax a∈A rN −1(s, a) et V1∗(s) = max a∈ArN −1(s, a) où π∗
N −1est la politique optimale à suivre à l’étape N − 1 et V1∗la fonction de valeur
optimale pour un horizon de longueur 1, obtenue en suivant cette politique optimale. Supposons maintenant l’agent dans l’état s à l’étape N − 2. Le choix d’une action
a va lui rapporter de façon sûre la récompense rN −2(s, a) et l’amènera de manière
aléatoire vers un nouvel état s′ à l’étape N − 1. Là, il sait qu’en suivant la politique
optimale π∗
N −1, il pourra récupérer une récompense moyenne V1∗(s′). Le choix d’une
action a à l’étape N − 2 conduit donc au mieux en moyenne à la somme de récom-penses rN −2(s, a) +Ps′pN −2(s′|s, a)V1∗(s′). Ainsi, le problème de l’agent à l’étape
N− 2 se ramène simplement à rechercher l’action qui maximise cette somme, soit :
π∗N −2(s)∈ argmax a∈A {r N −2(s, a) + X s′ pN −2(s′|s, a)V1∗(s′)} et V2∗(s) = max a∈A{rN −2(s, a) + X s′ pN −2(s′|s, a)V1∗(s′)}.
Ce raisonnement peut s’étendre jusqu’à la première étape de décision, où l’on a donc : π∗0(s)∈ argmax a∈A {r0(s, a) + X s′ p0(s′|s, a)VN −1∗ (s′)} et VN∗(s) = max a∈A{r0(s, a) + X s′ p0(s′|s, a)VN −1∗ (s′)}.
Cela conduit ainsi à l’énoncé du théorème suivant : THÉORÈME 1.1.– Equations d’optimalité pour le critère fini
Soit N < ∞. Les fonctions de valeurs optimales V∗ = (V∗
N, . . . , V1∗) sont les
solu-tions uniques du système d’équasolu-tions
∀s ∈ S Vn+1∗ (s) = max
a∈A{rN −1−n(s, a) +
X
s′
pN −1−n(s′|s, a)Vn∗(s′)} (1.1)
avec n = 0, . . . , N − 1 et V0= 0. Les politiques optimales pour le critère fini π∗ =
(π∗0, π1∗, . . . , πN −1∗ ) sont alors déterminées par :
∀s ∈ S π∗t(s)∈ argmax
a∈A {rt
(s, a) +X
s′
Processus Décisionnels de Markov 29
pour t = 0, . . . , N − 1.
On voit donc ici dans le cadre du critère fini que les politiques optimales sont de type markovien déterministe, mais non stationnaire (le choix de la meilleure décision à prendre dépend de l’instant t).
1.5.1.2. Evaluation d’une politique markovienne déterministe
Soit une politique π markovienne déterministe. La même démarche permet alors
de caractériser sa fonction de valeur Vπ
N :
THÉORÈME 1.2.– Caractérisation de VN
Soient N < ∞ et π = (π0, π1, . . . , πN −1) une politique markovienne. Alors VNπ =
VN, avec (VN, VN −1, . . . , V1), solutions du système d’équations linéaires
∀s ∈ S Vn+1(s) = rN −1−n(s, πN −1−n(s))+ X s′ pN −1−n(s′|s, πN −1−n(s))Vn(s′) pour n = 0, . . . , N − 1 et V0= 0. 1.5.2. Le critère γ-pondéré
Ce critère est le plus classique en horizon infini et celui pour lequel il est assez simple de caractériser la fonction de valeur optimale et les politiques associées. On
rappelle que l’on suppose ici, dans le cas de l’horizon infini, que leMDPconsidéré est
stationnaire.
1.5.2.1. Evaluation d’une politique markovienne stationnaire
Pour une politique markovienne stationnaire π ∈ DA, on définit l’opérateur L
π
de V dans V, espace vectoriel muni de la norme max : ∀V ∈ V, k V k= maxs∈S |
V (s)|.
DÉFINITION 1.6.– Opérateur Lπ
Pour π ∈ DA,
∀V ∈ V LπV = rπ+ γPπV
Un premier résultat permet alors de relier la fonction de valeur Vπ
γ d’une politique
stationnaire π ∈ DAà cet opérateur L
π:
THÉORÈME 1.3.– Caractérisation de Vγπ
Soient γ < 1 et π ∈ DAune politique stationnaire markovienne.
Alors Vπ
γ est l’unique solution de l’équation V = LπV :
∀s ∈ S V (s) = rπ(s) + γ
X
s′∈S
et Vπ
γ = (I− γPπ)−1rπ.
PREUVE.– Soit V solution de V = LπV . On a donc (I− γPπ)V = rπ. La matrice
Pπ étant stochastique, toutes les valeurs propres de la matrice γPπ sont de modules
inférieurs ou égaux à γ < 1 et donc la matrice I − γPπest inversible, avec
(I− γPπ)−1= ∞ X k=0 γkPπk d’où V = (I− γPπ)−1rπ= ∞ X k=0 γkPk πrπ. Or, ∀s ∈ S Vπ γ(s) = Eπ[r0+ γr1+ γ2r2+· · · + γtrt+· · · | s0= s] = ∞ X t=0 γtEπ[r(st, at)| s0= s] = ∞ X t=0 γtX s′∈S X a∈A Pπ(s t= s′, at= a| s0= s)r(s′, a) = ∞ X t=0 γtX s′∈S X a∈A q(a, s′)Pπ(st= s′| s0= s)r(s′, a) = ∞ X t=0 γtX s′∈S Pπ(st= s′ | s0= s)rπ(s′) = ∞ X t=0 γtX s′∈S Pπ,s,st ′rπ(s′) = ∞ X t=0 γtPt πrπ(s), et donc V = Vπ γ . 1.5.2.2. Equations d’optimalité
Rappelons que l’on cherche à résoudre le problème d’optimisation ∀s ∈ S, V∗
γ(s) =
maxπ∈ΠHAVγπ(s). Une politique π∗ est dite optimale si Vπ
Processus Décisionnels de Markov 31
Soit donc maintenant l’opérateur L de l’ensemble des fonctions de valeur V dans lui-même, nommé opérateur de programmation dynamique :
DÉFINITION 1.7.– Opérateur L
∀V ∈ V ∀s ∈ S LV (s) = maxa∈A r(s, a) + γX
s′∈S
p(s′| s, a)V (s′) !
soit en notation vectorielle
∀V ∈ V LV = max
π∈D(rπ+ γPπV )
Le théorème principal concernant l’optimalité des fonctions de valeur pour le cri-tère γ-pondéré est alors le suivant :
THÉORÈME 1.4.– Equation de Bellman
Soit γ < 1. Alors V∗
γ est l’unique solution de l’équation V = LV :
∀s ∈ S V (s) = maxa∈A r(s, a) + γ X s′∈S p(s′ | s, a)V (s′) ! . (1.3) PREUVE.–
Montrons que ∀V et pour 0 ≤ γ ≤ 1 LV = max
π∈D(rπ+ γPπV ) = maxπ∈DA(rπ+ γPπV )
Pour cela, considérons une fonction de valeur V et δ ∈ DA. Pour tout s, du fait du
Ainsi, pour tout δ ∈ DA rδ+ γPδV ≤ max π∈D(rπ+ γPπV ) soit max δ∈DA(rδ+ γPδV )≤ maxπ∈D(rπ+ γPπV )
L’inégalité inverse est immédiate car D ⊂ DA.
Montrons alors que ∀V , V ≥ LV ⇒ V ≥ V∗
γ, et V ≤ LV ⇒ V ≤ Vγ∗.
Soit V telle que V ≥ LV . On a donc
V ≥ max
π∈D{rπ+ γPπV} = maxπ∈DA{rπ+ γPπV}
Soit π = (π0, π1, . . .)∈ ΠM A. Pour tout t, πt∈ DA, d’où
V ≥ rπ0+ γPπ0V ≥ rπ0+ γPπ0(rπ1+ γPπ1V ) ≥ rπ0+ γPπ0rπ1+ γ 2P π0Pπ1rπ2+· · · + γ n−1P π0· · · Pπn−2rπn−1+ γ nPn πV. On a donc V − Vπ γ ≥ γnPπnV − ∞ X k=n γkPπkrπk, car V π γ = ∞ X k=0 γkPπkrπk, avec Pk
π = Pπ0Pπ1· · · Pπk−1. Les deux termes de droite peuvent être rendus aussi
petits que désiré pour n suffisamment grand, car k γnPn
πV k≤ γn k V k et k P∞ k=nγkPπkrπk k≤ P∞ k=nγkR≤ γn
1−γR avec R = maxs,ar(s, a). On en déduit
V − Vπ
γ ≥ 0
Cela tant vrai pour toute politique π ∈ ΠM A, on a donc
V ≥ max π∈ΠM AV π γ = max π∈ΠHAV π γ = Vγ∗
Inversement, soit V telle que V ≤ LV . On a donc V ≤ maxπ∈D{rπ+ γPπV}
Supposons ce max atteint en π∗. On a donc
Processus Décisionnels de Markov 33
Les termes de droite pouvant être rendus aussi proches de 0 que désiré, on a donc
V − Vπ∗
γ ≤ 0, soit V ≤ Vπ
∗
γ ≤ Vγ∗.
On a ainsi montré que V ≥ LV ⇒ V ≥ V∗
γ, V ≤ LV ⇒ V ≤ Vγ∗, ce qui
implique que V = LV ⇒ V = V∗
γ : toute solution de l’équation LV = V est
né-cessairement égale à la fonction de valeur optimale V∗
γ. Montrons maintenant qu’une
telle solution existe.
Rappelons pour cela le théorème du point fixe de Banach : THÉORÈME 1.5.– Théorème du point fixe de Banach
Soient U un espace de Banach (i.e. espace vectoriel normé complet) et T une contrac-tion sur U (i.e. ∀u, v k T u − T v k≤ λ k u − v k pour 0 ≤ λ < 1). Alors
1) Il existe un unique u∗∈ U tel que T u∗= u∗;
2) Pour tout u0∈ U, la suite (un)n≥0définie par
un+1= T un = Tn+1u0
converge vers u∗.
L’espace V muni de la norme max est un espace vectoriel normé de dimension fini donc complet. Il suffit donc de montrer que l’opérateur L est une contraction pour cette norme.
PROPOSITION 1.2.– Soit γ < 1. L’opérateur de programmation dynamique L défini
par LV = maxπ∈D(rπ+ γPπV ) est une contraction surV.
PREUVE.– Soient U et V dans V et s ∈ S.
Supposons LV (s) ≥ LU(s). Soit a∗
Cette propriété de contraction assure donc l’existence pour l’opérateur L d’un
point fixe unique qui est donc égal à V∗
γ.
On termine alors l’analyse du critère γ-pondéré avec le théorème suivant : THÉORÈME 1.6.– Caractérisation des politiques optimales
Soit γ < 1. Alors
1) π∗∈ ΠHAest optimale ⇔ Vπ∗
γ est solution de LV = V et Vπ
∗
γ = Vγ∗;
2) toute politique stationnaire π∗définie par
π∗ ∈ argmax
π∈D {rπ
+ γPπVγ∗}
est une politique optimale.
PREUVE.– La première équivalence est évidente du fait du théorème précédent. Soit
alors π∗∈ argmax π∈D{rπ+ γPπVγ∗}. On a alors Lπ∗Vγ∗ = rπ∗+ γPπ∗Vγ∗ = max π∈D{rπ+ γPπV ∗ γ} = LVγ∗ = Vγ∗.
L’unicité de la solution de V = Lπ∗V démontrée par le théorème 1.3 permet de
déduire que V∗
γ = Vπ
∗
γ et donc que π∗est optimale.
1.5.3. Le critère total
L’existence de la limite définissant le critère total ne peut être assurée que sous certaines hypothèses. Nous considérons ici deux classes de problèmes pour lesquelles cette limite existe nécessairement, et est finie pour au moins une politique : les modèles positifs et les modèles négatifs.
DÉFINITION 1.8.– Soit π ∈ ΠHA. On définit les fonctions V+πet V−πpar
Processus Décisionnels de Markov 35
On appelle alors respectivement V+et V−l’ensemble des fonctions positives et
né-gatives de V
On suppose que pour toute politique π et état s, Vπ
+(s) ou V−π(s) est fini, ce qui
implique l’existence (finie ou infinie) de la limite Vπavec
∀s ∈ S Vπ(s) = V+π(s)− V−π(s).
LesMDPbornés positivement, ou encore positifs, sont tels que
– pour chaque s il existe au moins une action a ∈ A avec r(s, a) ≥ 0 et
– Vπ
+(s) <∞ pour tout s ∈ S et pour tout π ∈ ΠHA.
LesMDPnégatifs sont tels que
– r(s, a) ≤ 0 pour tout s ∈ S et a ∈ A et
– il existe π ∈ ΠHAtelle que Vπ(s) >
−∞ pour tout s ∈ S.
L’existence d’une politique π pour laquelle Vπ(s) soit fini pour tout s ∈ S est
typiquement assurée par la présence d’un état absorbant s∞à récompense nulle :
∀s0 Pπ(∃t∗st∗ = s∞) = 1
avec
p(s∞| s∞, π(s∞)) = 1, et r(s∞, π(s∞)) = 0
Pour un modèle positif, une politique optimale a un revenu total positif le plus éloigné de 0 possible. L’agent cherche à prolonger le plus possible les trajectoires pour accumuler des revenus positifs. Pour un modèle négatif, une politique optimale a un revenu négatif aussi proche de 0 possible. L’agent cherche à terminer aussi vite
que possible en s∞ pour minimiser les pertes. Les deux modèles ne sont donc pas
exactement symétriques.
Nous énonçons ci-dessous quelques résultats importants concernant ces deux
mo-dèles. Pour cela, nous introduisons une nouvelle définition des opérateurs Lπet L.
DÉFINITION 1.9.– Opérateurs Lπet L pour le critère total
Soit π stationnaire ∈ DA,
∀V ∈ V LπV = rπ+ PπV
et
∀V ∈ V LV = max
On montre alors pour lesMDPpositifs et négatifs les résultats suivants : THÉORÈME 1.7 [PUT 94].– Soit unMDPpositif. Alors
1) pour tout π stationnaire ∈ D, Vπest la solution minimale de V = L
πV dans
V+.
2) V∗est la solution minimale de l’équation V = LV dans V+.
3) une politique π∗∈ ΠHAest optimale ⇔ Vπ∗
= LVπ∗
4) si π∗ ∈ argmax
π∈D(rπ+ PπV∗) et si limN →∞PπN∗V∗(s) = 0 pour tout
s∈ S, alors π∗est optimale.
THÉORÈME 1.8 [PUT 94].– Soit unMDPnégatif. Alors
1) pour tout π stationnaire ∈ D, Vπest la solution maximale de V = L
πV dans
V−.
2) V∗est la solution maximale de l’équation V = LV dans V−.
3) toute politique π∗∈ argmax
π∈D(rπ+ PπV∗) est optimale.
On note que pour unMDP négatif, il peut exister une politique π vérifiant Vπ =
LVπqui ne soit pas optimale (voir l’exemple 7.3.1 dans [PUT 94]).
1.5.4. Le critère moyen
L’analyse théorique du critère moyen est plus complexe que pour les précédents critères. Elle fait intervenir le comportement limite du processus markovien valué sous-jacent. Nous nous limitons ici à présenter les résultats principaux, dans le cadre
desMDPrécurrents (pour toute politique markovienne déterministe, la chaîne de
Mar-kov correspondante est constituée d’une unique classe récurrente), unichaînes (chaque chaîne de Markov est constituée d’une unique classe récurrente plus éventuellement quelques états transitoires) ou multichaînes (il existe au moins une politique dont la chaîne de Markov correspondante soit constituée de deux classes récurrentes irréduc-tibles ou plus). On suppose de plus ici que pour toute politique, la chaîne de Markov correspondante est apériodique.
1.5.4.1. Evaluation d’une politique markovienne stationnaire
Soit π ∈ DAune politique stationnaire et (S, P
π, rπ) le processus de Markov valué
qui lui est associé. Rappelons que le gain moyen ou critère moyen est défini par :
Processus Décisionnels de Markov 37
Sous forme matricielle, on a ainsi
ρπ = lim N →∞ 1 N N −1X t=0 Pπtrπ. Soit P∗
π = limN →∞ N1 PN −1t=0 Pπt la matrice limite de Pπ. On montre que Pπ∗
existe et est une matrice stochastique pour tout S fini. De plus, P∗
π vérifie
P Pπ∗= Pπ∗P = Pπ∗Pπ∗= Pπ∗.
Le coefficient P∗
π,s,s′ peut être interprété comme la fraction de temps que le
sys-tème passera dans l’état s′ en étant parti de l’état s. Pour desMDP apériodiques, on
a de plus P∗
π = limN →∞PπN et Pπ,s,s∗ ′ peut être interprété comme la probabilité
à l’équilibre d’être dans l’état s′ en étant parti de s. Enfin, pour unMDP unichaîne,
Pπ∗ est alors la matrice dont toutes les lignes sont identiques et égales à la mesure
invariante µπde la chaîne contrôlée par la politique π. Ainsi ∀s, s′Pπ,s,s∗ ′ = µπ(s′).
De la définition précédente de ρπ, on déduit que ρπ = P∗
πrπ. Pour unMDP
uni-chaîne on établit ainsi que ρ(s) = ρ est constant pour tout s, avec
ρ =X
s∈S
µπ(s)rπ(s)
Dans le cas général d’unMDPmultichaîne, ρ(s) est constant sur chaque classe de
récurrence.
Cette première caractérisation de ρπ fait intervenir Pπ∗ qu’il n’est pas facile de
calculer. Il est toutefois possible d’obtenir autrement ρπ, en introduisant une nouvelle
fonction de valeur pour le critère moyen, dite fonction de valeur relative : DÉFINITION 1.10.– Fonction de valeur relative pour le critère moyen
∀s ∈ S Uπ(s) = Eπ[
∞
X
t=0
En termes vectoriels, on a ainsi Uπ = ∞ X t=0 Pπt(rπ− ρπ) = ∞ X t=0 Pπt(rπ− Pπ∗rπ) = ∞ X t=0 (Pt π− Pπ∗)rπ = (I− Pπ∗+ ∞ X t=1 (Pπ− Pπ∗)t)rπ = (−P∗ π + (I− Pπ+ Pπ∗)−1)rπ,
car on montre que la matrice (I −Pπ+Pπ∗) est inversible et pour t > 0 : (Pπ−Pπ∗)t=
Pt
π− Pπ∗. En multipliant à gauche par (I − Pπ+ Pπ∗), on en déduit
Uπ = (I− Pπ+ Pπ∗)−1(I− Pπ∗(I− Pπ+ Pπ∗))rπ
= (I− Pπ+ Pπ∗)−1(I− Pπ∗)rπ.
On note HPπ = (I− Pπ+ P
∗
π)−1(I− Pπ∗) la matrice de déviation de Pπ, qui est
donc telle que
Uπ= HPπrπ.
On peut vérifier que HPπ est matrice pseudo-inverse de (I − Pπ), ce qui établit un
lien clair entre cette définition de Uπet l’expression de Vπ
γ établie au théorème 1.3.
On montre alors le résultat général suivant, valable pour tout processus de Markov valué qu’il soit récurrent, unichaîne ou multichaîne :
THÉORÈME 1.9 [PUT 94].– Soit (S, Pπ, rπ) un processus de Markov valué associé
à une politique stationnaire π ∈ DA. Alors
1) si ρπet Uπsont le gain moyen et la fonction de valeur relative de π
a) (I − Pπ)ρπ = 0,
b) ρπ+ (I− P
π)Uπ = rπ.
2) réciproquement, si ρ et U vérifient les deux égalités précédentes, alors
a) ρ = P∗
Processus Décisionnels de Markov 39
b) U = HPπrπ+ u, où (I− Pπ)u = 0.
c) si de plus P∗
πU = 0, alors U = HPπrπ = U
π.
On retiendra que la fonction de valeur relative Uπest l’unique solution de (I −
Pπ)U = (I− Pπ∗)rπtelle que Pπ∗U = 0, obtenue en utilisant la pseudo-inverse HPπ
de (I − Pπ).
Dans le cas simplifié d’un processus unichaîne, la première équation se simplifie
en ρπ(s) = ρπet la seconde peut s’écrire selon :
∀s ∈ S U(s) + ρ = rπ(s) +
X
s′∈S
Pπ,s,s′U (s′). (1.4)
Toute solution (ρ, U) de cette équation vérifie alors ρ = ρπet U = Uπ+ ke, où k est
un scalaire quelconque et e le vecteur dont toutes les composantes sont égales à 1. Si
de plusPs∈Sµπ(s)U (s) = 0 alors U = Uπ. Cette équation est bien sûr à rapprocher
de celle établie pour le critère γ-pondéré. 1.5.4.2. Equations d’optimalité
Enonçons maintenant les conditions d’optimalité qu’il est possible d’établir pour
le critère moyen. Rappelons que l’on recherche les politiques π∗∈ ΠHAtelles que
ρπ∗ = max
π∈ΠHAρπ= ρ
∗
Le résultat principal énoncé dans le cadre général desMDP multichaînes est le
suivant :
THÉORÈME 1.10 [PUT 94].– Equations d’optimalité multichaîne
Dans le cas unichaîne, le gain ρ est constant et Bs= A. Les équations d’optimalité
se réduisent alors à
∀s ∈ S U(s) + ρ = maxa∈A r(s, a) + X
s′∈S
p(s′ | s, a)U(s′) !
(1.5)
Le lien entre solutions des équations d’optimalité et politiques optimales est alors établi avec le théorème suivant :
THÉORÈME 1.11 [PUT 94].– Soit (ρ, U) une solution aux équations d’optimalité. Il
existe alors une politique stationnaire markovienne déterministe gain-optimale π∗ ∈
D, déterminée par : ∀s ∈ S π∗(s)∈ argmax a∈Bs r(s, a) +X s′∈S p(s′| s, a)U(s′) !
Notons qu’il peut exister des politiques gain-optimales π∗ telles que (ρπ∗, Uπ∗)
ne vérifient pas les équations d’optimalité.
Remarquons enfin que les solutions des équations d’optimalité ne sont pas uniques,
car si (ρ∗, U ) est solution, il en est au moins de même pour (ρ∗, U + ke) pour tout
scalaire k. Surtout, il peut y avoir plusieurs fonctions de valeur relative solutions,
définissant des politiques différentes, associées au même ρ∗optimal. Il est alors utile
de rechercher parmi ces différentes solutions celles qui maximisent la fonction de valeur relative, on parle alors de bias-optimality.
1.6. Algorithmes de résolution desMDP
1.6.1. Le critère fini
Le cas de l’horizon fini est assez simple. Les équations d’optimalité permettent en effet de calculer récursivement à partir de la dernière étape les fonctions de valeur
optimales V∗
1, . . . , VN∗ selon l’algorithme 1.1.
La complexité temporelle et spatiale de cet algorithme est en O(N|S|2
|A|). 1.6.2. Le critère γ-pondéré
Trois grandes familles de méthodes existent pour résoudre de telsMDP : la
Processus Décisionnels de Markov 41
Algorithme 1.1 : Programmation dynamique à horizon fini
V0← 0
pour n ← 0 jusqu’à N − 1 faire pour s ∈ S faire
V∗
n+1(s) = maxa∈A{rN −1−n(s, a) +Ps′pN −1−n(s′|s, a)Vn∗(s′)}
πN −1−n(s)∈
argmaxa∈A{rN −1−n(s, a) +Ps′pN −1−n(s′|s, a)Vn∗(s′)}
retourner V∗, π∗
1.6.2.1. Programmation linéaire
Il est immédiat de vérifier que si V ∈ V minimise la fonctionPs∈SV (s) sous
la contrainte V ≥ LV , alors V = V∗
γ. En effet, nous avons montré au cours de la
preuve du théorème 1.4 que V ≥ LV impliquait V ≥ V∗
γ et donc que
P
s∈SV (s)≥
P
s∈SVγ∗(s). Une manière de rechercher la fonction de valeur optimale Vγ∗est donc
de résoudre le système linéaire associé, comme décrit dans l’algorithme 1.2 ci-dessous. Algorithme 1.2 : Programmation linéaire pour le critère γ-pondéré
résoudre min V ∈V X s∈S V (s) avec V (s)≥ r(s, a) + γ X s′∈S p(s′ | s, a)V (s′), ∀s ∈ S, a ∈ A pour s ∈ S faire π(s)∈ argmaxa∈A{r(s, a) + γ P s′p(s′|s, a)V (s′)} retourner V , π
Cette approche a été proposée initialement par [D’E 63]. Si n et m sont les tailles respectives de S et A, avec p() et r() codées sur b bits, la complexité d’un tel algo-rithme de programmation linéaire sur les rationnels est polynomiale en |S|, |A|, b, avec des temps de résolution assez lents [LIT 95c]. Nous verrons toutefois au chapitre 9 que des méthodes de programmation linéaire peuvent s’avérer très efficaces dans le
cadre desMDPadmettant une représentation factorisée.
1.6.2.2. Algorithme d’itération sur les valeurs
Comme le prouve le théorème 1.4, la solution de l’équation de Bellman est obtenue
comme limite de la suite Vn+1 = LVn, quelle que soit l’initialisation de V0. Il est
alors établi qu’un nombre maximum d’itérations polynomial en |S|, |A|, b, 1/(1 −
γ) log(1/(1−γ)) est nécessaire pour atteindre π∗, chaque itération étant de complexité
O(|A||S|2) [PAP 87]. Au delà de ce nombre d’itérations, la suite Vnest de plus en plus
proche de V∗mais la politique correspondante π
n= π∗ne change plus.
En pratique, plusieurs conditions d’arrêt de l’itération peuvent être envisagées. La
plus classique consiste à stopper l’itération lorsque k Vn+1− Vn k< ǫ, où ǫ est un
seuil d’erreur fixé a priori. On aboutit à l’algorithme 1.3 suivant :
Algorithme 1.3 : Algorithme d’itération sur les valeurs - Critère γ-pondéré
initialiser V0∈ V n← 0 répéter pour s ∈ S faire Vn+1(s) = maxa∈A r(s, a) + γPs′∈Sp(s′| s, a)Vn(s′) n← n + 1 jusqu’à k Vn+1− Vnk< ǫ pour s ∈ S faire π(s)∈ argmaxa∈A{r(s, a) + γ P s′p(s′|s, a)Vn(s′)} retourner Vn, π
On montre alors que k Vn− Vγ∗k< ǫ′avec ǫ′ =
2γ
1−γǫ (voir chapitre 11).
Il est possible d’améliorer la vitesse de convergence de l’algorithme d’itération
sur les valeurs en modifiant légèrement le calcul de Vn+1. L’idée consiste à utiliser
Vn+1(s) à la place de Vn(s) lorsque cette valeur a déjà été calculée. On définit ainsi
l’algorithme de Gauss-Seidel, en numérotant les états de S de 1 à |S| (algorithme 1.4). Cette idée peut encore être généralisée au cas où les états mis à jour à chaque itération sont sélectionnés aléatoirement parmi S. On définit ainsi la programmation dynamique asynchrone [BER 89].
Il est enfin possible d’optimiser encore l’algorithme en éliminant dès que possible des actions qui s’avèrent être définitivement non optimales. Cela permet ainsi de ré-duire la complexité de l’opération de maximisation sur A.
1.6.2.3. Algorithme d’itération sur les politiques
Processus Décisionnels de Markov 43
Algorithme 1.4 : Algorithme d’itération sur les valeurs - Gauss-Seidel
initialiser V0∈ V
n← 0
répéter
pour i ← 1 jusqu’à |S| faire
Vn+1(si) = maxa∈A n r(s, a) + γP1≤j<ip(sj | s, a)Vn+1(sj) + γPi≤j≤|S|p(sj | s, a)Vn(sj) o n← n + 1 jusqu’à k Vn+1− Vnk< ǫ pour s ∈ S faire π(s)∈ argmaxa∈A{r(s, a) + γ P s′p(s′|s, a)Vn(s′)} retourner Vn, π
Considérons une politique stationnaire π ∈ D et Vπ
γ sa fonction de valeur.
L’algo-rithme d’itération sur les politiques exploite la propriété suivante : PROPRIÉTÉ 1.1.– Amélioration sur 1 coup de la politique
Soit π ∈ D. Toute politique π+définie par
car si u ≥ v, (I − γPπ+)−1u = u + γPπ+u + γ2P2
π+u2· · · ≥ v + γPπ+v +
γ2P2
π+v2· · · ≥ (I − γPπ+)−1v.
L’égalité n’est possible que si maxδ∈D{rδ+ γPδVγπ} = Vγπ, soit Vγπ= Vγ∗.
L’algorithme d’itération sur les politiques se décline donc ainsi (algorithme 1.5) :
soit la politique πn à l’itération n. Dans une première étape, on résout le système
d’équations linéaires Vn = LπnVn puis, dans un second temps, on améliore la
poli-tique courante en posant πn+1∈ argmaxδ∈D{rδ+ γPδVn}. On stoppe l’algorithme
lorsque πn= πn+1.
La suite Vn, croissante et bornée par Vγ∗, converge. Comme il y a un nombre fini
de politiques, la suite πn converge alors en un nombre fini d’itération. A la limite,
Vn= Vγ∗et πnest optimale.
Algorithme 1.5 : Algorithme d’itération sur les politiques - Critère γ-pondéré
initialiser π0∈ D n← 0 répéter résoudre Vn(s) = r(s, πn(s)) + γ X s′∈S p(s′ | s, πn(s))Vn(s′), ∀s ∈ S pour s ∈ S faire πn+1(s)∈ argmaxa∈A r(s, a) + γPs′∈Sp(s′| s, a)Vn(s′) n← n + 1 jusqu’à πn= πn+1 retourner Vn, πn+1
La complexité de l’algorithme d’itération sur les politiques est en O(|A||S|2
) +
O(|S|3) par itération, avec un nombre maximum d’itérations polynomial en|S|, |A|, b
à γ constant [PAP 87].
Là aussi, il est possible d’améliorer l’efficacité de cet algorithme en simplifiant
la phase d’évaluation de la politique courante πn. Une approche classique consiste à
résoudre l’équation Vn = LπnVnde manière itérative, comme pour l’itération sur les
Processus Décisionnels de Markov 45
Algorithme 1.6 : Algorithme modifié d’itération sur les politiques - Critère γ-pondéré
initialiser V0∈ V tel que LV0≥ V0
f lag← 0 n← 0 répéter pour s ∈ S faire πn+1(s)∈ argmaxa∈A r(s, a) + γPs′∈Sp(s′| s, a)Vn(s′) (πn+1(s) = πn(s) si possible) V0 n(s) = maxa∈A r(s, a) + γPs′∈Sp(s′| s, a)Vn(s′) m← 0 si k V0 n − Vnk< ǫ alors flag ← 1 sinon répéter pour s ∈ S faire Vm+1 n (s) = r(s, πn+1(s)) + γPs′∈Sp(s′| s, πn+1(s))Vnm(s′) m← m + 1 jusqu’à k Vm+1 n − Vnmk< δ Vn+1← Vnm n← n + 1 jusqu’à flag = 1 retourner Vn, πn+1
ǫ → 0, sous l’hypothèse LV0 ≥ V0. Cette condition est par exemple vérifiée pour
le choix suivant de V0:
V0(s) =
1
1− γmins′∈Smina∈Ar(s
′, a)
pour tout s ∈ S.
En pratique, les algorithmes d’itération sur les politiques et, en particulier, l’rithme modifié d’itération sur les politiques, apparaissent plus efficaces que les algo-rithmes d’itération sur les valeurs et doivent leur être préférés.
1.6.3. Le critère total
1.6.3.1. MDPpositifs
On montre pour les modèles bornés positivement que l’algorithme d’itération sur
les valeurs converge de manière monotone vers V∗ sous l’hypothèse que V
0vérifie