5.2 Processus décisionnels de Markov Factorisés
5.2.2 Processus décisionnels de Markov sur graphe
Définitions
Un Processus Décisionnel de Markov sur Graphe (PDMG) est un cas particulier de PDM factorisé (Boutilier et al., 2000; Guestrin et al., 2003). Un PDMG est défini par un quintuplet< X , A, p, r, G >,
dans lequel l’espace d’étatsX est un produit cartésien X = X1× . . . × Xnet l’espace d’actions est, dans le cas général, un sous-ensemble A d’un produit cartésien A1 × . . . × Ande même dimension
queX . Nous supposerons pour l’instant que A = A1× . . . × An.G = (V, E) est un graphe orienté,
défini par un ensemble de sommetsV = {1, . . . , n} (n est la dimension de X et de A) et un ensemble
d’arêtesE ⊆ V2.
Une fonction de voisinage N sur G est définie par :
Définition 5.2.3 (Fonction de voisinage)
N : V → 2V est définie par :∀i ∈ V, N (i) = {j ∈ V, (j, i) ∈ E}. Le voisinage d’un sous-ensemble
de sommetsI ⊆ V est défini par extension : N (I) = ∪i∈IN (i).
Dans un PDMG, les probabilités de transition et les récompenses sont supposées locales, au sens de la structure de voisinage définie par le graphe :
Définition 5.2.4 (Transitions locales)
Soit < X , A, p, r, G > un PDMG. Les transitions sont dites locales lorsqu’il existe une famille de
probabilités de transition{pi}i=1..n, telles que :
∀x = (x1, . . . , xn) ∈ X , x′ = (x1′, . . . , x′n) ∈ X , a = (a1, . . . , an) ∈ A, p(x′|x, a) = n Y i=1 pi(x′i|xN(i), ai),
oùxI = (xi)i∈I, ∀I ⊆ {1, . . . , n}.
Définition 5.2.5 (Récompenses locales)
Soit< X , A, p, r, G > un PDMG. Les récompenses sont dites locales lorsqu’il existe une famille de
fonctions {ri}i=1..n, telles que pour toutx = (x1, . . . , xn) ∈ X , a = (a1, . . . , an) ∈ A, r(x, a) =
n
X
i=1
ri(xN(i), ai).
Cette propriété de localité des fonctions de transition et de récompense est intéressante, puisqu’elle permet de décrire un PDMG de manière concise. La complexité spatiale de l’expression d’un PDMG est une fonction linéaire du nombre de sommets, ce qui permet de représenter de très grands pro-blèmes, pourvu que la largeur du graphe (ν = maxi∈V |N (i)|) reste faible. Ceci est en général le cas
pour des problèmes de décision “spatialisée”, dans lesquels les nœuds du graphe sont attachés à des zones géographiques et les arêtes représentent des relations de voisinage entre ces zones. Néanmoins, les complexités en temps et en espace de la résolution de PDMG par des algorithmes de
programma-tion dynamique sont exponentielles enn. Ceci limite grandement la taille des PDMG qui peuvent être
52 CHAPITRE 5. EXTENSIONS DU CADRE DES PDM
Une manière de réduire la complexité de la résolution est de restreindre la recherche à des politiques qui exploitent la structure du grapheG. Dans le cas général, les politiques optimales d’un PDMG sont
de la forme δ = (δ1, . . . , δn), avec δi : X → Ai. De telles politiques, dites globales, requièrent un espace exponentiel en n pour être exprimées. Ceci est prohibitif dans la plupart des cas. Il est donc
tentant de restreindre la recherche à certaines politiques particulières, dites politiques locales :
Définition 5.2.6 (Politique locale)
Dans un PDMG< X , A, p, r, G >, une politique δ : X → A est dite locale ssi δ = (δ1, . . . , δn) où δi: XN(i) → Ai.
Restreindre la recherche d’une politique solution d’un PDMG à l’ensemble des politiques locales permet d’exploiter la structure du graphe. Cependant, la question qui se pose immédiatement est celle de l’existence de politiques optimales d’un PDMG, exprimables sous forme locale.
Non optimalité des politiques locales
Il est possible de montrer que si la fonction de valeur optimalev∗ : X → R d’un PDMG est
décom-posable, alors il existe une politique locale globalement optimale pour ce problème (Chornei et al.,
2006), [27], [28], [20], [21].
Définition 5.2.7 (Fonction de valeur optimale décomposable)
La fonction de valeur optimale v∗ d’un PDMG< X , A, p, r, G > est dite décomposable si et
seule-ment si il existe(v∗i)i∈V, v∗i : Xi → R, telles que : ∀x ∈ X , v∗(x) =
n
X
i=1
vi∗(xi).
Proposition 5.2.1 (Optimalité des politiques locales)
Si la fonction de valeur optimale v∗ d’un PDMG < X , A, p, r, G > est décomposable, alors la
politique localeδ∗= (δ1∗, . . . , δ∗n), définie par : ∀i ∈ {1, . . . , n}, ∀xN(i) ∈ XN(i),
δi∗(xN(i)) = arg max
ai∈Ai n ri(xN(i), ai) + γ X x′ i∈Xi pi(x′i|xN(i), ai).vi∗(x′i)o,
est globalement optimale.
Malheureusement, et contrairement à ce qu’affirment à tort (Chornei et al., 2006), rien ne garantit que la fonction de valeur optimale d’un PDMG quelconque soit décomposable. Et donc rien ne garantit a priori que la politique optimale d’un PDMG quelconque puisse être locale. Au contraire, l’exemple suivant montre un problème très simple pour lequel la valeur de la meilleure politique locale est strictement inférieure à la valeur de la politique optimale, en tout état.
Exemple 5.2.1
Considérons le PDMG< X , A, p, r, G > dont le graphe est représenté dans la figure (5.3). Dans ce
problème,X1 = X2 = X3= {1 . . . m}, A1 = A2 = ∅ et A3 = {1 . . . m}.
Les probabilités de transition sont définies par : – p1(x′1|x1) = m1, ∀(x1, x′1) ∈ {1 . . . m}2, – p2(x′2 = x1|x1) = 1, ∀x1 ∈ {1 . . . m},
5.2. PROCESSUS DÉCISIONNELS DE MARKOV FACTORISÉS 53
{1...m} {1...m} {1...m}
X1 X2 X3
FIG. 5.3 –Graphe du PDMG contre-exemple.
– p3(x′3 = a3|x2, x3, a3) = 1, ∀(x2, x3) ∈ {1 . . . m}2, ∀a3∈ {1 . . . m}.
Seule la fonction de récompense localer3est non nulle :r3(x2, x3) = 1 si x2 = x3 et 0 sinon. Intuitivement, dans ce problème, on cherche à assurer l’égalité dex2 etx3 au cours du temps en ne décidant que de la valeur dex3.x2“suit” exactement le processus aléatoire(Xt
1), markovien d’ordre
0, avec un pas de temps de retard.
Pour un tel problème, toute politique localeδ3est de la formeat
3 = δ3(xt 2, xt
3). Il est facile de montrer
que pour n’importe quelle politique locale de cette forme,
P r(xt+12 = xt+13 |δ3, xt2, xt3) = 1 m, ∀x
t
2, xt3, xt+12 , xt+13 .
Ceci signife que les fonctions de valeur de toutes les politiques locales sont identiques :
vδ3(x) = 1 + +∞ X t=1 γt m = 1 + γ m(1 − γ), si x2 = x3 et vδ3(x) = +∞ X t=1 γt m = γ m(1 − γ), si x26= x3, ∀δ3locale.
D’un autre côté, il est également facile de vérifier que la politiqueδ3∗(qui n’est pas locale, puisqu’elle choisitat
3en fonction dext
1) définie parat
3 = δ3∗(xt 1) = xt
1, est optimale pour le PDMG. En effet, elle garantit une récompense immédiate de1 à chaque pas de temps, à partir de t = 1 :
vδ∗ 3(x) = 1 1 − γ, si x2 = x3et vδ∗ 3(x) = γ 1 − γ, si x2 6= x3. Donc, sim ≥ 2, vδ3(x) < vδ∗ 3(x), ∀x ∈ X , puisque : vδ3(x) vδ∗ 3(x) = (1 − γ) + γ m, si x2 = x3et vδ3(x) vδ∗ 3(x) = 1 m, si x2 6= x3.
En faisant croîtrem, la valeur de la meilleure politique locale en certains états (pour lesquels x2 6= x3) peut être arbitrairement moins bonne que la valeur en ces états de la politique optimale. De plus, dans cet exemple la valeur de la meilleure politique locale est strictement moins bonne, en tout état, que celle de la politique optimale.
54 CHAPITRE 5. EXTENSIONS DU CADRE DES PDM
Méthodes de résolution approchées pour les PDMG
A travers cet exemple simple, nous voyons qu’il est illusoire d’espérer trouver une politique locale qui soit globalement optimale, ou même dont la perte d’optimalité soit bornée (au pire cas ou en moyenne), pour un PDMG quelconque. Il n’en reste pas moins que les politiques locales sont particu-lièrement intéressantes par leur simplicité d’expression et de calcul. C’est pourquoi nous nous sommes intéressés, avec Nicklas Forsell et Nathalie Peyrard, à la conception d’algorithmes de résolution ap-prochée de PDMG retournant des politiques locales. Nous avons également testé empiriquement ces algorithmes sur des problèmes de gestion forestière [16] ou d’épidémiologie végétale [29].
Il existe plusieurs algorithmes permettant de calculer la fonction de valeur optimale,v∗, d’un PDM, ou une valeur approchée dans le cas où la taille du problème ne permet pas une résolution exacte. Les méthodes de recherche de politiques locales pour les PDMG que nous avons proposées sont basées sur certains de ces algorithmes, de type programmation linéaire approchée (PLA) ou approximation
en champ moyen (CM).
Dans un PDM< X , A, p, r >, la fonction de valeur optimale v∗ est l’unique solution du programme linéaire suivant (de Ghellinck, 1960) :
min P x∈X v(x) t.q. v(x) ≥ r(x, a) + γP x′∈Xp(x′|x, a)v(x′), ∀x ∈ X , a ∈ A, v(x) libre, ∀x ∈ X (5.1)
Ce programme linéaire comprend |X | variables et |X | × |A| contraintes. La méthode de
program-mation linéaire “exacte” ne peut donc être utilisée pour résoudre des PDM factorisés comportant un grand nombre de variables. Afin de résoudre de tels problèmes, il faut trouver un moyen de diminuer à la fois le nombre de variables et de contraintes du programme linéaire correspondant.
La méthode de Programmation Linéaire Approchée (PLA) (de Farias and Van Roy, 2003, 2004) consiste à approcher la fonction de valeur optimalev∗, solution de (5.1), par une fonction de valeur paramétréevw∗, élément d’une famille de fonctions de valeurs paramétrées (vw)w∈Rk, combinaisons linéaires d’un ensemble de fonctions réellesH = {h1, . . . , hk}, choisies arbitrairement :
vw(x) =
k
X
i=1
wihi(x), ∀x ∈ X . (5.2)
Si on impose à la fonction de valeurv du programme linéaire (5.1), la forme paramétrée (5.2), on peut
définir un nouveau programme linéaire, dont les variables sont maintenant les paramètresw ∈ Rk:
min P x∈X Pk i=1wihi(x) t.q. Pk i=1wihi(x) ≥ r(x, a) + γP x′∈X p(x′|x, a).Pk i=1wihi(x′), ∀x ∈ X , ∀a ∈ A, wi libre,∀i = 1, . . . , k. (5.3)
La solution optimalew∗ = (w1∗, . . . , w∗k) de ce nouveau programme linéaire ne permet pas de calculer
la fonction de valeur solution du PDM initial, maisvw∗ en est la meilleure approximation en norme
|| · ||1. Elle minimise l’expression :
||v∗− vw||1 = X
x∈X
5.2. PROCESSUS DÉCISIONNELS DE MARKOV FACTORISÉS 55
Une politique approchée peut ensuite être calculée de manière gloutonne à partir devw∗ :
δw∗(x) = arg max a∈A n r(x, a) + γ X x′∈X p(x′|x, a).vw∗(x′)o.
(de Farias and Van Roy, 2003) fournissent des résultats sur la perte d’optimalité engendrée par le choix deδw∗ à la place deδ∗. Malheureusement, il n’existe aucune garantie que la politiqueδw∗soit la meilleure politique paramétrée au sens de la norme infiniek · k∞et donc que la politique approchée soit la meilleure possible “dans le pire des cas”.
L’intérêt de rechercher une politique paramétrée est de diminuer le nombre de variables du programme linéaire à résoudre (en général, on choisitk << |X |). Cependant, cette approximation ne permet pas
de diminuer le nombre de contraintes du problème, qui reste |X | × |A|. (de Farias and Van Roy,
2004) proposent une approximation supplémentaire, consistant à ne considérer dans (5.3) qu’un sous-ensemble de contraintes de taille raisonnable, choisi aléatoirement. Cette méthode est basée sur le constat que la plupart des contraintes sont “redondantes” et que la suppression aléatoire de certaines d’entre elles n’a qu’une faible probabilité de modifier la solution optimale de (5.3).
Nous avons montré [20], [21] (voir aussi annexe C.1), que la structure d’un PDMG pouvait être mise à profit pour concevoir un algorithme de résolution basé sur la programmation linéaire approchée, efficace (en termes de temps de calcul) et fournissant une borne en norme infinie sur la qualité des solutions retournées.
L’algorithme Itération de la Politique (IP) (Howard, 1960) permet également de calculer une poli-tique optimale dans un PDM (voir chapitre 2). Cet algorithme itératif alterne deux étapes, une étape d’évaluation de la politique courante et une étape d’amélioration de cette politique. Lorsque la poli-tique courante ne peut plus être améliorée, son optimalité est garantie. Lorsque les espaces d’états et d’actions sont trop grands, ces deux phases d’évaluation et d’amélioration peuvent être approchées. L’approximation des deux phases correspond à des algorithmes dits d’Itération de la Politique
Ap-prochée (IPA) (Bertsekas and Tsitsiklis, 1996), pour lesquels l’optimalité de la politique calculée est
sacrifiée à l’efficacité calculatoire.
Nous avons proposé dans [27], [28], une méthode de résolution de PDMG de type “itération de la politique approchée”. Cette méthode est basée sur l’utilisation de mesures d’occupation (Altman, 1999), que nous approchons par une méthode de type champ moyen (Chandler, 1987) (voir annexe C.2).