• Aucun résultat trouvé

Processus décisionnels de Markov sur graphe

5.2 Processus décisionnels de Markov Factorisés

5.2.2 Processus décisionnels de Markov sur graphe

Définitions

Un Processus Décisionnel de Markov sur Graphe (PDMG) est un cas particulier de PDM factorisé (Boutilier et al., 2000; Guestrin et al., 2003). Un PDMG est défini par un quintuplet< X , A, p, r, G >,

dans lequel l’espace d’étatsX est un produit cartésien X = X1× . . . × Xnet l’espace d’actions est, dans le cas général, un sous-ensemble A d’un produit cartésien A1 × . . . × Ande même dimension

queX . Nous supposerons pour l’instant que A = A1× . . . × An.G = (V, E) est un graphe orienté,

défini par un ensemble de sommetsV = {1, . . . , n} (n est la dimension de X et de A) et un ensemble

d’arêtesE ⊆ V2.

Une fonction de voisinage N sur G est définie par :

Définition 5.2.3 (Fonction de voisinage)

N : V → 2V est définie par :∀i ∈ V, N (i) = {j ∈ V, (j, i) ∈ E}. Le voisinage d’un sous-ensemble

de sommetsI ⊆ V est défini par extension : N (I) = ∪i∈IN (i).

Dans un PDMG, les probabilités de transition et les récompenses sont supposées locales, au sens de la structure de voisinage définie par le graphe :

Définition 5.2.4 (Transitions locales)

Soit < X , A, p, r, G > un PDMG. Les transitions sont dites locales lorsqu’il existe une famille de

probabilités de transition{pi}i=1..n, telles que :

∀x = (x1, . . . , xn) ∈ X , x = (x1, . . . , xn) ∈ X , a = (a1, . . . , an) ∈ A, p(x|x, a) = n Y i=1 pi(xi|xN(i), ai),

xI = (xi)i∈I, ∀I ⊆ {1, . . . , n}.

Définition 5.2.5 (Récompenses locales)

Soit< X , A, p, r, G > un PDMG. Les récompenses sont dites locales lorsqu’il existe une famille de

fonctions {ri}i=1..n, telles que pour toutx = (x1, . . . , xn) ∈ X , a = (a1, . . . , an) ∈ A, r(x, a) =

n

X

i=1

ri(xN(i), ai).

Cette propriété de localité des fonctions de transition et de récompense est intéressante, puisqu’elle permet de décrire un PDMG de manière concise. La complexité spatiale de l’expression d’un PDMG est une fonction linéaire du nombre de sommets, ce qui permet de représenter de très grands pro-blèmes, pourvu que la largeur du graphe (ν = maxi∈V |N (i)|) reste faible. Ceci est en général le cas

pour des problèmes de décision “spatialisée”, dans lesquels les nœuds du graphe sont attachés à des zones géographiques et les arêtes représentent des relations de voisinage entre ces zones. Néanmoins, les complexités en temps et en espace de la résolution de PDMG par des algorithmes de

programma-tion dynamique sont exponentielles enn. Ceci limite grandement la taille des PDMG qui peuvent être

52 CHAPITRE 5. EXTENSIONS DU CADRE DES PDM

Une manière de réduire la complexité de la résolution est de restreindre la recherche à des politiques qui exploitent la structure du grapheG. Dans le cas général, les politiques optimales d’un PDMG sont

de la forme δ = (δ1, . . . , δn), avec δi : X → Ai. De telles politiques, dites globales, requièrent un espace exponentiel en n pour être exprimées. Ceci est prohibitif dans la plupart des cas. Il est donc

tentant de restreindre la recherche à certaines politiques particulières, dites politiques locales :

Définition 5.2.6 (Politique locale)

Dans un PDMG< X , A, p, r, G >, une politique δ : X → A est dite locale ssi δ = (δ1, . . . , δn) où δi: XN(i) → Ai.

Restreindre la recherche d’une politique solution d’un PDMG à l’ensemble des politiques locales permet d’exploiter la structure du graphe. Cependant, la question qui se pose immédiatement est celle de l’existence de politiques optimales d’un PDMG, exprimables sous forme locale.

Non optimalité des politiques locales

Il est possible de montrer que si la fonction de valeur optimalev : X → R d’un PDMG est

décom-posable, alors il existe une politique locale globalement optimale pour ce problème (Chornei et al.,

2006), [27], [28], [20], [21].

Définition 5.2.7 (Fonction de valeur optimale décomposable)

La fonction de valeur optimale v d’un PDMG< X , A, p, r, G > est dite décomposable si et

seule-ment si il existe(vi)i∈V, vi : Xi → R, telles que : ∀x ∈ X , v(x) =

n

X

i=1

vi(xi).

Proposition 5.2.1 (Optimalité des politiques locales)

Si la fonction de valeur optimale v d’un PDMG < X , A, p, r, G > est décomposable, alors la

politique localeδ= (δ1, . . . , δn), définie par : ∀i ∈ {1, . . . , n}, ∀xN(i) ∈ XN(i),

δi(xN(i)) = arg max

ai∈Ai n ri(xN(i), ai) + γ X x′ i∈Xi pi(xi|xN(i), ai).vi(xi)o,

est globalement optimale.

Malheureusement, et contrairement à ce qu’affirment à tort (Chornei et al., 2006), rien ne garantit que la fonction de valeur optimale d’un PDMG quelconque soit décomposable. Et donc rien ne garantit a priori que la politique optimale d’un PDMG quelconque puisse être locale. Au contraire, l’exemple suivant montre un problème très simple pour lequel la valeur de la meilleure politique locale est strictement inférieure à la valeur de la politique optimale, en tout état.

Exemple 5.2.1

Considérons le PDMG< X , A, p, r, G > dont le graphe est représenté dans la figure (5.3). Dans ce

problème,X1 = X2 = X3= {1 . . . m}, A1 = A2 = ∅ et A3 = {1 . . . m}.

Les probabilités de transition sont définies par : p1(x1|x1) = m1, ∀(x1, x1) ∈ {1 . . . m}2, p2(x2 = x1|x1) = 1, ∀x1 ∈ {1 . . . m},

5.2. PROCESSUS DÉCISIONNELS DE MARKOV FACTORISÉS 53

{1...m} {1...m} {1...m}

X1 X2 X3

FIG. 5.3 –Graphe du PDMG contre-exemple.

p3(x3 = a3|x2, x3, a3) = 1, ∀(x2, x3) ∈ {1 . . . m}2, ∀a3∈ {1 . . . m}.

Seule la fonction de récompense localer3est non nulle :r3(x2, x3) = 1 si x2 = x3 et 0 sinon. Intuitivement, dans ce problème, on cherche à assurer l’égalité dex2 etx3 au cours du temps en ne décidant que de la valeur dex3.x2“suit” exactement le processus aléatoire(Xt

1), markovien d’ordre

0, avec un pas de temps de retard.

Pour un tel problème, toute politique localeδ3est de la formeat

3 = δ3(xt 2, xt

3). Il est facile de montrer

que pour n’importe quelle politique locale de cette forme,

P r(xt+12 = xt+133, xt2, xt3) = 1 m, ∀x

t

2, xt3, xt+12 , xt+13 .

Ceci signife que les fonctions de valeur de toutes les politiques locales sont identiques :

vδ3(x) = 1 + +∞ X t=1 γt m = 1 + γ m(1 − γ), si x2 = x3 et vδ3(x) = +∞ X t=1 γt m = γ m(1 − γ), si x26= x3, ∀δ3locale.

D’un autre côté, il est également facile de vérifier que la politiqueδ3(qui n’est pas locale, puisqu’elle choisitat

3en fonction dext

1) définie parat

3 = δ3(xt 1) = xt

1, est optimale pour le PDMG. En effet, elle garantit une récompense immédiate de1 à chaque pas de temps, à partir de t = 1 :

vδ 3(x) = 1 1 − γ, si x2 = x3et vδ 3(x) = γ 1 − γ, si x2 6= x3. Donc, sim ≥ 2, vδ3(x) < vδ∗ 3(x), ∀x ∈ X , puisque : vδ3(x) vδ 3(x) = (1 − γ) + γ m, si x2 = x3et vδ3(x) vδ 3(x) = 1 m, si x2 6= x3.

En faisant croîtrem, la valeur de la meilleure politique locale en certains états (pour lesquels x2 6= x3) peut être arbitrairement moins bonne que la valeur en ces états de la politique optimale. De plus, dans cet exemple la valeur de la meilleure politique locale est strictement moins bonne, en tout état, que celle de la politique optimale.

54 CHAPITRE 5. EXTENSIONS DU CADRE DES PDM

Méthodes de résolution approchées pour les PDMG

A travers cet exemple simple, nous voyons qu’il est illusoire d’espérer trouver une politique locale qui soit globalement optimale, ou même dont la perte d’optimalité soit bornée (au pire cas ou en moyenne), pour un PDMG quelconque. Il n’en reste pas moins que les politiques locales sont particu-lièrement intéressantes par leur simplicité d’expression et de calcul. C’est pourquoi nous nous sommes intéressés, avec Nicklas Forsell et Nathalie Peyrard, à la conception d’algorithmes de résolution ap-prochée de PDMG retournant des politiques locales. Nous avons également testé empiriquement ces algorithmes sur des problèmes de gestion forestière [16] ou d’épidémiologie végétale [29].

Il existe plusieurs algorithmes permettant de calculer la fonction de valeur optimale,v, d’un PDM, ou une valeur approchée dans le cas où la taille du problème ne permet pas une résolution exacte. Les méthodes de recherche de politiques locales pour les PDMG que nous avons proposées sont basées sur certains de ces algorithmes, de type programmation linéaire approchée (PLA) ou approximation

en champ moyen (CM).

Dans un PDM< X , A, p, r >, la fonction de valeur optimale v est l’unique solution du programme linéaire suivant (de Ghellinck, 1960) :

min P x∈X v(x) t.q.  v(x) ≥ r(x, a) + γP x′∈Xp(x|x, a)v(x), ∀x ∈ X , a ∈ A, v(x) libre, ∀x ∈ X (5.1)

Ce programme linéaire comprend |X | variables et |X | × |A| contraintes. La méthode de

program-mation linéaire “exacte” ne peut donc être utilisée pour résoudre des PDM factorisés comportant un grand nombre de variables. Afin de résoudre de tels problèmes, il faut trouver un moyen de diminuer à la fois le nombre de variables et de contraintes du programme linéaire correspondant.

La méthode de Programmation Linéaire Approchée (PLA) (de Farias and Van Roy, 2003, 2004) consiste à approcher la fonction de valeur optimalev, solution de (5.1), par une fonction de valeur paramétréevw∗, élément d’une famille de fonctions de valeurs paramétrées (vw)w∈Rk, combinaisons linéaires d’un ensemble de fonctions réellesH = {h1, . . . , hk}, choisies arbitrairement :

vw(x) =

k

X

i=1

wihi(x), ∀x ∈ X . (5.2)

Si on impose à la fonction de valeurv du programme linéaire (5.1), la forme paramétrée (5.2), on peut

définir un nouveau programme linéaire, dont les variables sont maintenant les paramètresw ∈ Rk:

min P x∈X Pk i=1wihi(x) t.q.      Pk i=1wihi(x) ≥ r(x, a) + γP x′∈X p(x|x, a).Pk i=1wihi(x), ∀x ∈ X , ∀a ∈ A, wi libre,∀i = 1, . . . , k. (5.3)

La solution optimalew = (w1, . . . , wk) de ce nouveau programme linéaire ne permet pas de calculer

la fonction de valeur solution du PDM initial, maisvw∗ en est la meilleure approximation en norme

|| · ||1. Elle minimise l’expression :

||v− vw||1 = X

x∈X

5.2. PROCESSUS DÉCISIONNELS DE MARKOV FACTORISÉS 55

Une politique approchée peut ensuite être calculée de manière gloutonne à partir devw∗ :

δw∗(x) = arg max a∈A n r(x, a) + γ X x′∈X p(x|x, a).vw∗(x)o.

(de Farias and Van Roy, 2003) fournissent des résultats sur la perte d’optimalité engendrée par le choix deδw∗ à la place deδ. Malheureusement, il n’existe aucune garantie que la politiqueδw∗soit la meilleure politique paramétrée au sens de la norme infiniek · ket donc que la politique approchée soit la meilleure possible “dans le pire des cas”.

L’intérêt de rechercher une politique paramétrée est de diminuer le nombre de variables du programme linéaire à résoudre (en général, on choisitk << |X |). Cependant, cette approximation ne permet pas

de diminuer le nombre de contraintes du problème, qui reste |X | × |A|. (de Farias and Van Roy,

2004) proposent une approximation supplémentaire, consistant à ne considérer dans (5.3) qu’un sous-ensemble de contraintes de taille raisonnable, choisi aléatoirement. Cette méthode est basée sur le constat que la plupart des contraintes sont “redondantes” et que la suppression aléatoire de certaines d’entre elles n’a qu’une faible probabilité de modifier la solution optimale de (5.3).

Nous avons montré [20], [21] (voir aussi annexe C.1), que la structure d’un PDMG pouvait être mise à profit pour concevoir un algorithme de résolution basé sur la programmation linéaire approchée, efficace (en termes de temps de calcul) et fournissant une borne en norme infinie sur la qualité des solutions retournées.

L’algorithme Itération de la Politique (IP) (Howard, 1960) permet également de calculer une poli-tique optimale dans un PDM (voir chapitre 2). Cet algorithme itératif alterne deux étapes, une étape d’évaluation de la politique courante et une étape d’amélioration de cette politique. Lorsque la poli-tique courante ne peut plus être améliorée, son optimalité est garantie. Lorsque les espaces d’états et d’actions sont trop grands, ces deux phases d’évaluation et d’amélioration peuvent être approchées. L’approximation des deux phases correspond à des algorithmes dits d’Itération de la Politique

Ap-prochée (IPA) (Bertsekas and Tsitsiklis, 1996), pour lesquels l’optimalité de la politique calculée est

sacrifiée à l’efficacité calculatoire.

Nous avons proposé dans [27], [28], une méthode de résolution de PDMG de type “itération de la politique approchée”. Cette méthode est basée sur l’utilisation de mesures d’occupation (Altman, 1999), que nous approchons par une méthode de type champ moyen (Chandler, 1987) (voir annexe C.2).