• Aucun résultat trouvé

It ´eration exacte sur la fonction de valeur

Dans le document The DART-Europe E-theses Portal (Page 53-56)

Processus D´ecisionnels de Markov Partiellement Observables - POMDP

2.2 It ´eration exacte sur la fonction de valeur

0 1 b(s1)

Vn

a2 a1

a3

Figure2.4 –α-vecteurs pour un probl`eme `a 2 ´etats et 3 actions.

o`u (·) d´enote le produit scalaire usuel. Pour unb donn´e, le gradient de la fonction de valeur est induit par le vecteur :

αbn= arg max

αin∈Γn

b·αin (2.15)

et la politiqueπ(b) par l’action associ´ee `a ce vecteura(αbn), telle que :π(b) =a(αbn).

2.2 It ´eration exacte sur la fonction de valeur

Dans le cadre des POMDP, l’it´eration sur la fonction de valeur consiste `a approcherV par l’application it´er´ee de l’op´erateur de programmation dynamiqueL`a partir d’une fonction de valeur initialeV0suppos´ee lin´eaire par morceaux et convexe. Pour l’op´erateurL, le produit interm´ediaire estim´e (V1, V2, ...), sera aussi lin´eaire par morceaux et convexe [Smallwood et Sondik, 1973].

Des algorithmes qui manipulent directement desα-vecteurs afin de calculer les fonctions de valeur interm´ediaires du probl`eme ont ´et´e propos´es dans la litt´erature. Par exemple, l’algorithme propos´e par [Smallwood et Sondik, 1971] calcule toutes les projections LVn possibles qui peuvent ˆetre construites, en appliquant la projection de la valeur autant de fois que n´ecessaire sur les paires action-observation.

Dans la suite, nous pr´esentons les calculs n´ecessaires pour l’obtention de ces projections.

Tout d’abord, il est n´ecessaire de cr´eer les α-vecteurs associ´es `a la valeur imm´ediate des actions, puis les projections pour toutes les paires action-observation sont calcul´ees :

Γa,∗← αa,∗(s) =r(s, a) (2.16)

Γa,o← αa,oi (s) =γ X

s0∈S

p(s0|s, a)p(o|s0, a)αi(s0),∀αi ∈Vn. (2.17) Ensuite, l’op´erateur de somme crois´ee doit ˆetre appliqu´e pour compl´eter la g´en´eration de l’ensemble desα-vecteurs associ´es `a la projection `a n+ 1 :

Γa= Γa,∗M

Γa,o1M

Γa,o2M . . .M

Γa,o|Ω| (2.18)

On d´efinit la somme crois´ee d’ensembles par : soit deux ensembles P = {p1, p2, . . . , pm} et Q = {q1, q2, . . . , qk}, la somme crois´ee produit un troisi`eme ensemble tel que PL

Q = {p1+q1, p1+q2, . . . , p1+qk, . . . , pm+q1, pm+q2, . . . , pm+qk}.

Finalement nous prenons l’union sur tous les ensembles Γa : Vn+1 ← LVn=[

a

Γa (2.19)

Pour illustrer le fonctionnement de cette proc´edure, nous proposons de consid´erer le probl`eme du tigre pr´esent´e au d´ebut de ce chapitre (voir figure 2.1). Nous illustrons une seule it´eration du calcul de la fonction de valeur.

Exemple 2.2.1 Le probl`eme du tigre consiste `a choisir d’ouvrir la porte qui ne contient pas le tigre ; l’agent ne connait pas l’´etat r´eel du syst`eme (il ne sait pas o`u le tigre se trouve).

L’agent peut seulement ´ecouter `a chaque porte, ce qui fait office d’observation. Il dispose de 3 actions, ´ecouter, ouvrir la porte `a gauche ou ouvrir la porte `a droite. Chaque fois que l’agent choisit d’´ecouter, cette action lui coˆute1. Si l’agent choisit d’ouvrir une des portes et que le tigre se trouve derri`ere cette porte, l’agent perd 100. S’il ouvre la bonne porte il gagne 10. L’action d’ouvrir une des portes r´einitialise le syst`eme (voir sch´ema du probl`eme dans la figure 2.5). L’agent gange le d´efi `a chaque fois qu’il choisit d’ouvrir la porte que contient le cadeau.

Figure 2.5 – Illustration des ´etats, des actions et des observations, ainsi que des fonctions de transition, d’observation et de r´ecompense pour le probl`eme du tigre.

Pour commencer `a r´esoudre ce probl`eme, un ensemble initial deα-vecteurs V0 est extrait directement de la fonction de r´ecompense, `a savoir un α-vecteur par action :

V0←αa(s) =r(s, a),∀a∈A. (2.20) La figure 2.6(a) montre la fonction de valeur initiale param´etr´ee par ces α-vecteurs. Cette figure montre seulement la dimension b(s1), puisque b(s2) = 1−b(s1). Les figures 2.7 et 2.8 d´ecrivent les ´etapes qui am`enent `a la solution pour un horizon t = 1, avec un facteur d’actualisation γ = 0.95. La premi`ere ´etape consiste `a projeter V0 pour chaque paire action-observation (´equation 2.17). La seconde ´etape concerne la somme crois´ee avec les revenus imm´ediats (´equation 2.18). L’´etape finale concerne l’union (´equation 2.19). La fonction de valeur `a l’´etape V1 est ainsi construite, et montr´ee sur la figure 2.6(b).

-40.0

(a)α-vecteurs pourt= 0. Le vecteur en rouge est associ´e `a l’action a0, le vecteur en bleu `a

(b) α-vecteurs pour t = 1. Les vecteurs en rouge sont associ´es `a l’action a0, les vecteurs en bleu `aa1, et les vecteurs en vert `aa2.

Figure2.6 – Fonction de valeur pour les deux premi`eres it´erations du probl`eme du tigre.

2.2. It´eration exacte sur la fonction de valeur

Malheureusement, `a chaque ´etape, un nombre de vecteurs exponentiel en|Ω|est g´en´er´e :

|Vn+1| = |A||Vn||Ω|. Les r´egions associ´ees `a de nombreux vecteurs seront vides, et seront donc inutiles (vecteurs en noir dans la figure 2.6(b) de l’exemple 2.2.1). Des algorithmes comme [Littman, 1997,Monahan, 1982] s’int´eressent `a les identifier pour, ensuite, les ignorer.

Cette op´eration, qu’on appelle ´elagage, exige la r´esolution d’un programme lin´eaire pour chaqueα-vecteur, et est plutˆot coˆuteuse [Sigaud et Buffet, 2008] puisqu’elle ajoute des coˆuts de traitement, surtout quand l’espace d’´etat est grand. De plus, nous rappelons que dans le pire cas, la programmation lin´eaire a une complexit´e exponentielle en nombre d’observations.

Dans [Littman, 1994], une autre approche est envisag´ee : ´etant donn´e les ensembles de vecteurs r´esultants des projections Γa,o et des sommes crois´ees Γa, et ´etant donn´e un ´etat de croyance b, on consid`ere le vecteur qui maximise la valeur de b en ajoutant ce vecteur dans V. Apr`es, on cherche une ´evidence, soit un point t´emoin, pour lequel ce vecteur est sous-optimal. Quand on rencontre un point t´emoin, on ajoute le vecteur optimal de ce point

`

a la repr´esentation actuelle deV. Ensuite, on v´erifie la dominance de ce nouveau vecteur afin de trouver un autre point t´emoin, et ainsi de suite. Cet algorithme, qui a pour nomwitness, calcule une solution exacte. Ces v´erifications exigent la r´esolution d’un programme lin´eaire, qui est construit pour chaque v´erification de la dominance d’un α-vecteur afin de obtenir une repr´esentation parcimonieuse deV.

[Littman, 1997] propose de r´ealiser des op´erations d’´elagage de mani`ere incr´ementale. La v´erification de la dominance de chaque vecteur est faite `a des moments diff´erents : apr`es la

projection pour le calcul des Γa,oi , apr`es la somme crois´ee avec les revenus imm´ediats et apr`es l’union des vecteurs sur les actions. De cette fa¸con, nous pouvons obtenir une repr´esentation plus compacte de la fonction de valeur.

En g´en´eral, calculer une solution ou une politique optimale pour les POMDPs devient un probl`eme insoluble pour des probl`emes r´ealistes. Ceci exige des techniques de r´esolution approch´ee. Dans la suite nous pr´esenterons quelques travaux qui se sont int´eress´es `a appro-cher la fonction de valeur des POMDP par des algorithmes approch´es (´equation de valeur modifi´ee).

Dans le document The DART-Europe E-theses Portal (Page 53-56)

Outline

Documents relatifs