It ´eration exacte sur la fonction de valeur

Processus D´ecisionnels de Markov Partiellement Observables - POMDP

2.2 It ´eration exacte sur la fonction de valeur

0 1 b(s₁)

a₂ a₁

a₃

Figure2.4 –α-vecteurs pour un problème à 2 états et 3 actions.

où (·) dénote le produit scalaire usuel. Pour unb donné, le gradient de la fonction de valeur est induit par le vecteur :

α^b_n= arg max

αⁱ_n∈Γn

b·αⁱ_n (2.15)

et la politiqueπ(b) par l’action associ´ee `a ce vecteura(α^b_n), telle que :π(b) =a(α^b_n).

2.2 It ´eration exacte sur la fonction de valeur

Dans le cadre des POMDP, l’itération sur la fonction de valeur consiste à approcherV^∗ par l’application itérée de l’opérateur de programmation dynamiqueLà partir d’une fonction de valeur initialeV₀supposée linéaire par morceaux et convexe. Pour l’opérateurL, le produit intermédiaire estimé (V1, V2, ...), sera aussi linéaire par morceaux et convexe [Smallwood et Sondik, 1973].

Des algorithmes qui manipulent directement desα-vecteurs afin de calculer les fonctions de valeur intermédiaires du problème ont été proposés dans la littérature. Par exemple, l’algorithme proposé par [Smallwood et Sondik, 1971] calcule toutes les projections LV_n possibles qui peuvent être construites, en appliquant la projection de la valeur autant de fois que nécessaire sur les paires action-observation.

Dans la suite, nous pr´esentons les calculs n´ecessaires pour l’obtention de ces projections.

Tout d’abord, il est nécessaire de créer les α-vecteurs associés à la valeur immédiate des actions, puis les projections pour toutes les paires action-observation sont calculées :

Γ^a,∗← α^a,∗(s) =r(s, a) (2.16)

Γ^a,o← α^a,o_i (s) =γ X

s⁰∈S

p(s⁰|s, a)p(o|s⁰, a)αi(s⁰),∀α_i ∈Vn. (2.17) Ensuite, l’opérateur de somme croisée doit être appliqué pour compléter la génération de l’ensemble desα-vecteurs associés à la projection à n+ 1 :

Γ^a= Γ^a,∗M

Γ^a,o¹M

Γ^a,o²M . . .M

Γ^a,o^|Ω| (2.18)

On définit la somme croisée d’ensembles par : soit deux ensembles P = {p₁, p₂, . . . , p_m} et Q = {q₁, q₂, . . . , q_k}, la somme croisée produit un troisième ensemble tel que PL

Q = {p₁+q1, p1+q2, . . . , p1+qk, . . . , pm+q1, pm+q2, . . . , pm+qk}.

Finalement nous prenons l’union sur tous les ensembles Γ^a : V_n+1 ← LV_n=[

Γ^a (2.19)

Pour illustrer le fonctionnement de cette procédure, nous proposons de considérer le problème du tigre présenté au début de ce chapitre (voir figure 2.1). Nous illustrons une seule itération du calcul de la fonction de valeur.

Exemple 2.2.1 Le problème du tigre consiste à choisir d’ouvrir la porte qui ne contient pas le tigre ; l’agent ne connait pas l’état réel du système (il ne sait pas où le tigre se trouve).

L’agent peut seulement écouter à chaque porte, ce qui fait office d’observation. Il dispose de 3 actions, écouter, ouvrir la porte à gauche ou ouvrir la porte à droite. Chaque fois que l’agent choisit d’écouter, cette action lui coûte1. Si l’agent choisit d’ouvrir une des portes et que le tigre se trouve derrière cette porte, l’agent perd 100. S’il ouvre la bonne porte il gagne 10. L’action d’ouvrir une des portes réinitialise le système (voir schéma du problème dans la figure 2.5). L’agent gange le défi à chaque fois qu’il choisit d’ouvrir la porte que contient le cadeau.

Figure 2.5 – Illustration des états, des actions et des observations, ainsi que des fonctions de transition, d’observation et de récompense pour le problème du tigre.

Pour commencer à résoudre ce problème, un ensemble initial deα-vecteurs V₀ est extrait directement de la fonction de récompense, à savoir un α-vecteur par action :

V0←αâ(s) =r(s, a),∀a∈A. (2.20) La figure 2.6(a) montre la fonction de valeur initiale paramétrée par ces α-vecteurs. Cette figure montre seulement la dimension b(s₁), puisque b(s₂) = 1−b(s₁). Les figures 2.7 et 2.8 décrivent les étapes qui amènent à la solution pour un horizon t = 1, avec un facteur d’actualisation γ = 0.95. La première étape consiste à projeter V₀ pour chaque paire action-observation (équation 2.17). La seconde étape concerne la somme croisée avec les revenus immédiats (équation 2.18). L’étape finale concerne l’union (équation 2.19). La fonction de valeur à l’étape V₁ est ainsi construite, et montrée sur la figure 2.6(b).

-40.0

(a)α-vecteurs pourt= 0. Le vecteur en rouge est associé à l’action a0, le vecteur en bleu à

(b) α-vecteurs pour t = 1. Les vecteurs en rouge sont associés à l’action a0, les vecteurs en bleu àa1, et les vecteurs en vert àa2.

Figure2.6 – Fonction de valeur pour les deux premières itérations du problème du tigre.

2.2. It´eration exacte sur la fonction de valeur

Malheureusement, à chaque étape, un nombre de vecteurs exponentiel en|Ω|est généré :

|V_n+1| = |A||V_n|^|Ω|. Les régions associées à de nombreux vecteurs seront vides, et seront donc inutiles (vecteurs en noir dans la figure 2.6(b) de l’exemple 2.2.1). Des algorithmes comme [Littman, 1997,Monahan, 1982] s’intéressent à les identifier pour, ensuite, les ignorer.

Cette opération, qu’on appelle élagage, exige la résolution d’un programme linéaire pour chaqueα-vecteur, et est plutôt coûteuse [Sigaud et Buffet, 2008] puisqu’elle ajoute des coûts de traitement, surtout quand l’espace d’état est grand. De plus, nous rappelons que dans le pire cas, la programmation linéaire a une complexité exponentielle en nombre d’observations.

Dans [Littman, 1994], une autre approche est envisagée : étant donné les ensembles de vecteurs résultants des projections Γâ,o et des sommes croisées Γâ, et étant donné un état de croyance b, on considère le vecteur qui maximise la valeur de b en ajoutant ce vecteur dans V. Après, on cherche une évidence, soit un point témoin, pour lequel ce vecteur est sous-optimal. Quand on rencontre un point témoin, on ajoute le vecteur optimal de ce point

a la représentation actuelle deV. Ensuite, on vérifie la dominance de ce nouveau vecteur afin de trouver un autre point témoin, et ainsi de suite. Cet algorithme, qui a pour nomwitness, calcule une solution exacte. Ces vérifications exigent la résolution d’un programme linéaire, qui est construit pour chaque vérification de la dominance d’un α-vecteur afin de obtenir une représentation parcimonieuse deV.

[Littman, 1997] propose de réaliser des opérations d’élagage de manière incrémentale. La vérification de la dominance de chaque vecteur est faite à des moments différents : après la

projection pour le calcul des Γâ,o_i , après la somme croisée avec les revenus immédiats et après l’union des vecteurs sur les actions. De cette fa¸con, nous pouvons obtenir une représentation plus compacte de la fonction de valeur.

En général, calculer une solution ou une politique optimale pour les POMDPs devient un problème insoluble pour des problèmes réalistes. Ceci exige des techniques de résolution approchée. Dans la suite nous présenterons quelques travaux qui se sont intéressés à appro-cher la fonction de valeur des POMDP par des algorithmes approchés (équation de valeur modifiée).

Dans le document The DART-Europe E-theses Portal (Page 53-56)