• Aucun résultat trouvé

1.5 Conclusion et intuitions

2.1.3 Politique et fonction de valeur

a jour.

Toutefois, calculer la politique optimale exacte ou approch´ee est une tˆache encore plus difficile [Papadimitriou et Tsitsiklis, 1987], non seulement en raison de la taille de l’espace d’´etats, mais surtout de la taille de l’espace d’observations. L’optimisation de la politique du POMDP est r´ealis´ee par une recherche en largeur dans l’espace d’´etats de croyance. En commen¸cant par l’´etat de croyance initial on ´enum`ere les diff´erents al´eas possibles, ce qui fait que le nombre d’´etats de croyance, qui d´ependent de l’historique de paires action-observation, augmentera exponentiellement avec l’horizon de planification. Ces aspects seront discut´es plus en d´etaille dans la section suivante.

2.1.3 Politique et fonction de valeur

L’objectif de l’agent est de choisir des actions qui permettront d’accomplir au mieux sa mission, d’o`u la n´ecessit´e de calculer une politique optimale. Une politique markovienne d´eterministe π(b) est une fonction qui sp´ecifie une action a pour chaque ´etat de croyance, π(b) : b 7→ a.

Pour un ´etat de croyance b, et un horizon fini N (voir figure 2.3 pour un horizon N = 2), on construit un arbre dont la racine est un ´etat de croyance b donn´e (plan conditionnel),

2.1. Rappel du cadre formel des POMDP t = 0 t = 1 t = 2 b ba1 o1 ba1 o2 a= a1 o1 o2 ba2 o1 ba2 o2 a= a2 o1 o2

Figure 2.3 – Plan conditionnel pour un ´etat de croyance b.

et `a chaque ´etape du plan, un nœud action (cercles dans la figure 2.3) contient une action `

a effectuer. En fonction de l’observation re¸cue, on se d´eplace vers un nœud qui repr´esente l’´etat de croyance obtenu (rectangles dans la figure 2.3).

Pour un horizon infini, soit un horizon de temps assez grand pour que la politique soit consid´er´ee stationnaire, l’objectif est de maximiser l’esp´erance de la somme d´ecompt´ee de r´ecompenses. Ou, si r d´efinit un coˆut, l’objectif devient de minimiser le coˆut total esp´er´e. A noter que, contrairement aux MPD, la politique π(b) est une fonction d´efinie sur l’ensemble continu de distribution de probabilit´e sur les ´etats.

Une politique π peut ˆetre caract´eris´ee par une fonction de valeur, Vπ(b), qui est d´efinie par l’esp´erance des revenus totaux pond´er´es en fonction du temps, que l’agent recevra s’il suit la politique π en partant de b. La fonction de valeur r´ealise une projection d’un ´etat de croyance sur une valeur dans R. L’´equation 2.7 met en ´evidence le crit`ere γ-pond´er´e classiquement utilis´e. Vπ(b) = Eπ " X t=0 γtr(bt, π(bt)) b0 = b # (2.7) o`u γ est le facteur d’actualisation, 0 6 γ < 1, et :

r(bt, π(bt)) =X

s∈S

r(s, π(bt))bt(s) (2.8)

Notons que dans la d´efinition g´en´erale de la r´ecompense, r(bt, π(bt)) est une esp´erance de gain par rapport `a l’´etat de croyance. Le principal int´erˆet du facteur d’actualisation est d’assurer la convergence de la s´erie en horizon infini [Sigaud et Buffet, 2008]. De plus, il repr´esente la probabilit´e que le processus continue `a chaque pas de temps.

Une politique π qui maximise Vπ est appel´ee politique optimale π. Il est d´emontr´e qu’il existe une politique markovienne optimale, c’est-`a-dire qui sp´ecifie pour chaque b l’action optimale `a effectuer `a chaque ´etape, en supposant que l’agent agira de mani`ere optimale dans les ´etapes suivantes.

La valeur d’une politique optimale π est d´efinie par la fonction valeur optimale V, qui satisfait l’´equation d’optimalit´e de Bellman, V = LV :

V(b) = max a∈A " X s∈S r(s, a)b(s) + γX o∈Ω p(o | a, b)V(boa) # , (2.9)

o`u, boa ´etant donn´e par 2.6, repr´esente l’´etat de croyance futur si l’on applique a et que l’on re¸coit l’observation o. L’op´erateur L est l’op´erateur dynamique de Bellman. On garantit que la solution est optimale quand 2.9 converge pour tout b [Sigaud et Buffet, 2008].

Les d´eveloppements th´eoriques qui ont ´et´e r´ealis´es sur les diff´erents crit`eres pour les MDP [Puterman, 1994, Sigaud et Buffet, 2008] sont utilisables de la mˆeme mani`ere et sont d´efinis sur les ´etats de croyance, dont l’op´erateur d’it´eration de la fonction valeur, qui utilise l’´equation de Bellman. Cette m´ethode tr`es connue pour le calcul de la politique optimale s’appuie sur des it´erations de type programmation dynamique [Smallwood et Sondik, 1973], qui consistent `a faire converger la valeur progressivement vers le point fixe de l’´equation 2.9 pour chaque ´etat de croyance. Soit V une fonction de valeur, l’on peut initialiser la fonction de valeur par : V0(b) = max a∈A X s∈S b(s)r(s, a), (2.10)

et, l’on peut calculer la fonction de valeur pour chaque instant t en s’appuyant sur la fonction de valeur `a t − 1 par la propri´et´e r´ecursive de l’´equation :

Vt(b) = max a∈A " X s∈S r(s, a)b(s) + γX o∈Ω p(o | a, b)Vt−1(boa) # . (2.11)

Cette mise `a jour de la fonction de valeur maximise l’esp´erance de tous les gains futurs que l’agent recevra `a la prochaine ´etape pour tout ´etat de croyance b. La politique optimale `

a t peut ˆetre extraite directement de la fonction de valeur `a l’´etape pr´ec´edente :

π(b) = arg max a∈A " X s∈S r(s, a)b(s) + γX o∈Ω p(o | a, b)Vt−1(boa) # . (2.12)

En pratique, la solution exacte d’un POMDP `a horizon infini est souvent difficile `a calculer [Papadimitriou et Tsitsiklis, 1987]. La solution exacte d’un POMDP ne peut ˆetre calcul´ee que pour des probl`emes avec un petit nombre d’´etats [Cassandra, 1998]. Pour cela, les chercheurs se sont int´eress´es `a d´evelopper des algorithmes qui approchent la solution optimale [Cassandra, 1998, Pineau et al., 2003, Smith et Simmons, 2004, Spaan et Vlassis, 2005, Smith et Simmons, 2005, Kurniawati et al., 2008].

Fonction de valeur lin ´eaire par morceaux

En travaillant avec les ´etats de croyance, il est possible d’exploiter des propri´et´es parti-culi`eres de la fonction de valeur afin d’obtenir des algorithmes plus efficaces.

La fonction de valeur optimale pour un probl`eme `a horizon fini est lin´eaire par morceaux et convexe (PWLC) [Smallwood et Sondik, 1973], et pour un horizon infini V, elle peut ˆetre aussi approch´ee par une fonction de valeur PWLC. Ceci est dˆu au fait qu’on peut param´etrer la fonction de valeur Vnpar un ensemble fini de vecteurs (hyperplans)αi

n , i = 1, ..., |Vn| [Cassandra, 1998]. De plus, chaque vecteur d´efinit une r´egion de l’espace des ´etats de croyance, o`u ce vecteur repr´esente la valeur maximale de Vn(voir figure 2.4). Les α-vecteurs forment une partition de l’´etat de croyance. La convexit´e et la lin´earit´e par morceaux de la fonction de valeur d´ecoule du fait que Vnr´ealise le maximum des valeurs des actions (´equation 2.11), qui sont individuellement lin´eaires (repr´esent´ees par des α-vecteurs) sur l’espace des ´etats de croyance.

La fonction de valeur d’un b donn´e `a l’instant n param´etr´ee par des α-vecteurs peut ainsi ˆetre d´efinie par l’existence d’un ensemble d’α-vecteurs Γn tel que :

Vn(b) = max

αi n∈Γn

X

s∈S

b(s)αin(s), ou sous forme vectorielle (2.13)

Vn(b) = max

αi n∈Γn