• Aucun résultat trouvé

2.4 Processus D´ ecisionnels de Markov

2.4.6 R´ esolution des PDMPO

Dans la r´esolution des PDMPO, la premi`ere question qui se pose est de savoir si l’on peut se ramener `

a un processus de d´ecision markovien (sous-jacent) ou pas. Buffet [Buf03] fait ainsi une distinction entre les algorithmes de r´esolution, selon qu’ils sont bas´es ou non sur l’estimation de l’´etat sous-jacent. Seules les algorithmes avec estimation d’´etat sont pr´esent´es ici. Le lecteur int´eress´e pourra trouver dans [Buf03] des informations sur les m´ethodes sans estimation d’´etat, en particulier sur l’approche bas´ee sur un Q-learning boltzmannien adapt´e.

Les algorithmes avec estimation d’´etat essaient de se ramener `a un PDM sous-jacent. Deux situations sont alors possibles (selon les connaissances dont dispose l’agent) :

1. Avec mod`ele : l’agent connaˆıt le PDM en question (S; A; T ; p; rt) ainsi que la fonction d’observation O, et essaye de trouver dans quel ´etat il se trouve.

2. Sans mod`ele : l’agent ne connaˆıt pas le PDM sous-jacent, mais essaye de l’apprendre ou de construire un PDM sur la base de l’historique des observations et des actions pr´ec´edentes.

I. Mod`ele connu

PDM des ´etats de croyance L’historique des actions et perceptions de l’agent ne sera g´en´eralement

pas suffisant pour connaˆıtre l’´etat du syst`eme dans le PDM sous-jacent connu. Par contre, on peut estimer une probabilit´e de distribution sur l’ensemble des ´etats possibles, appel´ee ”´etat de croyance” (belief state). On peut alors travailler sur un nouveau PDM d´efini sur l’ensemble des ´etats de croyance. Le probl`eme est que ces ´etats de croyance forment un ensemble potentiellement infini (continu). Il faut donc r´esoudre deux difficult´es : estimer l’´etat courant et trouver un algorithme applicable dans l’espace continu des ´etats de croyance.

Soit b ∈ Π(S) une distribution de probabilit´e sur l’espace des ´etats cach´es S. Notons par b(s) la probabilit´e que le processus se trouve dans l’´etat s. Astrom [Ast65] a montr´e que la connaissance de bt, l’´etat de croyance `a l’instant t, est suffisante pour pouvoir contrˆoler le processus partiellement observable de fa¸con optimum et markovienne. Pour une politique donn´ee, la suite des ´etats de croyance{Bt} est en effet elle-mˆeme une chaˆıne de Markov.

En effet, en supposant qu’`a l’instant t l’´etat de croyance est b, que l’on ex´ecute l’action a pour ensuite obtenir, `a l’instant t + 1, l’observation o et l’´etat de croyance b, on a :

b(s) = pr(s|b, a, o) = pr(s , b, a, o) pr(b, a, o) = pr(o|s, b, a)· pr(s|b, a) · pr(b, a) pr(o|b, a) · pr(b, a) = pr(o |s)· pr(s|b, a)  s,s∈S×S pr(o|s)· pr(s|s, a) · pr(s|b) = pr(o|s)· s∈S pr(s|s, a) · pr(s, b)  s,s∈S×S pr(o|s)· pr(s|s, a) · pr(s|b)

(o) (o’) b(s’)

b’(s’)

b(s) b’(s)

II. PDM des états de croyance

b

b’

I. PDMPO des états cachés

1

1

a

s

o

o’

s’

a

Fig. 2.17 – Transitions entre ´etats cach´es dans un PDMPO (I) ou entre ´etats de croyance (II) Etant donn´es les param`etres du mod`ele PDMPO, on peut ´ecrire :

b(s) = O(s, o)· s∈S p(s|s, a) · b(s)  s,s∈S×S O(s, o)· p(s|s, a) · b(s) (2.2) Il apparaˆıt donc que l’´etat de croyance `a l’instant t + 1 ne d´epend que de l’´etat de croyance `a l’instant t et de la transition (action puis observation). Surtout, la connaissance de l’´etat de croyance `a l’instant t− 1 ne rajoute rien puisque cela n’influence pas le calcul de la probabilit´e d’ˆetre dans l’´etat s quand, connaissant l’´etat de croyance b, on effectue l’action a : pr(bt+1|bt, at, bt−1) = pr(bt+1|bt, at).

De plus la fonction de r´ecompense peut aussi tr`es facilement se calculer en fonction de b et a car :

r(b, a) = s∈S

r(s, a)· b(s)

esolution intuitive Pour illustrer le principe de r´esolution du PDM associ´e aux ´etats de croyance et faciliter sa compr´ehension, nous commen¸cons par un exemple simple. Consid´erons un PDMPO `a deux ´

etats cach´es s1 et s2, deux observations o1 et o2et deux actions possibles a1 et a2. Un ´etat de croyance b peut s’´ecrire alors comme une distribution (p, 1− p) o`u p est la probabilit´e que l’agent se trouve dans s1 : p = b(s1). Ceci implique que l’espace des ´etats de croyance peut ˆetre repr´esent´es par le segment [0− 1] sur la droite R comme illustr´e dans la figure 2.18. Un ´etat de croyance b est repr´esent´e par la suite seulement `a travers la valeur p.

Valeur d’une politique `a horizon 1 Si on consid`ere le probl`eme `a horizon 1, alors la valeur Va(b) associ´ee `a une politique d’horizon 1 pour laquelle on choisit l’action a est la r´ecompense imm´ediate per¸cue dans l’´etat de croyance b.

Va(b) = r(b, a) =  s∈S

r(s, a)· b(s) = p · r(s1, a) + (1− p) · r(s2, a)

Nous remarquons ainsi que l’utilit´e d’une action a, `a horizon 1, est une fonction lin´eaire de p. La figure 2.18 illustre graphiquement les valeurs des deux strat´egies possibles a1 et a2. Il devient alors clair que la strat´egie optimale consiste `a choisir a1pour les ´etats de croyance dont p≤ p∗ et a2pour le reste. Valeur d’une politique `a horizon 2 Nous nous int´eressons maintenant aux utilit´es des politiques `a un horizon de deux pas. L’agent agit comme s’il lui reste deux pas `a ex´ecuter : au premier il applique une action a et selon l’observation re¸cue, il applique une deuxi`eme action a. En g´en´eral, lorsqu’on s’int´eresse `

a un horizon fini t, ces strat´egies sont appel´ees politiques `a t pas (t-step policy) [KLC98].

Dans notre PDMPO, parmi les huit politiques distinctes `a 2 pas, consid´erons par exemple la strat´egie π qui applique a1puis a2, quelle que soit l’observation re¸cue (o1ou o2). Un autre exemple serait a1suivie de i) a1si l’on observe o1ii) a2 si l’on observe o2. Les transitions possibles engendr´ees par la politique π

0 1

a1

p∗ a2

Fig. 2.18 – Utilit´es `a horizon 1 des actions a1et a2

dans l’espace des ´etats de croyance sont illustr´ees dans la figure 2.19. Les indices des ´etats de croyance refl`etent les observations aper¸cues (b1,2 correspond `a la s´equence o1, o2).

b1,2 b1,1 b2,2 b2,1 b2 b1 a2 a2 a2 a2 a1 b o2 o1 o1 o2 a1 r(b, a1) r(b1, a2) r(b2, a2) o2 o1

Fig. 2.19 – Transitions possibles dans le PDM des ´etats de croyance en appliquant ”a1 puis a2” L’utilit´e de cette politique `a un horizon 2 s’exprime ainsi :

Vπ(b) = r(b, a1) + γ·  b∈BS

r(b, a2) = r(b, a1) + γ· (r(b1, a2)· pr(b1|b, a1) + r(b2, a2)· pr(b2|b, a1)) (2.3)

Comme nous avons montr´e dans l’´equation 2.2, la transition depuis l’´etat b vers l’´etat b1 d´epend uniquement de l’action a1et de l’observation o1. Par cons´equent, pr(b1|b, a1) devient ´egale `a la probabilit´e d’observer o1 apr`es avoir appliqu´e a1dans b :

pr(b1|b, a1) = pr(o1|b, a1) =  s∈S b(s)·   s∈S p(o1|s)· p(s|s, a1)  = p·   s1∈S p(o1|s1)· p(s1|s, a1)  + (1− p) ·   s2∈S p(o1|s2)· p(s2|s, a1)  car b(s1) = p, b(s2) = 1− p

L’´equation 2.3 nous montre alors que la fonction d’utilit´e Vπ `a horizon 2 est toujours une expression lin´eaire en p. Ce r´esultat est valable pour toutes les huit politiques `a deux pas. Leurs fonctions d’utilit´e sont illustr´ees dans la figure 2.20. Les strat´egies pointill´ees ne contribuent pas `a la politique optimale. Le segment en gras repr´esente alors l’utilit´e de la politique optimale pour un horizon fini de longueur 2. Sa projection sur l’axe des ´etats de croyance permet d’obtenir, pour chaque ´etat de croyance, la d´ecision optimale `a deux pas. En suivant le mˆeme raisonnement, on montre alors que la fonction d’utilit´e d’un ´

etat de croyance b est une fonction lin´eaire par morceaux qui peut se mettre sous la forme :

V (b) = max θ∈Θ(b· θ)

0 1

π1

p∗1 p∗2

π3

π2

Fig. 2.20 – Utilit´es `a horizon 2 des 8 politiques `a 2 pas

o`u Θ est un ensemble de vecteurs de mˆeme dimension que b. Chaque vecteur θ est en fait l’utilit´e d’une politique d’action de profondeur finie, comme l’explique [Lit94], qui donne un algorithme - l’al- gorithme du temoin - pour calculer Θ, l’ensemble de valeurs n´ecessaires pour obtenir V (b). Nous ne d´evelopperons pas plus cette approche, mais conseillons la lecture de [CKL94] ainsi que l’excellent site http://www.pomdp.org.

II. Mod`ele inconnu

Apprentissage du PDMPO Lorsque le mod`ele n’est pas connu, l’agent essaye d’apprendre les pro-

babilit´es de transition et d’observation selon les historiques pr´ec´edemment observ´es. Plus pr´ecis´ement, etant donn´e un ensemble des s´equences ”action-observation”, le but est de trouver le mod`ele PDMPO qui puisse expliquer le mieux ces donn´ees. En d’autres termes, on cherche le mod`ele qui maximise la vraisemblance vis-`a-vis des s´equences d’entr´ee.

Les algorithmes utilis´es pour l’apprentissage des chaˆınes de Markov cach´ees (Hidden Markov Models) tels que celui de Baum-Welch [Rab89] peuvent ˆetre ´et´endus pour r´esoudre ce probl`eme. Ainsi, l’algorithme propos´e par Koenig et al. [KS98a] alterne entre la d´etermination des ´etats travers´es les plus probables compte tenu du mod`ele actuel, et la d´etermination des param`etres les plus vraisemblables avec les ´etats travers´es fix´es. La vraisemblance se fait par rapport au corpus de donn´ees.

Tout comme dans le cas des HMMs, ce type de m´ethode est sujet aux minima locaux : on n’a jamais la garantie d’obtenir la convergence vers le vrai mod`ele. Ainsi, la qualit´e du mod`ele obtenu d´epend ´

etroitement des param`etres choisis dans l’´etape d’initialisation. Une fois le mod`ele appris, les m´ethodes bas´ees sur les ´etats de croyance peuvent ˆetre appliqu´ees.

PDM bas´e sur l’historique Une autre approche est d’essayer de cr´eer un mod`ele qui soit markovien

en se basant sur l’historique. On parle alors d’apprentissage par renforcement bas´e sur la m´emoire. Cette approche est appliquable dans la situation o`u l’accumulation d’observations et d’actions dans une m´emoire finie permet de distinguer les ´etats ambigus, en reconstituant l’´etat. Cette situation est aussi appel´ee l’hypoth`ese d’observabilit´e compl`ete d’ordre fini [Dut99]. Les politiques sont dites alors ”adapt´ees” car elles ne d´ependent plus de la s´equence d’´etats, mais de la s´equence d’observations. L’approche de base consiste alors `a travailler dans l’espace estim´e des ´etats cach´es du PDMPO compos´e de trajectoires action-observation d’ordre N . R´esoudre le PDMPO revient alors `a trouver la politique optimale dans cet espace estim´e ; on utilise alors les techniques classiques de r´esolution des PDM pr´esent´ees dans les sections 2.4.3 et 2.4.4. st ot ot−k st−k ot−1 st−1 at−k at−2 at−1 at at−k−1

Fig. 2.21 – Trajectoire d’actions et observations dans un PDMPO

Une trajectoire action-observation `a l’instant t est une s´equence contenant l’observation courante ainsi que les observations et les actions pr´ec´edentes : (ot, at−1, ot−1, ..., at−k, ot−k, ...). Etant donn´ees les

ressources limit´ees de l’agent, m´emoriser l’historique complet action-observation est infaisable. Dutech propose alors dans [Dut00] d’utiliser les trajectoires d’ordre N qui sont des trajectoires coup´ees `a l’instant t− N (par exemple {o2, a1, o1, a0, o0} est une trajectoire d’ordre 2). Si le probl`eme consid´er´e est un processus de d´ecision markovien d’ordre relativement peu ´elev´e (c’est-`a-dire que la connaissance d’un historique de longueur 2 ou 3 est une information suffisante pour connaˆıtre au mieux l’´evolution du syst`eme), alors cette solution s’av`ere satisfaisante.

Par contre, avec des ordres plus ´elev´es, ou simplement des ensembles d’observations un peu grands, on se retrouve facilement confront´e `a une explosion combinatoire de l’espace d’´etats. Dans certains cas, nous pouvons restreindre l’espace des trajectoires d’ordre N afin de pouvoir obtenir des politiques suffisament performantes. Intuitivement, la raison sous-jacente est que la connaisance de la trajectoire compl`ete d’ordre N n’est pas toujours n´ecessaire. En pratique, un sous-ensemble d’ordre variable M (M ≤ N) fournit souvent suffisament d’information pour estimer l’´etat courant du processus [Dut00].

Dans le but de pallier cette difficult´e, un certain nombre de travaux s’orientent vers la recherche d’un historique suffisant `a une prise de d´ecision optimale. On ne citera que les algorithmes de croissance d’un arbre d’historiques suffisants de [Dut99] ou [Mcc95] comme exemples. Les lecteurs int´eress´es par les approches ”avec estimation d’´etat” (ou plutˆot ”utilisant une m´emoire”), peuvent aussi s’orienter vers [LSS02, SJR04], papiers dans lesquels sont pr´esent´ees de nouvelles id´ees sur le sujet.

2.5

Politique d’adaptation en contexte observable et partielle-