R´ esolution des PDMPO - Processus D´ ecisionnels de Markov

2.4 Processus D´ ecisionnels de Markov

2.4.6 R´ esolution des PDMPO

Dans la r´esolution des PDMPO, la premi`ere question qui se pose est de savoir si l’on peut se ramener `

a un processus de décision markovien (sous-jacent) ou pas. Buffet [Buf03] fait ainsi une distinction entre les algorithmes de résolution, selon qu’ils sont basés ou non sur l’estimation de l’état sous-jacent. Seules les algorithmes avec estimation d’état sont présentés ici. Le lecteur intéressé pourra trouver dans [Buf03] des informations sur les méthodes sans estimation d’état, en particulier sur l’approche basée sur un Q-learning boltzmannien adapt´e.

Les algorithmes avec estimation d’´etat essaient de se ramener `a un PDM sous-jacent. Deux situations sont alors possibles (selon les connaissances dont dispose l’agent) :

1. Avec mod`ele : l’agent connaˆıt le PDM en question (S; A; T ; p; r_t) ainsi que la fonction d’observation O, et essaye de trouver dans quel ´etat il se trouve.

2. Sans modèle : l’agent ne connaˆıt pas le PDM sous-jacent, mais essaye de l’apprendre ou de construire un PDM sur la base de l’historique des observations et des actions précédentes.

I. Mod`ele connu

PDM des états de croyance L’historique des actions et perceptions de l’agent ne sera généralement

pas suffisant pour connaˆıtre l’état du système dans le PDM sous-jacent connu. Par contre, on peut estimer une probabilité de distribution sur l’ensemble des états possibles, appelée ”état de croyance” (belief state). On peut alors travailler sur un nouveau PDM d´efini sur l’ensemble des états de croyance. Le problème est que ces états de croyance forment un ensemble potentiellement infini (continu). Il faut donc résoudre deux difficultés : estimer l’état courant et trouver un algorithme applicable dans l’espace continu des états de croyance.

Soit b ∈ Π(S) une distribution de probabilité sur l’espace des états cachés S. Notons par b(s) la probabilité que le processus se trouve dans l’´etat s. Astrom [Ast65] a montré que la connaissance de bt, l’état de croyance `a l’instant t, est suffisante pour pouvoir contrˆoler le processus partiellement observable de fa¸con optimum et markovienne. Pour une politique donnée, la suite des états de croyance{Bt} est en effet elle-même une chaˆıne de Markov.

En effet, en supposant qu’`a l’instant t l’état de croyance est b, que l’on exécute l’action a pour ensuite obtenir, `a l’instant t + 1, l’observation o et l’´etat de croyance b, on a :

b(s) = pr(s|b, a, o) = pr(s _{, b, a, o}₎ pr(b, a, o) = pr(o|s, b, a)· pr(s|b, a) · pr(b, a) pr(o|b, a) · pr(b, a) = pr(o _|s₎_{· pr(s}_{|b, a)} s,s∈S×S pr(o|s)· pr(s|s, a) · pr(s|b) = pr(o|s)· s∈S pr(s|s, a) · pr(s, b) s,s∈S×S pr(o|s)· pr(s|s, a) · pr(s|b)

(o) (o’) b(s’)

b’(s’)

b(s) b’(s)

II. PDM des états de croyance

b

b’

I. PDMPO des états cachés

1 a

s

o

o’

s’

a

Fig. 2.17 – Transitions entre états cachés dans un PDMPO (I) ou entre états de croyance (II) Etant donnés les paramètres du modèle PDMPO, on peut écrire :

b(s) = O(s, o)· s∈S p(s|s, a) · b(s) s,s∈S×S O(s, o)· p(s|s, a) · b(s) (2.2) Il apparaˆıt donc que l’état de croyance `a l’instant t + 1 ne d´epend que de l’état de croyance à l’instant t et de la transition (action puis observation). Surtout, la connaissance de l’´etat de croyance à l’instant t− 1 ne rajoute rien puisque cela n’influence pas le calcul de la probabilité d’être dans l’état s quand, connaissant l’´etat de croyance b, on effectue l’action a : pr(bt+1|bt, at, bt−1) = pr(bt+1|bt, at).

De plus la fonction de r´ecompense peut aussi tr`es facilement se calculer en fonction de b et a car :

r(b, a) = s∈S

r(s, a)· b(s)

R´esolution intuitive Pour illustrer le principe de r´esolution du PDM associé aux états de croyance et faciliter sa compréhension, nous commen¸cons par un exemple simple. Considérons un PDMPO à deux ´

etats cach´es s1 et s2, deux observations o1 et o2et deux actions possibles a1 et a2. Un état de croyance b peut s’écrire alors comme une distribution (p, 1− p) où p est la probabilité que l’agent se trouve dans s₁ : p = b(s₁). Ceci implique que l’espace des états de croyance peut être représentés par le segment [0− 1] sur la droite R comme illustré dans la figure 2.18. Un état de croyance b est représenté par la suite seulement `a travers la valeur p.

Valeur d’une politique à horizon 1 Si on consid`ere le problème `a horizon 1, alors la valeur Va(b) associée `a une politique d’horizon 1 pour laquelle on choisit l’action a est la r´ecompense immédiate per¸cue dans l’´etat de croyance b.

Va(b) = r(b, a) = s∈S

r(s, a)· b(s) = p · r(s1, a) + (1− p) · r(s2, a)

Nous remarquons ainsi que l’utilit´e d’une action a, `a horizon 1, est une fonction lin´eaire de p. La figure 2.18 illustre graphiquement les valeurs des deux strat´egies possibles a1 et a2. Il devient alors clair que la stratégie optimale consiste `a choisir a1pour les ´etats de croyance dont p≤ p∗ et a2pour le reste. Valeur d’une politique à horizon 2 Nous nous int´eressons maintenant aux utilités des politiques à un horizon de deux pas. L’agent agit comme s’il lui reste deux pas à exécuter : au premier il applique une action a et selon l’observation re¸cue, il applique une deuxième action a. En général, lorsqu’on s’intéresse `

a un horizon ﬁni t, ces strat´egies sont appel´ees politiques `a t pas (t-step policy) [KLC98].

Dans notre PDMPO, parmi les huit politiques distinctes à 2 pas, considérons par exemple la stratégie π qui applique a₁puis a₂, quelle que soit l’observation re¸cue (o₁ou o₂). Un autre exemple serait a₁suivie de i) a1si l’on observe o1ii) a2 si l’on observe o2. Les transitions possibles engendr´ees par la politique π

0 1

p∗ a2

Fig. 2.18 – Utilit´es `a horizon 1 des actions a₁et a₂

dans l’espace des états de croyance sont illustrées dans la figure 2.19. Les indices des états de croyance refl`etent les observations aper¸cues (b1,2 correspond à la s´equence o1, o2).

b1,2 b1,1 b2,2 b2,1 b2 b1 a2 a2 a2 a2 a1 b o2 o1 o1 o2 a1 r(b, a1) r(b1, a2) r(b2, a2) o2 o1

Fig. 2.19 – Transitions possibles dans le PDM des états de croyance en appliquant ”a₁ puis a₂” L’utilité de cette politique à un horizon 2 s’exprime ainsi :

Vπ(b) = r(b, a1) + γ· b∈BS

r(b, a2) = r(b, a1) + γ· (r(b1, a2)· pr(b1|b, a1) + r(b2, a2)· pr(b2|b, a1)) (2.3)

Comme nous avons montré dans l’équation 2.2, la transition depuis l’´etat b vers l’état b1 dépend uniquement de l’action a1et de l’observation o1. Par cons´equent, pr(b1|b, a1) devient égale à la probabilité d’observer o1 après avoir appliqu´e a1dans b :

pr(b1|b, a1) = pr(o1|b, a1) = s∈S b(s)· s∈S p(o1|s)· p(s|s, a1) = p· s1∈S p(o1|s1)· p(s1|s, a1) + (1− p) · s2∈S p(o1|s2)· p(s2|s, a1) car b(s1) = p, b(s2) = 1− p

L’équation 2.3 nous montre alors que la fonction d’utilit´e Vπ à horizon 2 est toujours une expression lin´eaire en p. Ce r´esultat est valable pour toutes les huit politiques à deux pas. Leurs fonctions d’utilité sont illustrées dans la figure 2.20. Les stratégies pointillées ne contribuent pas à la politique optimale. Le segment en gras représente alors l’utilité de la politique optimale pour un horizon fini de longueur 2. Sa projection sur l’axe des états de croyance permet d’obtenir, pour chaque état de croyance, la décision optimale à deux pas. En suivant le même raisonnement, on montre alors que la fonction d’utilité d’un ´

etat de croyance b est une fonction lin´eaire par morceaux qui peut se mettre sous la forme :

V (b) = max θ∈Θ(b· θ)

0 1

π1

p∗1 p∗2

π3

π2

Fig. 2.20 – Utilités à horizon 2 des 8 politiques à 2 pas

où Θ est un ensemble de vecteurs de mˆeme dimension que b. Chaque vecteur θ est en fait l’utilit´e d’une politique d’action de profondeur finie, comme l’explique [Lit94], qui donne un algorithme - l’al- gorithme du temoin - pour calculer Θ, l’ensemble de valeurs nécessaires pour obtenir V (b). Nous ne développerons pas plus cette approche, mais conseillons la lecture de [CKL94] ainsi que l’excellent site http://www.pomdp.org.

II. Mod`ele inconnu

Apprentissage du PDMPO Lorsque le mod`ele n’est pas connu, l’agent essaye d’apprendre les pro-

babilités de transition et d’observation selon les historiques précédemment observés. Plus précisément, etant donné un ensemble des séquences ”action-observation”, le but est de trouver le modèle PDMPO qui puisse expliquer le mieux ces données. En d’autres termes, on cherche le modèle qui maximise la vraisemblance vis-à-vis des séquences d’entrée.

Les algorithmes utilisés pour l’apprentissage des chaˆınes de Markov cach´ees (Hidden Markov Models) tels que celui de Baum-Welch [Rab89] peuvent être éténdus pour résoudre ce problème. Ainsi, l’algorithme proposé par Koenig et al. [KS98a] alterne entre la détermination des états traversés les plus probables compte tenu du modèle actuel, et la détermination des paramètres les plus vraisemblables avec les états traversés fixés. La vraisemblance se fait par rapport au corpus de données.

Tout comme dans le cas des HMMs, ce type de méthode est sujet aux minima locaux : on n’a jamais la garantie d’obtenir la convergence vers le vrai modèle. Ainsi, la qualité du modèle obtenu dépend ´

etroitement des paramètres choisis dans l’étape d’initialisation. Une fois le modèle appris, les méthodes basées sur les états de croyance peuvent être appliquées.

PDM basé sur l’historique Une autre approche est d’essayer de créer un modèle qui soit markovien

en se basant sur l’historique. On parle alors d’apprentissage par renforcement basé sur la mémoire. Cette approche est appliquable dans la situation où l’accumulation d’observations et d’actions dans une mémoire finie permet de distinguer les états ambigus, en reconstituant l’état. Cette situation est aussi appel´ee l’hypothèse d’observabilité complète d’ordre fini [Dut99]. Les politiques sont dites alors ”adapt´ees” car elles ne dépendent plus de la séquence d’états, mais de la séquence d’observations. L’approche de base consiste alors à travailler dans l’espace estimé des états cachés du PDMPO composé de trajectoires action-observation d’ordre N . R´esoudre le PDMPO revient alors à trouver la politique optimale dans cet espace estimé ; on utilise alors les techniques classiques de résolution des PDM présentées dans les sections 2.4.3 et 2.4.4. st ot ot−k st−k ot−1 st−1 at−k at−2 at−1 at at−k−1

Fig. 2.21 – Trajectoire d’actions et observations dans un PDMPO

Une trajectoire action-observation `a l’instant t est une s´equence contenant l’observation courante ainsi que les observations et les actions pr´ec´edentes : (ot, at−1, ot−1, ..., at−k, ot−k, ...). Etant donn´ees les

ressources limitées de l’agent, m´emoriser l’historique complet action-observation est infaisable. Dutech propose alors dans [Dut00] d’utiliser les trajectoires d’ordre N qui sont des trajectoires coup´ees à l’instant t− N (par exemple {o₂, a₁, o₁, a₀, o₀} est une trajectoire d’ordre 2). Si le problème considéré est un processus de décision markovien d’ordre relativement peu élevé (c’est-à-dire que la connaissance d’un historique de longueur 2 ou 3 est une information suffisante pour connaˆıtre au mieux l’évolution du système), alors cette solution s’avère satisfaisante.

Par contre, avec des ordres plus élevés, ou simplement des ensembles d’observations un peu grands, on se retrouve facilement confronté à une explosion combinatoire de l’espace d’états. Dans certains cas, nous pouvons restreindre l’espace des trajectoires d’ordre N afin de pouvoir obtenir des politiques suffisament performantes. Intuitivement, la raison sous-jacente est que la connaisance de la trajectoire complète d’ordre N n’est pas toujours nécessaire. En pratique, un sous-ensemble d’ordre variable M (M ≤ N) fournit souvent suffisament d’information pour estimer l’état courant du processus [Dut00].

Dans le but de pallier cette difficulté, un certain nombre de travaux s’orientent vers la recherche d’un historique suffisant à une prise de décision optimale. On ne citera que les algorithmes de croissance d’un arbre d’historiques suffisants de [Dut99] ou [Mcc95] comme exemples. Les lecteurs intéressés par les approches ”avec estimation d’état” (ou plutôt ”utilisant une mémoire”), peuvent aussi s’orienter vers [LSS02, SJR04], papiers dans lesquels sont présentées de nouvelles idées sur le sujet.

2.5 Politique d’adaptation en contexte observable et partielle-

Dans le document Supervision de contenus multimédia : adaptation de contenu, politiques optimales de préchargement et coordination causale de flux (Page 36-40)