Approche proposée

Partie I Un formalisme graphique 11

Qi(s,a) V isits(s,a)

20 Etats 30 Etats 0.8 0.6 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0

−1 −0.5 0 0.5 1 5 10 15 20 25 30 35 40 45 50 Récompense médiane

Taille des modèles

Conclusion

Partie I Un formalisme graphique 11

8.7 Approche proposée

8.7 Approche proposée

Nous proposons d’utiliser la vraisemblance du modèle comme critère permettant de construire

une représentation de l’espace d’états efficace pour l’apprentissage du contrôle.

8.7.1 Le critère de vraisemblance

La vraisemblance des paramètres d’un modèleλpour une séquence d’observation O donnée

est déﬁnie par :

L(λ|O) =P(O|λ) (8.23)

Le critère de maximum de vraisemblance est habituellement utilisé pour estimer les paramètres

de modèles stochastiques tels que les modèles de Markov cachés ou, plus généralement, pour

estimer les paramètres d’un réseau bayésien dynamique (DBN).

Chrisman a proposé d’utiliser un modèle prédictif de type processus décisionnel de Markov

partiellement observable (POMDP) pour gérer le recouvrement de perceptions sur des problèmes

discrets d’apprentissage par renforcement [Chrisman, 1992]. Dans cette approche le POMDP,

estimé par maximum de vraisemblance, permet d’avoir un espace d’état plus grand que l’espace

des observations. McCallum a repris cette approche en proposant un critère d’utilité pour choisir

où diviser les états du modèle [McCallum, 1992]. Sa méthode consiste à comparer l’espérance de

récompense dans un état en fonction des différentes transitions entrantes et à diviser les états

dans lesquels la récompense varie significativement en fonction de l’état précédent.

Nous nous intéressons ici à la possibilité d’utiliser le critère de maximum de vraisemblance

pour apprendre l’espace d’état sous la forme d’un POMDP. L’intuition à l’origine de cette

pro-position est probablement la même que pour l’approche proposée par Chrisman qui est qu’un

modèle qui « explique bien » le processus observé fournira une bonne représentation pour

ap-prendre une politique de contrôle. Lors du processus de maximisation de la vraisemblance pour

un HMM, le modèle tend en effet à devenir « plus déterministe ». Le fait de minimiser

l’incer-titude sur les transitions nous permet de mieux prévoir l’effet des actions sur le système. Il en

va de même pour le modèle de récompenses : dans le cas de densités gaussiennes, des

vraisem-blances plus élevées pourront être atteintes par des gaussiennes à plus petite variance et nous

pouvons remarquer que lors du processus de maximisation, les variances des gaussiennes tendent

effectivement à diminuer. Un modèle « plus déterministe » (compatible avec les observations)

aura ainsi une vraisemblance plus élevée.

8.7.2 Apprentissage de l’espace d’état avec un DBN

Les réseaux bayésiens dynamiques sont un formalisme général pour représenter des

indépen-dances conditionnelles dans des processus stochastiques. Les algorithmes d’inférence et

d’ap-prentissage associés sont applicables à différentes structures de HMMs qui ne sont que des cas

particuliers de DBNs, comme cela a été montré par [Murphy, 2002]. Notre modèle a la forme

d’un POMDP et est défini par :

– une variable d’état S (discrète),

– une variable observée O (continue),

– une variable de contrôle A (discrète),

– une variable récompense R (continue),

S

A

R

O

S

R

O

Figure 8.9 – Représentation graphique du POMDP. Les variables de contrôle et d’étatsAetS

sont discrètes alors que l’observation O et la récompenseR sont des nœuds continus gaussiens.

– une distribution de probabilité initiale Π =P(S

)

– une fonction de transition stochastique T =P(S

|S

, A

),

– une fonction d’observation stochastique O=P(O

|S

),

– une fonction de récompense stochastique R=P(R

|S

).

La figure 8.9 donne la représentation graphique du modèle. Dans notre exemple du pendule sur

le chariot, la fonction d’observation est une gaussienne à deux dimensions définie surO = (α,α˙)

et la fonction de récompense est une gausienne de dimension un.

Notre base d’apprentissage contient des séquences du triplet observation-action-récompense

(o

, a

, r

). Etant donné un nombre d’étatsN (S ∈(1, . . . , N)) fixé arbitrairement, nous pouvons

apprendre les paramètres du modèle (fonction de transition, fonction d’observation et fonction

de récompense) en maximisant sa vraisemblance avec un algorithme EM.

L’algorithmeExpectation-Maximization consiste en une alternance de deux sous-procédures,

la première pour calculer les beliefs b

(b

=P(X

|a

, o