Processus de d´ ecision markovien partiellement observable

2.2 Le cas partiellement observable

1, etc. On s’arrˆ

Processus de d´ ecision markovien partiellement observable

2.2 Le cas partiellement observable

2.2.1 Processus de d´ ecision markovien partiellement observable

2.3 Probl`eme multiagent . . . . 33

2.3.1 Contrôle décentralisé : MDP multiagent . . . . 33

2.3.2 Complexit´e des probl`emes multiagent partiellement observables . . 35

Nous avons introduit, dans le chapitre pr´ec´edent, les concepts de planification en

environne-ment stochastique. Le mod`ele des processus de d´ecision markoviens, ou MDP

, est un mod`ele

parfaitement adapté à la représentation et à la résolution de tels problèmes, dès lors que la

propriété de Markov est respectée. Dans ce chapitre, nous présentons le modèle MDP ainsi que

ses extensions aux probl`emes partiellement observables et multiagents.

2.1 Processus de d´ecision markovien

Nous présentons dans cette section le modèle MDP, adapté à la représentation des problèmes

de décision en environnement stochastique respectant la propriété de Markov (les transitions ne

dépendent que de l’état actuel et non des états précédents). Ce modèle propose une description

simple de l’ensemble des états, actions, transitions et récompenses associées et permet de calculer

rapidement une politique optimale.

5. MDP : de l’anglais

Markovian Decision Process

. Une erreur assez répandue consiste à écrire

processus

d´ecisionnel de Markov

, au lieu de

processus de d´ecision markovien

, en traduction de

Markov Decision

Process

. Cette seconde écriture est erronée, les MDP n’ayant pas été introduits par Markov mais étant

simple-ment qualifi´es de

markoviens

car vérifiant l’hypothèse du même nom. Les premiers articles traitant de MDP

2.1.1 Le mod`ele MDP

On commence par introduire le modèle MDP et donner une description rapide des éléments

qui le composent. Une description détaillée sera donnée par la suite.

Définition 16 (Processus de décision markovien (MDP)) Un MDP est défini par un

qua-druplethS,A,T,Ri tel que :

– S ={s

,s

, . . . ,s

} est un ensemble fini d’´etats dans lesquels l’agent peut se trouver,

– A={a

,a

, . . . ,a

} est un ensemble fini d’actions ex´ecutables par l’agent,

– T :S×A×S →[0,1]est lafonction de transition, qui d´ecrit la dynamique du syst`eme :

T(s,a,s

) donne la probabilité de passer de l’état sà l’états

, apr`es avoir appliqu´e a,

– R:S×A×S →Rest lafonction de r´ecompense: cette fonction associe une r´ecompense

(qui peut être négative) à toute transition (s,a,s

).

R´esoudre un MDP consiste alors `a calculer une politique π:S →A.

Les ´etats et actions

On définit un ensemble fini S décrivant l’ensemble des états dans lesquels l’agent peut se

trouver (voir le chapitre 1). On définit également un ensemble A d’actions exécutables par

l’agent. Par souci de simplicit´e, on supposera que les actions sont applicables en tout ´etat. Le

modèle MDP est un modèle discret. Ainsi, on ne travaille pas sur des durées, mais sur des pas

de temps (un pas correspond à l’exécution d’une action, puis à l’observation de l’état résultant).

Chaque action s’exécute donc en exactement 1 pas de temps (l’exécution ne peut pas s’étendre

sur plusieurs pas de temps). La figure 2.1 présente le schéma standard d’exécution d’un MDP.

s a

t+1 t+1

t

t s a

application de

la politique

transition puis

observation

1 pas de temps

phase de

planification

(calcul de la

politique)

t=0

phase

d'exécution

Figure 2.1 – Sch´ema d’ex´ecution d’un MDP

La fonction de transition

La fonction de transition décrit la dynamique du système. Elle donne donc, pour tout état

– R:S×A×S →_Rest lafonction de r´ecompense: cette fonction associe une r´ecompense

t ^s ^a

)>0 et ^X

V :S →_Rassocie, pour rappel, une valeur numérique à tout état. Il existe une équation, centrale

(s) =R(s,π(s)) +γ^X