Hypoth` eses d’ind´ ependance et impact sur la complexit´ e

3.2 Classes de DEC-POMDP

2 3 1 2 4 1 ₃ 4 ₂ ₂

1,2 1 2 2 1 1 ² départ

^P^hk=0|Ωi|k

|Ω_i|^h+1−1 |Ω_i|−1

|Ω_i|^h+1−1 |Ω_i|−1

Hypoth` eses d’ind´ ependance et impact sur la complexit´ e

3.2 Classes de DEC-POMDP

3.2.1 Hypoth` eses d’ind´ ependance et impact sur la complexit´ e

3.2.3 Classification des DEC-POMDPs . . . . 47

3.3 Modèles dérivés . . . . 48

3.3.1 Modèles basés indépendance (interactions statiques) . . . . 48

3.3.2 Mod`eles bas´es interaction (interactions dynamiques) . . . . 51

Le modèle des processus de décision markoviens partiellement observables et décentralisés

(not´es DEC-POMDP

) permet une représentation simple et expressive des problèmes de décision

multiagents en environnement partiellement observable. Dans ce chapitre, nous commencerons

par décrire le modèle en lui-même et la fa¸con dont on peut l’utiliser pour calculer une

poli-tique jointe, après quoi nous présenterons les différentes classes de DEC-POMDP possibles et

les modèles associés. La question des différents algorithmes de résolution ne sera pas traitée dans

ce chapitre mais laiss´ee pour le suivant.

3.1 Le mod`ele classique

Le modèle standard de DEC-POMDP permet la représentation d’un problème dans le cas le

plus général. Dans cette section, nous présentons ce modèle standard, tandis que les différents

modèles dérivés seront introduits dans les sections suivantes.

3.1.1 Description formelle

Le modèle DEC-POMDP [Bernsteinet al., 2000] permet la représentation de problèmes de

d´ecision de type MDP, lorsque ceux-ci sont `a la fois multiagent et en environnement partiellement

observable. On peut alors considérer les modèles présentés précédemment comme des

DEC-POMDPs particuliers. Un MMDP par exemple est un DEC-POMDP tel que l’observabilit´e sur

l’état joint est toujours complète, tandis qu’un POMDP est un DEC-POMDP à un agent.

D´efinition 23 (DEC-POMDP) Un processus de d´ecision markovien partiellement observable

et décentralisé (ou DEC-POMDP) est défini par un n-uplet hI,S,A,T,R,Ω,Oi tel que :

– I désigne le nombre d’agents impliqués dans le problème,

– S est un ensemble d’´etats joints potentiellement d´ecomposable en S =S

× · · · ×SI avec

S

l’ensemble des ´etats individuels de l’agent i,

– A = A

× · · · ×A

est un ensemble d’actions jointes, avec A

l’ensemble des actions

applicables par l’agent i,

– T :S×A×S→[0,1] est une fonction de transition jointe,

– R:S×A×S →R est une fonction de r´ecompense jointe,

– Ω = Ω

× · · · ×Ω

est un ensemble d’observations jointes avec Ω

les observations que

l’agent i peut effectuer au sujet de l’environnement,

– O:S×A×S×Ω→[0,1] est une fonction d’observation jointe.

R´esoudre un DEC-POMDP signifie calculer une politique jointe π d´ecomposable enI politiques

π

, . . . ,π

telles que π

soit la politique individuelle de l’agent i.

Ces éléments sont similaires à ceux que l’on a introduit précédemment. Ainsi, la fonction de

transition donnera la probabilité pour le groupe d’agents de passer d’un état joint à un autre

via une action jointe, et la fonction de récompense donnera l’intérêt associé à chaque transition

(via une valeur potentiellement n´egative). La fonction d’observation quant `a elle donnera la

pro-babilité que le groupe re¸coive une observation jointe donnée, après avoir effectué une transition.

L’usage d’un DEC-POMDP suppose en général un calcul centralisé de la politique, suivi d’une

exécution décentralisée. Afin que cette exécution décentralisée soit possible, il faut pouvoir diviser

chaque action jointe en un ensemble d’action individuelles, et de mˆeme pour les observations.

Ainsi, l’agent recevra une observation au sujet de l’´etat joint, appliquera sa politique et ex´ecutera

l’action individuelle ainsi déterminée. Un tel modèle permet alors la représentation de la plupart

des probl`emes de d´ecision

r´eels

.

Dans le cas général, l’ensemble des états S n’est pas nécessairement divisible en un

pro-duit S

× · · · ×S

(voir la remarque similaire au sujet des MMDPs en section 2.3.1). Lorsque

cette division est possible, on peut alors se poser la question de l’observabilit´e dont dispose

chaque agent. Si chacun dispose, individuellement, d’une observabilit´e compl`ete au sujet de son

´

etat personnel (sans pour autant pouvoir observer compl`etement les ´etats individuels des autres

agents), on parle alors de DEC-MDP. Une telle condition n’apporte pas de gain cons´equent en

termes de complexité (relativement à un DEC-POMDP), les fonctions de transition, récompense

3.1. Le mod`ele classique

et observation étant toujours définies de manière jointe, mais permet certains raffinements

algo-rithmiques (nous ne d´etaillerons pas ces points pour l’instant). Si les agents sont de plus capables

de communiquer de fa¸con gratuite et illimit´ee, ils peuvent alors s’´echanger leurs observations

et disposer ainsi d’une observabilité complète sur l’état joint : le DEC-MDP devient alors un

MMDP. Dans le cas général cependant, ces hypothèses sont rarement vérifiées.

3.1.2 R´esolution d’un DEC-POMDP

– R:S×A×S →_R est une fonction de r´ecompense jointe,

a _a _a

o ^o

o ^o