• Aucun résultat trouvé

4.4 Diérents modèles multiagents issus des processus décisionnels de Markov

4.4.2 Jeux de Markov

Les jeux de Markov17 modélisent les problèmes de décision de plusieurs agents

dans un environnement à plusieurs états. Ce sont donc une extension des jeux matriciels à des environnements à plusieurs états ou une extension des PDM au cadre multiagent. Dénition 4.22 Un jeu de Markov [Sha53] est déni comme un n-uplet hm, S, A1, ..., Am,

T, R1, ..., Rmi où :

 m est le nombre d'agents,  S est un ensemble ni d'états,

 Ai est l'ensemble des actions pour l'agent i (et A1× ... × Am ≡ Aest l'ensemble

des actions jointes),

 T : S × A × S 7→ [0; 1] est une fonction de transition dénissant une distribution de probabilité sur les états futurs,

 Ri : S × A 7→ R est la fonction de récompense pour l'agent i.

Dans un jeu de Markov, les caractéristiques principales sont que chaque agent a une connaissance complète de l'état s (observabilité individuelle totale) et la fonction de récompense est propre à chaque agent. A chaque tour de jeu, étant donné l'état courant s auquel tous les agents ont accès, ceux-ci choisissent leurs actions simultanément. Chaque agent obtient alors une récompense Ri(s,a) selon l'action jointe a. Le système passe

alors dans un nouvel état s0 en suivant la transition T(s, a, s0). Ainsi, dans chaque état

du jeu de Markov, on retrouve un jeu matriciel dénissant les récompenses de chaque agent selon l'action jointe (cf. gure4.11).

Jeux de Markov d'équipe

La même classication est utilisée pour les jeux matriciels et pour les jeux de Mar- kov selon les fonctions de récompense. Ainsi, si tous les agents ont la même fonction de récompense, le jeu de Markov est dit jeu d'équipe.

Diérentes dénominations sont utilisées pour les formalismes des jeux de Markov d'équipe où les agents ont chacun une observabilité individuelle totale. Ils sont appe- lés jeux stochastiques à récompenses identiques18 (IPSG) par [PKMK00]. Craig

Boutilier propose quant à lui le terme de processus décisionnels de Markov multia- gents19(MMDP) [Bou96,Bou99]. Un MMDP est dénit par un n-uplet hm, S, A1, ..., Am,

T, Ri où m, S, A et T sont dénis comme pour un jeu de Markov. Les MMDP modé- lisent uniquement des jeux d'équipe donc la fonction de récompense est globale ; elle est  partagée  par tous les agents et est dénie par une fonction unique R : S × A 7→ R. Ces modèles sont donc une spécialisation des jeux de Markov dans laquelle la fonction de récompense est la même pour tous les agents.

17. Ou jeux stochastiques.

18. En anglais identical payo stochastic games. 19. En anglais Multi-agent Markov Decision Processes.

Figure 4.11  Jeu de Markov à deux agents et trois actions chacun où chaque état peut être vu comme un jeu matriciel dénissant les récompenses reçues par chaque agent selon l'état global et l'action jointe eectuée. Les transitions entre états sont aussi fonction de l'action jointe.

Politique

Dénition 4.23 Une politique pour un agent i dans un jeu de Markov est une fonction πi : S × Ai 7→ [0; 1] qui dénit une distribution de probabilité sur les états et actions de

l'agent, i.e. : ∀ai ∈ Ai P (ai|x) = πi(x, ai). (4.12) On a la contrainte suivante : ∀s ∈ S X ai∈Ai πi(s, ai) = 1. (4.13)

Comme pour les jeux matriciels, on note π−i la politique jointe des agents exceptée celle

de l'agent i. π = hπi, π−ii désigne la politique jointe de tous les agents où l'agent i

suit πi et les autres suivent π−i. Nous noterons aussi ∆(S, Ai) l'ensemble de toutes les

distributions de probabilités qui recouvre l'ensemble S × Ai, i.e. l'ensemble de toutes les

politiques pour l'agent i.

Les dénitions 4.16 et 4.17 de politique déterministe et mixte sont identiques dans les jeux de Markov.

Équilibres

Dans un jeu de Markov, le gain immédiat espéré de l'agent i suivant π est déni pour chaque état s de la même manière que dans les jeux matriciels, i.e. :

ui,π(s) = Eπ{Ri(s,a)} (4.14)

= X

a∈A

π(s,a)Ri(s,a)

Dans ce cas, l'espérance de gain à long terme (et pondérée) pour l'agent i à partir de l'état s et si tous les agents suivent la politique π est :

Ui,π(s) = Eπ ( X k=0 γkui,π(s)t+k+1|st= s ) . (4.15)

Comme pour les PDM, γ ∈ [0; 1[ est un coecient d'atténuation.

De même que dans les jeux matriciels, les concepts d'équilibre de Nash et de Pareto optimalité sont dénis dans un jeu de Markov.

Dénition 4.24 Une politique jointe π∗ dénit un équilibre de Nash dans un jeu de

Markov si pour chaque agent i on a :

∀πi ∈ ∆(S, Ai) ∀s ∈ S Ui,hπ∗ i,π

−ii(s) ≥ Ui,hπi,π∗−ii(s). (4.16)

Dénition 4.25 Une politique jointe ˆπ domine au sens de Pareto une autre politique jointe π si et seulement si, dans tous les états :

 chaque agent i suivant ˆπi a au moins la même espérance de gain qu'en suivant πi

et,

 au moins un agent j suivant ˆπj a une espérance de gain strictement supérieure à

ce qu'elle serait s'il suivait πj,

c'est-à-dire, formellement : ˆ

π > π ⇔ ∀i, ∀s ∈ S Ui, ˆπ(s) ≥ Ui,π(s) et ∃j Uj, ˆπ(s) > Uj,π(s). (4.17)

Dénition 4.26 Si une politique jointe ˆπ∗ n'est dominée au sens de Pareto par aucune

autre politique, alors ˆπ∗ est Pareto optimal.

4.4.3 Objectifs

Dans les jeux matriciels comme dans les jeux de Markov, les concepts d'équilibre de Nash et de Pareto optimalité sont utiles à la résolution. Mais les objectifs atteints par ces équilibres ne sont pas les mêmes. Il est donc nécessaire de préciser quel équilibre répond au mieux à nos objectifs.

Résoudre un problème de décision dans un système multiagent consiste à calculer une politique jointe π =< π1, ..., πm > où πi correspond à la politique de l'agent i

et m est le nombre d'agents. Comme dans un processus décisionnel de Markov, chaque agent cherche une politique individuelle qui lui permet de maximiser un critère de per- formance. Ce critère est le plus souvent la somme pondérée de ses récompenses futures. Les jeux de Markov à somme générale ont des fonctions de récompense qui peuvent être diérentes pour chaque agent. Dans certains cas, il peut alors être impossible de trouver des politiques qui maximisent ce critère pour tous les agents. C'est pourquoi dans les jeux de Markov à somme générale, un point d'équilibre est recherché. Cet équilibre est une situation dans laquelle aucun agent ne pourra améliorer son critère de performance s'il est le seul à changer sa politique. On retrouve ici la dénition d'un équilibre de Nash ainsi que la propriété de  stabilité  qu'il satisfait : chaque agent joue la meilleure réponse aux stratégies des autres. C'est pourquoi l'équilibre de Nash est fréquemment utilisé dans les jeux de Markov à somme générale comme équilibre de meilleure réponse mutuelle. L'équilibre de Nash permet notamment de répondre au mieux aux objectifs individuels des agents.

Néanmoins, certains s'interrogent sur la nécessité de converger vers un équilibre de Nash [SPG04, CG05]. En eet, cet équilibre n'est pas toujours unique et la multiplicité des équilibres de Nash requiert alors des processus de coordination. Pour s'aranchir de ce problème, de nombreux travaux dans les jeux de Markov supposent l'unicité de l'équilibre de Nash [Lit01a,Lit01b, HW03]. Un autre inconvénient de cet équilibre est qu'il ne correspond pas toujours à la meilleure politique du point de vue de maximiser les gains de tous les agents. Par exemple, dans le dilemme du prisonnier (cf. gure 4.8), l'équilibre de Nash fait subir aux agents deux ans de prison alors que l'équilibre Pa- reto optimal ne leur fait subir qu'un an. Ainsi, l'équilibre de Nash peut conduire à des solutions sous-optimales dans les jeux de Markov à somme générale. Certains travaux utilisent donc d'autres équilibres pour atteindre une solution : l'équilibre de Stackelberg

[Kön03,LC05] ou l'équilibre corrélé [GH03] par exemple. L'objectif à atteindre dans les

jeux de Markov à somme générale est donc dicile à dénir.

Par contre, dans les jeux de Markov d'équipe, tous les agents reçoivent la même fonction de récompense. Ainsi, d'une part, les équilibres Pareto optimaux sont aussi des équilibres de Nash. D'autre part, les politiques qui dénissent ces équilibres maximisent la somme pondérée des récompenses futures pour tous les agents. En eet, si une politique procure à un agent la somme pondérée maximale des récompenses futures, elle maximise aussi dans un jeu d'équipe la somme pondérée des autres agents. Dans un jeu de Markov (ou matriciel) d'équipe, nous dénissons donc l'objectif comme atteindre un équilibre de Nash Pareto optimal ; dans ce cas, les agents maximisent la somme pondérée de leurs récompenses futures. Toutefois, ces équilibres de Nash Pareto optimaux peuvent être multiples donc des mécanismes de coordination sur un unique équilibre sont nécessaires.

4.4.4 Conclusion

Dans cette section a été présenté le formalisme des jeux de Markov qui constitue le cadre dans lequel se placent nos travaux. Les jeux matriciels peuvent être vus comme une  réduction  des jeux de Markov à un état. Nous les utiliserons principalement en première étude car les situations d'interaction qui y prennent place sont souvent plus faciles à repérer et à interpréter. Les diérents concepts utiles à la résolution de ces jeux ont été détaillés, et en particulier deux équilibres principaux : l'équilibre de Nash qui maximise le plus souvent un critère individuel et l'équilibre Pareto optimal qui répond quant à lui à l'intérêt collectif. Les objectifs ont enn été précisés. Notamment, dans les jeux d'équipe, les équilibres Pareto optimaux sont aussi des équilibres de Nash et maximisent le critère de performance individuel et global.