D´ependance d’actions par strat´egies

2.2 D´ependance d’actions

2.2.1 D´ependance d’actions par strat´egies

Le modèle présenté ici, les « Multi-Agent Influence Diagrams » de Koller et Milch, s’intéresse à une définition stratégique de la dépendance.

« Muti-Agent Influence Diagrams » (Koller et Milch)

Contexte. Dans [KM01, KM03], Daphne Koller et Brian Milch proposent les « Multi-Agent Influence Diagrams », ou MAIDs. Les MAIDs modélisent des jeux non coopératifs, et étendent les modèles graphiques probabilistes (réseaux bayésiens) et les diagrammes d’influence.

• Les réseaux bayésiens, et plus généralement les modèles graphiques probabilistes, sont des techniques de représentation utilisées en théorie de la décision. Ils représentent le monde au travers un ensemble de variables, pouvant prendre certaines valeurs (discrètes ou conti-nues). Chaque état possible du monde est représenté par l’attribution d’une valeur à cha-cune des variables. Les relations entre les variables sont représentées par un graphe. Dans ce graphe, les relations de cause à effet ne sont pas déterministes mais probabilistes : une cause n’implique pas systématiquement un effet, mais indique simplement une probabilité qu’il arrive.

• Les diagrammes d’influence étendent les réseaux bayésiens en considérant un agent (et un seul) devant prendre des décisions en accord avec ses préférences. Les diagrammes d’influence ajoutent ainsi au réseaux bayésiens des variables de décision et des variables de gain représentant les choix et les préférences de l’agent.

Les MAIDs étendent les diagrammes d’influence en considérant la possibilité que plusieurs agents prennent des décisions, se caractérisant par un choix à faire entre différentes actions. Les MAIDs ont pour but de capturer explicitement la structure d’un jeu, i.e. de déterminer quelles sont les variables du jeu et d’organiser ces variables en définissent une relation de dépendance entre elles, la pertinence stratégique (« strategic relevance »). Koller et Milch proposent un critère graphique pour calculer cette dépendance qui permet de décomposer un jeu de départ en un ensemble de jeu plus petits et de calculer les équilibres de Nash du jeu initial à partir des équilibres de Nash des petits jeux.

Modèle. Dans les MAIDS plusieurs agents prennent des décisions. Celles-ci se caractérisent, pour un agent, par un choix à faire entre plusieurs actions ; de plus un agent peut avoir à prendre plusieurs décisions.

Un MAID se repr´esente par un graphe contenant trois types de nœuds, i.e. trois types de variables, d´ecrivant le monde sur lequel peuvent agir les agents.

• Les variables de chance (sous forme d’ovales) correspondent aux d´ecisions de la nature, i.e. des d´ecisions sur lesquelles les agents n’ont pas d’influence.

• Les variables de décision (sous forme de rectangles) décrivent les situations où un agent doit faire un choix. À chaque variable de décision sont donc associées les actions parmi lesquelles un agent peut choisir et à un agent peuvent être associées plusieurs variables de décision.

• Les variables de gain (sous forme de losanges) décrivent les gains des agents. La décom-position des gains est ici additive, autrement dit, le gain total d’un agent équivaut à la somme de ses variables de gain.

Ces variables sont reli´ees par des arcs, formant un graphe orient´e acyclique.

• Les parents d’une variable de décision permettent de définir ce que connaˆıt l’agent au moment où il prend sa décision.

• Les parents d’une variable de chance décrivent une distribution probabiliste (la probabilité avec laquelle la variable de chance se produit dépend de ses parents).

• Les variables de gain ne peuvent ˆetre parents d’une autre variable. `

A chaque variable de décision d’un joueur est associée une règle de décision. Cette règle donne une distribution de probabilités sur les actions associées à le variable de décision. La distribution dépend des parents de la variable et indique les probabilités que l’agent choisisse les différentes actions. Une stratégie, pour un agent donné, revient à attribuer une règle de décision à chacune des variables de décision de l’agent.

EmpoisonnerArbre AppelerM´edecin _{ConstruirePatio} ArbreMalade ArbreMort Co^ut Arbre Vue Effort

En noir les variables associées à Alice, en gris celles de Bob. En pointillés les arcs d’observation.

Fig. 2.2 – MAID correspondant au jeu « Alice, son patio et l’arbre de Bob » (exemple 2.4) Pour un jeu donné, sa représentation sous forme de MAID n’est pas plus importante que sous forme extensive. Elle est même possiblement exponentiellement plus compacte.

Exemple. L’exemple 2.4 est un énoncé proposé par Koller et Milch afin d’illustrer ces notions. Il met en jeu deux agents (Alice et Bob) ayant à prendre respectivement deux décisions, et une seule décision. La représentation sous forme de MAID est proposée figure 2.2.

Exemple 2.4 (Alice, son patio et l’arbre de Bob)

Alice désire construire un patio derrière sa maison. Le patio a d’autant plus de valeur qu’Alice a une vue dégagée sur l’océan. Malheureusement un arbre dans le jardin de son voisin Bob bloque la vue. Alice envisage d’empoisonner l’arbre, ce qui lui demande un effort, mais peut rendre l’arbre malade. Bob ne peut pas dire si Alice a empoisonné l’arbre, mais il peut voir si l’arbre est malade. Il a la possibilité d’appeler un médecin (à un certain coût). La venue d’un médecin réduit les chances que l’arbre meurt pendant l’hiver. Alice doit prendre une décision pour la construction de son patio avant que l’hiver n’arrive. Quand elle prend sa décision, elle sait si un médecin est venu, mais ne peut pas voir dans quel état est l’arbre.

Localité et dépendance. Pour profiter de la localité apportée par la description sous forme de MAID, Koller et Milch proposent la notion de pertinence stratégique entre les variables de décision. Ainsi, dans l’exemple 2.4, pour qu’Alice décide d’empoisonner ou non l’arbre de Bob, elle doit comparer ses gains espérés dans les deux situations. Cependant, le gain espéré dans le cas où Alice empoisonne l’arbre dépend de la probabilité que l’arbre meurt, sachant qu’il a été empoisonné. Et cette probabilité dépend elle même de la probabilité que Bob appelle un docteur s’il observe que l’arbre est malade. Donc, Alice doit connaˆıtre la règle de décision de la variable AppelerMédecin pour décider de sa meilleure action à jouer au moment de la variable EmpoisonnerArbre. Dans cette situation, on dit que AppelerMédecin est pertinent par rapport à EmpoisonnerArbre, autrement dit que la variable (l’action) EmpoisonnerArbre dépend stratégiquement de la variable (l’action) AppelerMédecin.

Koller et Milch proposent alors un critère graphique — la s-atteignabilité — ne dépendant que de la structure du MAID et permettant de calculer le graphe de pertinence (i.e. de dépendance)

EmpoisonnerArbre AppelerM´edecin _{ConstruirePatio}

En noir les variables associ´ees `a Alice, en gris celle de Bob.

Fig. 2.3 – Graphe de pertinence du jeu entre Alice, son patio et l’arbre de Bob (exemple 2.4) (voir figure 2.3 pour le graphe de d´ependance de l’exemple 2.4).

Equilibres. Koller et Milch utilisent le graphe de pertinence pour présenter un algorithme « diviser pour régner » et calculer les équilibres de Nash. Dans le cas des MAIDs, trouver un équilibre de Nash revient à optimiser chacune des variables de décision, c’est-à-dire trouver pour chacune des variables de décision la meilleure action à jouer.

Dans le cas où le graphe de pertinence est acyclique, un ordre topologique peut être calculé, ce qui permet d’exhiber les variables de décision indépendantes, qui peuvent donc être optimisées. On s’intéresse alors aux variables qui ne dépendant que de celles que l’on vient d’optimiser. Par récursivité, on peut ainsi traiter l’ensemble des variables, et calculer les équilibres de Nash.

Dans le cas où le graphe de dépendance est cyclique, Koller et Milch s’intéressent aux com-posantes fortement connexes du graphe de dépendance, et appliquent un algorithme similaire au précédent.

Dans le document Réseaux de jeux : une extension de la théorie des jeux pour la modélisation des interactions locales : application aux réseaux de régulation génétique. (Page 39-42)