• Aucun résultat trouvé

2.2 D´ependance d’actions

2.2.1 D´ependance d’actions par strat´egies

Le mod`ele pr´esent´e ici, les « Multi-Agent Influence Diagrams » de Koller et Milch, s’int´eresse `a une d´efinition strat´egique de la d´ependance.

« Muti-Agent Influence Diagrams » (Koller et Milch)

Contexte. Dans [KM01, KM03], Daphne Koller et Brian Milch proposent les « Multi-Agent Influence Diagrams », ou MAIDs. Les MAIDs mod´elisent des jeux non coop´eratifs, et ´etendent les mod`eles graphiques probabilistes (r´eseaux bay´esiens) et les diagrammes d’influence.

• Les r´eseaux bay´esiens, et plus g´en´eralement les mod`eles graphiques probabilistes, sont des techniques de repr´esentation utilis´ees en th´eorie de la d´ecision. Ils repr´esentent le monde au travers un ensemble de variables, pouvant prendre certaines valeurs (discr`etes ou conti-nues). Chaque ´etat possible du monde est repr´esent´e par l’attribution d’une valeur `a cha-cune des variables. Les relations entre les variables sont repr´esent´ees par un graphe. Dans ce graphe, les relations de cause `a effet ne sont pas d´eterministes mais probabilistes : une cause n’implique pas syst´ematiquement un effet, mais indique simplement une probabilit´e qu’il arrive.

• Les diagrammes d’influence ´etendent les r´eseaux bay´esiens en consid´erant un agent (et un seul) devant prendre des d´ecisions en accord avec ses pr´ef´erences. Les diagrammes d’influence ajoutent ainsi au r´eseaux bay´esiens des variables de d´ecision et des variables de gain repr´esentant les choix et les pr´ef´erences de l’agent.

Les MAIDs ´etendent les diagrammes d’influence en consid´erant la possibilit´e que plusieurs agents prennent des d´ecisions, se caract´erisant par un choix `a faire entre diff´erentes actions. Les MAIDs ont pour but de capturer explicitement la structure d’un jeu, i.e. de d´eterminer quelles sont les variables du jeu et d’organiser ces variables en d´efinissent une relation de d´ependance entre elles, la pertinence strat´egique (« strategic relevance »). Koller et Milch proposent un crit`ere graphique pour calculer cette d´ependance qui permet de d´ecomposer un jeu de d´epart en un ensemble de jeu plus petits et de calculer les ´equilibres de Nash du jeu initial `a partir des ´equilibres de Nash des petits jeux.

Mod`ele. Dans les MAIDS plusieurs agents prennent des d´ecisions. Celles-ci se caract´erisent, pour un agent, par un choix `a faire entre plusieurs actions ; de plus un agent peut avoir `a prendre plusieurs d´ecisions.

Un MAID se repr´esente par un graphe contenant trois types de nœuds, i.e. trois types de variables, d´ecrivant le monde sur lequel peuvent agir les agents.

• Les variables de chance (sous forme d’ovales) correspondent aux d´ecisions de la nature, i.e. des d´ecisions sur lesquelles les agents n’ont pas d’influence.

• Les variables de d´ecision (sous forme de rectangles) d´ecrivent les situations o`u un agent doit faire un choix. `A chaque variable de d´ecision sont donc associ´ees les actions parmi lesquelles un agent peut choisir et `a un agent peuvent ˆetre associ´ees plusieurs variables de d´ecision.

• Les variables de gain (sous forme de losanges) d´ecrivent les gains des agents. La d´ecom-position des gains est ici additive, autrement dit, le gain total d’un agent ´equivaut `a la somme de ses variables de gain.

Ces variables sont reli´ees par des arcs, formant un graphe orient´e acyclique.

• Les parents d’une variable de d´ecision permettent de d´efinir ce que connaˆıt l’agent au moment o`u il prend sa d´ecision.

• Les parents d’une variable de chance d´ecrivent une distribution probabiliste (la probabilit´e avec laquelle la variable de chance se produit d´epend de ses parents).

• Les variables de gain ne peuvent ˆetre parents d’une autre variable. `

A chaque variable de d´ecision d’un joueur est associ´ee une r`egle de d´ecision. Cette r`egle donne une distribution de probabilit´es sur les actions associ´ees `a le variable de d´ecision. La distribution d´epend des parents de la variable et indique les probabilit´es que l’agent choisisse les diff´erentes actions. Une strat´egie, pour un agent donn´e, revient `a attribuer une r`egle de d´ecision `a chacune des variables de d´ecision de l’agent.

EmpoisonnerArbre AppelerM´edecin ConstruirePatio ArbreMalade ArbreMort Co^ut Arbre Vue Effort

En noir les variables associ´ees `a Alice, en gris celles de Bob. En pointill´es les arcs d’observation.

Fig. 2.2 – MAID correspondant au jeu « Alice, son patio et l’arbre de Bob » (exemple 2.4) Pour un jeu donn´e, sa repr´esentation sous forme de MAID n’est pas plus importante que sous forme extensive. Elle est mˆeme possiblement exponentiellement plus compacte.

Exemple. L’exemple 2.4 est un ´enonc´e propos´e par Koller et Milch afin d’illustrer ces notions. Il met en jeu deux agents (Alice et Bob) ayant `a prendre respectivement deux d´ecisions, et une seule d´ecision. La repr´esentation sous forme de MAID est propos´ee figure 2.2.

Exemple 2.4 (Alice, son patio et l’arbre de Bob)

Alice d´esire construire un patio derri`ere sa maison. Le patio a d’autant plus de valeur qu’Alice a une vue d´egag´ee sur l’oc´ean. Malheureusement un arbre dans le jardin de son voisin Bob bloque la vue. Alice envisage d’empoisonner l’arbre, ce qui lui demande un effort, mais peut rendre l’arbre malade. Bob ne peut pas dire si Alice a empoisonn´e l’arbre, mais il peut voir si l’arbre est malade. Il a la possibilit´e d’appeler un m´edecin (`a un certain coˆut). La venue d’un m´edecin r´eduit les chances que l’arbre meurt pendant l’hiver. Alice doit prendre une d´ecision pour la construction de son patio avant que l’hiver n’arrive. Quand elle prend sa d´ecision, elle sait si un m´edecin est venu, mais ne peut pas voir dans quel ´etat est l’arbre.

Localit´e et d´ependance. Pour profiter de la localit´e apport´ee par la description sous forme de MAID, Koller et Milch proposent la notion de pertinence strat´egique entre les variables de d´ecision. Ainsi, dans l’exemple 2.4, pour qu’Alice d´ecide d’empoisonner ou non l’arbre de Bob, elle doit comparer ses gains esp´er´es dans les deux situations. Cependant, le gain esp´er´e dans le cas o`u Alice empoisonne l’arbre d´epend de la probabilit´e que l’arbre meurt, sachant qu’il a ´et´e empoisonn´e. Et cette probabilit´e d´epend elle mˆeme de la probabilit´e que Bob appelle un docteur s’il observe que l’arbre est malade. Donc, Alice doit connaˆıtre la r`egle de d´ecision de la variable AppelerM´edecin pour d´ecider de sa meilleure action `a jouer au moment de la variable EmpoisonnerArbre. Dans cette situation, on dit que AppelerM´edecin est pertinent par rapport `a EmpoisonnerArbre, autrement dit que la variable (l’action) EmpoisonnerArbre d´epend strat´egiquement de la variable (l’action) AppelerM´edecin.

Koller et Milch proposent alors un crit`ere graphique — la s-atteignabilit´e — ne d´ependant que de la structure du MAID et permettant de calculer le graphe de pertinence (i.e. de d´ependance)

EmpoisonnerArbre AppelerM´edecin ConstruirePatio

En noir les variables associ´ees `a Alice, en gris celle de Bob.

Fig. 2.3 – Graphe de pertinence du jeu entre Alice, son patio et l’arbre de Bob (exemple 2.4) (voir figure 2.3 pour le graphe de d´ependance de l’exemple 2.4).

´

Equilibres. Koller et Milch utilisent le graphe de pertinence pour pr´esenter un algorithme « diviser pour r´egner » et calculer les ´equilibres de Nash. Dans le cas des MAIDs, trouver un ´equilibre de Nash revient `a optimiser chacune des variables de d´ecision, c’est-`a-dire trouver pour chacune des variables de d´ecision la meilleure action `a jouer.

Dans le cas o`u le graphe de pertinence est acyclique, un ordre topologique peut ˆetre calcul´e, ce qui permet d’exhiber les variables de d´ecision ind´ependantes, qui peuvent donc ˆetre optimis´ees. On s’int´eresse alors aux variables qui ne d´ependant que de celles que l’on vient d’optimiser. Par r´ecursivit´e, on peut ainsi traiter l’ensemble des variables, et calculer les ´equilibres de Nash.

Dans le cas o`u le graphe de d´ependance est cyclique, Koller et Milch s’int´eressent aux com-posantes fortement connexes du graphe de d´ependance, et appliquent un algorithme similaire au pr´ec´edent.