Universit´e Pierre et Marie Curie Licence Informatique 2014-2015
Cours LI 352 - Industrie Informatique et son Environnement ´Economique Responsable : Jean-Daniel Kant ([email protected])
COURS 8 :
INTRODUCTION A LA THEORIE DES JEUX
1 Jeux
Le comportement des oligopoles montrent la forte interd´ependance entre les firmes. Quand la march´e est contrˆol´e par un petit nombre d’entreprises, chaque firme analyse les comportements des autres et peaufine sa strat´egie en partie en fonction de celles des autres. Ainsi, ces com- portements interd´ependants peuvent apparaˆıtre comme des jeux, o`u chaque firme jouerait un coup, puis recevrait la r´eponse d’une autre en riposte, etc. C’est pourquoi la th´eorie des jeux est souvent utilis´ee en ´economie pour mod´eliser les comportements oligopolistiques. Elle est aussi utilis´ee dans d’autres domaines de l’´economie industrielle, en ´economie du travail, des ´echanges internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les acteurs raisonnent exactement comme la th´eorie des jeux le prescrit. C’est plus une abstraction de comportement, une vision stylis´ee qu’un v´eritable mod`ele.
La th´eorie des jeux ´etudie des situations (les jeux) o`u des agents (les joueurs) ont `a choisir des strat´egies et obtiendront chacun un r´esultat (paiement, gain) qui d´ependra des strat´egies jou´ees par l’ensemble des joueurs. Une strat´egie peut se r´eduire `a une d´ecision ´el´ementaire, mais peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu est non-coop´eratif lorsque les joueurs choisissent leurs strat´egies `a l’insu les uns des autres. La th´eorie des jeuxcoop´eratifs ´etudie au contraire les avantages que peuvent tirer les joueurs de la possibilit´e de former entre eux descoalitions.
2 Jeux non-coop´ eratifs
2.1 Jeux sous forme normale
Un jeu est pr´esent´e sous forme normale (on dit encore sous forme strat´egique) lorsqu’il est d´efini par la donn´ee :
• d’un ensemble de joueursN ={1, .., i, .., n};
• pour chaque joueur i, d’un ensemble destrat´egies Ai ={ai1, .., ail, .., aimi};
• et d’une fonction(vectorielle) depaiement : u= (u1, ..ui, ..un) : Nn
i=1Ai −→Rn
a= (a1, ..ai, ..an)7−→u(a) = (u1(a), .., ui(a), .., un(a)),
o`u ui(a) =ui(a1, .., ai, .., an) est le paiement du joueuri(ce peut ˆetre aussi bien un gain mon´etaire qu’un niveau d’utilit´e) lorsque les joueurs jouent le profil de strat´egies a, c-
`
a-d, lorsque le joueur i joue la strat´egie ai et les autres joueurs jouent les strat´egies aj, j∈ N \{i}.
Notations: Il sera commode de noter−il’ensembleN \{i}, d’o`ua−i= (a1, .., ai−1, ai+1, ..an), a= (ai, a−i), u−i(a) = (u1(a), .., ui−1(a), ui+1(a), .., un(a)), u(a) = (ui(a), u−i(a)),A−i =N
j6=iAj, A=Ai× A−i,etc.
Cette d´efinition peut ˆetre ´etendue `a un nombre infini de joueurs ou de strat´egies.
Dans le cas de deux joueurs (n = 2), on peut repr´esenter un tel jeu `a l’aide de la matrice du jeu, dont les lignes et colonnes sont respectivement identifi´ees aux strat´egies de chacun des joueurs et l’´el´ement de ligne a1 et colonnea2 est le couple (u1(a1, a2), u2(a1, a2)).
Ainsi le jeu est d´ecrit par la matrice U de terme Uij =ui(aj).
N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs connaissent la matrice U du jeu.
Exemples
La bataille du couple
Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet `a l’avance, chacun s´epar´ement ; ils n’ont pas la possibilit´e de communiquer ; ils n’aiment l’une que les chanteuses am´ericaines d´ecolor´ees, l’autre que le football ; enfin, leur soir´ee `a tous deux sera gˆach´ee s’ils ne sont pas ensemble.
Kevina \Kevin concert f oot
concert 2,1 −1,−1
f oot −1,−1 1,2
Peut-on dire ce que doivent faire, pr´edire ce que vont faire, Kevin et Kevina ? S’ils sont rationnels, chacun a int´erˆet `a choisir sa pr´ef´erence, car il vaut mieux gagner 2 ou perdre -1, que gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre `a coup sˆur. Il vaudrait mieux jouer (concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le mˆeme. La bataille du couple est difficile `a r´esoudre !
Le dilemme du prisonnier
P ris. I \ P ris. II nier avouer
nier 3,3 10,1
avouer 1,10 6,6
Ce jeu tire son nom de l’interpr´etation suivante : deux criminels pr´esum´es sont interrog´es s´epar´ement par la police ; s’ils nient tous les deux ils seront condamn´es `a une faible peine (3 ans) et s’ils avouent tous les deux ils seront condamn´es `a une peine plus forte (6 ans) ; si l’un
des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors que le second aura la peine maximale (10 ans). La matrice ci-dessus repr´esente donc des pertes (gains n´egatifs).
Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre, chacun a int´erˆet `a avouer, car les gains seront toujours meilleurs (peines moindres) que nier.
Cependant si on change maintenant la matrice des gains :
P ris. I \ P ris. II nier avouer
nier 3,3 10,30
avouer 30,10 30,30
Il vaut alors mieux nier, vu qu’avouer entraˆıne la peine maximale `a chaque fois.
2.2 Analyse d’un jeu sous forme normale
2.2.1 Consid´erations de dominance Dominances
• La strat´egie ai du joueuridomine faiblement sa strat´egie bi lorsque : ui(ai, a−i)≥ui(bi, a−i),∀a−i ∈ A−i;
(quelque soient les strat´egiesa−i des autres joueurs, la strat´egie ai est meilleure ou ´egale que bi.)
• elle la domine si elle la domine faiblement et que,de plus :
∃c−i ∈ A−i t.q.ui(ai, c−i)> ui(bi, c−i) ;
(il y a au moins un cas, i.e. une r´eponse des autres joueurs, pour lequel ai est meilleure que bi)
• enfin, ai domine strictement bi lorsque :ui(ai, a−i)> ui(bi, a−i),∀a−i ∈ A−i.
(quelque soient les strat´egiesa−i des autres joueurs, la strat´egie ai est meilleure stricte- ment que bi.)
La strat´egieaiest ditefaiblement dominante (resp.dominante,resp. strictement dominante) si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi∈ Ai\{ai}.
Equilibre en strat´egies strictement dominantes
On peut penser qu’un joueur rationnel ne choisira jamais une strat´egie s’il dispose d’une autre strat´egie lui assurant un gain sup´erieur quel que soit le comportement des autres joueurs.
Si chaque joueur a une strat´egie strictement dominante, il doit donc la jouer et le jeu est r´esolu.
On dit alors qu’il existe un´equilibre en strat´egies strictement dominantes.
C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remar- quons que les joueurs obtiendraient tous deux plus qu’`a cet ´equilibre en jouant (nier, nier) ; il n’est donc pas efficace du point de vue de la rationalit´e collective, qui se caract´erise par l’optimalit´e au sens de Pareto.
Optimum de Pareto
Une suite de strat´egies a∗ = (a1∗, ..ai∗, ..an∗) est un optimum de Pareto lorsqu’ aucun des joueurs ne peut obtenir un paiement plus ´elev´e sans que le paiement d’un des autres diminue :
ui(ai, a−i)≥ui(ai∗, a−i∗ ),∀i
=⇒
ui(ai, a−i) =ui(ai∗, a−i∗ ),∀i .
L’optimum de Pareto exprime bien l’id´ee que collectivement on ne peut pas am´eliorer la situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne indivi- duellement.
Equilibre it´eratif en strat´egies strictement dominantes
Quand il n’en existe pas, le jeu peut souvent ˆetre simplifi´e par un processus it´eratif o`u chaque joueur, tablant sur la rationalit´e de ses adversaires, ´ecarte les strat´egies apparues comme domin´ees `a cette ´etape de son raisonnement.
Exemple
Matrice du jeu :
G C D
H M B
(2,5) (4,8) (1,3) (1,4) (2,5) (3,6) (3,7) (5,8) (2,9)
Il n’existe pas d’´equilibre en strat´egies strictement dominantes car aucune ligne ne donne strictement plus, composante par composante, quetoutes les autres lignes (il n’existe d’ailleurs pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche d’un ´equilibre it´er´e en strat´egies strictement dominantes, on ´elimine successivement :
Gstrictement domin´e parC →
C D
H M B
(4,8) (1,3) (2,5) (3,6) (5,8) (2,9)
; H strictement domin´e parB
→
C D
M B
(2,5) (3,6) (5,8) (2,9)
;C strictement domin´e par D→
D M
B
(3,6) (2,9)
;
B strictement domin´e par M → D
M (3,6) . (M, D) est l’´equilibre it´er´e en strat´egies strictement domin´ees cherch´e.
Equilibre et ´equilibre it´eratif en strat´egies dominantes
On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une strat´egie s’il en existe une autre assurant un gain sup´erieur ou ´egal quoi qu’il arrive et strictement sup´erieur pour certaines strat´egies des autres joueurs. Ici encore si chaque joueur a une strat´egie dominante (il ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un ´equilibre en strat´egies dominantes.
En revanche, le concept d’´equilibre it´eratif en strat´egies dominantes pose des probl`emes.
En effet, contrairement au cas de la dominance stricte, selon l’ordre d’´elimination de strat´egies domin´ees adopt´e, on peut aboutir `a des r´esultats diff´erents.
2.2.2 Equilibre de NASH
Lorsque, comme dans la bataille du couple, il n’existe pas d’´equilibre, mˆeme it´eratif, en strat´egies strictement dominantes, il faut examiner l’int´erˆet pr´esent´e pour les joueurs par des strat´egies aux propri´et´es plus faibles :
Meilleure r´eponse
La strat´egie ai∗ du joueuriest une meilleure r´eponse `a des strat´egies donn´ees b−i ∈ A−ides autres joueurs lorsque : ui(ai∗, b−i)≥ui(ai, b−i),∀ai∈ Ai.
Equilibre de NASH
Un profil de strat´egies a∗ = (a1∗, ..ai∗, ..an∗) est un ´equilibre de Nash lorsque chacune de ses composantes constitue une meilleure r´eponse aux autres :
ui(ai∗, a−i∗ )≥ui(ai, a−i∗ ),∀ai ∈ Ai,∀i= 1, .., n.
Un ´equilibre de Nash est donc un profil de strat´egies (c’est-`a-dire la donn´ee d’une strat´egie d’´equilibre pour chaque joueur) dans laquelle chaque strat´egie est une meilleure r´eponse `a toute autre strat´egie jou´ee.
Un ´equilibre de Nash a la propri´et´e de stabilit´e suivante : si, pour une raison quelconque, un des joueurs pense que tous ses adversaires vont jouer leurs strat´egies d’´equilibre, alors il n’a aucune incitation `a jouer lui-mˆeme autre chose que sa strat´egie d’´equilibre. Par exemple, les joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un ´equilibre ; une trahison reste toujours possible ; cependant chacun a int´erˆet `a respecter cet accord si les autres le respectent aussi.
La multiplicit´e des ´equilibres deNashpeut poser des probl`emes. Dans la bataille du couple, il y a deux ´equilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente pr´ealable, Kevina peut vouloir jouer l’un et Kevin l’autre, avec pour r´esultat les paiements (−1,−1) ; les jeux o`u se rencontre cette difficult´e sont appel´esjeux de coordination.
Enfin, un ´equilibre de Nash n’est pas forc´ement souhaitable. Dans le premier dilemme du prisonnier ci-dessus (avouer, avouer) ´etant un ´equilibre en strat´egies (strictement) dominantes est aussi ´equilibre de Nash; comme nous l’avons remarqu´e, (nier, nier) est strictement meilleur pour chacun des deux joueurs ; un ´equilibre de Nash n’est donc pas en g´en´eral Pareto-optimal.
On voit facilement qu’un ´equilibre it´eratif en strat´egies strictement domin´ees et mˆeme en strat´egies domin´ees est n´ecessairement un ´equilibre de Nash. L’inverse n’est pas vrai et le processus it´eratif d’´elimination de strat´egies domin´ees peut ´ecarter un ´equilibre deNashattractif comme dans l’exemple suivant.Exemple
J. I \ J. II G D
H 10,0 5,2
B 10,11 2,0
Si le joueurIIpense que le joueurI´eliminera la strat´egieB, domin´ee (mais pas strictement) par H, il joueraD et l’issue du jeu sera (5,2) ; (H, D) est bien un ´equilibre de Nash, mais un deuxi`eme ´equilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a ´et´e ´elimin´e !
L’´etude d’un jeu sous sa forme extensive, qui contient en g´en´eral plus d’information sur le jeu, permettra d’identifier les ´equilibres de Nash qui sont cr´edibles, c-`a-d susceptibles d’ˆetre jou´es par des joueurs rationnels.
3 Jeux sous forme extensive
Certaines situations o`u les agents prennent des d´ecisions `a tour de rˆole peuvent ˆetre d´ecrites commod´ement `a l’aide d’un arbre de jeu (en fait, une arborescence) :
3.1 Exemple : attaque publicitaire
Deux entreprises E1 et E2 sont en duopole sur un produit et font des b´en´efices respectifs (1,5) ; E1 peut ou non lancer une campagne publicitaire (coˆuteuse) pour agrandir sa part de march´e, ce qui r´eussira siE2 ne r´eagit pas et les am`enera alors `a (2,3) ; en revanche, siE2 r´eagit en lan¸cant sa propre campagne, les b´en´efices deviendront (0,2). L’arbre que l’on associe `a ce jeu est le suivant :
Figure1 – arbre du jeu
Chacun des joueurs a deux strat´egies, pub et statu quo, mais celles de E2 n’ont d’influence sur le d´eroulement et l’issue du jeu que si E1 a choisi la strat´egie pub.
Le jeu a pour forme normale :
E1 \ E2 pub statu quo pub 0,2 2,3 statu quo 1,5 1,5
Il y a deux ´equilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme extensive nous assure que le second ne sera pas jou´e : si E1 choisitpub,E2 jouera statu quoqui lui rapporte alors `a coup sˆur plus quepub; le pr´evoyant, E1 doit pr´ef´erer pub `a statu quo. (On peut arriver `a la mˆeme conclusion sur la forme normale en raisonnant que E2 ne jouera pas pub, domin´ee par statu quo, mais cette dominance n’´etant pas stricte, la conclusion resterait douteuse).
3.2 Information
Le jeu de l’exemple ci-dessus est un jeu `a information parfaite, c.-`a-d. qu’`a l’instant de prendre une d´ecision les joueurs connaissent toutes les d´ecisions pass´ees (les leurs et celles des autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mˆemes informations.
On parlera au contraire, de jeu `a informationimparfaitelorsque certains des joueurs ne savent pas toujours exactement `a quel sommet de l’arbre de d´ecision ils se trouvent (par exemple quand l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est sym´etrique lorsque chaque joueur en sait au moins autant que les autres au moment o`u il joue ; elle est dite asym´etriquesinon.
L’information est diteincompl`etelorsque certains joueurs ne savent pas exactement quels sont les paiements de la matrice de jeu (ils ne savent pas `a quel jeu ils jouent).
Le jeu de l’Attaque publicitaire est un jeu `a information parfaite. Les jeux d’´echec, de dames et de Go aussi. Si dans l’un de ces jeux on fait pr´ec´eder la partie d’un coup de la nature - tirage
`
a P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le jeu compl´et´e reste `a information parfaite.
Lepoker, dans toutes ses variantes, est un jeu enenvironnement incertain(la r´epartition des cartes est al´eatoire) `a information imparfaite. Voyons un exemple avec environnement certain.
Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renvers´ees : la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes (g(auche),c(entre) oud(roite)) et gagne M e s’il a d´esign´e celle qui cache la bille. Sur l’arbre de d´ecision (Fig. 2) on a indiqu´e l’ensemble d’information du Gogo au moment de jouer ( ellipse en pointill´es) : il ne sait pas o`u se trouve la bille, donc est incapable de distinguer les 3 sommets o`u il peut avoir `a jouer.
Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultan´ement ; on peut pourtant le repr´esenter sous forme extensive en pla¸cant dans l’arbre du jeu l’action de l’un avant celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait o`u il se trouve dans l’arbre : c’est un jeu `a information imparfaite.
Figure 2 – arbre du jeu du Bonneteau 3.3 Strat´egies
3.3.1 Strat´egies pures
Unestrat´egie du joueuri(que nous appellerons plus tard strat´egie purequand nous intro- duirons les strat´egiesmixtes) est une r`egle s´electionnant une action parmi les actions r´ealisables en chacun des sommets de d´ecision qui lui sont associ´es. Dans lesjeux `a information imparfaite, un joueur ne sachant pas distinguer deux sommets appartenant au mˆeme ensemble d’informa- tion, une strat´egie doit v´erifier la condition suivante : s´electionner la mˆeme action `a tous les sommets d’un mˆeme ensemble d’information. N.B. Cette condition n’apporte aucune restric- tion dans les jeux `a information parfaite puisque tous les ensembles d’information y sont des singletons.
Un profil de strat´egies est une suite a = (a1, .., ai, ..an), c-`a-d consiste en la donn´ee d’une strat´egie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de strat´egies a d´etermine compl`etement le d´eroulement du jeu ; il s´electionne un chemin de la racine vers l’une des feuilles f, que l’on appelle la trajectoire du jeu. Les paiements sont alors eux-mˆeme d´etermin´es et valent :U(a) = (U1(a), .., Ui(a), .., Un(a)) =u(f) = (u1(f), .., ui(f), .., un(f)).
Dans un jeu en environnement incertain, le d´eroulement du jeu d´epend conjointement des strat´egies des joueurs et des ´ev´enement r´ealis´es ; la trajectoire est alors al´eatoire ; `a profil de
strat´egies a donn´e, chaque feuille f est atteinte avec une probabilit´e P(f) (d´etermin´ee par la loi de probabilit´e des divers ´ev´enements) ; a donne donc au joueur i une esp´erance d’utilit´e Ui(a) = P
f P(f)ui(f). La donn´ee d’un jeu sous forme extensive permet donc d’obtenir sa forme normale.
On a le r´esultat suivant :
Theorem 3.1(Kuhn). Tout jeu fini `anpersonnes, sous forme extensive, `a information parfaite a une solution qui est un ´equilibre de Nash en strat´egies pures.
3.4 Strat´egies mixtes
Une strat´egie mixte en th´eorie des jeux est une strat´egie o`u le joueur choisit au hasard le coup qu’il joue parmi les coups possibles. Cela revient `a attribuer une certaine distribution de probabilit´e sur l’ensemble des strat´egies pures du jeu. Dans certains jeux, seules les strat´egies mixtes sont optimales.
Exemple : McDonald’s vs. Quick
Prenons l’exemple de l’affrontement entre les 2 g´eants dufast food, McDonald’s et Quick, et mod´elisons le avec la matrice de jeu suivante :
M D \ QK prix bas (LP) publicit´e forte (HA)
prix bas (LP) 60,35 55,45
publicit´e forte (HA) 55,50 60,40
Ce jeu n’admet pas d’´equilibre de Nash en strat´egie pure. Par exemple siM D =LP, QK = HA, alorsM D va essayer HA mais du coup QK, `a partir de (HA, HA), pr´ef`ere jouerLP. En (HA, LP),M D pr´ef`ere LP et alorsQK joueHA : nous voil`a revenus `a la case d´epart.
En strat´egie mixte, on introduit les probabilit´espLM que Mc Do joue prix bas et pLQK que Quick joue prix bas. Pour Mc Do, il faut maximiser le profit esp´er´e :
EM D = pLM(60.pLQK + 55.(1−pLQK)) + (1−pLM)(55.pLQK+ 60.(1−pLQK))
= 10.pLM.pLQK −5.pLM −5.pLQK + 60 Pour maximiser il faut :
∂EM D
∂pLM
= ∂EM D
∂pLQK
= 0 ⇒ pLM =pLQK = 0,5 Pour Quick, il faut maximiser le profit esp´er´e :
EQK = pLQK(35.pLM+ 50.(1−pLM)) + (1−pLQK)(45.pLM+ 40.(1−pLM))
= −20.pLM.pLQK+ 10.pLQK+ 5.pLM+ 60 Pour maximiser il faut :
∂EQK
∂pLM = ∂EQK
∂pQK = 0 ⇒ pLQK = 0,5 ; pLM = 0,25
La strat´egie optimale pour les 2 entreprises est donc de jouer chaque strat´egie avec une probabilit´e de 50%.
Ce jeu mixte n’est pas repr´esentable sous forme extensive, car, chaque joueur y ayant une infinit´e de strat´egies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc `a raisonner sur l’arbre du jeu initial, de mˆeme que, sous forme normale, on continue `a utiliser la matrice du jeu initial.
Nasha d´emontr´e que :
Theorem 3.2(Nash). Tout jeu fini `anpersonnes sous forme normale a un ´equilibre[deNash] en strat´egies mixtes.
4 Jeux r´ ep´ et´ es
4.1 Introduction
Reprenons l’exemple du dilemme du prisonnier (ici on repr´esente des gains positifs) : P ris. I \ P ris. II nier avouer
nier 1,1 −1,2
avouer 2,−1 0,0
L’analyse de ce jeu nous a conduit `a une conclusion peu satisfaisante : Si les joueurs sont rationnels, chacun doit ´eliminer la strat´egienier qui est strictement domin´ee ; la solution du jeu est donc (avouer, avouer) ; c’est n´ecessairement un ´equilibre de Nashet c’est en fait le seul. Or cette solution est domin´ee au sens de Pareto par le profil (nier, nier), plus avantageux pour chacun des joueurs. Il y a donc conflit entre la rationalit´e individuelle et la rationalit´e collective.
Quand pourrait-on observer de la coop´eration de la part des joueurs ? Une hypoth`ese possible est que dans la r´ealit´e les agents n’ont pas affaire `a une situation de jeu isol´ee, mais `a une succession de jeux, sinon identiques du moins de structures semblables, et que la strat´egie choisie dans l’un d’eux n’est qu’une composante de leur strat´egie globale dans le super-jeuconstitu´e de l’ensemble de leurs jeux. Nous allons examiner cette hypoth`ese.
4.2 Etude du dilemme du prisonnier r´ep´et´e
4.2.1 Comportement rationnel dans le dilemme du prisonnier r´ep´et´e un nombre fini de fois
N.B.On ´ecrira AetN pour les strat´egiesavouer et nier du jeu ´el´ementaire.
Deux joueurs jouent lesuper-jeu consistant `a jouer T fois au dilemme du prisonnier, `a des dates t= 1,2,· · ·, t,· · ·, T. Les gains des diff´erentes parties s’additionnent pour constituer les paiements du super-jeu. Ce super-jeu est unjeu fini `a information imparfaite (comme d’ailleurs le jeu ´el´ementaire) puisqu’`a chaque date tles deux joueurs jouent `a l’insu l’un de l’autre.
A la date t, chaque joueur sait ce que son adversaire et lui-mˆeme ont jou´e aux (t−1) premi`eres parties et il peut en faire d´ependre son action `a cette date. Une strat´egieS de l’un des
joueurs dans le super-jeu est donc caract´erisable par une suiteS = (S1,· · ·, St,· · ·, ST) dont les composantes, toutes `a valeurs dans {A, N}, sont d´etermin´ees r´ecursivement par la donn´ee de S1 et de fonctions φt, t= 2,· · · , T, par St = φt(S1, R1,· · · , St−1, Rt−1) o`u R1,· · ·, Rt−1 sont les actions de l’autre joueur qu’il aura d´ej`a observ´ees `at. Il y a donc un tr`es grand nombre de strat´egies (pures) possibles pour chacun des joueurs.
Montrons qu’une strat´egie optimale pour chacun des joueurs est d’avouer `a chaque ´etape, strat´egie que nous noterons Arep. A la date T, quel qu’ait ´et´e le d´eroulement du jeu jusque l`a et le total des gains de chacun, il reste `a jouer un jeu ´el´ementaire ayant sous forme normale la matrice de gains totaux finaux
P ris. I \P ris. II nier avouer nier mI+ 1, mII+ 1 mI−1, mII + 2 avouer mI+ 2, mII−1 mI, mII
o`u les sommes mI et mII d´ependent du sommet atteint apr`es (T −1) ´etapes. Quelles que soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux pr´evoient donc que l’autre jouera A`a T. Mais alors, `a (T −1), au moment de jouer dans le jeu
´
el´ementaire `a cette date, chacun doit seulement comparer les paiements dans le sous-jeu form´e de deux jeux ´el´ementaires les sous-strat´egiesA suivi deAetN suivi deA; la matrice des gains finaux ´etant du type pr´ec´edent (avec pourmI etmII les sommes acquises apr`esT−2 ´etapes), les deux joueurs pr´evoient que l’autre joueraA`a (T−1) comme `aT. Par r´ecurrence, on montrerait que tous les deux doivent jouer Arep. Le couple (Arep, Arep) est clairement Pareto-domin´e par de nombreuses autres couples de strat´egies du super-jeu, comme par exemple (Nrep, Nrep). On reste donc devant la mˆeme incoh´erence entre rationalit´e individuelle et collective que dans le jeu
´
el´ementaire !
4.2.2 Introduction de pr´esuppos´es de comportement dans le dilemme du prisonnier r´ep´et´e un nombre fini de fois
Un joueur peut ˆetre rationnel et pourtant avoir un comportement coop´eratif, s’il prend en compte d’autres ´el´ements que la simple description du jeu, par exemple s’il a des id´ees a priori sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat (”oeil pour oeil, dent pour dent”) la strat´egie suivante : Jouer N (nier) `a t = 1, puis , `a tout t >1, jouer ce que l’autre a jou´e `a (t−1).
Supposons que le joueur I pense que son adversaire peut avec une probabilit´e jouer la strat´egieTit for Tat au lieu de la strat´egie rationnelle non-coop´erativeArep. SiI joue lui-mˆeme Arep, avec probabilit´e, II jouantTit for Tat,I gagnera 2 la premi`ere fois puis plus rien et avec probabilit´e (1−), II jouant Arep, les paiements (deI comme deII) seront toujours nuls ; d’o`u un gain esp´er´e ´egal `a 2.
Si maintenant I joue lui-mˆeme Tit for Tat, avec probabilit´e , II jouant lui-mˆeme Tit for Tat avec probabilit´e, I r´ealisera T fois un gain de 1. Avec probabilit´e (1−),II jouant Arep, et donc I perdra 1 `a t = 1, puis tous les paiements seront nuls. D’o`u un gain esp´er´e ´egal `a .T + (1−)(−1) =(T + 1) − 1.
Tit for Tat est donc pr´ef´erable pour lui `a la strat´egie ”rationnelle”Arep d`es que
(T + 1) − 1 >2⇔ > T1−1. Cela dit, Tit for Tat n’est pourtant pas sa strat´egie optimale car, par exemple, il a toujours int´erˆet `a jouerA `a la derni`ere p´eriode).
4.2.3 Comportement dans le dilemme du prisonnier r´ep´et´e une infinit´e de fois On peut aussi penser qu’il y a un effet d’horizon dans le jeu r´ep´et´e un nombre fini de fois, dˆu au fait que l’on sait que tout s’arrˆete `a la date T; un tel effet est irr´ealiste, puisque dans le monde r´eel il y a presque toujours de l’incertitude sur la date de fin des relations marchandes ou autres des agents. Pour se d´ebarrasser de l’horizon, on peut ´etudier lesuper-jeu∞form´e par le jeu simple r´ep´et´e une infinit´e de fois. Pour que le paiement global ne risque pas de devenir infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’int´erˆet) ρ > 0, d’o`u un facteur d’escompte δ = 1+ρ1 < 1. Le paiement global est alors la somme actualis´ee, `a t= 1 par exemple, des paiementsgt `a t:G = P∞
t=1δt−1gt.
On montre alors qu’une coop´eration parfaite, les deux joueurs jouant constammentN (nier), peut apparaitre ; elle pourrait ˆetre induite par le choix par chacun de la strat´egie coop´erative
`
a d´eclenchement Σ : Jouer N tant que l’autre le joue aussi ; jouer A `a tout jamais d`es que l’autre a jou´e une foisA.Le r´esultat pr´ecis est le suivant :Le couple de strat´egies coop´eratives `a d´eclenchement (Σ,Σ) constitue un ´equilibre de Nash parfait du jeu r´ep´et´e une infinit´e de fois,
`
a condition que δ soit suffisamment proche de 1.
D´emonstration : (Σ,Σ) assure `a chacun des deux joueurs un gain de 1 `a chaque date t.
Supposons que le joueurII pense que I joue la strat´egie Σ mais choisit lui-mˆeme une strat´egie diff´erente de Σ, qui le fait jouerA pour la premi`ere fois `a une datet0, lui donnant un gain de 2 ; il sait que I jouera alors A`a toutes les dates suivantes t > t0 et que quoiqu’il fasse lui-mˆeme, il n’aura plus que des paiements≤0, d’o`u une somme de ses gains `a partir det0 (actualis´ee `at0) G0 ≤2 `a comparer avec celle que lui assurerait Σ,G= 1 +δ+· · ·+δt+· · ·= 1−δ1 ; il n’a donc aucun int´erˆet `a devier de Σ si 1−δ1 ≥2, c-`a-d si δ≥ 12.
Ce r´esultat pourrait ˆetre consid´er´e comme une validation normative de la coop´eration dans le dilemme du prisonnier s’il existe pas d’autres ´equilibres parfaits dans le super-jeu ∞; mal- heureusement, il en existe de nombreux autres.
Simulation du Tit-for-Tat1
Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche `a r´epondre
`
a la question suivante : ”Under what conditions will cooperation emerge in a world of egoists without central authority ?” Pour tester la stabilit´e de cet ´equilibre, R. Axelrod demande `a des coll`egues, qui ont ´etudi´e le dilemme du prisonnier dans leurs diff´erentes disciplines (psychologie, biologie, ´economie, physique, math´ematique, science politique, sociologie etc.), de proposer un programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer `a un jeu du di- lemme du prisonnier r´ep´et´e 200 fois. Chaque programme contient la strat´egie d’un joueur. Le jeu s’apparente `a un tournoi dans lequel chaque strat´egie est confront´ee `a tous les autres, `a lui-mˆeme et `a un programme al´eatoire jouant au hasard. Le programme vainqueur est celui totalisant le plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnant- gagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod d´ecide de renouveler
1. D’apr`es Wikipedia, http ://fr.wikipedia.org/wiki/Th´eorie des jeux en relations internationales.
l’exp´erience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport l’emporte. Or la strat´egie gagnant-gagnant ou Tit for Tat d’A. Rapoport n’emporte aucun match du tournoi ! R. Axelrod (1984) (1) en d´eduit, que [le dilemme du prisonnier]
est simplement une formulation abstraite de quelques situations tr`es courantes et int´eressantes dans lesquelles ce qui est le meilleur pour une personne individuellement conduit `a une situation d’´echec mutuel tandis que chacune pourrait mieux s’en tirer avec une coop´eration mutuelle . L’interpr´etation de ces r´esultats qui impliquent la sup´eriorit´e du comportement coop´eratif dans un environnement de dilemmes du prisonnier r´ep´et´es a ´et´e sujette `a de nombreuses discussions.
Selon Eber (2004), les r´esultats d’Axelrod montrent que, dans un monde de conflits permanents, il serait optimal de se comporter de la fa¸con suivante : ˆetre a priori coop´eratif avec les autres (jouer [la strat´egie de coop´eration (C)] lors du premier dilemme du prisonnier auquel on se trouve confront´e), punir son partenaire lorsqu’il n’a pas coop´er´e (jouer [la strat´egie de non- coop´eration (D)] chaque fois que le joueur `a jouer D au tour pr´ec´edent) pardonner et revenir `a la coop´eration lorsque le partenaire se remet `a coop´erer (jouer C `a chaque fois qu’il a jou´e C le coup pr´ec´edent) . Cette philosophie politique, certes plaisante, est tr`es d´ebattue. Les conclu- sions auxquelles Axelrod aboutit sont en particulier li´ees `a la simplification du mod`ele compar´e
`
a la situation r´eelle analys´ee. R´ef´erence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The Evolution of Cooperation” The Evolution of Cooperation. R. Axelrod” Review author[s] : Paul R. Milgrom, The RAND Journal of Economics, Vol. 15, No. 2. (Summer, 1984), pp. 305-309.
5 Applications
Les champs d’application de la Th´eorie des Jeux sont tr`es vari´es par exemples :
• D´efense, Relations Internationales
— la crise des missiles de Cuba en octobre 1962 : On peut la repr´esenter par le jeu suivant :
Kennedy\Kroutchev retrait maintenir
blocus naval Compromis(3,3) V ictoire U RSS(2,4) raid a´erien V ictoire U S(4,2) Guerre N ucl´eaire(−3,−3) A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face.
Cela s’apparente `a ce que les am´ericains ont appel´e legame of chicken, un jeu tr`es `a la mode dans les ann´ees 1950 (voir le film La fureur de vivre). Deux automobilistes roulent en sens inverse dans une rue ´etroite, le perdant qualifi´e de poule mouill´ee
est celui qui donne un coup de volant pour ´eviter son concurrent. Ce jeu repr´esente bien des situations de crise dans le domaine des relations internationales.
Analyse par Steven Brams2 :
Needless to say, the strategy choices, probable outcomes, and associated payoffs shown in Figure 1 provide only a skeletal picture of the crisis as it developed over a period of thirteen days. Both sides considered more than the two alter- natives listed, as well as several variations on each. The Soviets, for example, demanded withdrawal of American missiles from Turkey as a quid pro quo for withdrawal of their own missiles from Cuba, a demand publicly ignored by the United States.
2. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis
Nevertheless, most observers of this crisis believe that the two superpowers were on a collision course, which is actually the title of one book describing this nuclear confrontation. They also agree that neither side was eager to take any irreversible step, such as one of the drivers in Chicken might do by defiantly ripping off the steering wheel in full view of the other driver, thereby foreclosing the option of swerving.
Although in one sense the United States ”won” by getting the Soviets to with- draw their missiles, Premier Nikita Khrushchev of the Soviet Union at the same time extracted from President Kennedy a promise not to invade Cuba, which seems to indicate that the eventual outcome was a compromise of sorts. But this is not game theory’s prediction for Chicken, because the strategies associated with compromise do not constitute a Nash equilibrium.
— les politiques de constitution de convois de bateaux en temps de guerre ;
— la fa¸con de g´erer un coup de surprise politique (Nasser `a Suez, de Gaulle au Qu´ebec, Eltsine lors du putsch, annonces ´electorales...) ou marketing ;
— la lutte contre le terrorisme.
• Sociologie et g´en´etique : des chercheurs ont utilis´e la strat´egie des jeux pour mieux com- prendre l’´evolution du comportement des esp`eces face `a la modification de leur environ- nement
• Marketing et strat´egie entreprise
• Economie ; notamment les travaux de Jean Tirole en ´economie industrielle
Les r´esultats peuvent ˆetre appliqu´es `a des divertissements (comme le jeu t´el´evis´e Friend or Foe 3 sur une chaˆıne cˆabl´ee sp´ecialis´ee aux ´Etats-Unis, Game Show Network).
Le Professeur Thomas Schelling, ”prix Nobel d’´economie” 2005, s’est sp´ecialis´e dans l’expli- cation des diverses strat´egies utilis´ees (`a utiliser) dans les conflits internationaux, tels la guerre froide et la guerre nucl´eaire (dissuasion..)
Albert W. Tucker a par exemple diffus´e de nombreuses interpr´etations du dilemme du pri- sonnier dans la vie courante. Des biologistes ont utilis´e la th´eorie des jeux pour comprendre et pr´evoir les r´esultats de l’´evolution, en particulier la notion d’´equilibre ´evolutivement stable introduit par John Maynard Smith dans son essais La th´eorie des jeux et l’´evolution de la lutte (Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of Games.
Dans le domaine de la science politique appliqu´ee `a l’environnement, on peut citer la trag´edie des communs4.
Il faut noter cependant des critiques fortes adress´ees aux partisans de la th´eorie des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions tr`es abstraites de la th´eorie des jeux ont du mal `a repr´esenter ad´equatement le r´eel, qu’on ne sait pas s’il y a des ´equilibres de Nash dans la Nature, ni si cette notion mˆeme d’´equilibre de Nash est la pr´ediction issue de la th´eories des jeux, le r´esultat du comportement rationnel des joueurs ou la solution du jeu (Cf. B. Guerrien,Can we espect anything from Game Theory, in E. Fullbrook (ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le d´ebat est loin d’ˆetre clos.
3. http ://en.wikipedia.org/wiki/Friend or Foe%3F 4. G. Hardin, The tragedy of the Commons, Science, 1968