COURS 8 : INTRODUCTION A LA THEORIE DES JEUX

(1)

Universit´e Pierre et Marie Curie Licence Informatique 2014-2015

Cours LI 352 - Industrie Informatique et son Environnement ´Economique Responsable : Jean-Daniel Kant ([email protected])

COURS 8 :

INTRODUCTION A LA THEORIE DES JEUX

1 Jeux

Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces comportements interdépendants peuvent apparaˆıtre comme des jeux, où chaque firme jouerait un coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction de comportement, une vision stylisée qu’un véritable modèle.

La théorie des jeux étudie des situations (les jeux) où des agents (les joueurs) ont à choisir des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La théorie des jeuxcoopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la possibilité de former entre eux descoalitions.

2 Jeux non-coop´ eratifs

2.1 Jeux sous forme normale

Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est défini par la donnée :

• d’un ensemble de joueursN ={1, .., i, .., n};

• pour chaque joueur i, d’un ensemble destrat´egies Aⁱ ={aⁱ₁, .., aⁱ_l, .., aⁱ_mi};

• et d’une fonction(vectorielle) depaiement : u= (u¹, ..uⁱ, ..uⁿ) : Nn

i=1Aⁱ −→Rⁿ

(2)

a= (a¹, ..aⁱ, ..aⁿ)7−→u(a) = (u¹(a), .., uⁱ(a), .., uⁿ(a)),

où uⁱ(a) =uⁱ(a¹, .., aⁱ, .., aⁿ) est le paiement du joueuri(ce peut être aussi bien un gain monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, c-

`

a-d, lorsque le joueur i joue la strat´egie ai et les autres joueurs jouent les strat´egies aj, j∈ N \{i}.

Notations: Il sera commode de noter−il’ensembleN \{i}, d’o`ua⁻ⁱ= (a¹, .., aⁱ⁻¹, aⁱ⁺¹, ..aⁿ), a= (aⁱ, a⁻ⁱ), u⁻ⁱ(a) = (u¹(a), .., uⁱ⁻¹(a), uⁱ⁺¹(a), .., uⁿ(a)), u(a) = (uⁱ(a), u⁻ⁱ(a)),A⁻ⁱ =N

j6=iA^j, A=Aⁱ× A⁻ⁱ,etc.

Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.

Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des joueurs et l’élément de ligne a¹ et colonnea² est le couple (u¹(a¹, a²), u²(a¹, a²)).

Ainsi le jeu est d´ecrit par la matrice U de terme U_ij =uⁱ(a_j).

N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs connaissent la matrice U du jeu.

Exemples

La bataille du couple

Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne sont pas ensemble.

Kevina \Kevin concert f oot

concert 2,1 −1,−1

f oot −1,−1 1,2

Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer (concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La bataille du couple est difficile à résoudre !

Le dilemme du prisonnier

P ris. I \ P ris. II nier avouer

nier 3,3 10,1

avouer 1,10 6,6

Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3 ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un

(3)

des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors que le second aura la peine maximale (10 ans). La matrice ci-dessus repr´esente donc des pertes (gains n´egatifs).

Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre, chacun a intérêt à avouer, car les gains seront toujours meilleurs (peines moindres) que nier.

Cependant si on change maintenant la matrice des gains :

P ris. I \ P ris. II nier avouer

nier 3,3 10,30

avouer 30,10 30,30

Il vaut alors mieux nier, vu qu’avouer entraˆıne la peine maximale `a chaque fois.

2.2 Analyse d’un jeu sous forme normale

2.2.1 Consid´erations de dominance Dominances

• La strat´egie aⁱ du joueuridomine faiblement sa strat´egie bⁱ lorsque : uⁱ(aⁱ, a⁻ⁱ)≥uⁱ(bⁱ, a⁻ⁱ),∀a⁻ⁱ ∈ A⁻ⁱ;

(quelque soient les stratégiesa⁻ⁱ des autres joueurs, la stratégie aⁱ est meilleure ou égale que bⁱ.)

• elle la domine si elle la domine faiblement et que,de plus :

∃c⁻ⁱ ∈ A⁻ⁱ t.q.uⁱ(aⁱ, c⁻ⁱ)> uⁱ(bⁱ, c⁻ⁱ) ;

(il y a au moins un cas, i.e. une r´eponse des autres joueurs, pour lequel aⁱ est meilleure que bⁱ)

• enfin, aⁱ domine strictement bⁱ lorsque :uⁱ(aⁱ, a⁻ⁱ)> uⁱ(bⁱ, a⁻ⁱ),∀a⁻ⁱ ∈ A⁻ⁱ.

(quelque soient les strat´egiesa⁻ⁱ des autres joueurs, la strat´egie aⁱ est meilleure strictement que bⁱ.)

La strat´egieaⁱest ditefaiblement dominante (resp.dominante,resp. strictement dominante) si elle domine faiblement (resp. domine, resp. domine strictement) tous les bⁱ∈ Aⁱ\{aⁱ}.

Equilibre en strat´egies strictement dominantes

On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs.

Si chaque joueur a une strat´egie strictement dominante, il doit donc la jouer et le jeu est r´esolu.

On dit alors qu’il existe un´equilibre en strat´egies strictement dominantes.

C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remar- quons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ; il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par l’optimalité au sens de Pareto.

(4)

Optimum de Pareto

Une suite de stratégies a∗ = (a¹_∗, ..aⁱ_∗, ..aⁿ_∗) est un optimum de Pareto lorsqu’ aucun des joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :

uⁱ(aⁱ, a⁻ⁱ)≥uⁱ(aⁱ_∗, a⁻ⁱ_∗ ),∀i

=⇒

uⁱ(aⁱ, a⁻ⁱ) =uⁱ(aⁱ_∗, a⁻ⁱ_∗ ),∀i .

L’optimum de Pareto exprime bien l’id´ee que collectivement on ne peut pas am´eliorer la situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne individuellement.

Equilibre it´eratif en strat´egies strictement dominantes

Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme dominées à cette étape de son raisonnement.

Exemple

Matrice du jeu :

G C D

H M B

(2,5) (4,8) (1,3) (1,4) (2,5) (3,6) (3,7) (5,8) (2,9)

Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne strictement plus, composante par composante, quetoutes les autres lignes (il n’existe d’ailleurs pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :

Gstrictement domin´e parC →

C D

H M B

(4,8) (1,3) (2,5) (3,6) (5,8) (2,9)

; H strictement domin´e parB

→

C D

M B

(2,5) (3,6) (5,8) (2,9)

;C strictement domin´e par D→

D M

B

(3,6) (2,9)

;

B strictement domin´e par M → D

M (3,6) . (M, D) est l’équilibre itéré en stratégies strictement dominées cherché.

(5)

Equilibre et équilibre itératif en stratégies dominantes

On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies dominantes.

En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes.

En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies dominées adopté, on peut aboutir à des résultats différents.

2.2.2 Equilibre de NASH

Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des stratégies aux propriétés plus faibles :

Meilleure r´eponse

La stratégie aⁱ_∗ du joueuriest une meilleure réponse à des stratégies données b⁻ⁱ ∈ A⁻ⁱdes autres joueurs lorsque : uⁱ(aⁱ_∗, b⁻ⁱ)≥uⁱ(aⁱ, b⁻ⁱ),∀aⁱ∈ Aⁱ.

Equilibre de NASH

Un profil de stratégies a∗ = (a¹_∗, ..aⁱ_∗, ..aⁿ_∗) est un équilibre de Nash lorsque chacune de ses composantes constitue une meilleure réponse aux autres :

uⁱ(aⁱ_∗, a⁻ⁱ_∗ )≥uⁱ(aⁱ, a⁻ⁱ_∗ ),∀aⁱ ∈ Aⁱ,∀i= 1, .., n.

Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute autre stratégie jouée.

Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque, un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent aussi.

La multiplicité des équilibres deNashpeut poser des problèmes. Dans la bataille du couple, il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1,−1) ; les jeux où se rencontre cette difficulté sont appelésjeux de coordination.

Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes est aussi équilibre de Nash; comme nous l’avons remarqué, (nier, nier) est strictement meilleur pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.

(6)

On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le processus itératif d’élimination de stratégies dominées peut écarter un équilibre deNashattractif comme dans l’exemple suivant.Exemple

J. I \ J. II G D

H 10,0 5,2

B 10,11 2,0

Si le joueurIIpense que le joueurIéliminera la stratégieB, dominée (mais pas strictement) par H, il joueraD et l’issue du jeu sera (5,2) ; (H, D) est bien un équilibre de Nash, mais un deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé !

L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être joués par des joueurs rationnels.

3 Jeux sous forme extensive

Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :

3.1 Exemple : attaque publicitaire

Deux entreprises E¹ et E² sont en duopole sur un produit et font des bénéfices respectifs (1,5) ; E¹ peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de marché, ce qui réussira siE² ne réagit pas et les amènera alors à (2,3) ; en revanche, siE² réagit en lan¸cant sa propre campagne, les bénéfices deviendront (0,2). L’arbre que l’on associe à ce jeu est le suivant :

Figure1 – arbre du jeu

(7)

Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E² n’ont d’influence sur le déroulement et l’issue du jeu que si E¹ a choisi la stratégie pub.

Le jeu a pour forme normale :

E¹ \ E² pub statu quo pub 0,2 2,3 statu quo 1,5 1,5

Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme extensive nous assure que le second ne sera pas joué : si E¹ choisitpub,E² jouera statu quoqui lui rapporte alors à coup sûr plus quepub; le prévoyant, E¹ doit préférer pub à statu quo. (On peut arriver à la même conclusion sur la forme normale en raisonnant que E² ne jouera pas pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait douteuse).

3.2 Information

Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.

On parlera au contraire, de jeu à informationimparfaitelorsque certains des joueurs ne savent pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).

L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant que les autres au moment où il joue ; elle est dite asymétriquesinon.

L’information est diteincompl`etelorsque certains joueurs ne savent pas exactement quels sont les paiements de la matrice de jeu (ils ne savent pas `a quel jeu ils jouent).

Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage

`

a P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le jeu complété reste à information parfaite.

Lepoker, dans toutes ses variantes, est un jeu enenvironnement incertain(la répartition des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain.

Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées : la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes (g(auche),c(entre) oud(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets où il peut avoir à jouer.

Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut pourtant le représenter sous forme extensive en pla¸cant dans l’arbre du jeu l’action de l’un avant celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans l’arbre : c’est un jeu à information imparfaite.

(8)

Figure 2 – arbre du jeu du Bonneteau 3.3 Strat´egies

3.3.1 Strat´egies pures

Unestratégie du joueuri(que nous appellerons plus tard stratégie purequand nous intro- duirons les stratégiesmixtes) est une règle sélectionnant une action parmi les actions réalisables en chacun des sommets de décision qui lui sont associés. Dans lesjeux à information imparfaite, un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restric- tion dans les jeux à information parfaite puisque tous les ensembles d’information y sont des singletons.

Un profil de stratégies est une suite a = (a¹, .., aⁱ, ..aⁿ), c-à-d consiste en la donnée d’une stratégie aⁱ pour chaque joueur i.

Dans un jeu en environnement certain, un profil de stratégies a détermine complètement le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f, que l’on appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent :U(a) = (U¹(a), .., Uⁱ(a), .., Uⁿ(a)) =u(f) = (u¹(f), .., uⁱ(f), .., uⁿ(f)).

Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de

(9)

stratégies a donné, chaque feuille f est atteinte avec une probabilité P(f) (déterminée par la loi de probabilité des divers événements) ; a donne donc au joueur i une espérance d’utilité Uⁱ(a) = P

f P(f)uⁱ(f). La donn´ee d’un jeu sous forme extensive permet donc d’obtenir sa forme normale.

On a le r´esultat suivant :

Theorem 3.1(Kuhn). Tout jeu fini ànpersonnes, sous forme extensive, à information parfaite a une solution qui est un équilibre de Nash en stratégies pures.

3.4 Strat´egies mixtes

Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies mixtes sont optimales.

Exemple : McDonald’s vs. Quick

Prenons l’exemple de l’affrontement entre les 2 g´eants dufast food, McDonald’s et Quick, et mod´elisons le avec la matrice de jeu suivante :

M D \ QK prix bas (LP) publicit´e forte (HA)

prix bas (LP) 60,35 55,45

publicit´e forte (HA) 55,50 60,40

Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple siM D =LP, QK = HA, alorsM D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouerLP. En (HA, LP),M D préfère LP et alorsQK joueHA : nous voilà revenus à la case départ.

En stratégie mixte, on introduit les probabilitéspLM que Mc Do joue prix bas et pLQK que Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré :

E_{M D} = p_LM(60.p_LQK + 55.(1−p_LQK)) + (1−p_LM)(55.p_LQK+ 60.(1−p_LQK))

= 10.pLM.pLQK −5.pLM −5.pLQK + 60 Pour maximiser il faut :

∂E_{M D}

∂pLM

= ∂E_{M D}

∂pLQK

= 0 ⇒ p_LM =p_LQK = 0,5 Pour Quick, il faut maximiser le profit esp´er´e :

EQK = pLQK(35.pLM+ 50.(1−pLM)) + (1−pLQK)(45.pLM+ 40.(1−pLM))

= −20.p_LM.p_LQK+ 10.p_LQK+ 5.p_LM+ 60 Pour maximiser il faut :

∂EQK

∂p_LM = ∂EQK

∂p_QK = 0 ⇒ p_LQK = 0,5 ; p_LM = 0,25

(10)

La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une probabilité de 50%.

Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du jeu initial.

Nasha d´emontr´e que :

Theorem 3.2(Nash). Tout jeu fini ànpersonnes sous forme normale a un équilibre[deNash] en stratégies mixtes.

4 Jeux r´ ep´ et´ es

4.1 Introduction

Reprenons l’exemple du dilemme du prisonnier (ici on repr´esente des gains positifs) : P ris. I \ P ris. II nier avouer

nier 1,1 −1,2

avouer 2,−1 0,0

L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont rationnels, chacun doit éliminer la stratégienier qui est strictement dominée ; la solution du jeu est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nashet c’est en fait le seul. Or cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective.

Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeuconstitué de l’ensemble de leurs jeux. Nous allons examiner cette hypothèse.

4.2 Etude du dilemme du prisonnier répété

4.2.1 Comportement rationnel dans le dilemme du prisonnier répété un nombre fini de fois

N.B.On écrira AetN pour les stratégiesavouer et nier du jeu élémentaire.

Deux joueurs jouent lesuper-jeu consistant à jouer T fois au dilemme du prisonnier, à des dates t= 1,2,· · ·, t,· · ·, T. Les gains des différentes parties s’additionnent pour constituer les paiements du super-jeu. Ce super-jeu est unjeu fini à information imparfaite (comme d’ailleurs le jeu élémentaire) puisqu’à chaque date tles deux joueurs jouent à l’insu l’un de l’autre.

A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t−1) premières parties et il peut en faire dépendre son action à cette date. Une stratégieS de l’un des

(11)

joueurs dans le super-jeu est donc caractérisable par une suiteS = (S¹,· · ·, S^t,· · ·, S^T) dont les composantes, toutes à valeurs dans {A, N}, sont déterminées récursivement par la donnée de S¹ et de fonctions φ^t, t= 2,· · · , T, par S^t = φ^t(S¹, R¹,· · · , S^t−1, R^t−1) où R¹,· · ·, R^t−1 sont les actions de l’autre joueur qu’il aura déjà observées àt. Il y a donc un très grand nombre de stratégies (pures) possibles pour chacun des joueurs.

Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape, stratégie que nous noterons Arep. A la date T, quel qu’ait été le déroulement du jeu jusque là et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la matrice de gains totaux finaux

P ris. I \P ris. II nier avouer nier m_I+ 1, m_II+ 1 m_I−1, m_II + 2 avouer m_I+ 2, m_II−1 m_I, m_II

où les sommes m_I et m_II dépendent du sommet atteint après (T −1) étapes. Quelles que soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux prévoient donc que l’autre jouera Aà T. Mais alors, à (T −1), au moment de jouer dans le jeu

´

elémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé de deux jeux élémentaires les sous-stratégiesA suivi deAetN suivi deA; la matrice des gains finaux étant du type précédent (avec pourm_I etm_II les sommes acquises aprèsT−2 étapes), les deux joueurs prévoient que l’autre joueraAà (T−1) comme àT. Par récurrence, on montrerait que tous les deux doivent jouer Arep. Le couple (Arep, Arep) est clairement Pareto-dominé par de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep, Nrep). On reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu

´

el´ementaire !

4.2.2 Introduction de présupposés de comportement dans le dilemme du prisonnier répété un nombre fini de fois

Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat (”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout t >1, jouer ce que l’autre a joué à (t−1).

Supposons que le joueur I pense que son adversaire peut avec une probabilité jouer la stratégieTit for Tat au lieu de la stratégie rationnelle non-coopérativeA_rep. SiI joue lui-même Arep, avec probabilité, II jouantTit for Tat,I gagnera 2 la première fois puis plus rien et avec probabilité (1−), II jouant A_rep, les paiements (deI comme deII) seront toujours nuls ; d’où un gain espéré égal à 2.

Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for Tat avec probabilité, I réalisera T fois un gain de 1. Avec probabilité (1−),II jouant Arep, et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à .T + (1−)(−1) =(T + 1) − 1.

(12)

Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle”Arep dès que

(T + 1) − 1 >2⇔ > _T¹₋₁. Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale car, par exemple, il a toujours intérêt à jouerA à la dernière période).

4.2.3 Comportement dans le dilemme du prisonnier répété une infinité de fois On peut aussi penser qu’il y a un effet d’horizon dans le jeu répété un nombre fini de fois, dû au fait que l’on sait que tout s’arrête à la date T; un tel effet est irréaliste, puisque dans le monde réel il y a presque toujours de l’incertitude sur la date de fin des relations marchandes ou autres des agents. Pour se débarrasser de l’horizon, on peut étudier lesuper-jeu∞formé par le jeu simple répété une infinité de fois. Pour que le paiement global ne risque pas de devenir infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’intérêt) ρ > 0, d’où un facteur d’escompte δ = _1+ρ¹ < 1. Le paiement global est alors la somme actualisée, à t= 1 par exemple, des paiementsg_t à t:G = P∞

t=1δ^t−1g_t.

On montre alors qu’une coopération parfaite, les deux joueurs jouant constammentN (nier), peut apparaitre ; elle pourrait être induite par le choix par chacun de la stratégie coopérative

`

a déclenchement Σ : Jouer N tant que l’autre le joue aussi ; jouer A à tout jamais dès que l’autre a joué une foisA.Le résultat précis est le suivant :Le couple de stratégies coopératives à déclenchement (Σ,Σ) constitue un équilibre de Nash parfait du jeu répété une infinité de fois,

`

a condition que δ soit suffisamment proche de 1.

Démonstration : (Σ,Σ) assure à chacun des deux joueurs un gain de 1 à chaque date t.

Supposons que le joueurII pense que I joue la stratégie Σ mais choisit lui-même une stratégie différente de Σ, qui le fait jouerA pour la première fois à une datet₀, lui donnant un gain de 2 ; il sait que I jouera alors Aà toutes les dates suivantes t > t0 et que quoiqu’il fasse lui-même, il n’aura plus que des paiements≤0, d’où une somme de ses gains à partir det0 (actualisée àt0) G⁰ ≤2 à comparer avec celle que lui assurerait Σ,G= 1 +δ+· · ·+δ^t+· · ·= _1−δ¹ ; il n’a donc aucun intérêt à devier de Σ si _1−δ¹ ≥2, c-à-d si δ≥ ¹₂.

Ce résultat pourrait être considéré comme une validation normative de la coopération dans le dilemme du prisonnier s’il existe pas d’autres équilibres parfaits dans le super-jeu ∞; mal- heureusement, il en existe de nombreux autres.

Simulation du Tit-for-Tat¹

Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche `a r´epondre

`

a la question suivante : ”Under what conditions will cooperation emerge in a world of egoists without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie, biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du dilemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnant- gagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler

1. D’apr`es Wikipedia, http ://fr.wikipedia.org/wiki/Th´eorie des jeux en relations internationales.

(13)

l’expérience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport l’emporte. Or la stratégie gagnant-gagnant ou Tit for Tat d’A. Rapoport n’emporte aucun match du tournoi ! R. Axelrod (1984) (1) en déduit, que [le dilemme du prisonnier]

est simplement une formulation abstraite de quelques situations très courantes et intéressantes dans lesquelles ce qui est le meilleur pour une personne individuellement conduit à une situation d’échec mutuel tandis que chacune pourrait mieux s’en tirer avec une coopération mutuelle . L’interprétation de ces résultats qui impliquent la supériorité du comportement coopératif dans un environnement de dilemmes du prisonnier répétés a été sujette à de nombreuses discussions.

Selon Eber (2004), les résultats d’Axelrod montrent que, dans un monde de conflits permanents, il serait optimal de se comporter de la fa¸con suivante : être a priori coopératif avec les autres (jouer [la stratégie de coopération (C)] lors du premier dilemme du prisonnier auquel on se trouve confronté), punir son partenaire lorsqu’il n’a pas coopéré (jouer [la stratégie de non- coopération (D)] chaque fois que le joueur à jouer D au tour précédent) pardonner et revenir à la coopération lorsque le partenaire se remet à coopérer (jouer C à chaque fois qu’il a joué C le coup précédent) . Cette philosophie politique, certes plaisante, est très débattue. Les conclu- sions auxquelles Axelrod aboutit sont en particulier liées à la simplification du modèle comparé

`

a la situation réelle analysée. Référence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The Evolution of Cooperation” The Evolution of Cooperation. R. Axelrod” Review author[s] : Paul R. Milgrom, The RAND Journal of Economics, Vol. 15, No. 2. (Summer, 1984), pp. 305-309.

5 Applications

Les champs d’application de la Théorie des Jeux sont très variés par exemples :

• D´efense, Relations Internationales

— la crise des missiles de Cuba en octobre 1962 : On peut la repr´esenter par le jeu suivant :

Kennedy\Kroutchev retrait maintenir

blocus naval Compromis(3,3) V ictoire U RSS(2,4) raid a´erien V ictoire U S(4,2) Guerre N ucl´eaire(−3,−3) A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face.

Cela s’apparente à ce que les américains ont appelé legame of chicken, un jeu très à la mode dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes roulent en sens inverse dans une rue étroite, le perdant qualifié de poule mouillée

est celui qui donne un coup de volant pour ´eviter son concurrent. Ce jeu repr´esente bien des situations de crise dans le domaine des relations internationales.

Analyse par Steven Brams² :

Needless to say, the strategy choices, probable outcomes, and associated payoffs shown in Figure 1 provide only a skeletal picture of the crisis as it developed over a period of thirteen days. Both sides considered more than the two alter- natives listed, as well as several variations on each. The Soviets, for example, demanded withdrawal of American missiles from Turkey as a quid pro quo for withdrawal of their own missiles from Cuba, a demand publicly ignored by the United States.

2. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis

(14)

Nevertheless, most observers of this crisis believe that the two superpowers were on a collision course, which is actually the title of one book describing this nuclear confrontation. They also agree that neither side was eager to take any irreversible step, such as one of the drivers in Chicken might do by defiantly ripping off the steering wheel in full view of the other driver, thereby foreclosing the option of swerving.

Although in one sense the United States ”won” by getting the Soviets to with- draw their missiles, Premier Nikita Khrushchev of the Soviet Union at the same time extracted from President Kennedy a promise not to invade Cuba, which seems to indicate that the eventual outcome was a compromise of sorts. But this is not game theory’s prediction for Chicken, because the strategies associated with compromise do not constitute a Nash equilibrium.

— les politiques de constitution de convois de bateaux en temps de guerre ;

— la fa¸con de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec, Eltsine lors du putsch, annonces électorales...) ou marketing ;

— la lutte contre le terrorisme.

• Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux comprendre l’évolution du comportement des espèces face à la modification de leur environnement

• Marketing et strat´egie entreprise

• Economie ; notamment les travaux de Jean Tirole en ´economie industrielle

Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé Friend or Foe ³ sur une chaˆıne câblée spécialisée aux États-Unis, Game Show Network).

Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’expli- cation des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre froide et la guerre nucléaire (dissuasion..)

Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du prisonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte (Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of Games.

Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie des communs⁴.

Il faut noter cependant des critiques fortes adressées aux partisans de la théorie des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou la solution du jeu (Cf. B. Guerrien,Can we espect anything from Game Theory, in E. Fullbrook (ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est loin d’être clos.

3. http ://en.wikipedia.org/wiki/Friend or Foe%3F 4. G. Hardin, The tragedy of the Commons, Science, 1968