• Aucun résultat trouvé

Trois solutions au dilemme du prisonnier

2.3 Le dilemme it´er´e du prisonnier

2.3.1 Trois solutions au dilemme du prisonnier

R´ep´etition infinie

La premi`ere solution propos´ee par Shubik, et qu’il attribue `a Robert J. Aumann, est la plus simple. Dans cette solution il suffit de consid´erer que le jeu est r´ep´et´e une infinit´e de fois. On consid`ere ´egalement que le gain d’un joueur est la moyenne de ses gains par jeu. On peut alors consid´erer que les joueurs ne prennent en compte que leur score moyen par jeu dans leurs d´ecisions. De plus on peut d´esormais introduire la notion d’´etat stable comme ´etant toute combinaison strat´egique rapportant en moyenne plus que l’issue d pour chacun des joueurs. N’importe lequel de ces ´etats stables peut alors ˆetre appel´e un ´equilibre, dans la mesure o`u si un des deux joueurs essaie de s’´eloigner de cette position alors, l’autre peut le punir en utilisant le coup D, dans tous les coups suivants. On peut alors dire que les joueurs peuvent user de menaces cr´edibles, puisqu’elles coˆuteront `a celui qui la subira plus que le gain esp´er´e par la sortie d’un ´etat stable. Si un tel ´equilibre est atteint aucun des deux joueurs n’a int´erˆet `a jouer D, et donc `a quitter cet ´equilibre, dans la mesure o`u dans ce cas il risque, en moyenne, de voir son score baisser.

Avec cette approche, il y a alors une infinit´e d’´equilibres que l’on peut voir sur la figure 2.2. Tous les points de la zone hachur´ee peuvent ˆetre consid´er´es comme des ´etats stables, et donc des ´equilibres.

     V(A|B) V(B|A) b a d c   

Fig.2.2 – Les gains en moyenne du dilemme du prisonnier r´ep´et´e `a l’infini

En effet toutes les issues de la zone hachur´ee correspondent `a des ´etats dans lesquels chacun des deux joueurs obtient en moyenne plus que P . G´eom´etriquement il s’agit donc bien du quart nord-est d’un rep`ere orthogonal dont d est l’origine.

Le point a fait partie de cet ensemble d’´equilibres. Ce point correspond `a une partie dans laquelle les deux joueurs jouent infiniment C. On comprend bien que si lors du premier coup les deux joueurs ont jou´e C, alors par la suite si chacun pense qu’un changement de comportement, `a savoir jouer D une fois, peut entraˆıner une punition infinie par l’adversaire, alors les deux joueurs ne vont jamais quitter le status quo, et jouer C infiniment. La solution atteinte est alors optimale.

Le probl`eme est que toutes les issues satisfaisant la rationalit´e individuelle sont en ´equilibre, comme on le voit sur la figure 2.2. Il y a donc un grand nombre de solutions sous-optimales `a commencer par le point d qui reste un ´equilibre.

Cette solution de r´ep´etition infinie du dilemme n’est donc pas aussi forte que l’on pourrait l’esp´erer.

Jeux de survie sociale

Shubikd´efinit une classe de jeu particuli`ere qu’il nomme les jeux de survie sociale dans [Shu64]. Pour lui les jeux ne doivent pas prendre en compte uniquement le gain des joueurs. En fait il donnent une autre d´efinition de la rationalit´e comme int´erˆet individuel. Pour lui la rationalit´e individuelle doit prendre en compte les gains des joueurs, i.e. les pr´ef´erences donn´ees `a chacune des issues d’un jeu, mais aussi la n´ecessit´e de survie. L’id´ee est que l’int´erˆet d’un joueur n’est pas seulement d’augmenter son capital, mais aussi de rester en vie afin de pouvoir profiter de son capital. La rationalit´e reste donc une id´ee profond´ement ´ego¨ıste, mˆeme si elle induit des aspects plus globaux.

Pour prendre en compte cette id´ee il veut qu’au moins une de ces trois id´ees soient prises en compte dans les jeux :

1. les gains du pr´esent sont plus important que les gains du futurs ;

2. il doit y avoir une probabilit´e, ind´ependante des gains, que le jeu se termine apr`es une certaine dur´ee, un certain nombre de r´ep´etitions ;

3. quand le jeu se termine les joueurs sont ruin´es.

Dans le cas du dilemme du prisonnier il propose, dans [Shu70], deux am´enagements tr`es sem- blables. Le premier de ces deux am´enagement consiste `a consid´erer que le jeu est r´ep´et´e un nombre infini de fois mais que les gains sont escompt´es par un facteur, qu’Axelrod appelera l’ombre du futur, et que l’on notera ω. Avec cet am´enagement, qui correspond `a l’introduction de l’id´ee 1, si l’on consid`ere que Vt(A) est le score de la strat´egie A pour le coup t alors le score total de A est :

∞ X

t=1

ωtVt(A) (2.6)

Le second am´enagement, correspondant `a l’introduction de l’id´ee 2 consid`ere qu’apr`es chaque coup le jeu a une probabilit´e ρ de continuer, et donc 1 − ρ de s’arrˆeter. Dans cette version les jeux peuvent donc ˆetre aussi bien finis qu’infinis, et les scores des joueurs se calculent alors de la mˆeme mani`ere que pour l’am´enagement pr´ec´edent.

Sous ces nouvelles hypoth`eses Shubik montre qu’il est possible de faire un nouveau raisonnement sur les menaces. D´esormais il est possible de d´eterminer des ´equilibres dans le jeu r´ep´et´e d´ependant des valeurs utilis´ees pour ω. En fait il consid`ere que les joueurs peuvent en quelque sorte prendre en compte un degr´e de vraissemblance pour une menace, et que ce degr´e est intimement li´e au poids que le futur fait peser sur le pr´esent. Il donne alors l’exemple d’une strat´egie (voir page 72) qui permet d’obtenir un ´equilibre o`u la coop´eration est plus payante que la trahison, c’est-`a-dire un exemple autre que la r´ep´etition de la strat´egie d’´equilibre (D) du dilemme simple.

Pour lui cette approche, qu’il nomme un peu rapidement solution du jeu, est plus un ´elargissement du mod`ele que l’ajout de propri´et´e math´ematique au jeu. En fait il consid`ere vraiment que la rationa- lit´e individuelle est li´ee fortement `a la survie de l’individu, et que donc ˆetre ´ego¨ıste revient vraiment `a essayer de prosp´erer pendant la dur´ee de vie. Pour lui implicitement les joueurs n’ont donc pas int´erˆet `a trahir longtemps, puisque plus le jeu avance moins la trahison rapporte en cas de punition par l’adversaire et de trahison mutuelle.

Mˆeme si la solution ne semble pas si triviale, c’est cette approche du jeu qui est la plus r´epandue dans la litt´erature depuis les travaux d’Axelrod. Nous y reviendrons par la suite.

M´etajeux

La derni`ere solution pr´esent´ee par Shubik dans [Shu70] est celle dite des m´eta-jeux. Elle est originellement pr´esent´ee par N. Howard dans [How66].

Cette solution se base sur une version compl`etement diff´erente du dilemme du prisonnier simple, qui ne consid`ere pas uniquement deux strat´egies, C et D, mais quatre, `a savoir :

1. jouer C

2. jouer comme l’adversaire : jouer C (resp. D) si l’adversaire va jouer C (resp. D)

3. jouer le contraire de l’adversaire : jouer C (resp. D) si l’adversaire va jouer D (resp. C) 4. jouer D

Sous cette hypoth`ese la matrice du jeu n’est plus une matrice 2 × 2, mais une matrice 16 × 4. En effet le joueur A sachant que le joueur B a quatre choix possibles, en a lui mˆeme seize : quatre pour chaque choix possibles de son adversaire. En ´etudiant la matrice de ce jeu on se rend compte qu’il comporte trois ´equilibres de Nash. Deux de ces ´equilibres sont Pareto-optimaux, et le troisi`eme est l’´equilibre du dilemme simple.

`

A l’instar de Shubik et Axelrod nous pensons que ce genre d’artifices n’apportent pas grand chose `a l’´etude des situations mod´elis´ees par le dilemme du prisonnier car o`u les hypoth`eses utilis´ees affaiblissent beaucoup trop ouvertement celles utilis´ees dans le dilemme. On rappellera notamment que les joueurs ne peuvent pas communiquer. Il est donc impossible de pouvoir connaˆıtre, a priori, le coup que va jouer l’adversaire.

Les trois solutions expos´ees par Shubik ne sont en fait que des artifices permettant de montrer que la th´eorie des jeux peut apporter une solution raisonnable au dilemme du prisonnier, dont l’´etude de base semble peu proche des comportements rencontr´es sur des sujets humains.

La premi`ere information qui nous semble r´eellement int´eressante dans ce r´esum´e est que la notion de rationalit´e, au sens ´economique du terme, est mal d´efinie ou en tout cas peu ad´equate dans le cas de la mod´elisation de comportements humains.

La seconde est que la r´ep´etition du dilemme peut sous certaines conditions permettre d’obtenir des solutions optimales, c’est-`a-dire permettant aux joueurs, mˆeme ´ego¨ıstes, de coop´erer. Binmore va mˆeme, dans [Bin99, section 7.5.4, page 310], jusqu’`a dire :

(( Ma propre opinion est que le dilemme du prisonnier n’est presque jamais un paradigme appropri´e pour traiter les probl`emes de coop´eration qu’il est cens´e traduire. Le dilemme du prisonnier r´ep´et´e [...] est beaucoup plus pertinent dans ce rˆole. ))

C’est `a cette r´ep´etition du jeu que nous allons maintenant nous int´eresser.