illustration d’un dilemme du prisonnier

Entre-deu

Matrice 2 illustration d’un dilemme du prisonnier

Bandit 1 Bandit 2

Se taire (S3) Dénoncer (S4)

Se taire (S1) (-1, -1) (-6, 0)

Dénoncer (S2) (0, -6) (-4, -4)

Ce dilemme met en évidence que quelle que soit l’attitude de son complice, chacun des prisonniers a intérêt à dénoncer l’autre. Les stratégies adoptées seront, par conséquent, le couple (S2, S4) qui n’est pas un optimum de Pareto. En effet, le couple de stratégies (S2, S4) rapporte (–8) alors que le couple de stratégies (S1, S3) rapporte (–2). Ce dilemme illustre alors le conflit entre l’intérêt individuel qui dicte de dénoncer son complice et l’intérêt collectif qui consiste à se taire.

Ce résultat dans le choix des stratégies est le même si le dilemme du prisonnier est joué une fois ou un nombre fini de fois. Le principe du raisonnement par récurrence à rebours495 conduit alors les joueurs à rester prisonniers du dilemme du prisonnier. Seuls les cas d’un jeu répété indéfiniment ou d’un jeu dont la fin n’est pas connue des joueurs ouvrent des perspectives de coopération car le dernier coup du jeu n’étant pas calculable par les joueurs, le raisonnement par récurrence à rebours n’est pas possible. C’est dans ce cadre de jeux que certains chercheurs ont étudié les stratégies les plus adaptées pour dépasser ce dilemme496.

I.4) L’équilibre de Nash

Le couple de stratégies (S2, S4) correspond à l’équilibre du jeu car « aucun joueur ne regrette son choix après avoir constaté celui des autres joueurs »497. Cet équilibre est dit de Nash, car il correspond au concept de solution pour les jeux non coopératifs proposé par John Nash dans les années 50. Un équilibre de Nash peut être défini comme un ensemble de stratégies (une par joueur) tel qu’aucun joueur ne peut obtenir un gain supplémentaire en changeant unilatéralement de stratégie sous peine d’être immédiatement placé, au vu des stratégies retenues par l’autre joueur, dans une situation plus mauvaise. Il correspond à l’issue logique du jeu lorsque les joueurs se comportent de façon rationnelle.

495

« Backward induction » en anglais. Méthode utilisée en théorie des jeux qui consiste à déterminer la solution d’un jeu répété en remontant les étapes, depuis le dernier coup jusqu’au premier.

496_{Voir plus bas, la présentation des travaux de Robert Axelrod.} 497

Dans l’exemple du dilemme du prisonnier présenté plus haut, si l’un des deux prisonniers décide de changer de stratégie en choisissant de se taire, il sera immédiatement sanctionné. Sa peine d’emprisonnement passera de quatre à six ans tandis que l’autre joueur sera libéré, par conséquent aucun des deux joueurs n’a intérêt à changer de stratégie. Et c’est précisément là que réside le dilemme car l’équilibre de Nash est sous-optimal au regard du critère de Pareto, c’est-à-dire du gain collectif. Plus fondamentalement, la difficulté dans le choix de stratégies, lors d’interactions entre individus, réside dans le fait que la relation entre l’optimum de Pareto et l’équilibre de Nash est à sens unique. « En économie, un optimum de Pareto est un équilibre de Nash car personne ne peut améliorer sa situation sans détériorer celle d’un autre (donc, si cet autre « ne bouge pas », une telle amélioration n’est pas possible). Mais la réciproque n’est pas vraie.»498. Autrement dit, si un optimum de Pareto est toujours un équilibre de Nash, un équilibre de Nash n’est pas nécessairement un optimum de Pareto. Dans ce dernier cas de figure, dont le dilemme du prisonnier est une illustration, le conflit entre intérêt individuel et collectif est saillant.

Le fait qu’un joueur ne puisse changer unilatéralement de stratégie pour sortir d’un équilibre de Nash sous optimum résulte du fait que le jeu est non coopératif. Cette absence de concertation entre les individus les pousse, dans certains cas, à choisir une solution qui correspond à un gaspillage des ressources. Comme on peut le voir, la problématique associée au dilemme du prisonnier est tout autre à celle de l’économie classique. Il ne s’agit plus de vouloir améliorer le fonctionnement du marché pour rendre les échanges plus efficaces. La question fondamentale est : comment faire émerger la coopération entre les individus pour éviter des situations d’équilibre de Nash sous-optimales afin d’atteindre l’optimum de Pareto (gain collectif le plus élevé) ?

II) Coopération et réciprocité

II.1)Comment être efficace dans un dilemme du prisonnier ?

Le politologue américain Robert Axelrod (1943- ) a, dans les années 80, beaucoup travaillé sur le dilemme du prisonnier. Comme le rappelle Nicolas Eber, Robert Axelrod a surnommé le dilemme du prisonnier de « colibacille des sciences sociales »499. Profitant du développement de la puissance de calcul des ordinateurs, il a, en particulier, organisé des tournois informatiques dans lesquels les joueurs confrontaient des programmes qui simulaient différentes stratégies dans le cadre d’un dilemme du prisonnier itéré500. Comme la version traditionnelle en un coup du dilemme du prisonnier ne donne aucune perspective de coopération car le choix le plus rationnel est de dénoncer (ce qu’Axelrod appelle faire cavalier seul), le jeu est répété un nombre inconnu de fois. Dans ce cas, le jeu est dit itéré. Le score final d’un joueur est la somme de ses scores après chaque itération. Comme aucun des joueurs ne sait quand la partie va se terminer, il est alors possible d’étudier leurs stratégies afin de déterminer celle qui sera la plus adaptée au dilemme du prisonnier répété.

498

Vergara F., « Eléments de théorie des jeux », Les Cahiers français, op. cit.

499

Eber N., op. cit.

500 Axelrod R., Comment réussir dans un monde d'égoïste. Théorie du comportement coopératif, Odile Jacob, 2006. Ce livre a été publié en 1992 sous le titre Donnant donnant par les Editions Odile Jacob. Edition originale :

Matrice 3 : dilemme du prisonnier itératif

Dans le document L'impact de l'aéroport Notre-Dame-Des-Landes sur le devenir des relations entre Nantes et Rennes : étude prospective à l'aide de la théorie des jeux (Page 158-160)