dilemme du prisonnier itératif Joueur B

Entre-deu

Matrice 3 dilemme du prisonnier itératif Joueur B

Joueur A Coopération Défection Coopération R = 3, R = 3 Récompense pour coopération mutuelle S = 0, T = 5 Salaire de la dupe et Tentation de l’égoïste Défection T = 5, S = 0 Tentation de l’égoïste et Salaire de la dupe P = 1, P = 1 Punition de l’égoïste Source : Axelrod (2006), p. 15.

Selon les notations de l’auteur, la hiérarchie des gains est la suivante : T > >R > P > S et R > (T + S)/2

La stratégie de coopération conditionnelle « Tit-for-Tat » ou donnant-donnant proposée lors du premier tournoi par Anatole Rapoport allait marquer sa supériorité sur toutes les autres. Lors de rencontres suivantes où le nombre de joueurs était plus élevé et les règles du jeu quelque peu modifiées, c’est encore cette stratégie qui allait remporter les tournois. La stratégie « Tit-for-Tat » qui est d’une grande simplicité, consiste à débuter la partie en coopérant et à répéter le coup précédent de l’autre joueur. Finalement, à partir du deuxième coup, cette stratégie consiste à coopérer si le partenaire coopère et à cesser immédiatement la coopération dès qu’il fait cavalier seul. Enfin, si le partenaire souhaite reprendre la coopération, la stratégie « Tit-for-Tat », qui n’est pas rancunière, adopte la même attitude. La particularité de la stratégie « Tit-for-Tat » est qu’elle ne gagne jamais une partie d’un tournoi. En effet, cette stratégie ne peut battre aucun autre programme dans une confrontation directe car le seul moyen de remporter un match est d’obtenir un score plus élevé que son adversaire. Pour cela, il faut faire cavalier seul plus souvent que lui, ce qui est impossible avec donnant-donnant. Autrement dit, donnant-donnant ne gagne aucun match mais remporte le classement final avec le gain total le plus élevé. Axelrod explique ce paradoxe par le fait que les autres programmes, moins coopératifs et plus agressifs, réduisent considérablement les gains de chacun des joueurs à chaque fois qu’ils sont confrontés les uns aux autres, y compris à des programmes identiques aux leurs. A titre d’exemple, Axelrod cite le cas du programme malveillant « Harrington » qui réussit à se classer parmi les quinze premiers lors des 200 premières itérations en exploitant les plus faibles et puis disparaît par la suite, faute de proie et surtout ne résistant pas aux stratégies bienveillantes501. A l’inverse, la stratégie donnant- donnant ainsi que l’ensemble des stratégies bienveillantes profitent globalement davantage des gains résultant de la coopération.

Plus récemment, des auteurs ont proposé d’autres stratégies qui obtiennent des gains légèrement supérieurs à ceux de la stratégie « Tit-for-Tat ». Lors de tournois organisés par Jean Paul Delahaye et Philippe Mathieu afin de tester les résultats obtenus par Axelrod, ceux- ci ont réussi à trouver une stratégie meilleure502. Cependant, ces résultats ne remettent pas fondamentalement en cause ceux d’Axelrod car la stratégie donnant-donnant conserve

501_{Axelrod R., op. cit., p.54.}

502_{Delahaye J.P., Mathieu P., « Des surprises dans le monde de la coopération », Pour la science : juillet 1999,}

l’avantage de la simplicité, c’est-à-dire qu’elle est facile à mettre en œuvre et facile à comprendre pour l’autre joueur.

II.2) Promouvoir la coopération selon la stratégie « Tit-for-Tat »

A partir des enseignements de la stratégie « Tit-for-Tat » ou donnant-donnant, Robert Axelrod préconise principalement trois types mesures afin de favoriser le développement de la coopération dans les relations sociales503. La première catégorie porte sur les comportements qui caractérisent la stratégie du donnant-donnant et que les joueurs doivent adopter. La seconde prend en compte le poids que les joueurs accordent à l’avenir. La troisième consiste à modifier les gains des joueurs, c’est-à-dire à transformer le jeu dans lequel évoluent les joueurs.

II.2.1) La « Tit-for-Tat » attitude

A partir de l’analyse des caractéristiques de la stratégie donnant-donnant, Axelrod propose de développer quatre types de comportement dont le but est de rallier des équilibres de Nash sous optimums à des situations Pareto-optimales dans le cadre du dilemme du prisonnier. A chacun de ces types de comportement sont rattachées des valeurs qui sont conformes à la stratégie « Tit-for-Tat » et qui expliquent ses succès sur les autres stratégies lors des tournois informatiques.

Il convient tout d'abord de « ne pas être trop envieux »504 (première règle), l’essentiel étant d’engranger des gains, sans qu’il soit nécessaire que ceux-ci soient supérieurs à ceux de l’autre joueur, mais simplement supérieurs à ceux issus d’un comportement de cavalier seul. Dans ce sens, Axelrod rappelle qu’il n’est pas nécessaire d’« être jaloux du succès d’un autre joueur, car, dans un dilemme du prisonnier itératif de longue haleine, la réussite de l’autre est une condition sine qua non de votre réussite »505. La deuxième règle recommande de ne jamais « être le premier à faire cavalier seul »506, afin de ne pas s’exposer à la riposte de son adversaire et de laisser la voie ouverte à une entente réciproque. Cette recommandation qui prône la bienveillance est conforme à « Tit-for-Tat » qui commence toujours par pratiquer la coopération et qui ne cherche pas à exploiter l’autre joueur en faisant défection quand il coopère. La troisième règle postule de pratiquer « la réciprocité dans la coopération comme dans la défection »507. La susceptibilité qui découle de cette règle est une des caractéristiques de « Tit-for-Tat » qui répond par la défection immédiatement après que l’autre joueur a fait défection et qui reprend la coopération aussitôt que le joueur joue coopération. Cette attitude permet de dissuader les autres joueurs d’adopter une attitude non coopérative face à « Tit-for- Tat ». Enfin, la quatrième règle recommande « qu’il n’est pas nécessaire d’être trop malin »508 en élaborant des stratégies complexes car il ressort des simulations informatiques qu’elles ne font pas mieux que les plus simples. De plus, des stratégies complexes font

503

A cela, Axelrod ajoute quelques conditions supplémentaires, notamment l’enseignement de la réciprocité et l’existence d’une structure sociale dans laquelle les joueurs favorables aux stratégies coopératives puissent se constituer en groupe afin d’influencer les autres joueurs. Dans une telle situation, la coopération peut selon Axelrod gagner sur toutes les autres stratégies.

504

Axelrod R., op. cit., p. 106.

505 Ibid. p. 109. 506_{Ibid. p.107.} 507_Ibid. 508 Ibid.

obstacle le plus souvent au principe de transparence et de clarté qui recommande d’adopter une attitude claire et aisément déchiffrable par l’autre joueur.

II.2.2) Le poids accordé à l’avenir

Au-delà de ces attitudes propices au développement de la coopération qui résultent de la logique du donnant-donnant, Axelrod recommande d’« augmenter l’ombre projetée par l’avenir sur le présent » afin d’infléchir les comportements opportunistes509. A partir du dilemme du prisonnier itératif (présenté plus haut au point 2.1) et des valeurs attribuées à chaque stratégie (T = 5, R = 3, P = 1 et S = 0), il montre que le choix de la stratégie de coopération ou de défection dépend de l’intérêt plus ou moins grand que les joueurs accordent à l’avenir. Dans cette optique, Axelrod considère que la durée des relations dans le temps (par opposition à la relation constituée d’un seul échange) est un élément essentiel dans le développement du comportement coopératif. Il montre que la prise en compte du temps et des conséquences futures d’une décision induit un changement de perspective dans le calcul des gains des joueurs.

Pour prendre en compte le poids de l’avenir dans le choix des stratégies, Axelrod introduit un paramètre de réduction, p. Ce paramètre, qui mesure la perte de valeur due au temps, « représente le degré de réduction de la valeur de chaque coup par rapport au coup précédent ». Par hypothèse, les valeurs de p sont comprises entre 0 et 1 et la somme de cette série infinie (car le jeu est itératif) est égale à 1/(1 – p). Dans un premier temps, l’auteur table sur une perte de 10% de valeur pour p à chaque tour ce qui signifie que les joueurs accordent une valeur importante à l’avenir car elle représente ici 90% du présent. Aussi, le score total pour une stratégie de coopération où chaque joueur adopte la stratégie « Tit-for-Tat », s’élève à R/(1-P), ce qui donne, pour R = 3 et p = 0,9, un résultat total de 30 points. Si un des joueurs pratique la défection tandis que l’autre joue « Tit-for-Tat », le gain total est T + pP/(1 – p), c’est-à-dire 14 points (avec T = 5, P = 1). Enfin, si un joueur décide d’alterner des stratégies de coopération et de défection, le meilleur score qu’il peut obtenir contre donnant-donnant est de 26,3 points510. Aussi, dans tous les cas, lorsque la valeur accordée au futur est importante, la meilleure stratégie pour les joueurs est la stratégie « Tit-for-Tat » qui rapporte 30 points. Si par contre les joueurs dévaluent l’avenir et attribuent à p une valeur par exemple de 30% au lieu des 90% précédents, alors il apparaît que la stratégie de coopération n’est plus viable. La stratégie « Tit-for-Tat » donne, pour R = 3 et p = 0,3, un résultat total de 4,3 points, alors que la défection rapporte, pour T = 5 et p = 0,3, un score de 5,4 points. Dans une telle situation, les joueurs ont intérêt à choisir la défection et « Tit-for-Tat » n’est plus stable.

A partir de ces résultats, Axelrod conclut qu’il est nécessaire « d’augmenter l’importance de l’avenir » dans les relations entre les joueurs afin de favoriser le développement de la coopération. En effet, si les joueurs accordent une valeur élevée à l’avenir, le montant futur actualisé des gains de la coopération sera supérieur au gain immédiat de la défection. Pour accroître le poids de l’avenir entre les joueurs, ces derniers doivent privilégier des relations durables et multiplier la fréquence des échanges. Ces deux conditions sont pour Axelrod indispensables pour rendre la stratégie de coopération stable. « Ce qui rend la coopération possible, c’est le fait que les joueurs peuvent être amenés à se rencontrer à nouveau. Cela

509_{Ibid. p. 120 et suivantes.}

510_{Alterner défection et coopération quand l’autre joueur utilise donnant-donnant donne un résultat de (T + pS)(1}

signifie que les choix effectués aujourd’hui déterminent non seulement le résultat du coup présent, mais peuvent également influencer les choix ultérieurs des joueurs. L’avenir peut donc projeter son ombre sur le présent et affecter ainsi la situation stratégique actuelle »511. Reprenant différents travaux pour étayer sa thèse, notamment ceux du sociologue Tony Ashworth512 sur le comportement des soldats pendant la guerre des tranchées de 1914-1918, il montre que même dans des conditions extrêmes, des situations de coopération peuvent émerger comme dans le cas du système « vivre et laisser vivre ». Selon Axelrod, cette forme de coopération entre adversaires fut possible car « les mêmes unités se trouvaient face à face pendant de longues périodes ». Si bien que ces soldats, en s’abstenant « souvent de tirer pour tuer, dès lors que ceux de l’autre côté faisaient preuve d’une retenue réciproque […] », «[…] violaient effectivement les ordres de leur propre haut commandement afin de parvenir à une coopération tacite »513.

II.2.3) La modification des gains des joueurs

Axelrod propose une troisième solution pour favoriser et entretenir la coopération entre deux joueurs dans le cadre d’un dilemme du prisonnier répété. Elle consiste à modifier les gains des joueurs et donc à transformer les incitations pour chaque stratégie. A l’issue de cette modification des gains, la stratégie de défection ne représente plus nécessairement le seul équilibre du jeu (équilibre de Nash).

Nous allons illustrer l’idée d’Axelrod à partir du modèle proposé par Philippe Abecassis et Philippe Batifoulier514 qui permet d’analyser le financement d’un bien public local entre deux communes. Le dilemme devant lequel elles se trouvent renvoie au modèle du dilemme du prisonnier.

Si V représente la valeur individuelle de consommation du bien public et C le coût individuel de production et d’entretien (avec 2C le coût total), alors les interactions entre les deux communes peuvent être schématisées dans un tableau dans lequel figurent les gains qui dépendent des stratégies adoptées.

Dans le document L'impact de l'aéroport Notre-Dame-Des-Landes sur le devenir des relations entre Nantes et Rennes : étude prospective à l'aide de la théorie des jeux (Page 160-163)