• Aucun résultat trouvé

Théorie des jeux évolutionnaires et problématique de la coopération

En introduisant des dilemmes où certains comportements sont interprétables comme des comportements coopératifs, la théorie des jeux évolutionnaires apporte de nouveaux résultats dans le débat sur l'évolution de la coopération. Cette problématique a conduit à un certain nombre de développements en biologie pour expliquer certaines formes de l'interaction animale. Darwin notait qu'il est impossible de faire apparaître des actes altruistes, compris comme le fait que les individus doivent baisser leur efficacité compétitive en augmentant celle des autres [Darwin 59].

Cependant des cas de comportements coopératifs ont été documentés [Dugatkin 97][Axelrod 84].

Une hypothèse centrale pour le maintien de la coopération est la kin selection [Hamilton 63]. L'explication porte au niveau des gènes : un individu interagit avec un groupe de proches. Ses proches ont de fortes chances de partager un patrimoine génétique commun et donc un individu ayant des gènes coopératifs a de fortes chances d'interagir avec des individus ayant les gènes codant le comportement coopératif, de sorte que la coopération peut s'établir dans le groupe. L'individu qui adoptera une attitude coopérative ne sera pas victime du comportement opportuniste d'un pair.

D'autres modèles pour l'évolution de la coopération ont été développés. Certains consistent à proposer des stratégies qui ont une connaissance sur les autres stratégies de la population : une stratégie réagit différemment en

fonction du fait qu'elle est confrontée à une stratégie avec laquelle elle préfère interagir ou avec une stratégie choisie au hasard. Dans ce cas la coopération s'établit comme un comportement entre des stratégies qui se préfèrent, alors que les stratégies tendent à refuser de coopérer avec les stratégies qu'elles ne préfèrent pas [Hruschka 06]. Ce type de modèle exige cependant de définir des stratégies qui utilisent beaucoup d'information et suppose notamment que les stratégies soient capables de se reconnaître.

D'autres modèles ont été développés qui ne sont pas décrits ici : la sélection de groupes [Wilson 94], la réciprocité indirecte [Pollock 92], les théories de l'apprentissage social [Boyd 82]. On pourra trouver une présentation synthétique de ces modèles dans [Dugatkin 97] ou [Mui 02]. Dans ce qui suit, on présente une approche centrale à la théorie des jeux évolutionnaires et qui fonde la coopération sur la réciprocité directe.

La théorie des jeux introduit des dilemmes qui permettent de caractériser les interactions coopératives. Dans la suite de la thèse, la coopération est comprise comme un comportement qui améliore la performance évolutive d'autrui, mais diminue celle de l'individu qui l'adopte. Supposons que faire une action profitant à B coûte d à A et rapporte c à B. Si A fait cette action mais pas B, A obtient -d et B obtient c, si A fait cette action et B aussi : les deux obtiennent c-d , enfin si les deux ne font pas l'action, ils obtiennent 0. En posant c=5 et d=2, on obtient :

Agit en faveur de l'autre

N'agit pas

Agit en faveur de l'autre R=3 S=-2

N'agit pas T=5 P=0

Pour un dilemme de cette forme, T>R>P>S et 2×R>T+S, on parle de dilemme du prisonnier. L'équilibre de Nash du dilemme est le cas où les deux agents choisissent de ne pas agir, comportement qu'on notera D pour defection – trahison, l'autre comportement étant noté C pour coopération. En effet, pour un tel dilemme, chaque offreur constate qu'il gagne toujours plus en jouant D quelque soit le jeu de son adversaire. Un offreur rationnel joue donc D plutôt que C et donc, l'interaction de deux offreurs rationnels conduit à (D,D), se faisant, chacun obtient P=0 alors même que le coup coopératif, qui maximise le gain collectif, leur permettrait d'atteindre chacun un score de 3.

Un jeu de valeurs plus utilisé dans la littérature [Axelrod 84] :

C D

C R=3 S=0

D T=5 P=1

Les lettres correspondent respectivement à Reward (récompense), Treason (trahison), Sucker (dupe) et Punishement (punition).

L'évolution d'une population de stratégies adoptant les comportements C et D sous l'effet de la dynamique de réplication est triviale. Du fait de la matrice des gains, le comportement D domine strictement le comportement C, c'est-à-dire que quel que soit le comportement de l'adversaire, un joueur gagne toujours plus en jouant D. De fait, l'évolution d'une population composée de ces deux comportements conduit à la disparition du second, ou, si la population est supposée de taille infinie, la fréquence des comportements C tend vers 0.

Pour permettre l'établissement de la coopération, Axelrod [Axelrod 84] propose un dilemme dérivé du dilemme du prisonnier : le dilemme itéré des prisonniers. Le dilemme est alors une abstraction de la situation où des agents interagissent à plusieurs reprises à chaque génération. Par exemple, ils vont interagir pendant 6 échanges ensemble à chaque génération. Pour chacun des 6 échanges, chaque joueur choisit entre jouer C ou D et obtient un score en fonction de la matrice du dilemme du prisonnier. Soit par exemple une séquence de 6 échanges :

Joueur 1 : C D C C C D Joueur 2 : D D D C C C

Dans ce cas, le premier joueur gagne 0 lors du premier échange, 1 au deuxième, etc. Au bout de 6 échanges, son score est 12 et celui du second joueur est 17. On dégage alors une nouvelle matrice des scores :

Comportement CDCCCD Comportement DDDCCC

Comportement CDCCCD 15 12

Comportement DDDCCC 17 12

La dynamique de réplication s'applique ensuite de la même manière que pour le cas des autres matrices. L'introduction de certains comportements permet alors de rendre soutenable la coopération.

Plutôt que des comportements fixés sur T périodes comme ceux de la matrice précédente, on s'intéresse à des comportements descriptibles sous forme réduite avec l'idée d'en trouver certains qui, en utilisant le passé pour réussir à améliorer leurs performances, permettent des interactions coopératives et peuvent être interprétés dans le sens de l'interaction humaine : punition, réciprocité, proposition de la coopération etc.

Soit par exemple un comportement extrêmement simple mais célèbre parce qu'il s'avère non-trivial de trouver un comportement plus performant [Beaufils 00] : le comportement TFT (pour "Tit for Tat" traduit par "donnant-donnant").

Ce comportement joue à la première génération le coup C et aux générations suivantes le coup joué par son adversaire

à la période précédente. La séquence de jeu contre une stratégie qui joue CCD périodiquement :

Comportement TFT : C C C D C C D Comportement Per-ccd : C C D C C D C

Les deux comportements gagnent un score de 19. Les coups joués aux générations 4 et 7 par le comportement TFT sont en réaction au coup D de l'autre comportement aux générations 3 et 6 respectivement. On peut alors parler de punition, de défense du comportement en réaction au jeu agressif de l'autre comportement. L'interaction de deux comportements TFT donne une série de coups C-C. L'introduction d'un groupe de TFT au sein d'une population peut faire converger cette population vers une issue coopérative.

Axelrod [Axelrod 84] montre que le comportement qui trahit toujours, noté All-D, est un ESS : ce comportement ne peut pas être envahi par un individu mutant. En revanche, il peut être envahi par une population de stratégies TFT.

Les TFT peuvent résister aux comportements agressifs en place et établir la coopération entre elles et donc leur part tend à croître au sein d'une population de stratégies All-D. Pour illustrer la richesse des dynamiques possibles pour le dilemme du prisonnier, différents articles [Nowak 89][Imhof 05] considèrent des populations de trois comportements All-D, TFT et All-C (joue toujours C) en configurant les TFT de manière à ce qu'elles puissent être envahies par une population de All-C. En fonction du choix des fréquences initiales, les dynamiques possibles sont diverses. Notamment, il est possible de mettre en évidence des phénomènes cycliques où la présence des C favorise la croissance des All-D : la population évolue vers une majorité de All-All-D, mais à partir d'un certain seuil, il y a croissance des TFT qui deviennent majoritaires à leur tour, leur population pouvant alors être envahie à partir d'un individu mutant All-C etc. La coopération est rendue soutenable par la présence des TFT.

Les stratégies qu'il est possible d'inventer pour le dilemme du prisonnier sont multiples [Axelrod 84][Beaufils 00]

et les dynamiques possibles sont très nombreuses, ainsi que les interprétations sur la coopération. Un certain nombre de travaux mettent en avant la possibilité qu'apparaissent des dynamiques périodiques avec certains triplets de stratégies déterministes (c'est-à-dire jouant selon une règle déterministe). Dans [Mathieu 00], les auteurs mettent en évidence, à l'issue d'une recherche systématique, des triplets de stratégies du dilemme itéré des prisonniers produisant des cycles. [Nowak et Sigmund 93] montrent qu'une population de stratégies probabilistes jouant le dilemme du prisonnier avec une mémoire 1 évolue périodiquement vers une issue coopérative, dans ce cas, des mutations finissent toujours par remettre en question l'équilibre coopératif, les phases coopératives étant cependant de plus en plus longues au cours de l'évolution. Une partie des dynamiques présentées ici peuvent être testées en utilisant l'applet EGT

disponible à http://rdorat.free.fr/Recherche/Applets/.