Comportement de bad bet - Une strat´egie encore meilleure : bad bet

4.5 Une strat´egie encore meilleure : bad bet

4.5.2 Comportement de bad bet

D’où vient la force de bad bet? Avant de tenter de répondre à cette question, nous avons cherché à comprendre si son mécanisme de changement de stratégies était utilisé. Grâce au simulateur, nous avons pu tracer le comportement de bad bet pas à pas dans un tournoi.

On peut voir sur le tableau 4.1 la trace de ce comportement dans un tournoi particulier.

Pour chacune des stratégies pour laquelle une punition a été nécessaire, on peut lire tout d’abord le numéro du coup où la punition a commencé, la date de début de punition, puis pour chaque période, le numéro de la stratégie utilisée. Les quatre premières périodes sont celles que toute stratégie bad bet teste avant de commencer à faire son choix.

Pour les stratégies utilisant des choix aléatoires, seule la trace pour la première des rencontres a été conservée.

Nous avons fait de nombreuses traces de ce genre. À chaque fois, on s’aper¸coit que non seulement toutes les stratégies de la gamme de punition de bad bet sont utilisées, mais qu’en plus au cours d’une rencontre plusieurs stratégies différentes sont parfois utilisées pour punir un adversaire récalcitrant.

0 50 100 150 200 250 300 350 0 5 10 15 20 25 Population size Generations Ecological evolution bad_bet tit_for_tat spiteful soft_majo tf2t slow_tft pavlov two_tit_for_tat all_c easy_go mistrust per_ccd prober all_d worse_and_worse hard_joss ipd_random

Fig. _{4.19 – Une ´evolution avec bad bet}

0 50 100 150 200 250 300 0 5 10 15 20 25 30 Population size Generations Ecological evolution bad_bet gradual tit_for_tat soft_majo spiteful slow_tft tf2t pavlov two_tit_for_tat all_c easy_go mistrust prober per_ccd worse_and_worse hard_joss ipd_random all_d

Fig._{4.20 – Une ´evolution avec bad bet et gradual}

L’analyse de ces traces nous permet de découvrir de nouvelles caractéristiques, qui nous semblent être des propriétés intéressantes pour la qualité d’une stratégie.

Adversaire Date Strat´egies all d 1 0123 000000000000000000000 ipd random 2 0123 020000022222222222222 per ddc 1 0123 002222222222222222222 per ccd 3 0123 002222222222222222222 prober 1 0123 000000000000000000000 mistrust 1 0123 111111111111111111111 hard majo 1 0123 333333333333333333333 hard joss 29 0123 11111111111111 per cd 2 0123 222222222222222222222 per cccdcd 4 0123 20003332222222222222 prob c 4 on 5 6 0123 00032222222222222222 per ccccd 5 0123 02222222222222222222 prober2 1 0123 033333333333333333333 prober3 1 0123 111111111111111111111 prober4 3 0123 222111111111111111111 hard prober 1 0123 000000000000000000000

better and better 1 0123 000000000000000000000 worse and worse 15 0123 033333333300011111 worse and worse2 26 0123 133302000000000 gradual killer 1 0123 333333333333333333333

easy go 1 0123 333333333333333333333

Tab. _{4.1 – Pistage du comportement de bad bet. Les strat´egies utilis´ees par bad bet sont} 0=tit for tat, 1=all c, 2=spiteful et 3=per ccd

L’idée globale de bad bet est donc celle d’une stratégie gentille, réactive mais pas forcément indulgente.

En fait bad bet adapte son comportement à son adversaire. Cette adaptation est un concept que peu de stratégies utilisent. On peut par exemple dire que prober ajuste son attitude : si son adversaire se laisse faire, alors elle l’exploite sinon elle joue la sécurité en jouant comme tit for tat. Le problème de prober est que pour s’adapter à son adversaire elle cherche à savoir quel est son comportement : prober est agressive. bad bet adapte sa stratégie à celle de son adversaire. Plus exactement elle ajuste son comportement quand son adversaire n’est pas coopératif. Elle punit ses adversaires différemment en fonction de la faute qu’ils ont commise. L’idée ici est que toutes les trahisons de l’adversaire ne sont pas forcément des tentatives d’exploitation. bad bet considère qu’une trahison est une tentative de communication. Elle essaie alors différents langages et utilise celui qui lui coûte le moins cher. Ce choix reste cependant dynamique durant toute la longueur du reste de la partie pour le cas où l’adversaire réussit à apprendre le langage que bad bet a choisi.

L’idée forte qui ressort de cette première étude est donc que la réaction doit être adaptative. En se basant sur cette idée et en étudiant plus précisément les stratégies que bad bet utilise on arrive un peu mieux à saisir les concepts que bad bet favorise pour sa réaction.

Après une trahison elle commence par jouer tit for tat, c’est-à-dire que pendant quatre coups elle va jouer prudemment contre son adversaire. Ensuite elle va essayer d’utiliser la coopération pendant quatre autres coups, ici elle pardonne à son adversaire sa trahison. Ensuite elle va tenter d’être rancunière pendant les quatre coups suivants. Puis finalement elle va trahir périodiquement une fois sur trois.

Le choix de la stratégie qu’elle conserve pour la suite est souvent un choix durable, comme on peut le voir sur le tableau 4.1. Plus précisément contre per ccccd par exemple elle joue prober, ce qui l’amène à trahir continuellement jusqu’à la fin de la partie. Or le meilleur comportement à adopter face à une stratégie périodique est bien de trahir tout le temps. Elle ne pardonne pas à son adversaire

de vouloir constamment tenter de la trahir. Contre hard joss elle va finir par toujours coopérer, ce qui est aussi le comportement optimal, puisque jouer tit for tat pour essayer de récupérer les points volés par hard joss entraˆınerait une suite de coups désastreux pour les deux. Dans ce cas, elle pardonne à son adversaire les rares trahisons qu’il commet.

En définitive on peut bien isoler les quatre types de réponse que bad bet fait à un adversaire qui l’agresse :

– La punition simple. Dans ce cas bad bet consid`ere que son adversaire comprend bien les punitions, et qu’elles suffisent `a ne pas lui faire perdre trop de points.

– Le pardon ou l’oubli. Dans ce cas bad bet ferme les yeux sur la trahison de son adversaire, parce qu’elle consid`ere que tenter de le convaincre lui coˆuterait trop cher.

– La punition sévère. Dans ce cas bad bet comprend que l’adversaire est vraiment trop agressif ou sournois et préfère rompre toute tentative de coopération.

– L’exploitation. Dans ce cas bad bet essaie de profiter de la na¨ıveté de son adversaire. Dans tous les cas, bad bet accumule des qualités exhibées par d’autres stratégies, comme la gentillesse et la réactivité de tit for tat, l’évolutivité de la réaction de gradual, et enfin l’adaptation du comportement, et plus précisément de la réaction.

Cela conforte notre idée que la simplicité n’est pas une bonne qualité, mais qu’au contraire il semble exister une hiérarchie de stratégies aux qualités et à la complexité croissantes. Nous pensons que cette hiérarchie est infinie, et qu’il en existe sans doute plusieurs.

Pour exemple de hiérarchie, on peut citer la progression de tit for tat vers gradual (une première adaptation simple de la punition est utilisée) et de gradual vers bad bet (l’adaptation est plus subtile).

Nous allons maintenant pouvoir vérifier que ces stratégies ont des bons comportements, en les testant dans de très larges environnements stratégiques. Leur robustesse sera mesurée par leur effi- cacité face à de nombreuses stratégies différentes. Le recours aux simulations nous sera en cela bien indispensable.

Classes compl`etes de strat´egies

Nous exposons dans ce chapitre une méthode originale d’exploration d’espaces de stratégies : les classes complètes de stratégies. Après en avoir défini le concept et le but, nous décrivons les différentes variétés de classes utilisables avec nos simulateurs ainsi que certaines des propriétés spécifiques à celles-ci. Il est à noter que les idées utilisées ici sont en partie présente dans [Dav87, ML96]. Nous présentons ensuite les travaux effectués en décrivant les expériences menées sur certaines de ces classes et en en étudiant les résultats.

5.1 Espace complet

Dans le document Modèles et simulations informatiques des problèmes de coopération entre agents (Page 89-94)