• Aucun résultat trouvé

4.5 Une strat´egie encore meilleure : bad bet

4.5.2 Comportement de bad bet

D’o`u vient la force de bad bet? Avant de tenter de r´epondre `a cette question, nous avons cherch´e `a comprendre si son m´ecanisme de changement de strat´egies ´etait utilis´e. Grˆace au simulateur, nous avons pu tracer le comportement de bad bet pas `a pas dans un tournoi.

On peut voir sur le tableau 4.1 la trace de ce comportement dans un tournoi particulier.

Pour chacune des strat´egies pour laquelle une punition a ´et´e n´ecessaire, on peut lire tout d’abord le num´ero du coup o`u la punition a commenc´e, la date de d´ebut de punition, puis pour chaque p´eriode, le num´ero de la strat´egie utilis´ee. Les quatre premi`eres p´eriodes sont celles que toute strat´egie bad bet teste avant de commencer `a faire son choix.

Pour les strat´egies utilisant des choix al´eatoires, seule la trace pour la premi`ere des rencontres a ´et´e conserv´ee.

Nous avons fait de nombreuses traces de ce genre. `A chaque fois, on s’aper¸coit que non seulement toutes les strat´egies de la gamme de punition de bad bet sont utilis´ees, mais qu’en plus au cours d’une rencontre plusieurs strat´egies diff´erentes sont parfois utilis´ees pour punir un adversaire r´ecalcitrant.

0 50 100 150 200 250 300 350 0 5 10 15 20 25 Population size Generations Ecological evolution bad_bet tit_for_tat spiteful soft_majo tf2t slow_tft pavlov two_tit_for_tat all_c easy_go mistrust per_ccd prober all_d worse_and_worse hard_joss ipd_random

Fig. 4.19 – Une ´evolution avec bad bet

0 50 100 150 200 250 300 0 5 10 15 20 25 30 Population size Generations Ecological evolution bad_bet gradual tit_for_tat soft_majo spiteful slow_tft tf2t pavlov two_tit_for_tat all_c easy_go mistrust prober per_ccd worse_and_worse hard_joss ipd_random all_d

Fig.4.20 – Une ´evolution avec bad bet et gradual

L’analyse de ces traces nous permet de d´ecouvrir de nouvelles caract´eristiques, qui nous semblent ˆetre des propri´et´es int´eressantes pour la qualit´e d’une strat´egie.

Adversaire Date Strat´egies all d 1 0123 000000000000000000000 ipd random 2 0123 020000022222222222222 per ddc 1 0123 002222222222222222222 per ccd 3 0123 002222222222222222222 prober 1 0123 000000000000000000000 mistrust 1 0123 111111111111111111111 hard majo 1 0123 333333333333333333333 hard joss 29 0123 11111111111111 per cd 2 0123 222222222222222222222 per cccdcd 4 0123 20003332222222222222 prob c 4 on 5 6 0123 00032222222222222222 per ccccd 5 0123 02222222222222222222 prober2 1 0123 033333333333333333333 prober3 1 0123 111111111111111111111 prober4 3 0123 222111111111111111111 hard prober 1 0123 000000000000000000000

better and better 1 0123 000000000000000000000 worse and worse 15 0123 033333333300011111 worse and worse2 26 0123 133302000000000 gradual killer 1 0123 333333333333333333333

easy go 1 0123 333333333333333333333

Tab. 4.1 – Pistage du comportement de bad bet. Les strat´egies utilis´ees par bad bet sont 0=tit for tat, 1=all c, 2=spiteful et 3=per ccd

L’id´ee globale de bad bet est donc celle d’une strat´egie gentille, r´eactive mais pas forc´ement indulgente.

En fait bad bet adapte son comportement `a son adversaire. Cette adaptation est un concept que peu de strat´egies utilisent. On peut par exemple dire que prober ajuste son attitude : si son adversaire se laisse faire, alors elle l’exploite sinon elle joue la s´ecurit´e en jouant comme tit for tat. Le probl`eme de prober est que pour s’adapter `a son adversaire elle cherche `a savoir quel est son comportement : prober est agressive. bad bet adapte sa strat´egie `a celle de son adversaire. Plus exactement elle ajuste son comportement quand son adversaire n’est pas coop´eratif. Elle punit ses adversaires diff´eremment en fonction de la faute qu’ils ont commise. L’id´ee ici est que toutes les trahisons de l’adversaire ne sont pas forc´ement des tentatives d’exploitation. bad bet consid`ere qu’une trahison est une tentative de communication. Elle essaie alors diff´erents langages et utilise celui qui lui coˆute le moins cher. Ce choix reste cependant dynamique durant toute la longueur du reste de la partie pour le cas o`u l’adversaire r´eussit `a apprendre le langage que bad bet a choisi.

L’id´ee forte qui ressort de cette premi`ere ´etude est donc que la r´eaction doit ˆetre adaptative. En se basant sur cette id´ee et en ´etudiant plus pr´ecis´ement les strat´egies que bad bet utilise on arrive un peu mieux `a saisir les concepts que bad bet favorise pour sa r´eaction.

Apr`es une trahison elle commence par jouer tit for tat, c’est-`a-dire que pendant quatre coups elle va jouer prudemment contre son adversaire. Ensuite elle va essayer d’utiliser la coop´eration pendant quatre autres coups, ici elle pardonne `a son adversaire sa trahison. Ensuite elle va tenter d’ˆetre rancuni`ere pendant les quatre coups suivants. Puis finalement elle va trahir p´eriodiquement une fois sur trois.

Le choix de la strat´egie qu’elle conserve pour la suite est souvent un choix durable, comme on peut le voir sur le tableau 4.1. Plus pr´ecis´ement contre per ccccd par exemple elle joue prober, ce qui l’am`ene `a trahir continuellement jusqu’`a la fin de la partie. Or le meilleur comportement `a adopter face `a une strat´egie p´eriodique est bien de trahir tout le temps. Elle ne pardonne pas `a son adversaire

de vouloir constamment tenter de la trahir. Contre hard joss elle va finir par toujours coop´erer, ce qui est aussi le comportement optimal, puisque jouer tit for tat pour essayer de r´ecup´erer les points vol´es par hard joss entraˆınerait une suite de coups d´esastreux pour les deux. Dans ce cas, elle pardonne `a son adversaire les rares trahisons qu’il commet.

En d´efinitive on peut bien isoler les quatre types de r´eponse que bad bet fait `a un adversaire qui l’agresse :

– La punition simple. Dans ce cas bad bet consid`ere que son adversaire comprend bien les punitions, et qu’elles suffisent `a ne pas lui faire perdre trop de points.

– Le pardon ou l’oubli. Dans ce cas bad bet ferme les yeux sur la trahison de son adversaire, parce qu’elle consid`ere que tenter de le convaincre lui coˆuterait trop cher.

– La punition s´ev`ere. Dans ce cas bad bet comprend que l’adversaire est vraiment trop agressif ou sournois et pr´ef`ere rompre toute tentative de coop´eration.

– L’exploitation. Dans ce cas bad bet essaie de profiter de la na¨ıvet´e de son adversaire. Dans tous les cas, bad bet accumule des qualit´es exhib´ees par d’autres strat´egies, comme la gentillesse et la r´eactivit´e de tit for tat, l’´evolutivit´e de la r´eaction de gradual, et enfin l’adaptation du comportement, et plus pr´ecis´ement de la r´eaction.

Cela conforte notre id´ee que la simplicit´e n’est pas une bonne qualit´e, mais qu’au contraire il semble exister une hi´erarchie de strat´egies aux qualit´es et `a la complexit´e croissantes. Nous pensons que cette hi´erarchie est infinie, et qu’il en existe sans doute plusieurs.

Pour exemple de hi´erarchie, on peut citer la progression de tit for tat vers gradual (une premi`ere adaptation simple de la punition est utilis´ee) et de gradual vers bad bet (l’adaptation est plus subtile).

Nous allons maintenant pouvoir v´erifier que ces strat´egies ont des bons comportements, en les testant dans de tr`es larges environnements strat´egiques. Leur robustesse sera mesur´ee par leur effi- cacit´e face `a de nombreuses strat´egies diff´erentes. Le recours aux simulations nous sera en cela bien indispensable.

Classes compl`etes de strat´egies

Nous exposons dans ce chapitre une m´ethode originale d’exploration d’espaces de strat´egies : les classes compl`etes de strat´egies. Apr`es en avoir d´efini le concept et le but, nous d´ecrivons les diff´erentes vari´et´es de classes utilisables avec nos simulateurs ainsi que certaines des propri´et´es sp´ecifiques `a celles-ci. Il est `a noter que les id´ees utilis´ees ici sont en partie pr´esente dans [Dav87, ML96]. Nous pr´esentons ensuite les travaux effectu´es en d´ecrivant les exp´eriences men´ees sur certaines de ces classes et en en ´etudiant les r´esultats.

5.1

Espace complet