Les m´emoires binaires - Quelques classes de strat´egies

5.2 Quelques classes de strat´egies

5.2.2 Les m´emoires binaires

Le concept de base des stratégies de la famille memory ne permet pas de prendre en compte le comportement de l’adversaire depuis le début de la partie. En effet la mémoire étant limitée en taille il est impossible pour une stratégie d’une des classes memory (mem, memd ou memld) de prendre en compte le comportement de l’adversaire de manière globale. Ces stratégies sont donc faiblement réactives, i.e. réactives à court terme, puisqu’elles ne réagissent que par rapport à un moment limité du passé.

Les stratégies de la famille que nous allons décrire maintenant proposent une adaptation de la structure de la classe memory afin de pouvoir tenter de prendre en compte le comportement global de l’adversaire depuis le début de la partie.

La classe binary

Les stratégies de cette famille ont basiquement les mêmes propriétés que celles de la famille memory, avec en plus la possibilité de différencier à chaque coup, les cas où l’adversaire a plus souvent trahi que coopéré depuis le début de la partie. Cette notion est une représentation simplifiée du comportement global de l’adversaire depuis le début de la partie.

Si l’on reprend l’exemple des joueurs humains, il semble assez naturel de considérer que les joueurs ne se souviennent certes pas avec précision de tous les coups de l’adversaire, mais que globalement ils se font une idée de leur adversaire en se souvenant de son comportement en moyenne. La mémoire des coups récents reste cependant fraˆıche dans l’esprit des joueurs. Au moment de prendre leur décision sur le comportement à adopter, ils prennent donc en compte non seulement l’idée qu’ils se font du comportement général de l’adversaire, mais aussi les cartes qu’il a jouées récemment et qui peuvent donner une indication sur une éventuelle modification de ce comportement.

Pour rendre ce choix possible, nous allons ajouter une information à la mémoire disponible pour les stratégies, à savoir un indicateur mis à jour lors de chaque coup. Cet indicateur ne représente en fait qu’un moyen de compter les cartes D (ou C selon le point de vue) que l’adversaire a utilisées depuis le début de la partie. La mise en place pratique de cet indicateur est relativement aisée et n’a de sens que pour les stratégies ayant la possibilité de se souvenir de la dernière carte jouée par l’adversaire, c’est-à-dire pour les familles de stratégies pour lesquelles O ≥ 1.

Au final, pour définir une stratégie de cette famille, il faut donc spécifier : – la valeur de M,

– la valeur de O, – l’amorce de la partie,

– la définition du comportement en fonction des historiques possibles pour le cas où l’adversaire a plus souvent trahi que coopéré dans le passé,

– la définition du comportement en fonction des historiques possibles pour le cas où l’adversaire a plus souvent coopéré que trahi dans le passé.

Comme pour les familles de stratégies précédentes, le nom d’une stratégie de cette famille sert de support à la définition de son comportement.

Le nom d’une stratégie est créé par concaténation : 1. du préfixe bin ; 2. du caractère _ ; 3. de la valeur de M ; 4. du caractère _ ; 5. de la valeur de O ; 6. du caractère _ ;

7. des cartes `a jouer pour chacun des coups de l’amorce dans l’ordre croissant des coups, i.e du coup 1 au coup max(M,O) ;

8. de la liste ordonnée des cartes à jouer pour chacune des configurations de la mémoire possible si l’adversaire a plus souvent trahi que coopéré dans le passé, au sens strict.

9. de la liste ordonnée des cartes à jouer pour chacune des configurations de la mémoire possible si l’adversaire a plus souvent coopéré que trahi dans le passé, au sens large.

Le schéma est ici encore le même que précédemment, aussi bien pour le point 8 que le 9 et il n’est pas répété.

Une seule et même chaˆıne de caractères est utilisée pour les points 7, 8, et 9. Cette chaˆıne est donc composée de (max(M,O) + 2 × 2M+O_{) soit (max(M,O) + 2}(M+O+1)_{) caractères.}

bin 1 1 cddddccccest un exemple de stratégie de la famille binary. Elle appartient à la classe des stratégies à mémoire binaire qui n’utilisent que la dernière carte du joueur et la dernière carte de l’adversaire.

Elle peut être interprétée de la fa¸con suivante :

bin 1 1 cddddcccc 1. Au premier coup je joue la carte C ,

2. ensuite :

(a) si l’adversaire a strictement plus souvent trahi que coopéré depuis le début de la partie et : – si j’ai joué C, et que mon adversaire a joué C alors je joue D

– si j’ai joué C, et que mon adversaire a joué D alors je joue D – si j’ai joué D, et que mon adversaire a joué C alors je joue D – si j’ai joué D, et que mon adversaire a joué D alors je joue D (b) sinon :

– si j’ai joué C, et que mon adversaire a joué C alors je joue C – si j’ai joué C, et que mon adversaire a joué D alors je joue C – si j’ai joué D, et que mon adversaire a joué C alors je joue C – si j’ai joué D, et que mon adversaire a joué D alors je joue C

D’où finalement on obtient la partie intéressante du génotype en concaténant le tout :

C || D D D D || C C C C

On peut remarquer que cette modification n’a pas diminué le pouvoir d’expression de la descrip- tion des stratégies de la classe memory. La stratégie précédente est un autre nom pour soft majo, qui ne pouvait pas être codée dans les familles précédentes. tit for tat est en fait bin 1 1 ccdcdcdcd, spitefulest bin 0 1 cddcd, tf2t est bin 0 2 cccccdcccd, etc.

Chaque classe de stratégies de la famille binary permet donc de définir Nbin(M,O) stratégies complètement différentes, puisque chaque caractère de la chaˆıne du génotype d’une stratégie peut être choisi dans l’ensemble {c,d} :

Nbin(M,O) = 2(max(M,O)+2

(M+O+1)₎

(5.4)

La famille binary with dynamic start

De même que pour la famille memory, les stratégies de la famille binary jouent sans réagir au comportement de l’adversaire lors des coups de l’amorce d’une partie. On peut donc lui faire les mêmes reproches. La classe binary with dynamic start propose exactement la même solution que celle utilisée pour la classe memory with dynamic start.

Le nom d’une stratégie est créé par concaténation : 1. du préfixe bind ; 2. du caractère _ ; 3. de la valeur de M ; 4. du caractère _ ; 5. de la valeur de O ; 6. du caractère _ ;

7. de la carte `a jouer lors du premier coup ;

8. des cartes à jouer pour chacun des coups suivants de l’amorce dans l’ordre croissant des coups, i.e du coup 2 au coup max(M,O) et en fonction de la carte jouée par l’adversaire au coup précedent.

Le schéma utilisé dans ce cas est exactement le même que celui utilisé dans le cas correspondant pour les stratégies de la famille memory with dynamic start, page 84.

9. de la liste ordonnée des cartes à jouer pour chacune des configurations de la mémoire possibles si l’adversaire a plus souvent trahi que coopéré dans le passé, au sens strict.

10. de la liste ordonnée des cartes à jouer pour chacune des configurations de la mémoire possible si l’adversaire a plus souvent coopéré que trahi dans le passé, au sens large.

Le schéma est ici encore le même que précédemment, aussi bien pour le point 9 que le 10. Une seule et même chaˆıne de caractères est utilisée pour les points 7, 8, 9 et 10. Cette chaˆıne est donc composée de (1 + 2(max(M,O) − 1) + 2(M+O+1)) soit (2 max(M,O) − 1 + 2(M+O+1)) caractères.

Pour en finir avec la classe des stratégies à mémoire binaire, on peut interpréter la stratégie bind 0 2 ccdcdcdcdcd:

bind 0 2 ccdcdcdcdcd 1. Au premier coup je joue la carte C ,

2. au second coup si l’adversaire a jou´e C je joue C , s’il a jou´e D alors je joue D 3. ensuite :

(a) si l’adversaire a strictement plus souvent trahi que coopéré depuis le début de la partie et : – si mon adversaire a joué C, suivi de C, alors je joue C

– si mon adversaire a joué C, suivi de D, alors je joue D – si mon adversaire a joué D, suivi de C, alors je joue C – si mon adversaire a joué D, suivi de D, alors je joue D (b) sinon :

– si mon adversaire a joué C, suivi de C, alors je joue C – si mon adversaire a joué C, suivi de D, alors je joue D – si mon adversaire a joué D, suivi de C, alors je joue C – si mon adversaire a joué D, suivi de D, alors je joue D

D’où finalement on obtient la partie intéressante du génotype en concaténant le tout :

C | C D || C D C D || C D C D

On reconnaˆıt une fois de plus dans cette strat´egie la strat´egie tit for tat.

Chaque famille de stratégies de la classe binary with dynamic start permet donc de définir Nbind(M,O) stratégies complètement différentes, puisque chaque caractère de la chaˆıne du génotype d’une stratégie peut être choisi dans l’ensemble {c,d} :

Nbind(M,O) = 2(2 max(M,O)−1+2

(M+O+1)₎

(5.5)

Après avoir présenté les stratégies basées uniquement sur l’utilisation de la mémoire, nous allons maintenant décrire les deux dernières familles basées sur un concept fondamental en informatique : les automates.

Dans le document Modèles et simulations informatiques des problèmes de coopération entre agents (Page 101-104)