• Aucun résultat trouvé

Le problème de victoire, ainsi que le problème de crédit initial, sont in- in-décidables pour des objectifs définis par une formule de gain comportant quatre

4 Résolution des jeux

Théorème 1. Le problème de victoire, ainsi que le problème de crédit initial, sont in- in-décidables pour des objectifs définis par une formule de gain comportant quatre

4. RÉSOLUTION DES JEUX 139 La preuve de ce théorème consiste à encoder, à l’aide d’un jeu du type étudié, le problème de terminaison à l’aide d’une machine à deux compteurs : le problème équivalent ainsi obtenu est connu comme étant indécidable [89]. Chaque compteur est représenté par deux composantes d’énergie (une pour chacun des deux joueurs), qui contiennent chacune une copie de la valeur du compteur en question. Pour l’ins-truction0-test (présentée ci-dessous), le joueur 0 peut prétendre que son compteur est nul, ou bien qu’il ne l’est pas ; le second joueur peut vérifier si cette affirmation est valide ou non. Si la machine atteint son état d’arrêt, une composante de gain est incrémentée, et tous les autres composantes sont réinitialisées à0. De cette manière, si la machine s’arrête, le joueur 0 a une stratégie gagnante lui permettant d’obtenir un gain strictement positif. Autrement, le gain demeure nul.

On définit plus précisément une machine à deux compteurs comme une liste d’ins-tructions étiquetées, qui peuvent être :

incrément :incrémenter le compteurc(respectivementd) et aller à l’étiquette; • 0-test :sic = 0(respectivementd= 0) alors aller à l’étiquette1, sinon

décré-menterc(respectivementd) et aller à l’étiquette2; • arrêt :arrêt de la machine, associé à l’étathaltedu jeu. Au départ, les deux compteurs sont initialisés à0.

À présent, étant donné une machineM, nous construisons une arèneGMbasée sur des modules « élémentaires » pour chaque type d’instructions (celui du compteur

csera symétrique à celui du compteurd). L’arène comporte donc cinq composantes

c, c,d, d, p, où seulepconcerne le gain, les autres étant attachées à des valeurs énergétiques. Les composantesc etc (respectivementdet d) sont supposées tou-jours conserver la même valeur, excepté pour l’instruction0-test. Au lancement du jeu toutes les composantes ont pour valeur30.

Le but du joueur 0 est d’obtenir un gain strictement positif, tout en simulant fidèle-ment la machine. Il faut entendre par cette expression que les valeurs des composantes

cetddoivent demeurer positives. Les composantescetd permettent de s’assurer que le joueur 1 ne pourra prétendre à tort que le joueur 0 a triché. Si le cas devait se produire, les valeurs de ces composantes seraient strictement négatives. À présent la condition de victoire s’exprime comme la satisfaction de la formule de gain suivante :

(c≥0∧d≥0∧p >0)(c<0∧c≥0)(d<0∧d≥0)

Chaque instruction étiquetée a un état dans l’arène appartenant au joueur 0, avec la même étiquette (d’autres états seront rajoutés par la suite). Le cas de l’incrémentest trivial : si l’instructionest « incrémentercpuis aller à l’étiquette», alors il y a une arête partant deet joignant avec les poids(1,1,0,0,0). Il n’y a pas d’autre arête partant de, le joueur n’a donc pas d’autre choix.

L’instruction0-testest plus délicate, car le joueur 0 est susceptible de tricher en empruntant la mauvaise branche de l’instruction conditionnelle. De manière formelle, on suppose queest « sic= 0alors aller à l’étiquette1, sinon décrémentercet aller à l’étiquette2». Il y a alors deux arêtes sortant de l’état: l’une correspondant à l’annoncec = 0, l’autre à l’annoncec > 0, comme indiqué sur la figure7.4. L’arête

3Pour obtenir une simulation plus réaliste, il est possible d’assigner aux composantes la valeur initiale

1, et de considérer0comme valeur de défaite. Nous choisissons ici d’autoriser un niveau d’énergie nul et considérons le jeu comme « perdu » pour des valeurs strictement négative, et ce afin de rendre plus clair le lien entre les valeurs des compteurs et les niveaux d’énergie.

portant l’affirmationc= 0atteint un état possédé par le joueur 1, qui peut soit accep-ter l’affirmation (et aller dans ce cas à1), soit la rejeter. Le rejet de cette affirmation implique de décrémenterc(mais nonc) et de se rendre sur un étatarrêt: cet état pos-sède une unique arête sortante, qui boucle sur lui-même avec les poids(0,0,0,0,0), signifiant que la simulation s’est arrêtée. Si l’affirmation est rejetée à tort, on obtient

c<0tandis quec= 0, puisque les valeurs decetcétaient égales. Si l’affirmation a été rejetée à raison, alors le gain est nul.

c= 0’ 1 arrêt ‘c >0’ 2 arrêt (0,−1,0,0,0) (1,−1,0,0,0) (0,0,0,0,1)

Fig. 7.4 : Module d’encodage de l’instruction0-test sous forme de jeu : « si c = 0 alors aller à l’étiquette 1, sinon décrémentercet aller à l’étiquette 2 ». Les états sous forme de carrés appartiennent au joueur 0, les cercles représentent les états du joueur 1. Il est convenu qu’en l’absence d’indication de poids, les arêtes comportent les poids(0,0,0,0,0).

De même, l’affirmationc >0est représentée par une arête qui décrémente à la foiscetc (donc de poids(1,−1,0,0,0)), et atteint l’état du joueur 1. Ce dernier peut soit poursuivre la simulation, soit se rendre sur un étatarrêt. Cet état possède une unique arête qui boucle sur lui-même avec les poids(0,0,0,0,1), ce qui signifie que la simulation est arrêtée mais que le gain vaut1. Si le joueur 0 a triché, alorsc <0 et la simulation n’a pas besoin d’être menée plus avant. S’il s’est comporté de façon loyale, alorsc >0etc>0, etp >1.

Enfin, lorsqu’il atteint l’étathalte, le joueur 0 décrémente à la foiscetcautant de fois qu’il le souhaite, puis se rend sur un état de vérification (vérif). L’étatvérif

appartient au joueur 1, et agit de la même façon que pour le0-test dans le cas où le joueur 0 affirme quec = 0. On procède de façon identique pour d. Enfin, une arête retourne depuis l’étatvérifjusqu’à l’état initial et rapporte une récompense à la composante de gainp: son poids est(0,0,0,0,1). Ce module est représenté sur la figure7.5.

Supposons à présent que Ms’arrête. Considérons la stratégie du joueur 0 qui consiste à jouer honnêtement, c’est-à-dire à annoncer les valeurs correctes du comp-teur (et à décrémenter les composantes d’énergie, de sorte qu’elles atteignent exacte-ment0). Alors si le joueur 1 ne lance aucune accusation de tricherie, les compteursc

etdrestent tous deux positifs, comme pourM. Supposons de plus queMa terminé son exécution enkétape, et dénotons parck et dk les valeurs respectives decetd

lorsque l’on atteint les instructions d’arrêt. Dans ce cas l’exécution de la simulation sur la machine correspond au plus à2kétapes du jeu (à cause des affirmations qui

4. RÉSOLUTION DES JEUX 141 halte vérif arrêt 0 (−1,−1,0,0,0) (0,0,−1,−1,0) (0,−1,0,0,0) (0,0,0,−1,0) (0,0,0,0,1)

Fig. 7.5 : Module d’encodage de l’instruction d’arrêt sous forme de jeu. Les états sous forme de carrés appartiennent au joueur 0, les cercles représentent les états du joueur 1.

doivent être acceptées), et le jeu nécessiteck+dk+ 2étapes depuis l’étathaltepour atteindre à nouveau l’état initial : il s’agit du nombre d’étapes requises pour décré-menter chaque compteur et pour traverser le module de la figure7.5. En conséquence la valeur minimale du gain moyen est de 1

2k+ck+dk+2 >0. Si le joueur 1 a rejeté l’une des affirmations du joueur 0 :

• sic = c = 0, mais que le joueur 1 a depuis décrémentéc pour contester l’annonce, alors le jeu « s’arrête », mais la conditionc<0∧c≥0est satisfaite ; • sic =c 0après le décrément mais que le jeu a été « arrêté », le gain vaut 1tandis que les deux composantescetdsont supérieures à0. Dans ce cas la conditionc≥0∧d≥0∧p >0est satisfaite.

Au final, on retient que la stratégie de simulation « loyale » est gagnante. Supposons maintenant queMne s’arrête pas : la simulation « loyale » retourne une valeur de gain de0si le joueur 1 ne porte aucune accusation à tort (l’état d’arrêt

halten’est jamais atteint, et si le joueur 1 ne réfute aucune annonce, l’étatarrêtn’est

pas non plus atteint.) Dans le cas où le joueur 0 « ment » lors de ses annonces, il suffit au joueur 1 de détecter cette erreur pour que l’on obtienne soitc <0, soit une valeur de gain définitivement nulle.

Cette construction peut être adaptée au problème du crédit initial : il suffit seule-ment de rajouter, en amont de l’état initial, un module similaire au modulehaltedans le sens où il doit permettre à tous les niveaux d’énergie d’atteindre0. Une fois l’état « initial » (à l’origine) atteint, le crédit initial devient caduque, et le joueur 0 gagne si et seulement siMs’arrête.

4.2 Le fragment positif

Revenons à présent sur le problème du crédit initial, dont le jeu est plus « simple » à remporter pour le nœud compromis que le jeu du problème de victoire correspon-dant. De plus il est courant, lorsque l’on combine des stratégies, qu’un crédit initial

nécessaire à la victoire soit augmenté ; en d’autres termes, les stratégies concernant le problème de victoire ne sont souvent pas assez robustes. Du point de vue du modèle employé, résoudre le problème du crédit initial permet d’obtenir plus d’informations : si une stratégie et un crédit sont découverts, ils fournissent une valeur concrète à laquelle l’énergie doit être initialisée.

Nous démontrons dans cette section que les stratégies gagnantes pour les objec-tifs définis par des littéraux peuvent être combinés en une stratégie gagnante pour l’objectif global.

Rappelons avant tout que le cas d’un littéral a été étudié en détail, pour des jeux relatifs soit à de l’énergie, soit à des gains moyen. Ces jeux ont une solution simple, dans le sens où :

• l’un des joueurs a une stratégie gagnante ;

• si une stratégie gagnante existe, alors il en existe une qui repose sur une mé-moire finie ;

• déterminer quel sera le joueur vainqueur peut être réalisé enNPcoNP[144]. De plus, il a été prouvé [131] qu’une mémoire finie est suffisante pour gagner sur une conjonction de contraintes sur l’énergie. Le cas des conjonctions de contraintes sur le gain a lui aussi fait l’objet d’études dans [131], où les stratégies sans mémoire pour chaque condition sur le gain sont combinées en stratégies à mémoire infinie pour l’ob-jectif global. Par exemple, lorsque le gain moyen est défini par la limite supérieur du gain, chaque stratégie peut être jouée au cours de phases de durée croissante jusqu’à atteindre (ou à s’approcher aussi près que nécessaire de) la valeur désirée.

Par conséquent nous allons nous concentrer ici sur l’association d’objectifs portant à la fois sur l’énergie et sur le gain moyen. Il est bon de noter avant tout que si l’objectif du nœud compromis est une conjonction de littéraux, et que l’un deux ne peut être réalisé, il est évident que le jeu ne peut être remporté.

S’il existe des stratégies pour chacun des sous-objectifs, il peut être possible de combiner des stratégies gagnantes à mémoire finie pour chacun des littéraux en une unique stratégie gagnante, nécessitant potentiellement une mémoire infinie. Nous al-lons fournir des conditions suffisantes pour obtenir une telle stratégie globale ; la re-cherche algorithmique de la stratégie en question est un problème non résolu. 4.2.1

Attracteurs

Dans les jeux à deux joueurs, il est courant de faire appel à la notion d’attracteurs

d’un ensembleQpour désigner les états depuis lesquels un joueur peut forcer le jeu à se déplacer dansQ.

Définition 1. Lesattracteurs en une-étaped’un ensemble d’étatsQpour les joueurs 0