Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

L’algorithme de meilleure r´ eponse

Dans le document Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux (Page 63-70)

L’algorithme de meilleure r´eponse (l’algorithme1) consiste en une succession de d´eviations

unilatérales de meilleures réponses. Le processus de révision des stratégies est asynchrone.

Algorithme 1: Algorithme de meilleure r´eponse

initialisation;

Chaque joueur u∈ U choisit une action uniform´ement dans S

_u

;

r´ep´eter

Choisir le joueur u uniform´ement surU;

Le joueur uchoisit une action uniform´ement dans BR

_u

(s

−u

);

jusqu’`a l’infini;

Il faut noter que l’algorithme de meilleure r´eponse est un algorithme al´eatoire car :

– le choix initial du profil d’actions est al´eatoire (uniforme) sur S,

– le choix du joueur u qui révise sa stratégie est aléatoire (uniforme) sur S

_u

,

– le choix de l’action de meilleure r´eponse est al´eatoire (uniforme) sur BR

_u

(s

−u

)

¹⁶

.

La suite al´eatoire not´ee (S

_n

)

_n

des ´etats induite par l’algorithme est une chaˆıne de

Markov sur l’espace d’´etat S. Comme S est fini il existe des ´etats par lesquels la chaˆıne

de Markov passe une infinit´e de fois et qui sont donc des ´etats limites. Dans la suite,

nous caractérisons ces états limites, qui correspondent aux résultats de l’apprentissage par

l’algorithme de meilleure r´eponse.

16. On suppose l’uniformité dans toutes les décisions aléatoires. En fait, toute mesure de probabilité

dont le support contient tout l’ensemble des choix suffit pour que les r´esultats de convergence qui suivent

soient valides.

Caractérisation des états limites de l’algorithme de meilleure réponse

Notons N

_s ^def

=

∞

X

n=0

1

_S_n₌_s

le nombre de passages par l’´etat s. On note _P

_s

l’unique mesure

de probabilit´e

¹⁷

surS

N

telle que la suite (S

_n

)

_n

des coordonn´ees sous cette mesure de

prob-abilité vérifie les probabilités de transition induites par l’algorithme de meilleure réponse,

et _P

_s

[S

₀

= s] = 1 (dont l’existence et l’unicité sont assurées par le théorème 13.3.3

dans [LG06]).

D´efinition 3.22 (Convergence de l’algorithme de meilleure r´eponse)

On dit que l’algorithme de meilleure r´eponse converge vers l’ensembleE ⊆ S si :

P

s

[N

_s

= +∞] =

1 sis∈ E,

0 sinon.

Remarquons que, mˆeme si un ´etat est dans l’ensemble de convergence, il se peut que

la chaˆıne de Markov ne passe jamais par cet ´etat (cela n’est pas contradictoire avec la

d´efinition, par exemple si ce n’est pas l’´etat initial de la chaˆıne de Markov). On peut juste

affirmer que si un ´etat n’est pas dans l’ensemble de convergence, alors le nombre de passages

par cet ´etat est presque sˆurement fini.

Par exemple, nous verrons au corollaire3.26que, dans les jeux de potentiel, l’algorithme

de meilleure réponse converge presque sûrement vers un ensemble d’équilibres de Nash. Cela

n’est bien entendu pas vrai pour n’importe quel jeu, mˆeme si celui-ci admet un ´equilibre

de Nash, comme l’illustre l’exemple suivant :

Exemple : Soit le jeu `a deux joueurs donn´e par la matrice de gains suivant :

Gains

(3,1) (0,0) (0,0)

(0,0) (1,3) (2,1)

(0,0) (4,1) (1,2)

´

Etats

(a, a) (a, b) (b, c)

(b, a) (b, b) (b, c)

(c, a) (c, b) (c, c)

Partant de l’état (c, c) en bas à droite, la trajectoire de l’algorithme de meilleure réponse ne

sort jamais de l’ensemble des ´etats (b, b), (b, c), (c, b) et (c, c). Or aucun de ces ´etats n’est un

´

equilibre de Nash. Ici, les seuls ´etats qui ne sont pas dans l’ensemble de convergence sont ceux

qui procurent le gain (0,0).

Afin de caract´eriser l’ensemble limite de l’algorithme de meilleure r´eponse, il est naturel

d’introduire le graphe de meilleure r´eponse.

17. Par la suite, l’usage de cette mesure de probabilit´e sera implicite, notamment dans le calcul

d’esp´erances, ainsi que dans l’expression “presque sˆurement”.

D´efinition 3.23 (Graphe de meilleure r´eponse)

Soit (U,S, c) un jeu. On appellegraphe de meilleure r´eponse du jeu le graphe orient´e

dont l’ensemble des sommets estS et il existe un arc du sommetsvers le sommet (a, s

−u

)

si a∈BR

u

(s

−u

).

Ce graphe n’est en g´en´eral pas fortement connexe. Unchemin du graphe est une suite

de sommets reli´es par un arc du graphe. Si s et t sont deux sommets du graphe, on note

s→t le fait qu’il existe un chemin de s vers t, et s↔t si s→t et t→s. Il est imm´ediat

de v´erifier que la relation “↔” est une relation d’´equivalence sur les sommets du graphe.

Celle-ci partage l’ensemble des sommets en classes d’´equivalence. Une classe d’´equivalence

est donc un sous-graphe fortement connexe.

Une classe d’équivalence est diterécurrente s’il n’y a aucun arc dirigé vers l’extérieur de

la classe, et un sommet est récurrent s’il appartient à une classe récurrente. Cela implique

que, si un sommet n’est pas r´ecurrent, alors il existe un chemin qui le relie `a un sommet

r´ecurrent.

Exemple : Consid´erons le graphe suivant :

A B

C

D ^E

Les classes d’´equivalence du graphe sont {A, B}, {C} et {D, E}. Seule la classe {D, E} est

r´ecurrente.

Dans la suite, nous ne ferons pas la distinction entre un sommet du graphe de meilleure

r´eponse et le profil d’action (pour le jeu), ou l’´etat (pour la chaˆıne de Markov)

correspon-dant.

Le résultat suivant est intuitif et la preuve élémentaire.

Th´eor`eme 3.24

L’algorithme de meilleure r´eponse converge vers l’ensemble des sommets r´ecurrents

du graphe de meilleure r´eponse.

De plus, le temps d’atteinte d’un sommet r´ecurrent est presque sˆurement fini.

Le th´eor`eme implique :

Corollaire 3.25

Soit (U,S, c) un jeu. Si les sommets r´ecurrents du graphe de meilleure r´eponse sont

des équilibres de Nash, alors l’algorithme de meilleure réponse converge presque sûrement

vers un ensemble d’´equilibres de Nash en un temps presque sˆurement fini.

Dans les jeux de potentiel, la fonction de potentiel est strictement croissante lorsqu’un

joueur choisit une action qui am´eliore strictement son gain. Il est clair que, si un ´etat n’est

pas un équilibre de Nash, alors il ne peut pas être un sommet récurrent du graphe de

meilleure r´eponse, si bien que :

Corollaire 3.26

Si (U,S, c) est un jeu de potentiel, alors l’algorithme de meilleure r´eponse converge

presque sˆurement vers un ensemble d’´equilibres de Nash.

Relaxation de la fonction de potentiel, et analyse de la convergence pour l’algorithme

de meilleure r´eponse

Le théorème 3.24 caractérise les profils d’actions qui sont sélectionnés par l’algorithme

de meilleure réponse à partir des sommets récurrents du graphe de meilleure réponse. Dans

le cas des jeux de potentiel, cela implique que l’algorithme converge presque sˆurement vers

un ensemble d’´equilibres de Nash. N´eanmoins, les jeux de potentiel ne sont pas les seuls

jeux tels que les sommets récurrents du graphe de meilleure réponse sont des équilibres de

Nash.

En relaxant la contrainte d’égalité qui caractérise la fonction de potentiel de différentes

manières, on obtient de nouvelles classes de jeux qui partagent certaines propriétés des

jeux de potentiel. Nous discutons ici de leurs propri´et´es de convergence pour l’algorithme

de meilleure r´eponse.

Plusieurs extensions des jeux de potentiel

¹⁸

ont ´et´e introduites dans [MS96b], parmi

lesquelles :

D´efinition 3.27 (Extensions de la notion de potentiel)

Le jeu (U,S, c) est un jeu de potentiel

– pond´er´e si ∃(ω

_u

)

_u_∈U

positifs et ∃P :S → _Rtels que :

∀u∈ U,∀s

−u

∈ S

−u

,∀a, b∈ S

_u

, c

_u

(a, s

−u

)−c

_u

(b, s

−u

) = ω

_u

(P(a, s

−u

)−P(b, s

−u

)).

– ordinal si ∃P :S →_R telle que :

∀u∈ U,∀s

−u

∈ S

−u

,∀a, b∈ S

_u

, c

_u

(a, s

−u

)−c

_u

(b, s

−u

)<0⇔P(a, s

−u

)−P(b, s

−u

)<0.

– généralisé si ∃P :S →_R telle que :

∀u∈ U,∀s

₋_u

∈ S

₋_u

,∀a, b∈ S

_u

, c

_u

(a, s

₋_u

)−c

_u

(b, s

₋_u

)<0⇒P(a, s

₋_u

)−P(b, s

₋_u

)<0.

On constate immédiatement à partir des définitions que les jeux de potentiel pondérés

sont des jeux de potentiel ordinaux, qui sont eux-mêmes des jeux de potentiel généralisés.

On dira que l’action d’un joueur est une meilleure r´eponsestricte si c’est une meilleure

r´eponse qui am´eliore strictement son gain actuel. Il est clair que, si l’algorithme de meilleure

réponse est restreint aux strictes meilleures réponses, alors les jeux de potentiel généralisés

18. Pour distinguer la fonction de potentiel classique (la seule qui correspond au sens physique du terme

potentiel) des autres formes de potentiel, on la d´esigne par “potentiel exact”.

convergent vers un ´equilibre de Nash en un nombre fini d’it´erations (en supposant que

l’algorithme s’arrête à partir du moment où aucun joueur ne peux améliorer son gain

uni-latéralement). Cela tient au fait que les jeux de potentiel généralisés possèdent la propriété

des chemins d’amélioration finis (définition 3.10). On a même :

Proposition 3.28 (lemme 2.5 dans [MS96b])

Un jeu possède la propriété des chemins d’amélioration finis (définition 3.10) si et

seulement si c’est un jeu de potentiel généralisé.

La propriété des chemins d’amélioration finis caractérise les jeux de potentiel généralisés.

Cependant, cette propriété n’est pas suffisante pour que l’algorithme de meilleure réponse

converge vers un ´equilibre de Nash, comme le prouve l’exemple suivant :

Exemple : Soit un jeu `a deux joueurs, chacun ayant deux actions a etb. La matrice des gains

est la suivante :

Gains

(1,0) (0,1)

(1,1) (1,0)

Potentiel

0 1

3 2

Chemins d’am´elioration

(a,a) (a,b)

(b,a) (b,b)

Chemins de meilleure r´eponse

(a,a) (a,b)

(b,a) (b,b)

On peut vérifier que la fonction de potentiel indiquée est bien un potentiel généralisé. De ce

fait, le jeu a la propriété des chemins d’amélioration finis, et le graphe construit à partir des

déviations unilatérales qui améliorent strictement le gain du joueur est sans cycle. Par contre,

le graphe de meilleure réponse (pas nécessairement stricte) possède un cycle : en effet, le gain

du joueur qui choisit les lignes pour le profil d’action (a, a) est ´egal `a celui du profil d’action

(b, a). De ce fait, l’algorithme de meilleure réponse passe indéfiniment, avec probabilité 1, par

des ´etats qui ne sont pas des ´equilibres de Nash.

Cet exemple repose sur le fait que l’´equilibre de Nash du jeu n’est pas un ´equilibre strict.

Pour rem´edier `a l’absence de convergence, on peut restreindre l’algorithme de meilleure

r´eponse aux changements d’action qui am´eliorent strictement le gain des joueurs.

Cepen-dant, cela ne résout pas le problème de convergence dès lors que, comme cela est souvent

le cas en pratique, le jeu est soumis `a une perturbation al´eatoire sur les fonctions de gain.

En effet, soumis `a des perturbations al´eatoires aussi faibles soient-elles, deux actions qui,

en moyenne, procurent le mˆeme gain, seront alternativement meilleures l’une par rapport

`

a l’autre.

Il s’avère donc que la propriété des chemins d’amélioration finis n’est pas équivalente

au fait de converger vers des ´equilibres de Nash dans l’algorithme de meilleure r´eponse.

Cela n’est pas surprenant car, d’une part, cette propriété ne porte que sur les améliorations

strictes, alors que l’algorithme de meilleure réponse admet des déviations qui n’améliorent

pas strictement le gain. Et d’autre part, l’algorithme ne porte que sur les meilleures

réponses, tandis que la propriété des chemins d’amélioration finis est valable pour n’importe

quelle amélioration qui n’est pas forcément une meilleure réponse.

D´efinition 3.29 (Jeu de potentiel de meilleure r´eponse [Voo00])

(U,S, c) est un jeu de potentiel de meilleure r´eponse si ∃P :S →_Rtelle que :

∀u∈ U,∀s

−u

∈ S

−u

,BR

_u

(s

−u

) = argmax

a∈Su

P(a, s

−u

).

Une caract´erisation de ces jeux repose sur les cycles de meilleures r´eponses qui sont

d´efinis comme une suite d’´etats (s

⁰

, . . . , s

^m

) telle que :

– s

⁰

=s

^m

.

– chaque transition (s

ⁱ

, s

ⁱ⁺¹

) est le résultat de la déviation unilatérale de l’un des

joueurs, et cette d´eviation est une meilleure r´eponse,

– il existe une transition qui est une meilleure r´eponse stricte (qui am´eliore strictement

le gain du joueur qui d´evie),

Alors :

Théorème 3.30 (théorème 3.2 dans [Voo00])

Un jeu fini est un jeu de potentiel de meilleure r´eponse si et seulement s’il ne poss`ede

pas de cycle de meilleures r´eponses.

Il s’ensuit :

Corollaire 3.31

Dans tout jeu de potentiel de meilleure r´eponse, l’algorithme de meilleure r´eponse

converge vers un ensemble d’´equilibres de Nash.

Démonstration : Il suffit de vérifier que les états récurrents du graphe de meilleures réponses

d’un jeu de potentiel des meilleures r´eponses sont des ´equilibres de Nash.

Supposons qu’il existe un état récurrentsqui ne soit pas un équilibre de Nash. Alors

il existe u ∈ U et a ∈ BR

_u

(s

−u

) tels que c

_u

(a, s

−u

) > c

_u

(s). Comme s est r´ecurrent,

il existe un cycle de meilleures r´eponses (s,(a, s

−u

), . . . , s) qui comporte une meilleure

réponse stricte. Par le théorème 3.30, cela contredit le fait que c’est un jeu de potentiel

de meilleure r´eponse.

L’existence d’un potentiel de meilleure r´eponse fournit une condition suffisante pour que

l’algorithme de meilleure r´eponse converge vers un ensemble d’´equilibres de Nash. Cette

condition n’est pas n´ecessaire car il existe des jeux qui ne sont pas des jeux de potentiel de

meilleure réponse et qui vérifie la propriété de convergence, comme dans l’exemple suivant.

Exemple : Consid´erons le jeu `a deux joueurs suivant :

Gains

(3,3) (2,0) (0,0)

(0,0) (1,2) (2,1)

(0,0) (2,1) (1,2)

Ce jeu possède un cycle de meilleures réponses constitué des quatre états du carré en bas à

droite, ce n’est donc pas un jeu de potentiel de meilleure r´eponse. On peut cependant sortir

du cycle en passant par l’état (2,0). Le seul état récurrent est donc l’équilibre de Nash (3,3).

La classe des jeux de potentiel de meilleure r´eponse ne contient pas tous les jeux de

potentiel généralisés, comme le jeu de l’exemple précédent. Par contre, elle contient la

classe des jeux de potentiel ordinaux, ce qui se d´eduit directement des d´efinitions. Enfin,

il existe des jeux de potentiel de meilleure r´eponse qui ne sont pas des jeux de potentiel

généralisés. Cela n’est pas surprenant du fait que, même si les jeux de potentiel de meilleure

r´eponse ne contiennent pas de cycles de meilleures r´eponses, ils peuvent avoir des chemins

d’am´elioration infinis, comme dans le jeu suivant :

Exemple 4.3 de [Voo00] : Soit le jeu `a deux joueurs suivant :

Gains

(2,2) (1,0) (0,1)

(0,0) (0,1) (1,0)

Potentiel

4 3 0

0 2 1

Chemin d’am´elioration

(a,a) (a,b) (a,c)

(b,a) (b,b) (b,c)

On peut vérifier que le potentiel indiqué est effectivement un potentiel de meilleure réponse

pour le jeu. Celui-ci poss`ede un cycle dans le graphe des chemins d’am´elioration, ce n’est donc

pas un jeu de potentiel généralisé.

Les relations entre les différentes classes de jeux de potentiel sont résumées à la

fig-ure 3.4.

Pour r´esumer, la plus grande classe de jeux de potentiel pour laquelle l’algorithme de

meilleure réponse converge presque sûrement vers un ensemble d’équilibres de Nash est

la classe des jeux de potentiel de meilleure r´eponse. Cependant, il n’existe pas de

car-actérisation complète, par l’intermédiaire d’une fonction de potentiel, des jeux qui vérifient

cette propri´et´e.

Robustesse de l’algorithme de meilleure r´eponse

D’apr`es le corollaire 3.26, l’algorithme de meilleure r´eponse converge vers un ensemble

d’´equilibres de Nash dans les jeux de potentiel. Dans l’exemple suivant, nous montrons que

cela n’est plus vrai d`es lors que le processus de r´evision n’est pas asynchrone :

Exemple : Consid´erons le jeu de potentiel `a deux joueurs suivant :

Gains

(1,1) (0,0)

(0,0) (1,1)

Si les joueurs changent leur stratégie simultanément (processus de révision instantané), et que

le gain initial est (0,0), alors les joueurs ne choisissent jamais l’un des ´equilibres de Nash.

BR

G

O

P

E

L´egende :

E : Exact

P : Pond´er´e

O : Ordinal

G : Généralisé

BR : Meilleure R´eponse

Figure 3.4 – Relations entre les diff´erentes classes de potentiel.

De plus, s’il y a des perturbations al´eatoires ajout´ees aux gains de la matrice, les

corre-spondances de meilleure réponse sont modifiées à chaque fois, et l’algorithme de meilleure

r´eponse visite une infinit´e de fois tous les profils d’actions du jeu, quel que soit le processus

de r´evision.

Dans le document Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux (Page 63-70)

Télécharger maintenant "Auto-optimisation des ..."

Outline

Documents relatifs