4.3 Robustesse de la dynamique stochastique de meilleure r´ eponse aux processus
4.3.3 Contre-exemples sur la s´ election des ´ equilibres optimaux dans les
a µ. Cela est en particulier v´erifi´e si R
asyncest un ensemble d’´equilibres de Nash stricts.
Corollaire 4.12
Soit un processus de r´evision µ tel que pour tout u ∈ U, µ({u}) >0. Si les sommets
r´ecurrents du graphe de meilleure r´eponse associ´e au processus de r´evision asynchrone
sont des ´equilibres de Nash stricts, alors les ´etats stochastiquement stables de l’algorithme
stochastique de meilleure r´eponse associ´e `a µsont des ´equilibres de Nash stricts.
Les hypoth`eses du corollaire sont v´erifi´ees pour un jeu de potentiel de meilleure r´eponse
qui n’a que des ´equilibres stricts.
4.3.3 Contre-exemples sur la s´election des ´equilibres optimaux dans
les jeux de potentiel
On sait maintenant que les ´etats stochastiquement stables sont n´ecessairement des
´
etats r´ecurrents du graphe de meilleure r´eponse. Dans le cas des jeux de potentiel, peut-on
affirmer, comme c’est le cas pour le th´eor`eme 4.3, que ces ´etats maximisent le potentiel ?
Nous allons montrer par des contre-exemples que cela n’est pas vrai pour les processus
de r´evision ind´ependants
8, mˆeme si on a un jeu de potentiel exact (premier exemple). Et
cela n’est pas vrai non plus pour des jeux de potentiel pond´er´es, mˆeme si le processus de
r´evision est asynchrone (deuxi`eme exemple).
Cela montre que l’algorithme stochastique de meilleure r´eponse n’est pas robuste au
processus de r´evision. Aucune garantie de performance dans les syst`emes distribu´es ne peut
ˆ
etre obtenue d`es lors que l’on ne maˆıtrise pas le processus de r´evision.
Processus de r´evision g´en´eral dans les jeux de potentiel : Consid´erons le potentiel d’un
jeu `a 3 joueurs (le troisi`eme joueur choisissant la matrice) suivant
9(extrait de [AFN10]) :
Potentiel Matrice 1
10 6 0
6 0 0
0 0 9
Potentiel Matrice 2
0 0 0
0 1 1
0 1 1
Si l’on consid`ere un processus de r´evision asynchrone, seul l’´etat dont le potentiel vaut 10
est stochastiquement stable. Si l’on consid`ere un processus ind´ependant, on peut montrer
que le coˆut minimal d’un arbre de racine l’´etat de potentiel 10 est 9 alors que celui de l’´etat
de potentiel 9 vaut 8. Par cons´equent, seul le deuxi`eme ´etat est stochastiquement stable. Le
chemin pour aller de l’´etat 10 `a l’´etat 9 qui donne le coˆut de l’arbre ´egal `a 8 est, par exemple,
la premi`ere diagonale de la matrice 1
10.
Jeu de potentiel pond´er´e avec processus de r´evision asynchrone : Consid´erons le jeu de
potentiel pond´er´e `a deux joueurs suivant
11:
Gains
(2,2) (0,0)
(0,0) (10,1)
Potentiel
2 −6
0 4
Espace d’´etat
(a,a) (a,b)
(b,a) (b,b)
8. C’est-`a-dire o`u chaque joueur choisit de r´eviser sa strat´egie `a chaque it´eration avec une probabilit´e
ind´ependante des autres. Il s’agit du processus de r´evision le plus naturel pour mod´eliser un syst`eme
distribu´e sans contrˆoleur centralis´e.
9. Un jeu qui poss`ede ce potentiel est, par exemple, le jeu o`u les gains des joueurs sont identiques, et
donn´es par la fonction de potentiel.
10. Sur ce petit exemple, il est facile de trouver pour chaque sommet s, le s-arbre de coˆut minimal.
D`es que la taille du jeu augmente, le nombre d’arbres couvrants explose. On peut alors utiliser le crit`ere
propos´e `a la proposition 3 de [AFN10]. Intuitivement, ce r´esultat dit qu’un sommet est asymptotiquement
stable si le coˆut pour sortir de son bassin d’attraction est plus faible que le coˆut d’y entrer. Ce crit`ere a
l’avantage d’ˆetre local et a donc une complexit´e inf´erieure `a celui de la recherche exhaustive de tous les
arbres couvrants.
11. On peut v´erifier que ce n’est pas un jeu de potentiel exact car la somme des diff´erences de gain sur
les chemins (b, a)→(b, b) et (b, a)→(a, a)→(a, b)→(b, b) devraient alors ˆetre ´egales.
AUX PROCESSUS DE R´EVISION DES STRAT´EGIES
Ce jeu comporte les deux ´equilibres de Nash (a, a) et (b, b), qui ont pour potentiel
respec-tivement la valeur 2 et 4. Le calcul de la distribution stationnaire en fonction de η pour le
processus de r´evision asynchrone montre que seul l’´equilibre (a, a) est stochastiquement
sta-ble alors qu’il ne maximise pas le potentiel. La distribution est trac´ee `a la figure 4.7. Il est
int´eressant de constater la non monotonie de la probabilit´e de choisir le maximum global du
potentiel.
Distribution stationnaire (en %)
(a,a)
(b,b)
(b,a)
(a,b)
0 0.1 1 10 100 1000 100 90 70 80 50 60 40 10 30 20η (´echelle logarithmique)
Figure 4.7 – Distribution stationnaire de l’algorithme4sous le processus de r´evision
asyn-chrone dans le jeu de potentiel pond´er´e en fonction du param`etre η.
5
EXTENSION MIXTE DU MOD`ELE DE MEILLEURE
R´EPONSE
R´esum´e du chapitre
Ce chapitre constitue la contribution principale de la th`ese.
Dans les jeux de potentiel finis, le processus d’apprentissage par meilleures r´eponses
converge vers un ensemble d’´equilibres de Nash. N´eanmoins, ce r´esultat est remis en cause
d`es lors que les gains du jeu sont soumis `a des incertitudes al´eatoires, ou que le processus de
r´evision des strat´egies n’est pas asynchrone. Dans ce chapitre, nous proposons une extension
de l’algorithme de meilleure r´eponse aux strat´egies mixtes. Intuitivement, les dynamiques
qui ´evoluent de fa¸con continue sont robustes aux incertitudes et au processus de r´evision,
tous les ph´enom`enes al´eatoires tendant `a se compenser apr`es un temps suffisamment long.
Une dynamique de meilleure r´eponse dans l’extension mixte est une ´equation diff´
eren-tielle telle qu’en tout point, chaque joueur suit une direction de plus grande pente de sa
fonction de gain. Il s’agit bien de l’analogie directe du cas discret, `a la diff´erence pr`es que
la direction de plus grande pente d´epend, dans le cas continu, de la m´etrique employ´ee.
Dans la premi`ere section du chapitre, nous donnons des conditions suffisantes sur ces
m´etriques pour que les solutions de l’´equation diff´erentielle existent. Nous analysons ensuite
les principales propri´et´es de ces dynamiques, en particulier dans les jeux de potentiel.
Le probl`eme de l’impl´ementation des dynamiques de meilleure r´eponse est abord´e dans
la deuxi`eme section. Notre solution repose sur les approximations stochastiques. Nous
´
etudions ensuite les propri´et´es de convergence de cette impl´ementation.
Enfin, dans la derni`ere section, nous proposons un algorithme distribu´e, qui repose
sur l’impl´ementation des dynamiques de meilleure r´eponse, pour r´esoudre le probl`eme de
l’association optimale de mobiles `a des points d’acc`es sans fil. Par des simulations, nous
comparons plusieurs heuristiques pour le choix des pas de l’algorithme, et nous montrons
le gain de performance que l’on obtient par rapport `a des protocoles actuellement en usage.
5.1 Dynamique de meilleure r´eponse dans l’extension mixte
des jeux finis
Dans ce chapitre, nous nous pla¸cons dans l’extension mixte d’un jeu fini. La dynamique
de meilleure r´eponse est un syst`eme dynamique continu qui mod´elise le comportement de
joueurs qui suivent `a chaque instant la direction de plus grande pente de leur fonction
de gain. Pour assurer l’existence de solutions `a ce syst`eme dynamique (dont les
trajec-toires sont contraintes `a rester dans un espace compact) nous introduisons des m´etriques
particuli`eres. Cela fait, nous donnons les propri´et´es des dynamiques de meilleure r´eponse
correspondant `a ces m´etriques. Comme dans les chapitres pr´ec´edents, l’existence d’une
fonction de potentiel permet d’obtenir des r´esultats de convergence forts.
Un cas particulier de dynamique de meilleure r´eponse est la c´el`ebre dynamique de
r´eplication. Il s’av`ere que de nombreux r´esultats qui s’appliquent `a cette dynamique s’´
eten-dent `a toutes les dynamiques de meilleure r´eponse.
5.1.1 Construction d’une m´etrique qui garantit l’existence de
Dans le document
Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux
(Page 98-103)