3.5 L’apprentissage par la r` egle du jeu fictif
4.1.2 Analyse de l’algorithme dans les jeux de potentiel
L’un des objectifs de l’analyse de l’algorithme est d’´etudier les propri´et´es du processus
al´eatoire (S
η(t)) quand ηtend vers 0, notamment comment celui-ci se compare au mod`ele
limite, c’est-`a-dire le mod`ele classique de meilleure r´eponse. Le cadre des jeux de potentiel
permet d’obtenir une caract´erisation fine du comportement asymptotique du processus. Les
r´esultats que nous obtenons lorsque l’algorithme est asynchrone, et que nous pr´esentons
dans cette section, sont classiques. Nous ´etudierons les autres processus de r´evision `a la
section 4.3.
2. Notons ´egalement qu’il existe ´egalement un mod`ele de rationalit´e limit´ee qui repose sur des
er-reurs [KMR93], dans lequel les joueurs choisissent une action qui n’est pas une meilleure r´eponse avec une
certaine probabilit´e ind´ependante des gains. Les erreurs correspondent aux choix d’actions qui ne sont pas
des meilleures r´eponses.
Dans cette section, on suppose que (U,S, c) est un jeu de potentiel. Rappelons que
cela implique qu’il existe une fonction de potentiel P : S → R telle que ∀u ∈ U,∀s
−u∈
S
−u,∀a, b∈ S
u,
cu(a, s
−u)−cu(b, s
−u) = P(a, s
−u)−P(b, s
−u).
Dans ce cas, la probabilit´e de transition de l’´etat s `a l’´etat (a, s
−u) quand le joueur u
met `a jour sa strat´egie dans l’algorithme 3se r´e´ecrit :
p
ηs,(a,s −u)= 1
U
exp η
−1P(a, s
−u)
P
b∈Suexp η
−1P(b, s
−u). (4.5)
En effet, la fonction de choix est donn´ee par une distribution de Gibbs qui ne d´epend que
des diff´erences relatives entre les valeurs des gains du joueur, et non des valeurs absolues.
Notons que la chaˆıne de Markov (S
η(t)) sur l’espace d’´etatS induite par l’algorithme3
est une chaˆıne irr´eductible, car tout ´etat peut ˆetre atteint avec une probabilit´e non nulle `a
partir de n’importe quel autre ´etat (mˆeme en au plusU transitions, o`uU est le nombre de
joueurs), etap´eriodique car la probabilit´e, `a chaque it´eration, de ne pas changer d’´etat est
positive. Par cons´equent, il existe une unique probabilit´e stationnaire π
η= (π
η(s))
s∈Set
la loi forte des grands nombres s’applique : presque sˆurement, π
η(s) = lim
T→∞
1
T
TX
t=11
Sη(t)=s.
Comme la chaˆıne est irr´eductible, on a en plus que π
η(s) > 0 pour tout ´etat s. Cela
signifie que, lorsque le param`etre η est fix´e, le processus visite chaque ´etat une infinit´e de
fois. Cela constitue une diff´erence fondamentale par rapport `a l’algorithme d´eterministe
de meilleure r´eponse qui converge presque sˆurement en un temps fini vers un ensemble
d’´equilibres de Nash dont il ne sort plus jamais par la suite.
´
Etats stochastiquement stables
Lorsqueηtend vers 0, l’algorithme3est proche de l’algorithme d´eterministe de meilleure
r´eponse. Mˆeme si la chaˆıne de Markov (S
η(t)) demeure irr´eductible et passe par tous les
´
etats une infinit´e de fois, la proportion de temps pass´e dans certains ´etats tend vers 0
alors qu’elle reste positive pour d’autres ´etats. On peut donc classer les ´etats selon que la
probabilit´e π
η(s) quand η tend vers 0 est nulle ou positive.
D´efinition 4.2 (Etat stochastiquement stable)
Soit S
η(t) un processus al´eatoire sur S, ergodique pour toute valeur du param`etre
η > 0, et de distribution stationnaire π
η. On dit que l’´etat s ∈ S est stochastiquement
stable si :
lim inf
η→0
π
η(s)>0.
Dans le cas o`uηrepr´esente un niveau de bruit sur les gains du jeu, un ´etat est
stochas-tiquement stable s’il est visit´e une infinit´e de fois par l’algorithme stochastique de meilleure
r´eponse quand le bruit tend vers z´ero. Comme nous allons le voir, les ´etats stochastiquement
stables sont un sous ensemble des ´etats limites pour l’algorithme de meilleure r´eponse sans
bruit : le bruit permet donc de s´electionner plus finement les ´etats limites. Dans le cas des
jeux de potentiel, les ´etats stochastiquement stables sont ceux qui maximisentglobalement
le potentiel.
Notons S
∗l’ensemble des ´etats qui maximisent la fonction de potentiel, i.e. S
∗ def=
argmax
s∈S
P(s).
Th´eor`eme 4.3 (Reformulation de r´esultats dans [Blu97])
Soit (S
η(t)) le processus induit par l’algorithme 3. Si le jeu admet une fonction de
potentiel, s ∈ S est stochastiquement stable si et seulement si s∈ S
∗.
La d´emonstration repose sur le fait que la chaˆıne de Markov est r´eversible, c’est `a dire
que pour tout ´etat s ets
0on a π
η(s)p
ηs,s0=π
η(s
0)p
ηs0,s. Dans ce cas, on v´erifie ais´ement que
la distribution stationnaire vaut :
π
η(s) = 1
K exp(η
−1P(s)),
o`uK =X
s0∈Sexp(η
−1P(s
0)). Cela donne le r´esultat.
Lien avec l’algorithme d’´echantillonage de Gibbs
L’algorithme3peut ´egalement ˆetre vu comme un algorithme d’´echantillonage de Gibbs
(qui fait partie de la classe des algorithmes de Monte Carlo reposant sur les chaˆınes de
Markov, voir par exemple le chapitre 3 de [LPW09]), o`u l’on g´en`ere un ´etat qui a une
probabilit´e ´elev´ee d’ˆetre optimal `a partir des distributions marginales que sont les fonctions
de choix de chaque joueur.
Le th´eor`eme 4.3 assure donc que lorsque η est proche de z´ero, la chaˆıne de Markov
est dans un ´etat qui maximise le potentiel avec une tr`es grande probabilit´e. Une m´ethode
pour converger presque sˆurement vers l’optimum global consiste alors `a faire d´ecroˆıtre
le param`etre η par pallier, en attendant suffisamment longtemps `a chaque pallier que le
processus ait converg´e vers la distribution stationnaire (ce qui est de plus en plus long au
fur `a mesure que la temp´erature d´ecroˆıt).
Une autre possibilit´e consiste `a diminuer la temp´erature `a chaque it´eration, mais
suff-isamment lentement pour ne pas que le processus soit “bloqu´e” dans un optimum
lo-cal. Le param`etre η devient donc une fonction du temps η(t). En particulier, le choix
d’une d´ecroissance pas plus rapide que ∆(P)
log(t), o`u t ≥ 2 est l’it´eration de l’algorithme et
∆(P) est la diff´erence de potentiel maximale entre deux ´etats, est connu pour converger
presque sˆurement vers un optimum global du potentiel. Il s’agit d’une version particuli`ere
de la m´ethode de recuit simul´e par ´echantillonage de Gibbs. Le processus est alors une
chaˆıne de Markov non-homog`ene dont on peut montrer qu’elle est fortement ergodique
(voir [Bre99], page 314) et converge bien vers la distribution limite. Notons qu’il existe
d’autres fa¸cons d’´echantillonner, notamment par la m´ethode de Metropolis dont la
conver-gence a ´et´e prouv´ee dans [Haj88].
POUR L’OPTIMISATION DU ROUTAGE DANS LES R´ESEAUX AD HOC DE MOBILES
La m´ethode de recuit simul´e est tr`es int´eressante si l’objectif est de maximiser la
fonc-tion de potentiel, car elle garantit avec probabilit´e un de converger vers un optimum global.
La contrepartie est que la convergence est tr`es lente quand η est petit (voir page 118
dans [BEK05]). De plus, lorsqueη est trop petit, des probl`emes num´eriques apparaissent :
certaines probabilit´es sont arrondies `a z´ero ce qui cr´e´e plusieurs classes de r´ecurrence (i.e.
la chaˆıne de Markov n’est plus irr´eductible).
La proposition suivante dit que la probabilit´e d’ˆetre dans un ´etat optimal est d´ecroissante
avec le param`etre η. Il est donc int´eressant en pratique de prendreη le plus petit possible
mais de mani`ere `a ´eviter les probl`emes num´eriques que nous venons de mentionner.
Proposition 4.4
Soit π
η(S
∗) la probabilit´e stationnaire d’ˆetre dans un ´etat optimal. Alors π
η(S
∗) est
strictement d´ecroissante en fonction de η.
D´emonstration : SoitM = max
s∈S
P(s). Alors
π
η(S
∗) = X
s∈S∗exp(η
−1M)
P
s0∈Sexp(η
−1P(s)) =|S
∗|P 1
s∈Sexp(η
−1(P(s)−M)).
Comme ∀s∈ S, P(s)−M ≤0, alors exp(P(s)−M) ≤1. Ainsi, exp(η
−1(P(s)−M)) =
(exp(P(s)−M))
η−1est d´ecroissant enη
−1, et son inverse est d´ecroissant enη.
Exemple : Consid´erons le jeu de potentiel `a deux joueurs suivant :
Gains
(1,3) (0,1)
(0,2) (3,4)
Potentiel
2 0
1 3
Espace d’´etat
(a,a) (a,b)
(b,a) (b,b)
Ce jeu comporte les deux ´equilibres de Nash (a, a) et (b, b), qui ont pour potentiel
respec-tivement la valeur 2 et 3. La figure 4.1 montre la distribution stationnaire en fonction du
param`etre η. Quand il tend vers z´ero, la distribution se concentre sur l’´etat (b, b) qui
max-imise le potentiel.
Dans le document
Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux
(Page 77-80)