4.3 Robustesse de la dynamique stochastique de meilleure r´ eponse aux processus
4.3.1 Caract´ erisation des ´ etats stochastiquement stables pour les processus
Dans cette section, nous montrons que les ´etats stochastiquement stables de l’algorithme
stochastique de meilleure r´eponse sont inclus dans l’ensemble des sommets r´ecurrents du
graphe de meilleure r´eponse associ´e au processus de r´evision. Ce r´esultat est vrai dans tout
jeu. Le cas des jeux de potentiels est abord´e dans les sections suivantes.
Le th´eor`eme 4.3 repose sur le fait que la chaˆıne de Markov associ´ee `a l’algorithme
est r´eversible ce qui nous permet de calculer explicitement la distribution stationnaire.
N´eanmoins, cela n’est plus le cas d`es lors que le processus de r´evision n’est pas asynchrone.
Nous utilisons alors une formule explicite de la distribution stationnaire qui repose sur les
arbres couvrants de l’ensemble des strat´egies S.
Formulation de la distribution stationnaire par les arbres couvrants
´
Etant donn´e un jeu (U,S, c) et un profil d’actionss ∈ S, uns-arbre sur l’ensemble des
sommets S est un graphe orient´e tel qu’il existe un unique chemin reliant tout sommet `a
la racines. Il s’agit donc d’un arbre couvrant de l’ensemble des sommetsS ayants comme
racine.
Pour un processus de r´evision µ donn´e, on dira qu’un s-arbre A est faisable pour le
processus de r´evision µ si pour toute arˆete (a, b) ∈ A, la transition de a `a b est faisable,
i.e. s’il existe V un sous-ensemble de joueurs tel que b
−V= a
−V(notation compacte de
∀u /∈ V, b
u=a
u) et µ(V)>0. Nous notons A(s) l’ensemble des s-arbres faisables pour le
processus de r´evision courant.
De mani`ere g´en´erale, nous dirons qu’un graphe sur S est faisable pour le processus de
r´evision
7µsi chaque arc du graphe est faisable sous µ.
Afin de simplifier les notations, on suppose que les processus de r´evisions sont tels qu’il
existe un plus petit ensemble de joueur qui r´ealise chaque transition faisable. N´eanmoins
les th´eor`emes de cette section restent vrais dans le cas g´en´eral. La fonction qui associe `a
chaque transition, c’est-`a-dire chaque arc du graphe, le plus petit ensemble de joueurs qui
r´ealise cette transition est appel´eefonction de r´evision du graphe.
D´efinition 4.5 (Fonction de r´evision d’un graphe)
Soit µ un processus de r´evision et G = (S,E) un graphe orient´e faisable pour le
processus de r´evision µ. La fonction de r´evision du graphe associ´ee `a µ est une fonction
R :E → P(U) sur l’ensemble des arcs du graphe telle que, pour tout (a, b)∈ E :
– µ(R(a, b))>0,
– si V ⊆ P(U) est tel que µ(V)>0 et b
−V=a
−V, alors R(a, b)⊆ V.
Dans le cas de l’apprentissage asynchrone, un arc (s, t) est faisable si sett diff`erent en
au plus une composante. Ainsi, la fonction de r´evision de tout graphe faisable est donn´ee
par R((a, s
−u),(b, s
−u)) ={u}.
7. Ou plus bri`evement faisable, quand il n’y a pas de confusion possible sur le processus de r´evision en
question.
AUX PROCESSUS DE R´EVISION DES STRAT´EGIES
Le th´eor`eme 4.9 qui suit caract´erise les ´etats stochastiquement stables. Il repose sur
la formule explicite de la distribution stationnaire d’une chaˆıne de Markov `a partir des
s-arbres donn´ee dans la proposition suivante (qui n’est pas sp´ecifique aux chaˆınes de Markov
obtenues par l’algorithme stochastique de meilleure r´eponse).
Proposition 4.6 (Lemme 3.1 du chapitre 6 dans [FW98])
Soit une chaˆıne de Markov ergodique d´efinie sur l’espace d’´etat S fini, et de
proba-bilit´es de transition p
a,bpour tout a et b dans S. Soit π la distribution stationnaire et
A(s) l’ensemble des s-arbres. Alors, pour tout s∈ S :
π(s)∝ X
A∈A(s)Y
(a,b)∈A
p
a,b. (4.9)
Nous proposons une d´emonstration de cette proposition qui est faite de mani`ere
com-pacte dans [FW98]. De plus, les techniques utilis´ees dans cette d´emonstration
(essentielle-ment les constructions d’arbres) seront r´eutilis´ees dans des preuves ult´erieures.
Notons Succ(s) et Pred(s) l’ensemble des sommets successeurs et pr´ed´ecesseurs de s,
i.e. t∈Succ(s) si p
s,t>0 et t∈Pred(s) si p
t,s>0. L’op´erateur ∪d´esigne l’ajout d’un arc
au graphe, et \ la suppression d’un arc. Le lemme suivant est un r´esultat sur les graphes
qui est au fondement de la proposition :
Lemme 4.7
Soit r∈Succ(s) fix´e. Alors l’ensemble des s-arbres vaut :
A(s) = [
t∈Pred(s)[
A∈A(t)|(s,r)∈AA\(s, r)∪(t, s)
,
et par cons´equent :
X
A∈A(s)Y
(a,b)∈Ap
a,b= X
t∈Pred(s)p
t,sX
A∈A(t)|(s,r)∈AY
(a,b)∈A|a6=sp
a,b. (4.10)
D´emonstration : On dira qu’un sommetsest en amont (resp. en aval) d’un sommettdans
un arbre s’il existe un chemin de s`at (resp. det `as).
SoitA=A
t\(s, r)∪(t, s), o`uA
test un t-arbre qui contient l’arc (s, r). Montrons que
c’est un s-arbre. Comme A a le mˆeme nombre d’arcs que tout arbre sur S, il suffit de
montrer qu’on peut relier tout sommet z `a s. Si z est en aval de s dans A
t, alors z est
reli´e `a t qui est lui mˆeme reli´e `a s par l’arc (t, s). Sinon, z est en aval de s et est donc
directement reli´e `a s.
A contrario, soit A
sun s-arbre. Montrons qu’il existe t ∈ Pred(s) tel que A
t=
A
s\(t, s)∪(s, r) est un t-arbre. En effet, choisissonst∈Pred(s) tel quetest un pr´ed´ecesseur
de sdans l’arbreA
settest en aval der. Ce sommet existe etA
test bien un t-arbre (voir
la figure4.6) : en effet, si un sommet est en amont detdans l’arbreA
salors il est connect´e
`
Sous-arbre 1 Sous-arbre 2
s
t u
r
Figure 4.6 – Exemple de construction d’un t-arbre qui contient l’arˆete (s, r) `a partir d’un
s-arbre, o`u t est le sommet racine du sous-graphe qui contient r. Il suffit
d’enlever l’arˆete (t, s) et d’ajouter l’arˆete (s, r).
D´emonstration (Proposition 4.6) : Il s’agit maintenant de montrer que la distribution
π donn´ee par (4.9) v´erifie l’´equation de balance locale X
t∈Pred(s)π(t)p
t,s=π(s) pour tout
s∈ S. En effet (pour all´eger les formules, nous omettons le coefficient de proportionnalit´e
dans l’expression deπ) :
X
t∈Pred(s)π(t)p
t,s= X
t∈Pred(s)p
t,sX
A∈A(t)Y
(a,b)∈Ap
a,b= X
t∈Pred(s)p
t,sX
r∈Succ(s)p
s,rX
A∈A(t)|(s,r)∈AY
(a,b)∈A|a6=sp
a,b,
o`u la derni`ere ´egalit´e vient de la partition de l’ensemble des t-arbres selon le successeur
(unique) de s. En fin de compte :
X
t∈Pred(s)π(t)p
t,s= X
r∈Succ(s)p
s,rX
t∈Pred(s)p
t,sX
A∈A(t)|(s,r)∈AY
(a,b)∈A|a6=sp
a,b= X
r∈Succ(s)p
s,rX
A∈A(s)Y
(a,b)∈Ap
a,b= X
A∈A(s)Y
(a,b)∈Ap
a,b=π(s),
AUX PROCESSUS DE R´EVISION DES STRAT´EGIES
o`u la deuxi`eme ´egalit´e vient du lemme pr´ec´edent, et la troisi`eme ´egalit´e vient du fait que
X
r∈Succ(s)
p
s,r= 1.
Caract´erisation des ´etats stochastiquement stables
La proposition 4.6 nous donne une formule explicite de la distribution stationnaire
pour l’algorithme4, mˆeme dans le cas o`u le processus n’est pas r´eversible. Nous expliquons
maintenant comment cette proposition est utilis´e pour la d´etermination des ´etats
stochas-tiquement stables, en supposant, afin de simplifier les calculs, que le processus de r´evision
est asynchrone. Dans ce cas, les arcs de l’arbre sont form´es par une paire de sommets qui
diff`erent en exactement une composante. Par la proposition 4.6 on a :
π
η(s) ∝ X
A∈A(s)Y
(r,(a,r−u))∈Ap
η(r,(a,r −u))∝ X
A∈A(s)Y
(r,(a,r−u))∈Aµ({u}) exp η
−1c
u(a, r
−u)
P
b∈Suexp η
−1c
u(b, r
−u)
∝ X
A∈A(s)K(A)f
η(A) exp −η
−1C(A).
o`u :
– K(A) = Y
(r,(a,r−u))∈Aµ({u})>0 ne d´epend pas de η,
– C(A) = X
(r,(a,r−u))∈A
d
u(b, r
−u), et d
u(a, r
−u) = max
α∈Su
c
u(α, r
−u)− c
u(a, r
−u) ≥ 0 ne
d´epend pas non plus de η,
– f
η(A) = Y
(r,(a,r−u))∈A
f
η(r
−u), etf
η(r
−u) = P 1
b∈Su
exp −η
−1d
u(b, r
−u) >0, tend vers
une constante positive quand η tend vers z´ero.
Finalement, quand η → 0, seuls les s-arbres qui minimisent C(A) interviennent `a la
limite. SoitA
∗sun tel arbre pour le sommets. Il vient alors que l’´etatsest stochastiquement
stable siC(A
∗s)≤C(A
∗t) pour toutt ∈ S. Plus explicitement,sest stochastiquement stable
si il r´ealise le minimum de :
min
s∈Smin
A∈A(s)X
(r,(a,r−u))∈Amax
α∈Suc
u(α, r
−u)−c
u(a, r
−u).
Dans le cas o`u le jeu poss`ede une fonction de potentiel P, max
α∈Su
c
u(α, r
−u)−c
u(a, r
−u) =
max
α∈Su
P(α, r
−u)−P(a, r
−u). Alors un sommet est stochastiquement stable s’il minimise :
min
s∈Smin
A∈A(s)X
(r,(a,r−u))∈Amax
α∈SuP(α, r
−u)−P(a, r
−u).
Cela implique que c’est un maximum global du potentiel. En effet, supposons que le sommet
t ne soit pas un maximum global, et soit A
tun t-arbre tel que C(A
t) = min
A∈A(t)
C(A). Soit
s un maximum global du potentiel. On construit le s-arbre A
s`a partir de A
ten inversant
le sens des arcs du chemin qui lie s `a t. Il s’agit bien d’un s-arbre et on peut v´erifier qu’il
satisfait C(A
s)< C(A
t). Par cons´equent t n’est pas stochastiquement stable. Donc, seuls
les sommets qui maximisent le potentiel sont stochastiquement stables. On retrouve ainsi
le r´esultat du th´eor`eme4.3sans utiliser la r´eversibilit´e de la chaˆıne de Markov sous-jacente.
Remarquons que la stabilit´e des ´etats fait intervenir la valeur max
α∈Su
c
u(α, r
−u)−c
u(a, r
−u)
de chaque arc faisable pour le processus de r´evision. Cette grandeur positive repr´esente le
“coˆut” pour le joueur u de ne pas jouer une meilleure r´eponse.
Dans le cas d’un processus de r´evision asynchrone, l’ensemble des r´evisions faisables
pour passer de l’´etat s `a l’´etat (a, s
−u) est unique : il s’agit de l’ensemble {u}. Pour des
processus de r´evision g´en´eraux, il n’y a pas unicit´e, et on utilise alors le plus petit ensemble
de r´evision donn´e par la fonction de r´evision (d´efinition 4.5). Cela nous permet de d´efinir
le coˆut d’un graphe :
D´efinition 4.8 (Coˆut d’un graphe)
SoitG= (S,E) un graphe faisable pour un processus de r´evisionµ. Le coˆut du graphe
est le nombre positif suivant :
Cout(G) = X
(a,b)∈EX
u∈R(a,b)max
α∈Suc
u(α, a
−u)−c
u(b
u, a
−u), (4.11)
o`u R:E → P(U) est la fonction de r´evision du graphe associ´ee `aµ.
En particulier, le coˆut d’une arˆete (a, b) faisable pour un processus de r´evision vaut
X
u∈R(a,b)
max
α∈Su
c
u(α, a
−u)−c
u(b
u, a
−u). Ce coˆut ne d´epend pas de l’´etat d’arriv´ee b, mais de
l’´etat (b
u, a
−u) qui est la valeur observ´ee par le joueur u avant sa d´ecision. On constate
alors qu’une arˆete a un coˆut nul si et seulement si elle correspond `a une meilleure r´eponse
unilat´erale des joueurs qui d´evient.
Le calcul que l’on a fait dans le cas d’un processus de r´evision asynchrone se g´en´eralise
directement, ce qui donne le th´eor`eme suivant :
Th´eor`eme 4.9 (Th´eor`eme 1 dans [AFN10])
´
Etant donn´e un processus de r´evision, l’ensemble des ´etats stochastiquement stables
pour l’algorithme stochastique de meilleure r´eponse4est l’ensemble des ´etats qui r´ealisent
le minimum de :
min
s∈S
min
A∈A(s)
Cout(A). (4.12)
Il est int´eressant de noter que la stabilit´e stochastique ne d´epend que du coˆut des arbres
couvrants. L’ensemble des arbres couvrants est lui-mˆeme d´efini par le processus de r´evision.
Cependant, cet ensemble d´epend uniquement du support du processus de r´evision,
c’est-AUX PROCESSUS DE R´EVISION DES STRAT´EGIES
`
a-dire des ensembles de joueurs qui ont une probabilit´e positive de r´eviser leur strat´egie.
Ce dernier r´esultat est du mˆeme ordre que celui du mod`ele d’apprentissage avec erreur
dans [KMR93, You93] : dans ce mod`ele, les joueurs ont une probabilit´e fixe de commettre
une erreur, c’est-`a-dire de ne pas jouer une meilleure r´eponse, ind´ependemment des gains
de chaque action. On montre alors qu’un ´etat est stable si un arbre dont il est la racine
minimise le nombre d’erreurs. Contrairement `a notre mod`ele, le nombre d’erreurs est une
quantit´e discr`ete.
Calcul des ´etats stochastiquement stables dans un jeu de potentiel : Consid´erons le jeu
de potentiel `a deux joueurs suivant :
Gains
(1,1) (0,0)
(0,0) (1,1)
Potentiel
1 0
0 1
Espace d’´etat
(a,a) (a,b)
(b,a) (b,b)
Supposons un processus d’apprentissage ind´ependant (les joueurs r´evisent leur strat´egies
seuls ou `a deux). Les fl`eches indiquent les transitions qui ont un coˆut positif (qui ne sont pas
des meilleures r´eponses). Celui-ci vaut 2 sur la diagonale (car c’est la somme des coˆuts de
chaque joueur) et 1 ailleurs. On voit alors que min
A∈A(a,a)
Cout(A) = min
A∈A(b,b)
Cout(A) = 1 et
min
A∈A(a,b)
Cout(A) = min
A∈A(b,a)
Cout(A) = 2, donc (a, a) et (b, b) sont stochastiquement stables.
Consid´erons maintenant un processus de r´evision instantan´e, o`u les deux joueurs modifient
leur strat´egie `a chaque fois. Cette fois, la transition de (a, b) vers (a, a) a un coˆut qui n’est
pas nul : en effet, pour r´ealiser cette transition, il a fallu que l’un des joueurs ne joue pas
une meilleure r´eponse. Dans ce cas min
A∈A(a,a)
Cout(A) = min
A∈A(b,b)
Cout(A) = min
A∈A(a,b)
Cout(A) =
min
A∈A(b,a)
Cout(A) = 2, donc tous les ´etats sont stochastiquement stables, en particulier ceux
qui ne sont pas des ´equilibres de Nash.
Dans le document
Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux
(Page 91-96)