• Aucun résultat trouvé

Analyse de l’algorithme dans les jeux de potentiel

3.5 L’apprentissage par la r` egle du jeu fictif

4.1.2 Analyse de l’algorithme dans les jeux de potentiel

L’un des objectifs de l’analyse de l’algorithme est d’´etudier les propri´et´es du processus

al´eatoire (S

η

(t)) quand ηtend vers 0, notamment comment celui-ci se compare au mod`ele

limite, c’est-`a-dire le mod`ele classique de meilleure r´eponse. Le cadre des jeux de potentiel

permet d’obtenir une caract´erisation fine du comportement asymptotique du processus. Les

r´esultats que nous obtenons lorsque l’algorithme est asynchrone, et que nous pr´esentons

dans cette section, sont classiques. Nous ´etudierons les autres processus de r´evision `a la

section 4.3.

2. Notons ´egalement qu’il existe ´egalement un mod`ele de rationalit´e limit´ee qui repose sur des

er-reurs [KMR93], dans lequel les joueurs choisissent une action qui n’est pas une meilleure r´eponse avec une

certaine probabilit´e ind´ependante des gains. Les erreurs correspondent aux choix d’actions qui ne sont pas

des meilleures r´eponses.

Dans cette section, on suppose que (U,S, c) est un jeu de potentiel. Rappelons que

cela implique qu’il existe une fonction de potentiel P : S → R telle que ∀u ∈ U,∀s

−u

S

−u

,∀a, b∈ S

u

,

cu(a, s

−u

)−cu(b, s

−u

) = P(a, s

−u

)−P(b, s

−u

).

Dans ce cas, la probabilit´e de transition de l’´etat s `a l’´etat (a, s

−u

) quand le joueur u

met `a jour sa strat´egie dans l’algorithme 3se r´e´ecrit :

p

ηs,(a,s −u)

= 1

U

exp η

−1

P(a, s

−u

)

P

b∈Su

exp η

−1

P(b, s

−u

). (4.5)

En effet, la fonction de choix est donn´ee par une distribution de Gibbs qui ne d´epend que

des diff´erences relatives entre les valeurs des gains du joueur, et non des valeurs absolues.

Notons que la chaˆıne de Markov (S

η

(t)) sur l’espace d’´etatS induite par l’algorithme3

est une chaˆıne irr´eductible, car tout ´etat peut ˆetre atteint avec une probabilit´e non nulle `a

partir de n’importe quel autre ´etat (mˆeme en au plusU transitions, o`uU est le nombre de

joueurs), etap´eriodique car la probabilit´e, `a chaque it´eration, de ne pas changer d’´etat est

positive. Par cons´equent, il existe une unique probabilit´e stationnaire π

η

= (π

η

(s))

s∈S

et

la loi forte des grands nombres s’applique : presque sˆurement, π

η

(s) = lim

T→∞

1

T

T

X

t=1

1

Sη(t)=s

.

Comme la chaˆıne est irr´eductible, on a en plus que π

η

(s) > 0 pour tout ´etat s. Cela

signifie que, lorsque le param`etre η est fix´e, le processus visite chaque ´etat une infinit´e de

fois. Cela constitue une diff´erence fondamentale par rapport `a l’algorithme d´eterministe

de meilleure r´eponse qui converge presque sˆurement en un temps fini vers un ensemble

d’´equilibres de Nash dont il ne sort plus jamais par la suite.

´

Etats stochastiquement stables

Lorsqueηtend vers 0, l’algorithme3est proche de l’algorithme d´eterministe de meilleure

r´eponse. Mˆeme si la chaˆıne de Markov (S

η

(t)) demeure irr´eductible et passe par tous les

´

etats une infinit´e de fois, la proportion de temps pass´e dans certains ´etats tend vers 0

alors qu’elle reste positive pour d’autres ´etats. On peut donc classer les ´etats selon que la

probabilit´e π

η

(s) quand η tend vers 0 est nulle ou positive.

D´efinition 4.2 (Etat stochastiquement stable)

Soit S

η

(t) un processus al´eatoire sur S, ergodique pour toute valeur du param`etre

η > 0, et de distribution stationnaire π

η

. On dit que l’´etat s ∈ S est stochastiquement

stable si :

lim inf

η→0

π

η

(s)>0.

Dans le cas o`uηrepr´esente un niveau de bruit sur les gains du jeu, un ´etat est

stochas-tiquement stable s’il est visit´e une infinit´e de fois par l’algorithme stochastique de meilleure

r´eponse quand le bruit tend vers z´ero. Comme nous allons le voir, les ´etats stochastiquement

stables sont un sous ensemble des ´etats limites pour l’algorithme de meilleure r´eponse sans

bruit : le bruit permet donc de s´electionner plus finement les ´etats limites. Dans le cas des

jeux de potentiel, les ´etats stochastiquement stables sont ceux qui maximisentglobalement

le potentiel.

Notons S

l’ensemble des ´etats qui maximisent la fonction de potentiel, i.e. S

def

=

argmax

s∈S

P(s).

Th´eor`eme 4.3 (Reformulation de r´esultats dans [Blu97])

Soit (S

η

(t)) le processus induit par l’algorithme 3. Si le jeu admet une fonction de

potentiel, s ∈ S est stochastiquement stable si et seulement si s∈ S

.

La d´emonstration repose sur le fait que la chaˆıne de Markov est r´eversible, c’est `a dire

que pour tout ´etat s ets

0

on a π

η

(s)p

ηs,s0

η

(s

0

)p

ηs0,s

. Dans ce cas, on v´erifie ais´ement que

la distribution stationnaire vaut :

π

η

(s) = 1

K exp(η

−1

P(s)),

o`uK =X

s0∈S

exp(η

−1

P(s

0

)). Cela donne le r´esultat.

Lien avec l’algorithme d’´echantillonage de Gibbs

L’algorithme3peut ´egalement ˆetre vu comme un algorithme d’´echantillonage de Gibbs

(qui fait partie de la classe des algorithmes de Monte Carlo reposant sur les chaˆınes de

Markov, voir par exemple le chapitre 3 de [LPW09]), o`u l’on g´en`ere un ´etat qui a une

probabilit´e ´elev´ee d’ˆetre optimal `a partir des distributions marginales que sont les fonctions

de choix de chaque joueur.

Le th´eor`eme 4.3 assure donc que lorsque η est proche de z´ero, la chaˆıne de Markov

est dans un ´etat qui maximise le potentiel avec une tr`es grande probabilit´e. Une m´ethode

pour converger presque sˆurement vers l’optimum global consiste alors `a faire d´ecroˆıtre

le param`etre η par pallier, en attendant suffisamment longtemps `a chaque pallier que le

processus ait converg´e vers la distribution stationnaire (ce qui est de plus en plus long au

fur `a mesure que la temp´erature d´ecroˆıt).

Une autre possibilit´e consiste `a diminuer la temp´erature `a chaque it´eration, mais

suff-isamment lentement pour ne pas que le processus soit “bloqu´e” dans un optimum

lo-cal. Le param`etre η devient donc une fonction du temps η(t). En particulier, le choix

d’une d´ecroissance pas plus rapide que ∆(P)

log(t), o`u t ≥ 2 est l’it´eration de l’algorithme et

∆(P) est la diff´erence de potentiel maximale entre deux ´etats, est connu pour converger

presque sˆurement vers un optimum global du potentiel. Il s’agit d’une version particuli`ere

de la m´ethode de recuit simul´e par ´echantillonage de Gibbs. Le processus est alors une

chaˆıne de Markov non-homog`ene dont on peut montrer qu’elle est fortement ergodique

(voir [Bre99], page 314) et converge bien vers la distribution limite. Notons qu’il existe

d’autres fa¸cons d’´echantillonner, notamment par la m´ethode de Metropolis dont la

conver-gence a ´et´e prouv´ee dans [Haj88].

POUR L’OPTIMISATION DU ROUTAGE DANS LES R´ESEAUX AD HOC DE MOBILES

La m´ethode de recuit simul´e est tr`es int´eressante si l’objectif est de maximiser la

fonc-tion de potentiel, car elle garantit avec probabilit´e un de converger vers un optimum global.

La contrepartie est que la convergence est tr`es lente quand η est petit (voir page 118

dans [BEK05]). De plus, lorsqueη est trop petit, des probl`emes num´eriques apparaissent :

certaines probabilit´es sont arrondies `a z´ero ce qui cr´e´e plusieurs classes de r´ecurrence (i.e.

la chaˆıne de Markov n’est plus irr´eductible).

La proposition suivante dit que la probabilit´e d’ˆetre dans un ´etat optimal est d´ecroissante

avec le param`etre η. Il est donc int´eressant en pratique de prendreη le plus petit possible

mais de mani`ere `a ´eviter les probl`emes num´eriques que nous venons de mentionner.

Proposition 4.4

Soit π

η

(S

) la probabilit´e stationnaire d’ˆetre dans un ´etat optimal. Alors π

η

(S

) est

strictement d´ecroissante en fonction de η.

D´emonstration : SoitM = max

s∈S

P(s). Alors

π

η

(S

) = X

s∈S

exp(η

−1

M)

P

s0∈S

exp(η

−1

P(s)) =|S

|P 1

s∈S

exp(η

−1

(P(s)−M)).

Comme ∀s∈ S, P(s)−M ≤0, alors exp(P(s)−M) ≤1. Ainsi, exp(η

−1

(P(s)−M)) =

(exp(P(s)−M))

η1

est d´ecroissant enη

−1

, et son inverse est d´ecroissant enη.

Exemple : Consid´erons le jeu de potentiel `a deux joueurs suivant :

Gains

(1,3) (0,1)

(0,2) (3,4)

Potentiel

2 0

1 3

Espace d’´etat

(a,a) (a,b)

(b,a) (b,b)

Ce jeu comporte les deux ´equilibres de Nash (a, a) et (b, b), qui ont pour potentiel

respec-tivement la valeur 2 et 3. La figure 4.1 montre la distribution stationnaire en fonction du

param`etre η. Quand il tend vers z´ero, la distribution se concentre sur l’´etat (b, b) qui

max-imise le potentiel.