Analyse de l’algorithme dans les jeux de potentiel

3.5 L’apprentissage par la r` egle du jeu fictif

^η_s,₍_a,s −u)

Analyse de l’algorithme dans les jeux de potentiel

3.5 L’apprentissage par la r` egle du jeu fictif

4.1.2 Analyse de l’algorithme dans les jeux de potentiel

L’un des objectifs de l’analyse de l’algorithme est d’étudier les propriétés du processus

al´eatoire (S

(t)) quand ηtend vers 0, notamment comment celui-ci se compare au mod`ele

limite, c’est-à-dire le modèle classique de meilleure réponse. Le cadre des jeux de potentiel

permet d’obtenir une caract´erisation fine du comportement asymptotique du processus. Les

r´esultats que nous obtenons lorsque l’algorithme est asynchrone, et que nous pr´esentons

dans cette section, sont classiques. Nous étudierons les autres processus de révision à la

section 4.3.

2. Notons également qu’il existe également un modèle de rationalité limitée qui repose sur des

er-reurs [KMR93], dans lequel les joueurs choisissent une action qui n’est pas une meilleure r´eponse avec une

certaine probabilit´e ind´ependante des gains. Les erreurs correspondent aux choix d’actions qui ne sont pas

des meilleures r´eponses.

Dans cette section, on suppose que (U,S, c) est un jeu de potentiel. Rappelons que

cela implique qu’il existe une fonction de potentiel P : S → R telle que ∀u ∈ U,∀s

∈

S

,∀a, b∈ S

,

cu(a, s

)−cu(b, s

) = P(a, s

)−P(b, s

).

Dans ce cas, la probabilité de transition de l’état s à l’état (a, s

) quand le joueur u

met à jour sa stratégie dans l’algorithme 3se réécrit :

p

= 1

U

exp η

P(a, s

)

P

exp η

P(b, s

). (4.5)

En effet, la fonction de choix est donn´ee par une distribution de Gibbs qui ne d´epend que

des diff´erences relatives entre les valeurs des gains du joueur, et non des valeurs absolues.

Notons que la chaˆıne de Markov (S

(t)) sur l’espace d’´etatS induite par l’algorithme3

est une chaˆıne irréductible, car tout état peut être atteint avec une probabilité non nulle à

partir de n’importe quel autre état (même en au plusU transitions, oùU est le nombre de

joueurs), etapériodique car la probabilité, à chaque itération, de ne pas changer d’état est

positive. Par cons´equent, il existe une unique probabilit´e stationnaire π

= (π

(s))

et

la loi forte des grands nombres s’applique : presque sˆurement, π

(s) = lim

1

T

X

1

.

Comme la chaˆıne est irr´eductible, on a en plus que π

(s) > 0 pour tout ´etat s. Cela

signifie que, lorsque le paramètre η est fixé, le processus visite chaque état une infinité de

fois. Cela constitue une différence fondamentale par rapport à l’algorithme déterministe

de meilleure r´eponse qui converge presque sˆurement en un temps fini vers un ensemble

d’´equilibres de Nash dont il ne sort plus jamais par la suite.

´

Etats stochastiquement stables

Lorsqueηtend vers 0, l’algorithme3est proche de l’algorithme d´eterministe de meilleure

r´eponse. Mˆeme si la chaˆıne de Markov (S

(t)) demeure irr´eductible et passe par tous les

´

etats une infinité de fois, la proportion de temps passé dans certains états tend vers 0

alors qu’elle reste positive pour d’autres ´etats. On peut donc classer les ´etats selon que la

probabilit´e π

(s) quand η tend vers 0 est nulle ou positive.

D´efinition 4.2 (Etat stochastiquement stable)

Soit S

(t) un processus al´eatoire sur S, ergodique pour toute valeur du param`etre

η > 0, et de distribution stationnaire π

. On dit que l’´etat s ∈ S est stochastiquement

stable si :

lim inf

cela implique qu’il existe une fonction de potentiel P : S → _R telle que ∀u ∈ U,∀s

= ¹

)^. ^(4.5)

(s) = ¹

K ^exp(^η

o`uK =^X

d’une d´ecroissance pas plus rapide que ^∆(^P⁾

log(t)^{, o`}^u ^t ≥ 2 est l’it´eration de l’algorithme et