1) Montrer que si V : R → R est strictement convexe et tend vers l’infini, alors la solution θ de l’´ equation diff´ erentielle θ

(1)

M´ethode de Monte Carlo par chaˆınes de Markov - II

TD5-MAPI3 2016-2017

1 Gradient stochastique

1) Montrer que si V : R → R est strictement convexe et tend vers l’infini, alors la solution θ de l’´ equation diff´ erentielle θ

⁰

= −∇V (θ) converge vers le minimum θ

^∗

de V .

2) Rappeler la m´ ethode du gradient, version discr´ etis´ ee du flot de gradient, qui permet de minimiser une fonction V par un algorithme d´ eterministe.

Supposons maintenant que nous n’avons pas acc` es directement au gradient mais ` a ∇V (θ) + ξ

n

, o` u ξ

n

sont des variables al´ eatoires de moyennes nulles et de valeurs absolues born´ ees |ξ

n

| ≤ K. On utilise alors l’algorithme de gradient stochastique suivant pour approcher le minimum θ

^∗

de V :

θ b

n+1

= θ b

n

− γ

n

(∇V (b θ

n

) + ξ

n+1

),

o` u θ b

0

est arbitraire et (γ

n

) est une suite d´ ecroissante positive non sommable et de carr´ e sommable.

3) Montrer que si ∇V ≤ C et V (θ) − V (θ

^∗

) ≥ c(θ − θ

^∗

)

²

(pour deux constantes c, C ≥ 0), alors

E [(b θ

_n+1

− θ

^∗

)

²

|b θ

_n

] ≤ (1 − 2γ

_n

c)(b θ

_n

− θ

^∗

)

²

+ γ

_n

(C + K)

²

. 4) Montrer que Q

n

k=0

(1 − 2γ

_k

c) converge vers 0.

5) Montrer par r´ ecurrence que, pour tout k

0

≤ n, on a

E [(b θ

_n

− θ

^∗

)

²

] ≤

n

Y

k=k0

(1 − 2γ

_k

c)

!

· E [(b θ

_k₀

− θ

^∗

)

²

] +

n

X

k=k0

γ

_k²

!

· (C + K)

²

.

6) En d´ eduire la convergence en moyenne quadratique de l’algorithme : E [(b θ

n

− θ

^∗

)

²

] converge vers 0 quand n tend vers l’infini.

2 Estimation r´ ecursive d’un quantile

Soit (X

n

) une suite de variables al´ eatoires i.i.d. de fonction de r´ epartition F r´ eguli` ere et de densit´ e F

⁰

> 0.

Pour α ∈]0, 1[, on note θ

^α

le quantile d’ordre α de la loi F : F(θ

^α

) = 1 − α. Afin d’estimer r´ ecursivement θ

^α

on utilise l’algorithme stochastique r´ ecursif :

θ b

_n+1

= θ b

_n

− γ

_n

(1I

_{X

n+1≤bθn}

− 1 + α),

o` u θ b

₀

est arbitraire et (γ

_n

) est une suite d´ ecroissante positive non sommable et de carr´ e sommable.

1) Calculer le champ moyen de l’algorithme E [(b θ

_n+1

− θ b

_n

)|b θ

_n

].

2) Montrer que l’algorithme est un algorithme de gradient stochastique pour une fonction strictement convexe de minimum θ

^α

.

3) On se place dans le cas o` u F est la loi normale standard. Etudier empiriquement la convergence et la loi de fluctuation de la suite (b θ

n

) dans le cas des trois quartiles.

4) Reprendre la question pr´ ec´ edente en rempla¸ cant la loi normale par une loi exponentielle puis par la loi de Cauchy.

1

(2)

3 Bandit ` a deux bras

Une machine ` a sous a deux leviers. La probabilit´ e de gagner avec le levier A (respectivement B ) est inconnue et vaut p

A

(resp. p

B

). Un joueur va chercher ` a optimiser son gain moyen, par un choix judicieux des leviers.

Voil` a sa premi` ere strat´ egie : ` a l’instant n + 1, il choisit le levier A si le taux de r´ eussite du levier A (calcul´ e sur les fois pr´ ec´ edentes o` u le joueur a choisi le levier A) est sup´ erieur ou ´ egal au taux de r´ eussite du levier B (calcul´ e sur les fois pr´ ec´ edentes o` u le joueur a choisi le levier B). Dans le cas contraire, il choisit le levier B.

1) Simuler cette strat´ egie.

2) On suppose que p

A

> p

B

. Expliquer pourquoi la situation suivante repr´ esente un pi` ege susceptible d’arriver avec une probabilit´ e non nulle : le joueur perd d’abord avec le levier A puis gagne avec le levier B.

Voil` a sa seconde strat´ egie : ` a l’instant n + 1, il choisit la machine A (resp. B) avec probabilit´ e θ

_n

(resp.

1 − θ

_n

) et

θ

_n+1

=







θ

_n

s’il a perdu θ

_n

+ γ

_n

(1 − θ

_n

) s’il a gagn´ e avec A

θ

n

− γ

n

θ

n

s’il a gagn´ e avec B.

θ

₀

est arbitraire et (γ

_n

) est une suite d´ ecroissante positive non sommable et de carr´ e sommable. Il est possible de montrer que θ

n

converge vers 1 (resp. 0) si A (resp. B) est la meilleure machine.

3) Calculer le champ moyen E [(θ

n+1

− θ

n

)|θ

n

].

4) Montrer que si p

A

> p

B

(resp. p

A

< p

B

) alors E [θ

n

] est croissant (resp. d´ ecroissant).

5) Illustrer cette strat´ egie par des simulations. En particulier, mettre en ´ evidence la convergence du taux de r´ eussite global vers max(p

A

, p

B

), et v´ erifier si il y a un th´ eor` eme limite central.

4 Mod` ele autor´ egressif ` a indices al´ eatoires

On consid` ere ici le mod` ele autor´ egressif ` a indices al´ eatoires suivant : X

n+1

= A

ε_n

X

n

+ B

ε_n

.

• La suite observ´ ee est X = (X

n

)

n≥0

(on choisit X

0

arbitrairement).

• Le bruit ε = (ε

_n

)

_n≥0

est une suite de variables al´ eatoires i.i.d. ` a valeurs dans {1, 2}.

1) Simuler ce mod` ele et repr´ esenter graphiquement les trajectoires obtenues. On pourra essayer plusieurs valeurs pour les matrices A

₁

, A

₂

et les vecteurs B

₁

, B

₂

. Par exemple, la trajectoire du Dragon de Heigh- ways, donn´ ee par

A

₁

=

1/2 −1/2 1/2 1/2

, A

₂

=

−1/2 −1/2 1/2 −1/2

, B

₁

=

0 0

, B

₂

=

1 0

.

2) Etudier empiriquement la loi des grands nombres et le th´ eor` eme de la limite centrale pour les suites (A