poly ap22 2

(1)

Universit´e Claude Bernard Lyon 1 Ann´ee universitaire 2011-2012

EADM Appronfondissements 2 Chaˆınes de Markov et applications

Simulations des lois usuelles

F. Bienven¨ ue-Duheille

(2)

Chapitre 1

Chaˆınes de Markov

1 D´ efinitions

1.1 Le mod` ele

On dispose :

– d’un espace d’états, c’est-à-dire d’un ensemble E fini ou dénombrable, – d’une loi de probabilité µ₀ sur E qui jouera le rôle de loi initiale,

– des probabilités de transition (ou de passage) de x vers y, c’est-à-dire d’une famille (p(x, y))_(x,y)∈E² de nombres réels positifs vérifiant

X

y∈E

p(x, y) = 1.

Remarque : Lorsque l’espace d’états E est fini (en particulier si E = {1, . . . , K} pour un certain entier K), les (p(x, y)) peuvent être écrits sous la forme d’une matrice, appelée matrice de transition, et dans ce cas, les « sommes en ligne » de cette matrice doivent toutes être égales à 1. On dit que cette matrice est stochastique. Chaque ligne de cette matrice représente les poids d’une mesure de probabilité sur l’espace d’états E.

Définition 1.1. Une chaˆıne de Markov (X_n)_n≥0 sur E, de loi initiale µ₀, de probabilités de transition (p(x, y))_x,y est une suite de variables aléatoires à valeurs dans E telle que

1. pour tout x ∈ E, P(X₀ = x) = µ₀(x),

2. pour tout n ≥ 1 et pour tout (n + 1)-uplet (x₀, x₁, . . . , x_n) ∈ Eⁿ⁺¹, on a

P(X₀ = x₀, X₁ = x₁, . . . , X_n= x_n) = µ₀(x₀)p(x₀, x₁)p(x₁, x₂) . . . p(x_n−1, x_n).

En particulier, on aura p(x, y) = P(X₁ = y|X₀ = x) = P(X_n+1= y|X_n= x).

On notera par la suite p⁽ⁿ⁾(x, y) = P(Xn = y|X0 = x) = P(Xn+k = y|Xk = x), c’est-à-dire la probabilité de passer de l’état x à l’état y en n étapes.

Remarque : La notation des probabilités conditionnelles dans le cadre des chaˆınes de Markov sera systématiquement du type P(A|B) et non P_B(A) car l’événement B sera souvent trop lourd à écrire pour être mis en indice.

Dans la suite de ce cours, E désignera un ensemble fini ou dénombrable et (p(x, y))_x,y∈E des probabilités de transition. On notera fréquemment Π la matrice de transition asso- ciée, ce qui suppose d’avoir ordonné les éléments de E.

(3)

Exemples :

– Le concept de chaˆıne de Markov a été inventé par le mathématicien russe Andrei Markov (1856- 1922) qui a étudié la succession des lettres dans le roman Eugène Onéguine de Pouchkine.

– Une suite de variables aléatoires indépendantes et identiquement distribuées constitue une chaˆıne de Markov (le vérifier !), mais ce n’est évidemment pas un cas générique.

– Le nombre de succès consécutifs dans un schéma de Bernoulli forme une chaˆıne de Markov.

– On peut modéliser le niveau de stock de produits (avec par exemple un réapprovisionnement dès que le stock est inférieur à un seuil), l’état d’une machine (fonctionnement/panne/réparation), la santé d’un individu (sain/malade/mort, avec éventuellement différents niveaux de gravité de la maladie).

– On peut également utiliser une chaˆıne de Markov pour modéliser le temps qu’il fait. Les états seront alors par exemple : beau, nuageux, pluvieux. Dans le modèle le plus simple, le temps d’un jour donné ne dépend que du temps de la veille. On peut également envisager une mo- délisation faisant intervenir le temps de deux jours successifs (ou plus). Les états seront alors les neuf couples (beau, beau), (beau, nuageux), (beau, pluvieux), (nuageux, beau), ... , la pre- mière coordonnée désignant le temps de l’avant-veille et la deuxième le temps de la veille. Un certain nombre de transitions est alors impossible (par exemple de (beau, beau) vers (pluvieux, pluvieux)). Pourquoi ? Lister les différentes transitions possibles.

La proposition suivante permet de caract´eriser les chaˆınes de Markov.

Proposition 1.2 (Propriété de Markov). Une suite de variables aléatoires (X_n)_n≥0 est une chaˆıne de Markov de probabilités de transition (p(x, y)) si et seulement si, pour tout n ≥ 0 et tout (n + 2)–uplet (x₀, x₁, . . . , x_n, x_n+1) de Eⁿ⁺² tel que P(X_n= x_n, . . . , X₁ = x₁, X₀ = x₀) > 0, on a

P(Xn+1 = xn+1|Xn= xn, . . . , X1 = x1, X0 = x0) = P(Xn+1 = xn+1|Xn= xn) = p(xn, xn+1). (1.1) Remarque : La proposition précédente peut tout à fait être utilisée comme définition d’une chaˆıne de Markov !

La proposition signifie concrètement que la loi des trajectoires dans le futur d’une chaˆıne de Markov conditionnée par le passé et le présent de la chaˆıne est la même que la loi du futur de cette chaˆıne, conditionnée uniquement par l’état présent. Le chemin parcouru pour arriver à un état donné ne modifie pas la loi du futur sachant l’état de la chaˆıne à l’instant n. Pour vérifier qu’une suite de variables aléatoires est une chaˆıne de Markov, il ne suffit pas de vérifier que les probabilités conditionnelles P(X_n+1 = y|X_n= x) ne dépendent pas du rang n !

Preuve de la proposition 1.2 : Supposons qu’une suite (X_n)_n≥0 de variables aléatoires vérifie l’éga- lité 1.1 ci-dessus, pour tout (n + 1)-uplet ; notons µ la loi de la variable aléatoire X₀ et montrons, par récurrence sur n, que (X_n)_n≥0 est une chaˆıne de Markov.

L’hypoth`ese de r´ecurrence H_n est :

(H_n) Pour tout (n + 1)-uplet (x₀, . . . , x_n) ∈ Eⁿ⁺¹,

P(X₀ = x₀, X₁ = x₁, . . . , X_n= x_n) = µ(x₀)p(x₀, x₁) . . . p(x_n−1, x_n) L’hypothèse H₁ est bien vérifiée puisque,

– pour tous (x₀, x₁) ∈ E² tels que µ(x₀) > 0 on a

P(X₀ = x₀, X₁ = x₁) = P(X₁ = x₁|X₀ = x₀)P(X₀ = x₀) = p(x₀, x₁)µ(x₀).

– si µ(x₀) = 0, on a pour tout x₁ ∈ E

0 ≤ P(X₀ = x₀, X₁ = x₁) ≤ P(X₀ = x₀) = 0 = µ(x₀)p(x₀, x₁)

(4)

Supposons maintenant que Hn est vérifiée et prouvons que Hn+1 l’est également. Fixons un (n + 2)-uplet (x₀, . . . , x_n+1) ∈ Eⁿ⁺² tel que P(₀= x₀, X₁ = x₁, . . . , X_n= x_n) > 0. On a

P(X₀ = x₀, X₁ = x₁, . . . , X_n = x_n, X_n+1 = x_n+1) =P(X_n+1 = x_n+1|X₀ = x₀, X₁ = x₁, . . . , X_n = x_n)

× P(X₀ = x₀, X₁ = x₁, . . . , X_n = x_n).

L’égalité 1.1 et l’hypothèse de récurrence au rang n permettent maintenant d’écrire

P(X₀ = x₀, X₁ = x₁, . . . , X_n = x_n, X_n+1 = x_n+1) = µ(x₀)p(x₀, x₁) . . . p(x_n−1, x_n)p(x_n, x_n+1).

Le cas P(₀= x₀, X₁ = x₁, . . . , X_n = x_n) = 0 se traite de la mˆeme fa¸con que le cas µ(x₀) = 0 dans l’initialisation de la r´ecurrence.

La preuve de la r´eciproque est laiss´ee en exercice.

Exercice :

1. On se donne une chaˆıne de Markov (X_n)_n≥0 de mesure initiale µ₀ et de probabilités de transition (p(x, y)). Écrire la loi conjointe de (X0, X1), puis la loi de X1, puis celle de X2 à l’aide de µ0 et des probabilités de transition.

2. On se place dans le cas où E = {1, . . . , K} pour un certain entier K. Si on note Π la matrice de transition V le vecteur dont la iî`êmecoordonnée est µ(i), écrire ces résultats de fa¸con matricielle.

3. Expliciter ´egalement E(f (X1)) pour toute fonction f : E → R positive ou born´ee.

Dans la suite, c’est les probabilités de transition qui seront importantes, beaucoup plus que la loi initiale. Le plus souvent, on parlera ainsi d’une chaˆıne de Markov de probabilités de transition données, sans préciser la loi initiale. Néanmoins, on utilisera les notations suivantes pour spécifier la loi initiale :

– Si e ∈ E est un état, P_e désignera la mesure de probabilité se rapportant à la chaˆıne vérifiant X₀ = e presque sûrement. On a ainsi P_e(X_n = x) = P(X_n = x|X₀ = e), et en particulier P_e(X₀ = x) = 1 si x = e et 0 sinon et P_e(X₁ = x) = p(e, x).

– Si µ est une mesure sur E, P_µ d´esignera la loi de la chaˆıne de mesure initiale µ. On aura donc P_µ(X₀ = x) = µ(x) et P_µ(X₁ = x) =P

y∈Eµ(y)p(y, x).

De fa¸con similaire, lorsque l’on calcule des esp´erances, on ´ecrit E_e ou E_µ.

Le fait d’être une chaˆıne de Markov n’est pas stable par les opérations habituelles (somme, pro- duit...). L’une des opérations que l’on peut faire pour conserver le caractère markovien est décrite dans la proposition suivante :

Proposition 1.3. Soit (Xn)n≥0une chaˆıne de Markov dont les probabilités de transition sont données par la matrice (éventuellement infinie) Π = (p(x, y)). Alors la suite (X_2n)_n≥0 est une chaˆıne de Markov de probabilités de transition, notées Π⁽²⁾ = (p⁽²⁾(x, y)), données par

p⁽²⁾(x, y) =X

z∈E

p(x, z)p(z, y).

Remarque : La matrice Π⁽²⁾ est le carr´e de la matrice Π.

1.2 Les contraintes du mod` ele

Etudions pour une chaˆıne de Markov (X´ _n)_n≥0 sur un espace d’état E le temps passé dans un état donné avant de le quitter. Supposons pour fixer les idées X₀ = x p.s. et notons

T = inf{n ≥ 1, Xn 6= x}.

(5)

T − 1 est alors le temps passé en l’état x avant de le quitter. On a bien sûr P_x(T = 1) = P_x(X₁ 6= x) = 1 − p(x, x) et plus généralement, pour n ≥ 2 :

P_x(T = n) = P_x(X₁ = x, . . . , X_n−1 = x, X_n 6= x)

= P_x(X₁ = x, . . . , X_n−1 = x) − P_x(X₁ = x, . . . , X_n−1 = x, X_n= x)

= (p(x, x))ⁿ⁻¹− (p(x, x))ⁿ = (p(x, x))ⁿ⁻¹(1 − p(x, x))

La loi de T est donc une loi géométrique. C’est une loi sans mémoire, qui vérifie P(T ≥ n + k|T ≥ n) = P(T ≥ k).

Une possibilité pour éviter cela est de permettre que les probabilités de transitions dépendent du temps n : la loi de (X0, . . . , Xn) est alors donnée par

P(X₀ = x₀, X₁ = x₁, . . . , X_n = x_n) = µ₀(x₀)p(x₀, x₁, 1)p(x₁, x₂, 2) . . . p(x_n−1, x_n, n)

et on a p(x, y, n) = P(X_n = y|X_n−1 = x). On parle alors de chaˆıne de Markov inhomogène en temps, par opposition aux chaˆınes de Markov décrites au paragraphe 1.1 qui sont dites homogènes en temps.

Le problème est alors que les résultats décrits dans la suite de ce chapitre ne s’appliquent plus.

La seule méthode pour étudier de telles chaˆınes de Markov consiste à effectuer des simulations infor- matiques.

1.3 Construction

Exercice : On se place sur un espace d’´etats E fini ou d´enombrable et on se donne – une fonction f : E × [0, 1] → E

– une variable al´eatoire X₀ `a valeurs dans E

– une suite de variables aléatoires (U_n)_n≥0 de loi uniforme sur [0, 1], indépendantes entre elles et indépendantes de X₀.

On construit alors une suite (X_n) de variables al´eatoires en posant, pour tout n ≥ 1, X_n = f (X_n−1, U_n). Montrer que la suite (X_n)_n≥0 forme une chaˆıne de Markov. Quelles sont ses probabilit´es de transition ?

Etant donn´´ e une matrice de transition et une loi initiale, il est possible de construire une chaˆıne de Markov comme dans l’exercice :

Proposition 1.4. Soit (p(x, y)) des probabilités de transition sur un espace d’états E et µ₀ une mesure de probabilité sur E. Alors il existe une fonction f : E × [0, 1] → R, une variable aléatoire X₀ de loi µ₀ et une suite de variables aléatoires U_n de loi uniforme sur [0, 1] telles que la suite X_n définie pour tout n ≥ 1 par X_n = f (X_n−1, U_n) soit une chaˆıne de Markov de probabilité de transition (p(x, y)).

2 Propri´ et´ es

2.1 Irr´ eductiblit´ e

On se donne une chaˆıne de Markov (Xn)n≥0 sur un espace d’´etats E fini ou d´enombrable.

(6)

D´efinition 1.5. – Deux ´etats x et y communiquent s’il existe deux entiers n, m > 0 tels que P(X_n= y|X₀ = x) > 0 et P(X_m = x|X₀ = y) > 0.

– La chaˆıne sera dite irr´eductible si tous les ´etats communiquent.

L’irréductibilité traduit donc la possibilité de passer d’un état à tout autre, même avec une très faible probabilité, et en autorisant toutes les longueurs de chemin.

Pour vérifier qu’une chaˆıne de Markov est irréductible, il est souvent utile de dessiner un graphe orienté dont les sommets sont les états de la chaˆıne et où une arête représente une transition possible (l’arête (x, y) existe uniquement si p(x, y) > 0).

Proposition 1.6. S’il existe un chemin fermé passant au moins une fois par tous les états de la chaˆıne (on dit que le graphe est connexe), alors la chaˆıne est irréductible.

Remarques :

1. La r´eciproque de cette proposition est fausse si l’ensemble E est infini.

2. La notion d’irréductibilité dépend uniquement des probabilités de transition, et non de la loi initiale.

2.2 Stationnarit´ e, r´ eversibilit´ e

Définition 1.7. Une mesure de probabilité µ est dite stationnaire pour les probabilités de transition (p(x, y)) si, pour tout x ∈ E, P_µ(X₁ = x) = µ(x), c’est-à-dire que si µ est la loi de X₀, alors c’est aussi celle de X₁, et de X_n pour tout n ≥ 1. De fa¸con pratique, une mesure µ, donnée par les µ(x), x ∈ E, est stationnaire pour (p(x, y)) si elle vérifie

( P

x∈Eµ(x) = 1

∀x ∈ E, P

y∈Eµ(y)p(y, x) = µ(x). (1.2)

Attention : Si les p(x, y) sont disposés sous la forme d’une matrice notée Π (les x représentant les lignes et les y les colonnes), µ est solution d’un système donné par les colonnes de cette matrice.

En fait, µ est très exactement un vecteur propre de la transposée de Π, associé à la valeur propre 1.

Pourquoi 1 est-il toujours valeur propre de Π ?

Remarque : Si la loi de X0 est la mesure stationnaire (ou une mesure stationnaire s’il en existe plusieurs), les (X_n) forment une suite de variables aléatoires identiquement distribuées (mais pas indépendantes en général !).

Exercice : Vérifiez que la chaˆıne de Markov formée par une suite de variables aléatoires indépen- dantes et identiquement distribuées est irréductible sur son support. Quelle est la mesure stationnaire ?

Définition 1.8. Une chaˆıne de Markov est dite réversible s’il existe une mesure de probabilité µ sur E telle que, pour tous x, y ∈ E,

µ(x)p(x, y) = µ(y)p(y, x)

Proposition 1.9. Si une mesure de probabilit´e est r´eversible pour la matrice de transition (p(x, y)), alors c’est une mesure stationnaire.

(7)

2.3 Transience, r´ ecurrence, p´ eriode

Une des questions importantes qui se posent face à une chaˆıne de Markov est de savoir si, partant d’un point, on y revient avec probabilité 1. Autrement dit, si on se promène en suivant une chaˆıne de Markov, est-on sûr de repasser par son point de départ ? Pour étudier ces questions, on fixe donc un état x ∈ E et on travaille avec la mesure P_x, c’est-à-dire que l’on a X₀ = x p.s..

On notera τ_x l’instant du premier retour en x : τ_x = inf{n ≥ 1, X_n = x}. Si la chaˆıne ne repasse jamais par l’´etat x, c’est-`a-dire, si pour tout n ≥ 1, X_n 6= x, on pose τ_x = +∞.

D´efinition 1.10.

– L’´etat x est transient ou transitoire si P_x(τ_x < ∞) < 1.

– L’´etat x est r´ecurrent si Px(τx < ∞) = 1.

– L’´etat x est r´ecurrent positif si E_x(τ_x) < ∞.

– L’´etat x est r´ecurrent nul si P_x(τ_x < ∞) = 1 et E_x(τ_x) = ∞.

– La période de l’état x est le pgcd (plus grand commun diviseur) de toutes les longueurs de chemins reliant x à lui-même, et parcourus avec une probabilité strictement positive. Lorsque le pgcd obtenu est égal à 1, on dit que l’état x est apériodique.

– Lorsque tous les états d’une chaˆıne de Markov sont de la même nature, on dit que la chaˆıne est, selon le cas, transiente, récurrente positive ou récurrente nulle. On parle également de période de la chaˆıne si tous les états ont la même période.

Attention : La récurrence et la transience ne sont pas directement liées à l’irréductibilité de la chaˆıne de Markov : la chaˆıne peut tout à fait être irréductible sans qu’aucun de ses états ne soit récurrent.

2.4 Caract´ erisation de la r´ ecurrence/transience

Rappelons que l’on note p⁽ⁿ⁾(x, y) = P_x(X_n = y) = P(X_n = y|X₀ = x) et que p⁽ⁿ⁾(x, y) est le terme (x, y) de la matrice Πⁿ. La proposition suivante permet de caractériser la récurrence/transience d’un état :

Théorème 1.11 (Caractérisation de la récurrente/transience). .

1. x est r´ecurrent ⇐⇒ P_x(∃ une infinit´e d’indices n tels que X_n= x) = 1.

2. x est transient ⇐⇒ P

n≥1p⁽ⁿ⁾(x, x) < ∞.

3. x est r´ecurrent nul ⇐⇒ P

n≥1p⁽ⁿ⁾(x, x) = ∞ et lim_np⁽ⁿ⁾(x, x) = 0.

4. Si x est r´ecurrent positif et ap´eriodique, p⁽ⁿ⁾(x, x) admet une limite strictement positive.

5. Si x est récurrent positif et périodique de période t, p^(nt)(x, x) admet une limite strictement positive.

Preuve du point 1. Fixons un ´etat x.

P_x(On revient au moins 2 fois en x) = P_x(∪_n{τ_x = n, X_n = x, ∃m > n, X_m = x})

= X

n

Px(τx = n, Xn= x, ∃m > n, Xm = x)

= X

n

P_x(∃m > n, X_m = x|τ_x = n, X_n = x) × Px(τx = n, Xn = x)

= X

n

P_x(∃m > n, X_m = x|X_n= x)P_x(τ_x = n)

= X

n

P_x(τ_x < ∞)P_x(τ_x = n)

= (Px(τx < ∞))²

(8)

O`u utilise-t-on le caract`ere markovien ?

Plus généralement, P_x(On revient au moins n fois en x) = (P_x(τ_x < ∞))ⁿ. Comme les événements {On revient au moins n fois en x} sont décroissants, on a

P_x(On revient une infinit´e de fois en x) = lim

n (P_x(τ_x < ∞))ⁿ

Si x est récurrent, P_x(τ_x < ∞) = 1, on en déduit que la chaˆıne issue de x repasse presque sûrement en x une infinité de fois.

Si x est transient, on obtient que la probabilit´e que la chaˆıne repasse une infinit´e de fois en x est nulle.

Preuve du point 2.

• Supposons que P

np⁽ⁿ⁾(x, x) < ∞. On a donc limN

X

n≥N

P(X_n = x) = 0.

On en d´eduit que

limN P [

n≥N

{X_n= x}

!

= 0 puis que

P_x \

N

[

n≥N

{X_n= x}

!

= 0.

L’événement précédent est l’ensemble :

{ω ∈ Ω; il existe une sous-suite infinie n_k(ω) telle que X_n_k(ω) = x},

ou, autrement dit, c’est l’ensemble des ω pour lesquels la suite (X_n(ω))_n visite l’´etat x une infinit´e de fois.

Puisque cet événement est de probabilité nulle, le point 1 implique que x est transient.

• Supposons maintenant que x est transient et notons Nx le nombre de passages de (Xn)n≥0 par x. En reprenant la preuve du point 1, on voit que P_x{N_x ≥ l} = (P_x(τ_x < ∞))^l, c’est-à-dire que N_x suit une loi géométrique sur N de paramètre 1 − P_x(τ_x < ∞). En particulier, E_x(N_x) < ∞.

Or

E_x(N_x) = E_x X

n≥1

1_X_n_=x

!

= X

n≥1

E_x(1_X_n_=x)

= X

n≥1

p⁽ⁿ⁾(x, x).

On a donc équivalence entre transience d’un état et convergence de la série P

np⁽ⁿ⁾(x, x). Proposition 1.12. Si x et y sont deux états qui communiquent, ils sont de même nature (récurrents positifs, récurrents nuls ou transients) et sont de même période.

(9)

Preuve : Soient x et y deux ´etats qui communiquent. Choisissons deux entiers N et M tels que α = p^{(N )}(x, y) > 0 et β = p^{(M )}(y, x) > 0.

Pour tout n positif, on a :

p^{(N +M +n)}(x, x) ≥ p^{(N )}(x, y)p⁽ⁿ⁾(y, y)p^{(M )}(y, x) = αβp⁽ⁿ⁾(y, y) (1.3) et

p^{(N +M +n)}(y, y) ≥ p^{(M )}(y, x)p⁽ⁿ⁾(x, x)p^{(N )}(x, y) = αβp⁽ⁿ⁾(x, x) (1.4) donc les s´eries P

np⁽ⁿ⁾(x, x) et P

np⁽ⁿ⁾(y, y) convergent ou divergent simultan´ement et la limite de p⁽ⁿ⁾(x, x) (ou de p^(nt)(x, x)) lorsque n tend vers +∞ est non nulle si et seulement si la limite de p⁽ⁿ⁾(y, y) (ou de p^(nt)(y, y)) est non nulle : x est r´ecurrent nul si et seulement si y l’est.

Passons maintenant à l’étude de la période.

Supposons que x soit de période t. Comme p^{(N +M )}(x, x) ≥ p^{(N )}(x, y)p^{(M )}(y, x) > 0, N + M est nécessairement divisible par t. On en déduit que si n n’est pas un multiple de t, p^{(N +M +n)}(x, x) = 0 ; puis en utilisant la relation 1.3, il vient que, toujours si n n’est pas un multiple de t, p⁽ⁿ⁾(y, y) = 0.

Donc la période de y est un multiple de celle de x : nécessairement, les deux périodes sont égales.

On déduit immédiatement de la proposition précédente le corollaire suivant :

Corollaire 1.13. Si la chaˆıne est irréductible, tous les états de la chaˆıne sont de même nature et ont la même période. On parle alors suivant les cas de la récurrence, la transience ou la période de la chaˆıne.

En particulier, si la matrice de transition comporte un terme non nul sur la diagonale, tous les

´etats sont ap´eriodiques.

3 Limites

Dans cette section, on se place dans le cas d’une chaˆıne de Markov (Xn) irréductible sur un espace d’états E fini ou dénombrable, de probabilités de transition Π = (p(x, y)).

Rappelons que τ_x désigne le premier instant où la chaˆıne, issue de x repasse par l’état x. C’est une variable aléatoire à valeurs dans N^∗∪ {+∞}. On note

ν(x) = 1 E_x(τ_x)

Remarquons que si l’état x est transient, τx est une variable aléatoire qui vaut +∞ avec une probabilité non nulle, donc E_x(τ_x) = +∞ et ν(x) = 0.

Par définition de la récurrence nulle d’un état, on a également ν(x) = 0 si x est récurrent nul.

3.1 Th´ eor` eme ergodique

Théorème 1.14. 1. Si (X_n) est transiente ou récurrente nulle, elle n’admet pas de probabilité invariante et ν(x) = 0 pour tout x ∈ E.

2. Quelle que soit la loi de X₀, pour tout x ∈ E, on a 1

n

X

k=1

1_X_k_=x−→ ν(x)^ps (1.5)

(10)

Le deuxième point de ce théorème donne le comportement asymptotique de la fréquence empirique avec laquelle la chaˆıne « visite » un état donné : dès que E_x(τ_x) < ∞, ce nombre de visites entre les instants 1 et n est asymptotiquement proportionnel à n.

Théorème 1.15 (Théorème ergodique). Si (X_n) est une chaˆıne de Markov récurrente positive et irréductible, on a

1. Pour tout x dans E, on a ν(x) > 0 ; ν définit une mesure de probabilité sur E (c’est-à-dire que P

xν(x) = 1) et c’est l’unique probabilit´e invariante de (X_n).

2. Pour toute mesure initiale et pour toute fonction f : E × E → R telle que E_ν(|f (X₀, X₁)|) =X

x,y

|f (x, y)|ν(x)p(x, y) < ∞

on a

1 n

n

X

k=1

f (X_k−1, X_k)−→ E^ps _ν(f (X₀, X₁)) =X

x,y

f (x, y)ν(x)p(x, y)

Le deuxième point du théorème 1.14 est un cas particulier du théorème 1.15 : l’état x étant fixé, il suffit de considérer la fonction f définie sur E × E par f (s, t) = 1_t=x. On remarque ensuite que, puisque d’après le point 1 de 1.15, ν est une mesure de probabilité stationnaire,

Eν(1X1=x) = Pν(X1 = x) = ν(x).

Remarque : La fonction f : E × E → R ci-dessus est souvent appelée « fonction de coût » ; elle représente les coûts/gains associés à une transition. La quantité P

k≤nf (X_k−1, X_k) sera alors le coût total du chemin de longueur n considéré et P

k≤nf (X_k−1, X_k)/n est le coˆut empirique moyen d’une transition le long de ce chemin.

Ces théorèmes permettent de lier la récurrence positive d’une chaˆıne (irréductible) à l’existence d’une mesure stationnaire. On obtient les deux corollaires fondamentaux suivants :

Corollaire 1.16. Si la chaˆıne est irréductible, elle admet une mesure stationnaire si et seulement si la chaˆıne est récurrente positive. Dans ce cas, la mesure stationnaire est unique et est donnée par ν.

Corollaire 1.17. Si la chaˆıne est irréductible sur un espace d’états finis, alors elle est récurrente positive et son unique mesure stationnaire est ν.

Le théorème 1.15 peut être vu comme une extension de la loi forte des grands nombres : en effet, une suite (X_n) de variables aléatoires indépendantes constitue une chaˆıne de Markov dont la mesure stationnaire est la loi de X0. En considérant une fonction f du type f (x, y) = g(x), où g : E → R est une fonction telle que

X

x

|g(x)|ν(x) < ∞

on retrouve précisément l’énoncé de la loi forte des grands nombres. Le résultat 1.15 est bien entendu plus général puisqu’il concerne des suites de variables aléatoires dépendantes.

R´esum´e :

– Si la chaˆıne est irr´eductible, il existe au plus une mesure stationnaire.

– Si la chaˆıne est irréductible, il existe une mesure stationnaire µ si et seulement tous les états sont récurrents positifs et on a alors E_x(τ_x) = 1/µ(x), pour tout x ∈ E.

– En particulier si l’espace d’états est fini et si la chaˆıne est irréductible, tous les états sont positivement récurrents et de même période.

(11)

– Si la chaˆıne est irr´eductible et positivement r´ecurrente, pour toute mesure initiale et pour toute fonction f : E × E → R telle que E_ν|f (X₀, X₁)| < ∞,

1 n

n

X

k=1

f (X_k−1, X_k)−→ E^ps _ν(f (X₀, X₁)) =X

x,y

f (x, y)ν(x)p(x, y)

Remarque : C’est le théorème ergodique qui permet d’affirmer l’existence et l’unicité de la mesure stationnaire d’une chaˆıne irréductible et récurrence positive. Néanmoins, dans la pratique, c’est les

équations (1.2), page 5, qui permettront d’expliciter cette mesure stationnaire. Puis, à partir de la mesure stationnaire, on calculera E_x(τ_x) et la fréquence asymptotique de visite de l’état x.

3.2 Convergence en loi

Théorème 1.18. Si la chaˆıne (X_n) est irréductible, apériodique et admet une mesure stationnaire ν, alors (X_n) converge en loi vers ν. C’est-à-dire que pour toute loi initiale µ₀ et pour tout x ∈ E, on

limn P_µ₀(X_n = x) = ν(x).

3.3 Preuves partielles des r´ esultats de convergence

Commen¸cons par la preuve du corollaire 1.17. On admet pour le moment le th´eor`eme 1.14 et on somme sur x dans E la limite : on obtient que 1 = P

xν(x). Ainsi, ν n’est pas constamment nul donc, d’après le théorème 1.14, la chaˆıne n’est pas transiente, ni récurrente nulle. Elle ne peut être que récurrente positive. Le théorème 1.15 permet de conclure que ν est la mesure invariante. Passons maintenant à la preuve du théorème 1.14. Rappelons que (X_n) est une chaˆıne de Markov irréductible de probabilités de transition Π et que l’on pose, pour tout x ∈ E, ν(x) = 1/E_x(τ_x).

Lemme 1.19. Si la limite (1.5) du théorème 1.14 est vérifiée et si Π admet une probabilité invariante µ, alors µ = ν.

En effet, puisque

1 n

n

X

k=1

1_X_k_=x

est dominé par 1, on peut utiliser le théorème de convergence dominé de Lebesgue en intégrant par rapport à Eµ. On obtient

E_µ 1 n

n

X

k=1

1_X_k_=x

!

= 1 n

X

k≤n

P_µ(X_k = x) −→ ν(x)

La stationnarité de µ implique que, pour tout k, P_µ(X_k = x) = µ(x). Le membre de gauche ci-dessus est donc égal à µ(x). On a donc µ = ν. En particulier, sous réserve que la limite (1.5) est vérifiée, ceci prouve que, si la mesure stationnaire existe, elle est unique. Ceci termine la preuve du lemme 1.19.

Attaquons maintenant la preuve de la limite 1.5 et consid´erons dans un premier temps le cas des chaˆınes transientes.

Lemme 1.20. Supposons que la chaˆıne (X_n) est transiente. Alors la limite (1.5) est v´erifi´ee et la chaˆıne n’admet pas de mesure stationnaire.

(12)

En effet, la chaˆıne ´etant transiente, on a Ex(τx) = +∞ pour tout x, donc ν = 0 pour tout x ∈ E.

De plus, on a vu que, pour un état transient, le nombre de visite de cet état par la chaˆıne de Markov est fini presque sûrement. On a donc p.s.

1 n

X

k≤n

1_X_k_=x −→ 0 = ν(x).

Le lemme 1.19 implique alors que la mesure stationnaire n’existe pas [La mesure nulle n’est pas une

mesure de probabilit´e !].

Il reste à étudier le cas des chaˆınes récurrentes.

Soit donc (Xn) une chaˆıne de Markov r´ecurrente. Notons Nnle nombre de visites de l’´etat x avant l’instant n :

N_n =X

k≤n

1_X_k_=x. Il faut montrer que la suite Nn/n tend p.s. vers 1/Ex(τx).

Considérons les instants successifs τ_j = τ_j,x de visites de l’état x par la chaˆıne puis t_j = τ_j− τ_j−1. La chaˆıne étant récurrente, le nombre de visites de l’état x par la chaˆıne est infini et donc les τ_j sont tous finis p.s.

Le caractère markovien implique que les (t_j)_j≤2 sont indépendants et identiquement distribués (de même loi que τ₁ conditionnellement à X₀ = x). On utilise alors la loi forte des grands nombres :

τ_j j = 1

j X

i≤j

ti −→ Ex(τx).

On remarque alors que, par construction, τ_N_n ≤ n < τ_N_n₊₁. Donc τ_N_n

Nn

≤ n Nn

< τ_N_n₊₁ Nn+ 1

N_n+ 1 Nn

Or les N_n tendent vers +∞ : les (τ_N_n) et les (τ_N_n₊₁) constituent donc une sous-suite de la suite (τ_n).

On peut donc conclure que

n N_n

converge vers E_x(τ_x).

(13)

Chapitre 2 Simulation

1 Simulation des lois discr` etes usuelles

1.1 Principe des simulations

Le but d’une simulation informatique est d’obtenir un ´echantillon dont l’histogramme ressemble

`

a la répartition de la loi que l’on cherche à étudier. Avec cet échantillon, on peut ensuite étudier un phénomène dont l’évolution est dictée par cette loi (chaˆıne de Markov, prévision météo, modélisation d’un cours boursier...).

Les méthodes de simulation sont basées sur une identité en loi entre la loi que l’on cherche à simuler et une fonction d’une (ou plusieurs) variable(s) aléatoire(s) de loi le plus souvent uniforme.

Supposons par exemple que l’on cherche à créer un échantillon relevant de la loi d’une variable aléatoire X et que l’on connaisse explicitement une fonction φ : [0, 1] → R telle que, si U est de loi uniforme sur [0, 1], alors φ(U ) suit la même loi que X, c’est-à-dire que X et φ(U ) ont la même fonction de répartition. Pour simuler un échantillon (x_k)_k≤n relevant de la loi de X, on se donne un

´echantillon (uk)k≤n relevant de la loi uniforme que [0, 1] et on pose, pour tout 1 ≤ k ≤ n, xk = φ(uk).

Règle fondamentale : Pour simuler un échantillon (x_k) à partir d’un échantillon (u_k), on n’utilise jamais deux fois la même valeur de l’échantillon (uk), sinon les valeurs obtenues pour l’échantillon (x_k) sont liées entre elles.

Pour mettre en pratique ces différents algorithmes de simulation, les fonctions associées du logiciel OpenCalc sont décrites : ce logiciel n’est évidemment si un logiciel mathématique, ni un logiciel statistique, et si on souhaite éviter la définition de macro, la programmation y est plus que limitée (pas de boucle par exemple). Ce choix de logiciel est donc fait uniquement dans la perspective des épreuves orales du CAPES, sachant que l’investissement demandé pour l’utiliser est nettement moindre que pour un logiciel plus évolué ! D’autres logiciels (geogebra notamment seront utilisés en TP.

Dans OpenCalc, la fonction ALEA() permet de générer un échantillon de taille 1 relevant de la loi uniforme sur [0, 1].

1.2 Loi discr` ete g´ en´ erique

On suppose que l’on cherche à simuler la loi d’une variable aléatoire X à valeurs dans A = {a₁, . . . , a_J}. On note, pour tout 1 ≤ j ≤ J, p_j = P(X = a_j) puis on considère, les intervalles I1 = [0, p1] et, pour tout j ≥ 2 Ij =]p1 + . . . + pj−1, p1 + . . . + pj]. On définit alors la fonction

(14)

φ : [0, 1] → A par

φ(u) =

J

X

j=1

a_j1_u∈I_j c’est-`a-dire que si u ∈ I_j, alors φ(u) = a_j.

Alors, si U est de loi uniforme sur [0, 1], la variable al´eatoire φ(U ) est de mˆeme loi que X.

Pour simuler un échantillon relevant de la loi de X, on se donnera donc préalablement un échan- tillon (u_k)_k≤n relevant de la loi uniforme sur [0, 1] puis on posera x_k = φ(u_k).

Preuve : La variable aléatoire X étant discrète, sa loi est déterminée par A et les p_j. La variable aléatoire φ(U ), à valeurs dans A, est également discrète. Il suffit donc de vérifier que, pour tout j,

P(φ(U ) = a_j) = p_j. Donc X et φ(U ) sont de mˆeme loi.

Or {φ(U ) = aj} = {U ∈ Ij} donc P(φ(U ) = aj) = P(U ∈ Ij) = pj.

Remarque : Cette méthode s’adapte au cas où l’ensemble A est de cardinal infini. Néanmoins, elle n’est pas utilisée dans ce cadre (sauf éventuellement de manière théorique) : en effet, si A est infini, les p_j sont arbitrairement petits et pour détecter dans quel intervalle I_j appartient la valeur u de l’échantillon uniforme, il faut connaˆıtre cette valeur avec une précision arbitrairement grande. Par ailleurs, la fonction φ se programme par l’intermédiaire de tests : il faut ainsi effectuer j tests si u ∈ I_j. Le nombre moyen de tests nécessaires est donc P jp_j, qui croˆıt avec J .

La méthode ci-dessus s’applique à tout type de loi discrète à partir du moment où les pj ne sont pas trop petits : il ne faut pas descendre en de¸cà de la précision des nombres aléatoires fournis par l’ordinateur, en restant conscient que la partie la plus « aléatoire » est celle constituée par les premières décimales. Même si un nombre aléatoire est fourni avec une précision de 10⁻²⁰, la répartition des dernières décimales est généralement loin d’être parfaite !

1.3 Loi de Bernoulli

Pour simuler la loi de Bernoulli de paramètre p ∈]0, 1[, on se donne un échantillon de loi uniforme sur [0, 1] et on pose x_k = 1 si u_k≤ p et x_k = 0 sinon (ou alors, pour rester fidèle à la méthode décrite au paragraphe précedent, xk = 1 si uk ≥ 1 − p et xk = 0).

Exemple avec un tableur pour simuler la loi de Bernoulli (0, 3) : a1=alea(), b1=SI(a1”≤ 0, 3”;1 ;0), ou directement a1=SI(ALEA()≤ 0, 3 ;1 ;0) puis recopier la premi`ere ligne le nombre de fois souhait´e.

1.4 Loi binomiale

La loi binomiale rentre également dans le cadre des loi décrites dans le paragraphe 1.2, à condition que les probabilités ne soient pas trop petites. Néanmoins, on utilise souvent la méthode suivante basée sur le lien entre variables de Bernoulli et variables aléatoires binomiales : rappelons que la somme de K variables aléatoires indépendantes, de loi de Bernoulli de probabilité p suit la loi binomiale de paramètres (K, p).

Pour simuler un échantillon de taille n relevant de la loi binomiale (K, p), on commence donc par simuler n échantillons de taille K relevant de la loi de Bernoulli (p), puis on somme les valeurs de chacun de ces n échantillons (avec un tableur : on simule n × K valeurs d’un échantillon de Bernoulli et on somme sur chacune des lignes.

Avec un tableur : sur les K premières colonnes : SI(ALEA()≤ 0, 3 ;1 ;0), et sur la K + 1-ème : la somme des K colonnes précédentes.

Remarque : Sur OpenOffice, il existe la fonction CRITERE.LOI.BINOMIALE. Cette fonction est en fait la pseudo-inverse de la fonction de r´epartition de la loi binomiale :

CRITERE.LOI.BINOMIALE(n; p; α) renvoie le plus grand entier k tel que P(X ≤ k) ≤ α.

(15)

On peut vérifier que CRITERE.LOI.BINOMIALE(n; p;ALEA()) fournit un générateur de la loi binomiale (n, p).

1.5 Loi g´ eom´ etrique

La loi géométrique prenant ses valeurs sur N^∗ tout entier, la méthode du paragraphe 1.2 est peu pertinente. Pour générer un échantillon relevant de la loi géométrique, on peut utiliser le lien reliant cette loi à la loi de Bernoulli : le numéro du tirage du premier succès dans un tirage de variables de Bernoulli indépendantes suit une loi géométrique.

Par exemple, si on a obtenu comme tirage de Bernoulli 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, on a généré quatre valeurs d’un échantillon géométrique : 3,4,1,5.

Cette méthode n’est pas simple à programmer avec un tableur. En voici une autre qui est basée sur la loi exponentielle.

Si Y suit une loi exponentielle de paramètre 1, la variable X = [Y /α] + 1 suit une loi géométrique de paramètre p = 1 − e^−α (où [.] désigne la partie entière d’un nombre réel).

En effet, pour tout entier k ≥ 1,

P([Y /α] + 1 = k) = P((k − 1)α ≤ Y < kα) = e^−(k−1)α− e^−kα

Donc X suit la loi géométrique de paramètre (1 − e^−α).

Pour simuler un échantillon (x_k)_k≤nrelevant de la loi géométrique de paramètre p, on génère donc un échantillon (y_k)_k≤nrelevant de la loi exponentielle de paramètre 1, puis on pose, pour tout k ≤ n, xk= [−yk/ ln(1 − p)] + 1.

1.6 Loi de Poisson

On peut vérifier que si les (Y_k) suivent des lois exponentielles de paramètre 1 et sont indépendantes, alors la variable aléatoire définie par X = inf{k, Y₁ + · · · Y_k ≥ λ} − 1 suit une loi de Poisson de paramètre λ.

Pour simuler une loi de Poisson avec un tableur : supposons que le paramètre de la loi de Poisson soit égal à λ. On génère sur chaque ligne des sommes partielles d’échantillons relevant de la loi exponentielle (voir plus loin : si U suit la loi uniforme sur [0, 1], − ln(U ) suit une loi exponentielle de paramètre 1), puis on compte combien de ces sommes partielles sont inférieures à λ.

Le problème est qu’on ne sait pas a priori quelle est la taille de l’échantillon exponentiel nécessaire.

Néanmoins, le tableur permet de calculer facilement les probabilités P(X ≤ k), tout au moins pour les premières valeurs de k, et donc d’estimer la probabilité d’obtenir une valeur de l’échantillon supérieure à k, c’est-à-dire nécessitant plus de k valeurs d’un échantillon exponentiel. On peut donc choisir k suffisamment grand pour que la probabilité d’observer une valeur de l’échantillon supérieure

`

a k parmi l’´echantillon de taille n soit suffisamment petite.

Par exemple, si on souhaite générer un échantillon relevant de la loi de Poisson de paramètre 3, on remarque que P (X > 15) ∼ 10⁻⁷, donc si on simule un échantillon de taille 1000, la probabilité d’observer au moins une valeur de l’échantillon supérieure à 15 sera 1 − (1 − P (X > 15))¹⁰⁰⁰ ∼ 10⁻⁴, que l’on considère comme négligeable.

On génère sur les quinze colonnes B à P les sommes partielles d’exponentielles, et on regarde en colonne A combien d’entre elles sont inférieures à 3.

A1=NB.SI(B1 :P1 ;”<3”), B1= − ln(ALEA()), C2=B1− ln(ALEA()).... P1=O1− ln(ALEA())

(16)

2 Simulation des lois ` a densit´ e usuelles

2.1 Loi dont on sait inverser la fonction de r´ epartition

On se donne une variable aléatoire X de densité f et de fonction de répartition F . Pour simplifier l’exposé, on suppose que F est strictement croissante sur l’intervalle ]a, b[ avec F (a) = 0 et F (b) = 1, les valeurs a = −∞ et b = +∞ étant autorisées. La fonction de répartition F est alors continue et strictement croissante, donc bijective de ]a, b[ vers ]0, 1[.

D’après la remarque initiale, pour simuler la loi d’une variable aléatoire X à partir d’une variable aléatoire U de loi uniforme sur [0, 1], il suffit de trouver une fonction φ telle que, en loi, X = φ(U ).

Or, si la fonction φ est injective, pour tout x ∈ φ[0, 1], on a

P(φ(U ) ≤ x) = P(U ≤ φ⁻¹(x)) = φ⁻¹(x)

car φ⁻¹(x) est un réel de [0, 1]. Si on veut que φ(U ) suive la loi de X, il faut que sa fonction de répartition soit égale à la fonction de répartition de la loi de X, c’est-à-dire que φ⁻¹ = F , ou encore φ = F⁻¹.

Donc, la variable al´eatoire F⁻¹(U ) suit la loi de X.

Pour simuler un ´echantillon (x_k)_k≤n relevant de la loi de X, il suffit donc de disposer d’un ´echantillon (u_k)_k≤n relevant de la loi uniforme puis de poser, pour tout k, x_k = F⁻¹(u_k).

L’inconvénient majeur de cette méthode réside dans le calcul de F⁻¹ : la fonction F⁻¹ doit être explicite, ce qui est loin d’être toujours le cas. Néanmoins, du point de vue numérique, c’est une méthode tout à fait acceptable : sur OpenOffice par exemple, les fonctions réciproques des lois usuelles à densité (normale, Student, Fisher...) sont implantées. Vu la simplicité de mise en oeuvre de cette méthode, il ne faut pas hésiter à l’utiliser !

2.2 Loi uniforme sur un intervalle

Les logiciels produisent classiquement des nombres aléatoires sur [0, 1], en utilisant différents algorithmes, certains étant basés sur des relations congruencielles, d’autres s’appuient sur des phéno- mènes physiques. Nous ne nous soucions pas ici de la qualité de ces générateurs, même s’il s’agit d’une question importante et souvent négligée par les concepteurs de logiciels : Excel, jusqu’à des versions relativement récentes, était réputé pour la mauvaise qualité de son générateur aléatoire ! Tant que l’on ne génère pas de trop gros échantillons, cette faiblesse passe inaper¸cue.

Pour passer d’un échantillon uniforme (u_k)_k≤nsur [0, 1] à un échantillon (x_k)_k≤nuniforme sur [a, b], on utilise une fonction affine : x_k= a + (b − a)u_k. Autrement dit, sur Openoffice : a+(b-a)*ALEA().

Pourquoi l’´echantillon obtenu en posant a ∗ (1 − ALEA()) + b ∗ ALEA() ne constitue-t-il pas un

´echantillon relevant de la loi uniforme sur [a, b] ?

2.3 Loi exponentielle

Inversons la fonction de répartition de la loi exponentielle d’espérance 1/λ. La densité de cette loi est λe^−λx1_R⁺, donc sa fonction de répartition est la fonction F définie sur R par F (x) = 1 − e^−λx1_R⁺. On a donc, pour tout u ∈ [0, 1], F⁻¹(u) = −_λ¹ ln(1 − u).

On peut remarquer que si U suit la loi uniforme sur [0, 1], la variable aléatoire 1 − U est également de loi uniforme sur [0, 1], donc pour simuler un échantillon (x_k)_k≤n relevant de la loi exponentielle d’espérance 1/λ à partir d’un échantillon (u_k)_k≤n relevant de la loi uniforme sur [0, 1], on peut donc poser pour tout k, xk = −_λ¹ln uk.

(17)

2.4 Loi normale

La fonction réciproque de la fonction de répartition de la loi normale étant implémentée sous OpenOffice, pour générer un échantillon relevant de la loi normale de moyenne m et d’écart-type σ, il suffit d’écrire LOI.NORMALE.INVERSE(ALEA() ;m ;σ)

Il existe dans la littérature d’autres générateurs de la loi normale (Box-Muller, méthode polaire, ou méthode du rejet par exemple), qui ont pour point commun de générer un échantillon relevant de la loi normale centrée réduite. Rappelons à toutes fins utiles que si X suit la loi normale centrée réduite, σX + m suit la loi normale d’espérance m et d’écart-type σ.

Une méthode parmi d’autres de simulation de la loi normale centrée réduite : la méthode de Box-Muller.

On se donne deux variables aléatoires U et V indépendantes et de loi uniforme. Alors le couple (X, Y ) défini par

X =√

−2 ln U cos(2πV ), Y =√

−2 ln U sin(2πV )

est un couple formé de deux variables aléatoires normales centrée réduites indépendantes.

Pour le v´erifier, on se donne une fonction h : R² → R continue et born´ee. On a alors E(h(X, Y )) =

Z 1 0

h√

−2 ln u cos(2πv),√

−2 ln u sin(2πv)

du dv On effectue tout d’abord un double changement de variables en posant r =√

−2 ln u et θ = 2πv. On a donc u = e^−r²^/2, du = −re^−r²^/2 dr et dv = dθ/(2π). On obtient

E(h(X, Y )) = Z +∞

0

Z 2π 0

h(r cos θ, r sin θ) re^−r²^/2dr dθ 2π . Un changement de variables en coordonn´ees polaire permet alors d’´ecrire que

E(h(X, Y )) = Z +∞

−∞

Z +∞

−∞

h(x, y)e^−x²^/2

√2π

e^−y²^/2

√2π dx dy

La loi du couple (X, Y ) est donc celle d’un couple de variables aléatoires indépendantes et de loi normale centrée réduite.

Puisque (X, Y ) est un couple de variables aléatoires indépendantes, et on peut former une suite de 2k variables aléatoires indépendantes à partir de k couples (U_i, V_i). Pour simuler un échantillon de taille 2k à partir d’un échantillon uniforme (u_i)_i≤2k, on pose donc, pour tout i entre 1 et k

x_2i−1=p−2 ln u_2i−1cos(2πu_2i) et x_2i =p−2 ln u_2i−1sin(2πu_2i)

Remarque : On utilise le même couple (u2i−1, u2i) pour simuler deux valeurs de l’échantillon gaussien : cela est permis car les variables aléatoires X et Y sont indépendantes.

3 Simulation des chaˆınes de Markov

3.1 Pourquoi faire

Lorsque l’on simule un échantillon aléatoire, on répète généralement un certain nombre k de fois la même opération, et on obtient un échantillon de taille k, c’est-à-dire k nombres répartis suivant une loi fixée.

Pour simuler une chaˆıne de Markov, l’objectif est diff´erent : il faut simuler les chemins X₀ → X₁ → . . . → X_n. Un ´echantillon de taille 1 est donc un chemin, dont on fixe a priori la longueur n.

La simulation peut avoir plusieurs buts :

(18)

– Obtenir une estimation du coût moyen d’un chemin. Dans ce cas, un échantillon de taille 1 suffit, puisque C_n/n tend presque sûrement vers E_µ(c(X₀, X₁)).

– Simuler la mesure stationnaire, en obtenir un histogramme ou faire des tests sur cette loi, sans la calculer explicitement. Pour n assez grand, Xnsuit « presque » la loi stationnaire, lorsque la chaˆıne est irr´eductible et ap´eriodique, et si cette loi existe. Pour obtenir une simulation de la mesure stationnaire, on peut donc simuler k chemins x₀ → x₁ → . . . → x_n, en ne gardant que xn.

3.2 Les ingr´ edients

Il faut connaˆıtre la loi initiale et chacune des probabilit´es de transition.

La loi initiale n’est pas très importante dans le cas des chaˆınes irréductibles et apériodiques admettant une mesure stationnaire, puisque très rapidement, la loi de X_n est très proche de la loi stationnaire.

Il faut évidemment également disposer d’une liste suffisamment longue de nombres uniformément répartis sur [0, 1].

3.3 La recette

Pour obtenir un chemin simul´e, on commence par simuler l’´etat initial x₀ suivant la loi initiale.

La loi de X₁ sachant {X₀ = x₀} est ensuite donnée par p(x₀, x) : P(X₁ = x|X₀ = x₀) = p(x₀, x) ; on simule donc une valeur suivant la loi donnée par la ligne x0 de la matrice de transition et on obtient une valeur x₁. Pour simuler X₂, on recommence de la même fa¸con, mais avec la loi donnée par la ligne x₁ de la matrice de transition et ainsi de suite, jusqu’à obtenir le chemin de longueur désirée.

Attention : Même si la loi initiale est la mesure stationnaire µ, cela ne revient pas du tout au même de simuler n fois µ (comme on le ferait pour obtenir un échantillon « standard »), et de simuler le chemin de la chaˆıne de Markov, pour lequel il peut y avoir par exemple des transitions interdites.

Pour simuler des lois discrètes : Nous décrivons ici comment simuler une loi discrète ν sur {1, . . . , m}, donnée par p1 = ν(1), . . . , pm = ν(m).

Pour obtenir un échantillon de taille 1, on découpe l’intervalle [0, 1] en m sous-intervalles de longueur p₁, p₂, . . . , p_m. On a ainsi par exemple I₁ = [0, p₁[, I₂ = [p₁, p₁+ p₂[, . . ., I_m−1 = [p₁+ . . . + pm−2, p1+ . . . + pm−1[ et Im = [1 − pm, 1]. On prend une valeur u (la première valeur) de l’échantillon uniforme, et si u appartient à l’intervalle I_j, on pose x₁ = j.

Pour obtenir un échantillon de taille k, on recommence k fois l’opération précédente, en renouve- lant le tirage de la valeur uniforme : on utilise successivement u1, u2, . . ., uk.

En résumé, le plus simple est de commencer par décrire la méthode de simulation choisie, pour chacune des lois dont on va avoir besoin : la loi initiale, puis la loi donnée par chacune des lignes de la matrice. On procède alors à la simulation en utilisant l’échantillon uniforme, sans reprendre deux fois le même u_i. Si on a besoin de plusieurs chemins, on applique autant de fois qu’il le faut la méthode, en utilisant à chaque fois des échantillon uniformes disjoints : par exemple les n + 1 premières valeurs de l’échantillon uniforme permettront de construire le premier chemin de longueur n, les n + 1 valeurs suivantes le deuxième chemin et ainsi de suite.

(19)

Chapitre 3

Un peu de stat

1 Notion de test statistique

1.1 Principe

Un test statistique est un outil d’aide `a la d´ecision.

On dispose d’un échantillon (x₁, . . . , x_n) relevant de la loi d’une variable aléatoire X. La loi de X n’est généralement pas complètement déterminée et on cherche à obtenir une information sur les paramètres de cette loi à partir des valeurs observées sur l’échantillon.

On est ainsi amené à formuler une hypothèse, notée H₀ sur la loi de X. L’hypothèse contraire sera notée H₁. Ces deux hypothèses ne jouent pas un rôle symétrique : l’hypothèse que l’on pense vraie est H₀.

On se donne alors une suite de variables aléatoires (X₁, . . . , X_n) indépendantes et de même loi que X et on construit, pour tout n, une fonction φ de Rⁿ dans R appelée statistique de test telle que l’on connaˆıt la loi de φ(X1, . . . , Xn) si X vérifie l’hypothèse H0. Puisque l’on connaˆıt la loi de φ(X₁, . . . , X_n), pour tout α ∈]0, 1[, on peut trouver un intervalle [a_α,n, b_α,n] tel que φ(X₁, . . . , X_n) appartienne à [a_α,n, b_α,n] avec une probabilité (supérieure à ) 1 − α.

Cet intervalle s’appelle la zone d’acceptation du test, son compl´ementaire ´etant la zone de rejet.

On est alors en mesure de conclure : on fixe un risque α (par exemple α = 0.05), on détermine la zone d’acceptation et on calcule φ_obs = φ(n, x₁, . . . , x_n). Si φ_obs appartient à la zone de rejet, on conclut que le test de risque α conduit à rejeter l’hypothèse H₀; sinon, on conclut que ce test de risque α ne permet pas de rejeter H₀. Dans le langage courant, on dira que les données observées ne sont significativement pas différentes de ce qu’on attend pour un échantillon relevant d’une loi satisfaisant H₀.

1.2 Mise en œuvre

La mise en pratique d’un test statistique doit être rigoureusement appliquée (et rédigée !) On distingue ainsi les étapes suivantes :

1. Recueil des donn´ees : ´echantillon (xk)k≤n

2. Formulation des hypoth`eses H0 et H1

3. Choix du risque α

4. Choix du test : il peut arriver que plusieurs tests permettent de tester la mˆeme hypoth`ese. Il convient dans ce cas de choisir le test « le plus puissant » (voir 1.3)

5. Statistique de test, loi de la statistique de test 6. D´etermination de la zone d’acceptation

(20)

7. Calcul de la statistique observ´ee sur l’´echantillon 8. Conclusion du test

1.3 Risque et puissance d’un test

Le risque α, appelé également risque de première espèce, représente la probabilité de rejeter l’hypothèse alors que X la vérifie : rejeter H₀ alors qu’elle est vraie peut sembler contradictoire de prime abord, mais la zone d’acceptation est construire de telle fa¸con que, si X vérifie l’hypothèse, la statistique de test appartient à la zone d’acceptation avec probabilité 1 − α. La probabilité pour que la statistique de test soit dans la zone de rejet est donc égale à α.

On préfèrerait bien entendu ne rejeter H₀ que lorsque X ne vérifie pas cette hypothèse, mais ce n’est pas concrètement réalisable : cela revient à prendre un risque α nul, et la zone d’acceptation n’est alors plus bornée. Autrement dit, dans ce cas, on accepte toujours l’hypothèse H₀, quelle que soit la loi de X, donc le test ne sert à rien.

Concrètement, si l’on procède à N tests sur des échantillons relevant de la loi de X vérifiant H₀, on rejettera environ N × α fois l’hypothèse.

De fa¸con similaire, ce n’est pas parce qu’on accepte H₀ que la loi de X la v´erifie vraiment.

Imaginons par exemple que l’hypothèse H₀ soit « X est d’espérance 3 » et que l’on ait obtenu l’échantillon en simulant une loi d’espérance 3, 001. Il est fort vraisemblable (tout au moins si la taille de l’échantillon est petite) que le test ne permettra pas de discriminer 3 et 3, 001, donc on acceptera H₀. Ce problème est lié à la puissance du test : plus le test est « puissant », mieux il discrimine les hypothèses H₀ et H₁. Grosso modo, plus le test est précis, plus il est puissant : par exemple un test permettant de tester la moyenne d’un échantillon gaussien de variance connue sera plus précis qu’un test permettant de tester la moyenne d’un échantillon gaussien, lui-même plus puissant qu’un test permettant de tester la moyenne d’un échantillon dont la loi n’est pas précisée.

Le risque d’accepter H₀ alors que la loi de X ne vérifie pas cette hypothèse est appeler « risque de deuxième espèce » et est généralement noté β. Ce risque est plus compliqué à quantifier que α : en effet, déterminer la probabilité d’accepter H0 alors qu’elle est fausse suppose que l’on est capable de construire une probabilité sur l’ensemble des lois de variables aléatoires ne vérifiant pas H₀, ce qui n’est pas simple à conceptualiser.

On peut regrouper ces questions dans le tableau suivant :

``r´eponse du test`````````````

H₀

vraie fausse

acceptation OK β

rejet α OK

2 Tests sur la moyenne

2.1 R´ esultats utilis´ es

Les deux résultats énoncés ci-dessous sont fondamentaux dans (tous) les théorèmes statistiques, mais ne sont pas les seuls utiles !

Proposition 3.1 (Somme de gaussiennes). Si X et Y sont des variables aléatoires indépendantes et de lois normales, alors pour tous réels a, b et c avec a ou b non nuls, la variable aléatoire aX + bY + c suit une loi normale d’espérance aE(X) + bE(Y ) + c et de variance a²var (X) + b²var (Y ).

Proposition 3.2 (TCL). Soit (X_n) une suite de variables aléatoires indépendantes et de même loi telle que E(X₁²) < ∞. On note m = E(X1), σ² = var (X1) et ¯Xn = (X1 + · · · + Xn)/n. Alors, pour