Universit´e Claude Bernard Lyon 1 Ann´ee universitaire 2011-2012
EADM Appronfondissements 2 Chaˆınes de Markov et applications
Simulations des lois usuelles
F. Bienven¨ ue-Duheille
Chapitre 1
Chaˆınes de Markov
1 D´ efinitions
1.1 Le mod` ele
On dispose :
– d’un espace d’´etats, c’est-`a-dire d’un ensemble E fini ou d´enombrable, – d’une loi de probabilit´e µ0 sur E qui jouera le rˆole de loi initiale,
– des probabilit´es de transition (ou de passage) de x vers y, c’est-`a-dire d’une famille (p(x, y))(x,y)∈E2 de nombres r´eels positifs v´erifiant
X
y∈E
p(x, y) = 1.
Remarque : Lorsque l’espace d’´etats E est fini (en particulier si E = {1, . . . , K} pour un certain entier K), les (p(x, y)) peuvent ˆetre ´ecrits sous la forme d’une matrice, appel´ee matrice de transition, et dans ce cas, les « sommes en ligne » de cette matrice doivent toutes ˆetre ´egales `a 1. On dit que cette matrice est stochastique. Chaque ligne de cette matrice repr´esente les poids d’une mesure de probabilit´e sur l’espace d’´etats E.
D´efinition 1.1. Une chaˆıne de Markov (Xn)n≥0 sur E, de loi initiale µ0, de probabilit´es de transition (p(x, y))x,y est une suite de variables al´eatoires `a valeurs dans E telle que
1. pour tout x ∈ E, P(X0 = x) = µ0(x),
2. pour tout n ≥ 1 et pour tout (n + 1)-uplet (x0, x1, . . . , xn) ∈ En+1, on a
P(X0 = x0, X1 = x1, . . . , Xn= xn) = µ0(x0)p(x0, x1)p(x1, x2) . . . p(xn−1, xn).
En particulier, on aura p(x, y) = P(X1 = y|X0 = x) = P(Xn+1= y|Xn= x).
On notera par la suite p(n)(x, y) = P(Xn = y|X0 = x) = P(Xn+k = y|Xk = x), c’est-`a-dire la probabilit´e de passer de l’´etat x `a l’´etat y en n ´etapes.
Remarque : La notation des probabilit´es conditionnelles dans le cadre des chaˆınes de Markov sera syst´ematiquement du type P(A|B) et non PB(A) car l’´ev´enement B sera souvent trop lourd `a ´ecrire pour ˆetre mis en indice.
Dans la suite de ce cours, E d´esignera un ensemble fini ou d´enombrable et (p(x, y))x,y∈E des probabilit´es de transition. On notera fr´equemment Π la matrice de transition asso- ci´ee, ce qui suppose d’avoir ordonn´e les ´el´ements de E.
Exemples :
– Le concept de chaˆıne de Markov a ´et´e invent´e par le math´ematicien russe Andrei Markov (1856- 1922) qui a ´etudi´e la succession des lettres dans le roman Eug`ene On´eguine de Pouchkine.
– Une suite de variables al´eatoires ind´ependantes et identiquement distribu´ees constitue une chaˆıne de Markov (le v´erifier !), mais ce n’est ´evidemment pas un cas g´en´erique.
– Le nombre de succ`es cons´ecutifs dans un sch´ema de Bernoulli forme une chaˆıne de Markov.
– On peut mod´eliser le niveau de stock de produits (avec par exemple un r´eapprovisionnement d`es que le stock est inf´erieur `a un seuil), l’´etat d’une machine (fonctionnement/panne/r´eparation), la sant´e d’un individu (sain/malade/mort, avec ´eventuellement diff´erents niveaux de gravit´e de la maladie).
– On peut ´egalement utiliser une chaˆıne de Markov pour mod´eliser le temps qu’il fait. Les ´etats seront alors par exemple : beau, nuageux, pluvieux. Dans le mod`ele le plus simple, le temps d’un jour donn´e ne d´epend que du temps de la veille. On peut ´egalement envisager une mo- d´elisation faisant intervenir le temps de deux jours successifs (ou plus). Les ´etats seront alors les neuf couples (beau, beau), (beau, nuageux), (beau, pluvieux), (nuageux, beau), ... , la pre- mi`ere coordonn´ee d´esignant le temps de l’avant-veille et la deuxi`eme le temps de la veille. Un certain nombre de transitions est alors impossible (par exemple de (beau, beau) vers (pluvieux, pluvieux)). Pourquoi ? Lister les diff´erentes transitions possibles.
La proposition suivante permet de caract´eriser les chaˆınes de Markov.
Proposition 1.2 (Propri´et´e de Markov). Une suite de variables al´eatoires (Xn)n≥0 est une chaˆıne de Markov de probabilit´es de transition (p(x, y)) si et seulement si, pour tout n ≥ 0 et tout (n + 2)–uplet (x0, x1, . . . , xn, xn+1) de En+2 tel que P(Xn= xn, . . . , X1 = x1, X0 = x0) > 0, on a
P(Xn+1 = xn+1|Xn= xn, . . . , X1 = x1, X0 = x0) = P(Xn+1 = xn+1|Xn= xn) = p(xn, xn+1). (1.1) Remarque : La proposition pr´ec´edente peut tout `a fait ˆetre utilis´ee comme d´efinition d’une chaˆıne de Markov !
La proposition signifie concr`etement que la loi des trajectoires dans le futur d’une chaˆıne de Markov conditionn´ee par le pass´e et le pr´esent de la chaˆıne est la mˆeme que la loi du futur de cette chaˆıne, conditionn´ee uniquement par l’´etat pr´esent. Le chemin parcouru pour arriver `a un ´etat donn´e ne modifie pas la loi du futur sachant l’´etat de la chaˆıne `a l’instant n. Pour v´erifier qu’une suite de variables al´eatoires est une chaˆıne de Markov, il ne suffit pas de v´erifier que les probabilit´es conditionnelles P(Xn+1 = y|Xn= x) ne d´ependent pas du rang n !
Preuve de la proposition 1.2 : Supposons qu’une suite (Xn)n≥0 de variables al´eatoires v´erifie l’´ega- lit´e 1.1 ci-dessus, pour tout (n + 1)-uplet ; notons µ la loi de la variable al´eatoire X0 et montrons, par r´ecurrence sur n, que (Xn)n≥0 est une chaˆıne de Markov.
L’hypoth`ese de r´ecurrence Hn est :
(Hn) Pour tout (n + 1)-uplet (x0, . . . , xn) ∈ En+1,
P(X0 = x0, X1 = x1, . . . , Xn= xn) = µ(x0)p(x0, x1) . . . p(xn−1, xn) L’hypoth`ese H1 est bien v´erifi´ee puisque,
– pour tous (x0, x1) ∈ E2 tels que µ(x0) > 0 on a
P(X0 = x0, X1 = x1) = P(X1 = x1|X0 = x0)P(X0 = x0) = p(x0, x1)µ(x0).
– si µ(x0) = 0, on a pour tout x1 ∈ E
0 ≤ P(X0 = x0, X1 = x1) ≤ P(X0 = x0) = 0 = µ(x0)p(x0, x1)
Supposons maintenant que Hn est v´erifi´ee et prouvons que Hn+1 l’est ´egalement. Fixons un (n + 2)-uplet (x0, . . . , xn+1) ∈ En+2 tel que P(0= x0, X1 = x1, . . . , Xn= xn) > 0. On a
P(X0 = x0, X1 = x1, . . . , Xn = xn, Xn+1 = xn+1) =P(Xn+1 = xn+1|X0 = x0, X1 = x1, . . . , Xn = xn)
× P(X0 = x0, X1 = x1, . . . , Xn = xn).
L’´egalit´e 1.1 et l’hypoth`ese de r´ecurrence au rang n permettent maintenant d’´ecrire
P(X0 = x0, X1 = x1, . . . , Xn = xn, Xn+1 = xn+1) = µ(x0)p(x0, x1) . . . p(xn−1, xn)p(xn, xn+1).
Le cas P(0= x0, X1 = x1, . . . , Xn = xn) = 0 se traite de la mˆeme fa¸con que le cas µ(x0) = 0 dans l’initialisation de la r´ecurrence.
La preuve de la r´eciproque est laiss´ee en exercice.
Exercice :
1. On se donne une chaˆıne de Markov (Xn)n≥0 de mesure initiale µ0 et de probabilit´es de transition (p(x, y)). ´Ecrire la loi conjointe de (X0, X1), puis la loi de X1, puis celle de X2 `a l’aide de µ0 et des probabilit´es de transition.
2. On se place dans le cas o`u E = {1, . . . , K} pour un certain entier K. Si on note Π la matrice de transition V le vecteur dont la ii`emecoordonn´ee est µ(i), ´ecrire ces r´esultats de fa¸con matricielle.
3. Expliciter ´egalement E(f (X1)) pour toute fonction f : E → R positive ou born´ee.
Dans la suite, c’est les probabilit´es de transition qui seront importantes, beaucoup plus que la loi initiale. Le plus souvent, on parlera ainsi d’une chaˆıne de Markov de probabilit´es de transition donn´ees, sans pr´eciser la loi initiale. N´eanmoins, on utilisera les notations suivantes pour sp´ecifier la loi initiale :
– Si e ∈ E est un ´etat, Pe d´esignera la mesure de probabilit´e se rapportant `a la chaˆıne v´erifiant X0 = e presque sˆurement. On a ainsi Pe(Xn = x) = P(Xn = x|X0 = e), et en particulier Pe(X0 = x) = 1 si x = e et 0 sinon et Pe(X1 = x) = p(e, x).
– Si µ est une mesure sur E, Pµ d´esignera la loi de la chaˆıne de mesure initiale µ. On aura donc Pµ(X0 = x) = µ(x) et Pµ(X1 = x) =P
y∈Eµ(y)p(y, x).
De fa¸con similaire, lorsque l’on calcule des esp´erances, on ´ecrit Ee ou Eµ.
Le fait d’ˆetre une chaˆıne de Markov n’est pas stable par les op´erations habituelles (somme, pro- duit...). L’une des op´erations que l’on peut faire pour conserver le caract`ere markovien est d´ecrite dans la proposition suivante :
Proposition 1.3. Soit (Xn)n≥0une chaˆıne de Markov dont les probabilit´es de transition sont donn´ees par la matrice (´eventuellement infinie) Π = (p(x, y)). Alors la suite (X2n)n≥0 est une chaˆıne de Markov de probabilit´es de transition, not´ees Π(2) = (p(2)(x, y)), donn´ees par
p(2)(x, y) =X
z∈E
p(x, z)p(z, y).
Remarque : La matrice Π(2) est le carr´e de la matrice Π.
1.2 Les contraintes du mod` ele
Etudions pour une chaˆıne de Markov (X´ n)n≥0 sur un espace d’´etat E le temps pass´e dans un ´etat donn´e avant de le quitter. Supposons pour fixer les id´ees X0 = x p.s. et notons
T = inf{n ≥ 1, Xn 6= x}.
T − 1 est alors le temps pass´e en l’´etat x avant de le quitter. On a bien sˆur Px(T = 1) = Px(X1 6= x) = 1 − p(x, x) et plus g´en´eralement, pour n ≥ 2 :
Px(T = n) = Px(X1 = x, . . . , Xn−1 = x, Xn 6= x)
= Px(X1 = x, . . . , Xn−1 = x) − Px(X1 = x, . . . , Xn−1 = x, Xn= x)
= (p(x, x))n−1− (p(x, x))n = (p(x, x))n−1(1 − p(x, x))
La loi de T est donc une loi g´eom´etrique. C’est une loi sans m´emoire, qui v´erifie P(T ≥ n + k|T ≥ n) = P(T ≥ k).
Une possibilit´e pour ´eviter cela est de permettre que les probabilit´es de transitions d´ependent du temps n : la loi de (X0, . . . , Xn) est alors donn´ee par
P(X0 = x0, X1 = x1, . . . , Xn = xn) = µ0(x0)p(x0, x1, 1)p(x1, x2, 2) . . . p(xn−1, xn, n)
et on a p(x, y, n) = P(Xn = y|Xn−1 = x). On parle alors de chaˆıne de Markov inhomog`ene en temps, par opposition aux chaˆınes de Markov d´ecrites au paragraphe 1.1 qui sont dites homog`enes en temps.
Le probl`eme est alors que les r´esultats d´ecrits dans la suite de ce chapitre ne s’appliquent plus.
La seule m´ethode pour ´etudier de telles chaˆınes de Markov consiste `a effectuer des simulations infor- matiques.
1.3 Construction
Exercice : On se place sur un espace d’´etats E fini ou d´enombrable et on se donne – une fonction f : E × [0, 1] → E
– une variable al´eatoire X0 `a valeurs dans E
– une suite de variables al´eatoires (Un)n≥0 de loi uniforme sur [0, 1], ind´ependantes entre elles et ind´ependantes de X0.
On construit alors une suite (Xn) de variables al´eatoires en posant, pour tout n ≥ 1, Xn = f (Xn−1, Un). Montrer que la suite (Xn)n≥0 forme une chaˆıne de Markov. Quelles sont ses proba- bilit´es de transition ?
Etant donn´´ e une matrice de transition et une loi initiale, il est possible de construire une chaˆıne de Markov comme dans l’exercice :
Proposition 1.4. Soit (p(x, y)) des probabilit´es de transition sur un espace d’´etats E et µ0 une mesure de probabilit´e sur E. Alors il existe une fonction f : E × [0, 1] → R, une variable al´eatoire X0 de loi µ0 et une suite de variables al´eatoires Un de loi uniforme sur [0, 1] telles que la suite Xn d´efinie pour tout n ≥ 1 par Xn = f (Xn−1, Un) soit une chaˆıne de Markov de probabilit´e de transition (p(x, y)).
2 Propri´ et´ es
2.1 Irr´ eductiblit´ e
On se donne une chaˆıne de Markov (Xn)n≥0 sur un espace d’´etats E fini ou d´enombrable.
D´efinition 1.5. – Deux ´etats x et y communiquent s’il existe deux entiers n, m > 0 tels que P(Xn= y|X0 = x) > 0 et P(Xm = x|X0 = y) > 0.
– La chaˆıne sera dite irr´eductible si tous les ´etats communiquent.
L’irr´eductibilit´e traduit donc la possibilit´e de passer d’un ´etat `a tout autre, mˆeme avec une tr`es faible probabilit´e, et en autorisant toutes les longueurs de chemin.
Pour v´erifier qu’une chaˆıne de Markov est irr´eductible, il est souvent utile de dessiner un graphe orient´e dont les sommets sont les ´etats de la chaˆıne et o`u une arˆete repr´esente une transition possible (l’arˆete (x, y) existe uniquement si p(x, y) > 0).
Proposition 1.6. S’il existe un chemin ferm´e passant au moins une fois par tous les ´etats de la chaˆıne (on dit que le graphe est connexe), alors la chaˆıne est irr´eductible.
Remarques :
1. La r´eciproque de cette proposition est fausse si l’ensemble E est infini.
2. La notion d’irr´eductibilit´e d´epend uniquement des probabilit´es de transition, et non de la loi initiale.
2.2 Stationnarit´ e, r´ eversibilit´ e
D´efinition 1.7. Une mesure de probabilit´e µ est dite stationnaire pour les probabilit´es de transition (p(x, y)) si, pour tout x ∈ E, Pµ(X1 = x) = µ(x), c’est-`a-dire que si µ est la loi de X0, alors c’est aussi celle de X1, et de Xn pour tout n ≥ 1. De fa¸con pratique, une mesure µ, donn´ee par les µ(x), x ∈ E, est stationnaire pour (p(x, y)) si elle v´erifie
( P
x∈Eµ(x) = 1
∀x ∈ E, P
y∈Eµ(y)p(y, x) = µ(x). (1.2)
Attention : Si les p(x, y) sont dispos´es sous la forme d’une matrice not´ee Π (les x repr´esentant les lignes et les y les colonnes), µ est solution d’un syst`eme donn´e par les colonnes de cette matrice.
En fait, µ est tr`es exactement un vecteur propre de la transpos´ee de Π, associ´e `a la valeur propre 1.
Pourquoi 1 est-il toujours valeur propre de Π ?
Remarque : Si la loi de X0 est la mesure stationnaire (ou une mesure stationnaire s’il en existe plusieurs), les (Xn) forment une suite de variables al´eatoires identiquement distribu´ees (mais pas ind´ependantes en g´en´eral !).
Exercice : V´erifiez que la chaˆıne de Markov form´ee par une suite de variables al´eatoires ind´epen- dantes et identiquement distribu´ees est irr´eductible sur son support. Quelle est la mesure station- naire ?
D´efinition 1.8. Une chaˆıne de Markov est dite r´eversible s’il existe une mesure de probabilit´e µ sur E telle que, pour tous x, y ∈ E,
µ(x)p(x, y) = µ(y)p(y, x)
Proposition 1.9. Si une mesure de probabilit´e est r´eversible pour la matrice de transition (p(x, y)), alors c’est une mesure stationnaire.
2.3 Transience, r´ ecurrence, p´ eriode
Une des questions importantes qui se posent face `a une chaˆıne de Markov est de savoir si, partant d’un point, on y revient avec probabilit´e 1. Autrement dit, si on se prom`ene en suivant une chaˆıne de Markov, est-on sˆur de repasser par son point de d´epart ? Pour ´etudier ces questions, on fixe donc un ´etat x ∈ E et on travaille avec la mesure Px, c’est-`a-dire que l’on a X0 = x p.s..
On notera τx l’instant du premier retour en x : τx = inf{n ≥ 1, Xn = x}. Si la chaˆıne ne repasse jamais par l’´etat x, c’est-`a-dire, si pour tout n ≥ 1, Xn 6= x, on pose τx = +∞.
D´efinition 1.10.
– L’´etat x est transient ou transitoire si Px(τx < ∞) < 1.
– L’´etat x est r´ecurrent si Px(τx < ∞) = 1.
– L’´etat x est r´ecurrent positif si Ex(τx) < ∞.
– L’´etat x est r´ecurrent nul si Px(τx < ∞) = 1 et Ex(τx) = ∞.
– La p´eriode de l’´etat x est le pgcd (plus grand commun diviseur) de toutes les longueurs de chemins reliant x `a lui-mˆeme, et parcourus avec une probabilit´e strictement positive. Lorsque le pgcd obtenu est ´egal `a 1, on dit que l’´etat x est ap´eriodique.
– Lorsque tous les ´etats d’une chaˆıne de Markov sont de la mˆeme nature, on dit que la chaˆıne est, selon le cas, transiente, r´ecurrente positive ou r´ecurrente nulle. On parle ´egalement de p´eriode de la chaˆıne si tous les ´etats ont la mˆeme p´eriode.
Attention : La r´ecurrence et la transience ne sont pas directement li´ees `a l’irr´eductibilit´e de la chaˆıne de Markov : la chaˆıne peut tout `a fait ˆetre irr´eductible sans qu’aucun de ses ´etats ne soit r´ecurrent.
2.4 Caract´ erisation de la r´ ecurrence/transience
Rappelons que l’on note p(n)(x, y) = Px(Xn = y) = P(Xn = y|X0 = x) et que p(n)(x, y) est le terme (x, y) de la matrice Πn. La proposition suivante permet de caract´eriser la r´ecurrence/transience d’un ´etat :
Th´eor`eme 1.11 (Caract´erisation de la r´ecurrente/transience). .
1. x est r´ecurrent ⇐⇒ Px(∃ une infinit´e d’indices n tels que Xn= x) = 1.
2. x est transient ⇐⇒ P
n≥1p(n)(x, x) < ∞.
3. x est r´ecurrent nul ⇐⇒ P
n≥1p(n)(x, x) = ∞ et limnp(n)(x, x) = 0.
4. Si x est r´ecurrent positif et ap´eriodique, p(n)(x, x) admet une limite strictement positive.
5. Si x est r´ecurrent positif et p´eriodique de p´eriode t, p(nt)(x, x) admet une limite strictement positive.
Preuve du point 1. Fixons un ´etat x.
Px(On revient au moins 2 fois en x) = Px(∪n{τx = n, Xn = x, ∃m > n, Xm = x})
= X
n
Px(τx = n, Xn= x, ∃m > n, Xm = x)
= X
n
Px(∃m > n, Xm = x|τx = n, Xn = x) × Px(τx = n, Xn = x)
= X
n
Px(∃m > n, Xm = x|Xn= x)Px(τx = n)
= X
n
Px(τx < ∞)Px(τx = n)
= (Px(τx < ∞))2
O`u utilise-t-on le caract`ere markovien ?
Plus g´en´eralement, Px(On revient au moins n fois en x) = (Px(τx < ∞))n. Comme les ´ev´enements {On revient au moins n fois en x} sont d´ecroissants, on a
Px(On revient une infinit´e de fois en x) = lim
n (Px(τx < ∞))n
Si x est r´ecurrent, Px(τx < ∞) = 1, on en d´eduit que la chaˆıne issue de x repasse presque sˆurement en x une infinit´e de fois.
Si x est transient, on obtient que la probabilit´e que la chaˆıne repasse une infinit´e de fois en x est nulle.
Preuve du point 2.
• Supposons que P
np(n)(x, x) < ∞. On a donc limN
X
n≥N
P(Xn = x) = 0.
On en d´eduit que
limN P [
n≥N
{Xn= x}
!
= 0 puis que
Px \
N
[
n≥N
{Xn= x}
!
= 0.
L’´ev´enement pr´ec´edent est l’ensemble :
{ω ∈ Ω; il existe une sous-suite infinie nk(ω) telle que Xnk(ω) = x},
ou, autrement dit, c’est l’ensemble des ω pour lesquels la suite (Xn(ω))n visite l’´etat x une infinit´e de fois.
Puisque cet ´ev´enement est de probabilit´e nulle, le point 1 implique que x est transient.
• Supposons maintenant que x est transient et notons Nx le nombre de passages de (Xn)n≥0 par x. En reprenant la preuve du point 1, on voit que Px{Nx ≥ l} = (Px(τx < ∞))l, c’est-`a-dire que Nx suit une loi g´eom´etrique sur N de param`etre 1 − Px(τx < ∞). En particulier, Ex(Nx) < ∞.
Or
Ex(Nx) = Ex X
n≥1
1Xn=x
!
= X
n≥1
Ex(1Xn=x)
= X
n≥1
p(n)(x, x).
On a donc ´equivalence entre transience d’un ´etat et convergence de la s´erie P
np(n)(x, x). Proposition 1.12. Si x et y sont deux ´etats qui communiquent, ils sont de mˆeme nature (r´ecurrents positifs, r´ecurrents nuls ou transients) et sont de mˆeme p´eriode.
Preuve : Soient x et y deux ´etats qui communiquent. Choisissons deux entiers N et M tels que α = p(N )(x, y) > 0 et β = p(M )(y, x) > 0.
Pour tout n positif, on a :
p(N +M +n)(x, x) ≥ p(N )(x, y)p(n)(y, y)p(M )(y, x) = αβp(n)(y, y) (1.3) et
p(N +M +n)(y, y) ≥ p(M )(y, x)p(n)(x, x)p(N )(x, y) = αβp(n)(x, x) (1.4) donc les s´eries P
np(n)(x, x) et P
np(n)(y, y) convergent ou divergent simultan´ement et la limite de p(n)(x, x) (ou de p(nt)(x, x)) lorsque n tend vers +∞ est non nulle si et seulement si la limite de p(n)(y, y) (ou de p(nt)(y, y)) est non nulle : x est r´ecurrent nul si et seulement si y l’est.
Passons maintenant `a l’´etude de la p´eriode.
Supposons que x soit de p´eriode t. Comme p(N +M )(x, x) ≥ p(N )(x, y)p(M )(y, x) > 0, N + M est n´ecessairement divisible par t. On en d´eduit que si n n’est pas un multiple de t, p(N +M +n)(x, x) = 0 ; puis en utilisant la relation 1.3, il vient que, toujours si n n’est pas un multiple de t, p(n)(y, y) = 0.
Donc la p´eriode de y est un multiple de celle de x : n´ecessairement, les deux p´eriodes sont ´egales.
On d´eduit imm´ediatement de la proposition pr´ec´edente le corollaire suivant :
Corollaire 1.13. Si la chaˆıne est irr´eductible, tous les ´etats de la chaˆıne sont de mˆeme nature et ont la mˆeme p´eriode. On parle alors suivant les cas de la r´ecurrence, la transience ou la p´eriode de la chaˆıne.
En particulier, si la matrice de transition comporte un terme non nul sur la diagonale, tous les
´etats sont ap´eriodiques.
3 Limites
Dans cette section, on se place dans le cas d’une chaˆıne de Markov (Xn) irr´eductible sur un espace d’´etats E fini ou d´enombrable, de probabilit´es de transition Π = (p(x, y)).
Rappelons que τx d´esigne le premier instant o`u la chaˆıne, issue de x repasse par l’´etat x. C’est une variable al´eatoire `a valeurs dans N∗∪ {+∞}. On note
ν(x) = 1 Ex(τx)
Remarquons que si l’´etat x est transient, τx est une variable al´eatoire qui vaut +∞ avec une probabilit´e non nulle, donc Ex(τx) = +∞ et ν(x) = 0.
Par d´efinition de la r´ecurrence nulle d’un ´etat, on a ´egalement ν(x) = 0 si x est r´ecurrent nul.
3.1 Th´ eor` eme ergodique
Th´eor`eme 1.14. 1. Si (Xn) est transiente ou r´ecurrente nulle, elle n’admet pas de probabilit´e invariante et ν(x) = 0 pour tout x ∈ E.
2. Quelle que soit la loi de X0, pour tout x ∈ E, on a 1
n
n
X
k=1
1Xk=x−→ ν(x)ps (1.5)
Le deuxi`eme point de ce th´eor`eme donne le comportement asymptotique de la fr´equence empirique avec laquelle la chaˆıne « visite » un ´etat donn´e : d`es que Ex(τx) < ∞, ce nombre de visites entre les instants 1 et n est asymptotiquement proportionnel `a n.
Th´eor`eme 1.15 (Th´eor`eme ergodique). Si (Xn) est une chaˆıne de Markov r´ecurrente positive et irr´eductible, on a
1. Pour tout x dans E, on a ν(x) > 0 ; ν d´efinit une mesure de probabilit´e sur E (c’est-`a-dire que P
xν(x) = 1) et c’est l’unique probabilit´e invariante de (Xn).
2. Pour toute mesure initiale et pour toute fonction f : E × E → R telle que Eν(|f (X0, X1)|) =X
x,y
|f (x, y)|ν(x)p(x, y) < ∞
on a
1 n
n
X
k=1
f (Xk−1, Xk)−→ Eps ν(f (X0, X1)) =X
x,y
f (x, y)ν(x)p(x, y)
Le deuxi`eme point du th´eor`eme 1.14 est un cas particulier du th´eor`eme 1.15 : l’´etat x ´etant fix´e, il suffit de consid´erer la fonction f d´efinie sur E × E par f (s, t) = 1t=x. On remarque ensuite que, puisque d’apr`es le point 1 de 1.15, ν est une mesure de probabilit´e stationnaire,
Eν(1X1=x) = Pν(X1 = x) = ν(x).
Remarque : La fonction f : E × E → R ci-dessus est souvent appel´ee « fonction de coˆut » ; elle repr´esente les coˆuts/gains associ´es `a une transition. La quantit´e P
k≤nf (Xk−1, Xk) sera alors le coˆut total du chemin de longueur n consid´er´e et P
k≤nf (Xk−1, Xk)/n est le coˆut empirique moyen d’une transition le long de ce chemin.
Ces th´eor`emes permettent de lier la r´ecurrence positive d’une chaˆıne (irr´eductible) `a l’existence d’une mesure stationnaire. On obtient les deux corollaires fondamentaux suivants :
Corollaire 1.16. Si la chaˆıne est irr´eductible, elle admet une mesure stationnaire si et seulement si la chaˆıne est r´ecurrente positive. Dans ce cas, la mesure stationnaire est unique et est donn´ee par ν.
Corollaire 1.17. Si la chaˆıne est irr´eductible sur un espace d’´etats finis, alors elle est r´ecurrente positive et son unique mesure stationnaire est ν.
Le th´eor`eme 1.15 peut ˆetre vu comme une extension de la loi forte des grands nombres : en effet, une suite (Xn) de variables al´eatoires ind´ependantes constitue une chaˆıne de Markov dont la mesure stationnaire est la loi de X0. En consid´erant une fonction f du type f (x, y) = g(x), o`u g : E → R est une fonction telle que
X
x
|g(x)|ν(x) < ∞
on retrouve pr´ecis´ement l’´enonc´e de la loi forte des grands nombres. Le r´esultat 1.15 est bien entendu plus g´en´eral puisqu’il concerne des suites de variables al´eatoires d´ependantes.
R´esum´e :
– Si la chaˆıne est irr´eductible, il existe au plus une mesure stationnaire.
– Si la chaˆıne est irr´eductible, il existe une mesure stationnaire µ si et seulement tous les ´etats sont r´ecurrents positifs et on a alors Ex(τx) = 1/µ(x), pour tout x ∈ E.
– En particulier si l’espace d’´etats est fini et si la chaˆıne est irr´eductible, tous les ´etats sont positivement r´ecurrents et de mˆeme p´eriode.
– Si la chaˆıne est irr´eductible et positivement r´ecurrente, pour toute mesure initiale et pour toute fonction f : E × E → R telle que Eν|f (X0, X1)| < ∞,
1 n
n
X
k=1
f (Xk−1, Xk)−→ Eps ν(f (X0, X1)) =X
x,y
f (x, y)ν(x)p(x, y)
Remarque : C’est le th´eor`eme ergodique qui permet d’affirmer l’existence et l’unicit´e de la mesure stationnaire d’une chaˆıne irr´eductible et r´ecurrence positive. N´eanmoins, dans la pratique, c’est les
´equations (1.2), page 5, qui permettront d’expliciter cette mesure stationnaire. Puis, `a partir de la mesure stationnaire, on calculera Ex(τx) et la fr´equence asymptotique de visite de l’´etat x.
3.2 Convergence en loi
Th´eor`eme 1.18. Si la chaˆıne (Xn) est irr´eductible, ap´eriodique et admet une mesure stationnaire ν, alors (Xn) converge en loi vers ν. C’est-`a-dire que pour toute loi initiale µ0 et pour tout x ∈ E, on
limn Pµ0(Xn = x) = ν(x).
3.3 Preuves partielles des r´ esultats de convergence
Commen¸cons par la preuve du corollaire 1.17. On admet pour le moment le th´eor`eme 1.14 et on somme sur x dans E la limite : on obtient que 1 = P
xν(x). Ainsi, ν n’est pas constamment nul donc, d’apr`es le th´eor`eme 1.14, la chaˆıne n’est pas transiente, ni r´ecurrente nulle. Elle ne peut ˆetre que r´ecurrente positive. Le th´eor`eme 1.15 permet de conclure que ν est la mesure invariante. Passons maintenant `a la preuve du th´eor`eme 1.14. Rappelons que (Xn) est une chaˆıne de Markov irr´eductible de probabilit´es de transition Π et que l’on pose, pour tout x ∈ E, ν(x) = 1/Ex(τx).
Lemme 1.19. Si la limite (1.5) du th´eor`eme 1.14 est v´erifi´ee et si Π admet une probabilit´e invariante µ, alors µ = ν.
En effet, puisque
1 n
n
X
k=1
1Xk=x
est domin´e par 1, on peut utiliser le th´eor`eme de convergence domin´e de Lebesgue en int´egrant par rapport `a Eµ. On obtient
Eµ 1 n
n
X
k=1
1Xk=x
!
= 1 n
X
k≤n
Pµ(Xk = x) −→ ν(x)
La stationnarit´e de µ implique que, pour tout k, Pµ(Xk = x) = µ(x). Le membre de gauche ci-dessus est donc ´egal `a µ(x). On a donc µ = ν. En particulier, sous r´eserve que la limite (1.5) est v´erifi´ee, ceci prouve que, si la mesure stationnaire existe, elle est unique. Ceci termine la preuve du lemme 1.19.
Attaquons maintenant la preuve de la limite 1.5 et consid´erons dans un premier temps le cas des chaˆınes transientes.
Lemme 1.20. Supposons que la chaˆıne (Xn) est transiente. Alors la limite (1.5) est v´erifi´ee et la chaˆıne n’admet pas de mesure stationnaire.
En effet, la chaˆıne ´etant transiente, on a Ex(τx) = +∞ pour tout x, donc ν = 0 pour tout x ∈ E.
De plus, on a vu que, pour un ´etat transient, le nombre de visite de cet ´etat par la chaˆıne de Markov est fini presque sˆurement. On a donc p.s.
1 n
X
k≤n
1Xk=x −→ 0 = ν(x).
Le lemme 1.19 implique alors que la mesure stationnaire n’existe pas [La mesure nulle n’est pas une
mesure de probabilit´e !].
Il reste `a ´etudier le cas des chaˆınes r´ecurrentes.
Soit donc (Xn) une chaˆıne de Markov r´ecurrente. Notons Nnle nombre de visites de l’´etat x avant l’instant n :
Nn =X
k≤n
1Xk=x. Il faut montrer que la suite Nn/n tend p.s. vers 1/Ex(τx).
Consid´erons les instants successifs τj = τj,x de visites de l’´etat x par la chaˆıne puis tj = τj− τj−1. La chaˆıne ´etant r´ecurrente, le nombre de visites de l’´etat x par la chaˆıne est infini et donc les τj sont tous finis p.s.
Le caract`ere markovien implique que les (tj)j≤2 sont ind´ependants et identiquement distribu´es (de mˆeme loi que τ1 conditionnellement `a X0 = x). On utilise alors la loi forte des grands nombres :
τj j = 1
j X
i≤j
ti −→ Ex(τx).
On remarque alors que, par construction, τNn ≤ n < τNn+1. Donc τNn
Nn
≤ n Nn
< τNn+1 Nn+ 1
Nn+ 1 Nn
Or les Nn tendent vers +∞ : les (τNn) et les (τNn+1) constituent donc une sous-suite de la suite (τn).
On peut donc conclure que
n Nn
converge vers Ex(τx).
Chapitre 2 Simulation
1 Simulation des lois discr` etes usuelles
1.1 Principe des simulations
Le but d’une simulation informatique est d’obtenir un ´echantillon dont l’histogramme ressemble
`
a la r´epartition de la loi que l’on cherche `a ´etudier. Avec cet ´echantillon, on peut ensuite ´etudier un ph´enom`ene dont l’´evolution est dict´ee par cette loi (chaˆıne de Markov, pr´evision m´et´eo, mod´elisation d’un cours boursier...).
Les m´ethodes de simulation sont bas´ees sur une identit´e en loi entre la loi que l’on cherche `a simuler et une fonction d’une (ou plusieurs) variable(s) al´eatoire(s) de loi le plus souvent uniforme.
Supposons par exemple que l’on cherche `a cr´eer un ´echantillon relevant de la loi d’une variable al´eatoire X et que l’on connaisse explicitement une fonction φ : [0, 1] → R telle que, si U est de loi uniforme sur [0, 1], alors φ(U ) suit la mˆeme loi que X, c’est-`a-dire que X et φ(U ) ont la mˆeme fonction de r´epartition. Pour simuler un ´echantillon (xk)k≤n relevant de la loi de X, on se donne un
´echantillon (uk)k≤n relevant de la loi uniforme que [0, 1] et on pose, pour tout 1 ≤ k ≤ n, xk = φ(uk).
R`egle fondamentale : Pour simuler un ´echantillon (xk) `a partir d’un ´echantillon (uk), on n’utilise jamais deux fois la mˆeme valeur de l’´echantillon (uk), sinon les valeurs obtenues pour l’´echantillon (xk) sont li´ees entre elles.
Pour mettre en pratique ces diff´erents algorithmes de simulation, les fonctions associ´ees du logiciel OpenCalc sont d´ecrites : ce logiciel n’est ´evidemment si un logiciel math´ematique, ni un logiciel statistique, et si on souhaite ´eviter la d´efinition de macro, la programmation y est plus que limit´ee (pas de boucle par exemple). Ce choix de logiciel est donc fait uniquement dans la perspective des ´epreuves orales du CAPES, sachant que l’investissement demand´e pour l’utiliser est nettement moindre que pour un logiciel plus ´evolu´e ! D’autres logiciels (geogebra notamment seront utilis´es en TP.
Dans OpenCalc, la fonction ALEA() permet de g´en´erer un ´echantillon de taille 1 relevant de la loi uniforme sur [0, 1].
1.2 Loi discr` ete g´ en´ erique
On suppose que l’on cherche `a simuler la loi d’une variable al´eatoire X `a valeurs dans A = {a1, . . . , aJ}. On note, pour tout 1 ≤ j ≤ J, pj = P(X = aj) puis on consid`ere, les intervalles I1 = [0, p1] et, pour tout j ≥ 2 Ij =]p1 + . . . + pj−1, p1 + . . . + pj]. On d´efinit alors la fonction
φ : [0, 1] → A par
φ(u) =
J
X
j=1
aj1u∈Ij c’est-`a-dire que si u ∈ Ij, alors φ(u) = aj.
Alors, si U est de loi uniforme sur [0, 1], la variable al´eatoire φ(U ) est de mˆeme loi que X.
Pour simuler un ´echantillon relevant de la loi de X, on se donnera donc pr´ealablement un ´echan- tillon (uk)k≤n relevant de la loi uniforme sur [0, 1] puis on posera xk = φ(uk).
Preuve : La variable al´eatoire X ´etant discr`ete, sa loi est d´etermin´ee par A et les pj. La variable al´eatoire φ(U ), `a valeurs dans A, est ´egalement discr`ete. Il suffit donc de v´erifier que, pour tout j,
P(φ(U ) = aj) = pj. Donc X et φ(U ) sont de mˆeme loi.
Or {φ(U ) = aj} = {U ∈ Ij} donc P(φ(U ) = aj) = P(U ∈ Ij) = pj.
Remarque : Cette m´ethode s’adapte au cas o`u l’ensemble A est de cardinal infini. N´eanmoins, elle n’est pas utilis´ee dans ce cadre (sauf ´eventuellement de mani`ere th´eorique) : en effet, si A est infini, les pj sont arbitrairement petits et pour d´etecter dans quel intervalle Ij appartient la valeur u de l’´echantillon uniforme, il faut connaˆıtre cette valeur avec une pr´ecision arbitrairement grande. Par ailleurs, la fonction φ se programme par l’interm´ediaire de tests : il faut ainsi effectuer j tests si u ∈ Ij. Le nombre moyen de tests n´ecessaires est donc P jpj, qui croˆıt avec J .
La m´ethode ci-dessus s’applique `a tout type de loi discr`ete `a partir du moment o`u les pj ne sont pas trop petits : il ne faut pas descendre en de¸c`a de la pr´ecision des nombres al´eatoires fournis par l’ordinateur, en restant conscient que la partie la plus « al´eatoire » est celle constitu´ee par les premi`eres d´ecimales. Mˆeme si un nombre al´eatoire est fourni avec une pr´ecision de 10−20, la r´epartition des derni`eres d´ecimales est g´en´eralement loin d’ˆetre parfaite !
1.3 Loi de Bernoulli
Pour simuler la loi de Bernoulli de param`etre p ∈]0, 1[, on se donne un ´echantillon de loi uniforme sur [0, 1] et on pose xk = 1 si uk≤ p et xk = 0 sinon (ou alors, pour rester fid`ele `a la m´ethode d´ecrite au paragraphe pr´ecedent, xk = 1 si uk ≥ 1 − p et xk = 0).
Exemple avec un tableur pour simuler la loi de Bernoulli (0, 3) : a1=alea(), b1=SI(a1”≤ 0, 3”;1 ;0), ou directement a1=SI(ALEA()≤ 0, 3 ;1 ;0) puis recopier la premi`ere ligne le nombre de fois souhait´e.
1.4 Loi binomiale
La loi binomiale rentre ´egalement dans le cadre des loi d´ecrites dans le paragraphe 1.2, `a condition que les probabilit´es ne soient pas trop petites. N´eanmoins, on utilise souvent la m´ethode suivante bas´ee sur le lien entre variables de Bernoulli et variables al´eatoires binomiales : rappelons que la somme de K variables al´eatoires ind´ependantes, de loi de Bernoulli de probabilit´e p suit la loi binomiale de param`etres (K, p).
Pour simuler un ´echantillon de taille n relevant de la loi binomiale (K, p), on commence donc par simuler n ´echantillons de taille K relevant de la loi de Bernoulli (p), puis on somme les valeurs de chacun de ces n ´echantillons (avec un tableur : on simule n × K valeurs d’un ´echantillon de Bernoulli et on somme sur chacune des lignes.
Avec un tableur : sur les K premi`eres colonnes : SI(ALEA()≤ 0, 3 ;1 ;0), et sur la K + 1-`eme : la somme des K colonnes pr´ec´edentes.
Remarque : Sur OpenOffice, il existe la fonction CRITERE.LOI.BINOMIALE. Cette fonction est en fait la pseudo-inverse de la fonction de r´epartition de la loi binomiale :
CRITERE.LOI.BINOMIALE(n; p; α) renvoie le plus grand entier k tel que P(X ≤ k) ≤ α.
On peut v´erifier que CRITERE.LOI.BINOMIALE(n; p;ALEA()) fournit un g´en´erateur de la loi bi- nomiale (n, p).
1.5 Loi g´ eom´ etrique
La loi g´eom´etrique prenant ses valeurs sur N∗ tout entier, la m´ethode du paragraphe 1.2 est peu pertinente. Pour g´en´erer un ´echantillon relevant de la loi g´eom´etrique, on peut utiliser le lien reliant cette loi `a la loi de Bernoulli : le num´ero du tirage du premier succ`es dans un tirage de variables de Bernoulli ind´ependantes suit une loi g´eom´etrique.
Par exemple, si on a obtenu comme tirage de Bernoulli 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, on a g´en´er´e quatre valeurs d’un ´echantillon g´eom´etrique : 3,4,1,5.
Cette m´ethode n’est pas simple `a programmer avec un tableur. En voici une autre qui est bas´ee sur la loi exponentielle.
Si Y suit une loi exponentielle de param`etre 1, la variable X = [Y /α] + 1 suit une loi g´eom´etrique de param`etre p = 1 − e−α (o`u [.] d´esigne la partie enti`ere d’un nombre r´eel).
En effet, pour tout entier k ≥ 1,
P([Y /α] + 1 = k) = P((k − 1)α ≤ Y < kα) = e−(k−1)α− e−kα
Donc X suit la loi g´eom´etrique de param`etre (1 − e−α).
Pour simuler un ´echantillon (xk)k≤nrelevant de la loi g´eom´etrique de param`etre p, on g´en`ere donc un ´echantillon (yk)k≤nrelevant de la loi exponentielle de param`etre 1, puis on pose, pour tout k ≤ n, xk= [−yk/ ln(1 − p)] + 1.
1.6 Loi de Poisson
On peut v´erifier que si les (Yk) suivent des lois exponentielles de param`etre 1 et sont ind´ependantes, alors la variable al´eatoire d´efinie par X = inf{k, Y1 + · · · Yk ≥ λ} − 1 suit une loi de Poisson de param`etre λ.
Pour simuler une loi de Poisson avec un tableur : supposons que le param`etre de la loi de Poisson soit ´egal `a λ. On g´en`ere sur chaque ligne des sommes partielles d’´echantillons relevant de la loi exponentielle (voir plus loin : si U suit la loi uniforme sur [0, 1], − ln(U ) suit une loi exponentielle de param`etre 1), puis on compte combien de ces sommes partielles sont inf´erieures `a λ.
Le probl`eme est qu’on ne sait pas a priori quelle est la taille de l’´echantillon exponentiel n´ecessaire.
N´eanmoins, le tableur permet de calculer facilement les probabilit´es P(X ≤ k), tout au moins pour les premi`eres valeurs de k, et donc d’estimer la probabilit´e d’obtenir une valeur de l’´echantillon sup´erieure `a k, c’est-`a-dire n´ecessitant plus de k valeurs d’un ´echantillon exponentiel. On peut donc choisir k suffisamment grand pour que la probabilit´e d’observer une valeur de l’´echantillon sup´erieure
`
a k parmi l’´echantillon de taille n soit suffisamment petite.
Par exemple, si on souhaite g´en´erer un ´echantillon relevant de la loi de Poisson de param`etre 3, on remarque que P (X > 15) ∼ 10−7, donc si on simule un ´echantillon de taille 1000, la probabilit´e d’observer au moins une valeur de l’´echantillon sup´erieure `a 15 sera 1 − (1 − P (X > 15))1000 ∼ 10−4, que l’on consid`ere comme n´egligeable.
On g´en`ere sur les quinze colonnes B `a P les sommes partielles d’exponentielles, et on regarde en colonne A combien d’entre elles sont inf´erieures `a 3.
A1=NB.SI(B1 :P1 ;”<3”), B1= − ln(ALEA()), C2=B1− ln(ALEA()).... P1=O1− ln(ALEA())
2 Simulation des lois ` a densit´ e usuelles
2.1 Loi dont on sait inverser la fonction de r´ epartition
On se donne une variable al´eatoire X de densit´e f et de fonction de r´epartition F . Pour simplifier l’expos´e, on suppose que F est strictement croissante sur l’intervalle ]a, b[ avec F (a) = 0 et F (b) = 1, les valeurs a = −∞ et b = +∞ ´etant autoris´ees. La fonction de r´epartition F est alors continue et strictement croissante, donc bijective de ]a, b[ vers ]0, 1[.
D’apr`es la remarque initiale, pour simuler la loi d’une variable al´eatoire X `a partir d’une variable al´eatoire U de loi uniforme sur [0, 1], il suffit de trouver une fonction φ telle que, en loi, X = φ(U ).
Or, si la fonction φ est injective, pour tout x ∈ φ[0, 1], on a
P(φ(U ) ≤ x) = P(U ≤ φ−1(x)) = φ−1(x)
car φ−1(x) est un r´eel de [0, 1]. Si on veut que φ(U ) suive la loi de X, il faut que sa fonction de r´epartition soit ´egale `a la fonction de r´epartition de la loi de X, c’est-`a-dire que φ−1 = F , ou encore φ = F−1.
Donc, la variable al´eatoire F−1(U ) suit la loi de X.
Pour simuler un ´echantillon (xk)k≤n relevant de la loi de X, il suffit donc de disposer d’un ´echan- tillon (uk)k≤n relevant de la loi uniforme puis de poser, pour tout k, xk = F−1(uk).
L’inconv´enient majeur de cette m´ethode r´eside dans le calcul de F−1 : la fonction F−1 doit ˆetre explicite, ce qui est loin d’ˆetre toujours le cas. N´eanmoins, du point de vue num´erique, c’est une m´ethode tout `a fait acceptable : sur OpenOffice par exemple, les fonctions r´eciproques des lois usuelles `a densit´e (normale, Student, Fisher...) sont implant´ees. Vu la simplicit´e de mise en oeuvre de cette m´ethode, il ne faut pas h´esiter `a l’utiliser !
2.2 Loi uniforme sur un intervalle
Les logiciels produisent classiquement des nombres al´eatoires sur [0, 1], en utilisant diff´erents algorithmes, certains ´etant bas´es sur des relations congruencielles, d’autres s’appuient sur des ph´eno- m`enes physiques. Nous ne nous soucions pas ici de la qualit´e de ces g´en´erateurs, mˆeme s’il s’agit d’une question importante et souvent n´eglig´ee par les concepteurs de logiciels : Excel, jusqu’`a des versions relativement r´ecentes, ´etait r´eput´e pour la mauvaise qualit´e de son g´en´erateur al´eatoire ! Tant que l’on ne g´en`ere pas de trop gros ´echantillons, cette faiblesse passe inaper¸cue.
Pour passer d’un ´echantillon uniforme (uk)k≤nsur [0, 1] `a un ´echantillon (xk)k≤nuniforme sur [a, b], on utilise une fonction affine : xk= a + (b − a)uk. Autrement dit, sur Openoffice : a+(b-a)*ALEA().
Pourquoi l’´echantillon obtenu en posant a ∗ (1 − ALEA()) + b ∗ ALEA() ne constitue-t-il pas un
´echantillon relevant de la loi uniforme sur [a, b] ?
2.3 Loi exponentielle
Inversons la fonction de r´epartition de la loi exponentielle d’esp´erance 1/λ. La densit´e de cette loi est λe−λx1R+, donc sa fonction de r´epartition est la fonction F d´efinie sur R par F (x) = 1 − e−λx1R+. On a donc, pour tout u ∈ [0, 1], F−1(u) = −λ1 ln(1 − u).
On peut remarquer que si U suit la loi uniforme sur [0, 1], la variable al´eatoire 1 − U est ´egalement de loi uniforme sur [0, 1], donc pour simuler un ´echantillon (xk)k≤n relevant de la loi exponentielle d’esp´erance 1/λ `a partir d’un ´echantillon (uk)k≤n relevant de la loi uniforme sur [0, 1], on peut donc poser pour tout k, xk = −λ1ln uk.
2.4 Loi normale
La fonction r´eciproque de la fonction de r´epartition de la loi normale ´etant impl´ement´ee sous OpenOffice, pour g´en´erer un ´echantillon relevant de la loi normale de moyenne m et d’´ecart-type σ, il suffit d’´ecrire LOI.NORMALE.INVERSE(ALEA() ;m ;σ)
Il existe dans la litt´erature d’autres g´en´erateurs de la loi normale (Box-Muller, m´ethode polaire, ou m´ethode du rejet par exemple), qui ont pour point commun de g´en´erer un ´echantillon relevant de la loi normale centr´ee r´eduite. Rappelons `a toutes fins utiles que si X suit la loi normale centr´ee r´eduite, σX + m suit la loi normale d’esp´erance m et d’´ecart-type σ.
Une m´ethode parmi d’autres de simulation de la loi normale centr´ee r´eduite : la m´ethode de Box-Muller.
On se donne deux variables al´eatoires U et V ind´ependantes et de loi uniforme. Alors le couple (X, Y ) d´efini par
X =√
−2 ln U cos(2πV ), Y =√
−2 ln U sin(2πV )
est un couple form´e de deux variables al´eatoires normales centr´ee r´eduites ind´ependantes.
Pour le v´erifier, on se donne une fonction h : R2 → R continue et born´ee. On a alors E(h(X, Y )) =
Z 1 0
Z 1 0
h√
−2 ln u cos(2πv),√
−2 ln u sin(2πv)
du dv On effectue tout d’abord un double changement de variables en posant r =√
−2 ln u et θ = 2πv. On a donc u = e−r2/2, du = −re−r2/2 dr et dv = dθ/(2π). On obtient
E(h(X, Y )) = Z +∞
0
Z 2π 0
h(r cos θ, r sin θ) re−r2/2dr dθ 2π . Un changement de variables en coordonn´ees polaire permet alors d’´ecrire que
E(h(X, Y )) = Z +∞
−∞
Z +∞
−∞
h(x, y)e−x2/2
√2π
e−y2/2
√2π dx dy
La loi du couple (X, Y ) est donc celle d’un couple de variables al´eatoires ind´ependantes et de loi normale centr´ee r´eduite.
Puisque (X, Y ) est un couple de variables al´eatoires ind´ependantes, et on peut former une suite de 2k variables al´eatoires ind´ependantes `a partir de k couples (Ui, Vi). Pour simuler un ´echantillon de taille 2k `a partir d’un ´echantillon uniforme (ui)i≤2k, on pose donc, pour tout i entre 1 et k
x2i−1=p−2 ln u2i−1cos(2πu2i) et x2i =p−2 ln u2i−1sin(2πu2i)
Remarque : On utilise le mˆeme couple (u2i−1, u2i) pour simuler deux valeurs de l’´echantillon gaussien : cela est permis car les variables al´eatoires X et Y sont ind´ependantes.
3 Simulation des chaˆınes de Markov
3.1 Pourquoi faire
Lorsque l’on simule un ´echantillon al´eatoire, on r´ep`ete g´en´eralement un certain nombre k de fois la mˆeme op´eration, et on obtient un ´echantillon de taille k, c’est-`a-dire k nombres r´epartis suivant une loi fix´ee.
Pour simuler une chaˆıne de Markov, l’objectif est diff´erent : il faut simuler les chemins X0 → X1 → . . . → Xn. Un ´echantillon de taille 1 est donc un chemin, dont on fixe a priori la longueur n.
La simulation peut avoir plusieurs buts :
– Obtenir une estimation du coˆut moyen d’un chemin. Dans ce cas, un ´echantillon de taille 1 suffit, puisque Cn/n tend presque sˆurement vers Eµ(c(X0, X1)).
– Simuler la mesure stationnaire, en obtenir un histogramme ou faire des tests sur cette loi, sans la calculer explicitement. Pour n assez grand, Xnsuit « presque » la loi stationnaire, lorsque la chaˆıne est irr´eductible et ap´eriodique, et si cette loi existe. Pour obtenir une simulation de la mesure stationnaire, on peut donc simuler k chemins x0 → x1 → . . . → xn, en ne gardant que xn.
3.2 Les ingr´ edients
Il faut connaˆıtre la loi initiale et chacune des probabilit´es de transition.
La loi initiale n’est pas tr`es importante dans le cas des chaˆınes irr´eductibles et ap´eriodiques admettant une mesure stationnaire, puisque tr`es rapidement, la loi de Xn est tr`es proche de la loi stationnaire.
Il faut ´evidemment ´egalement disposer d’une liste suffisamment longue de nombres uniform´ement r´epartis sur [0, 1].
3.3 La recette
Pour obtenir un chemin simul´e, on commence par simuler l’´etat initial x0 suivant la loi initiale.
La loi de X1 sachant {X0 = x0} est ensuite donn´ee par p(x0, x) : P(X1 = x|X0 = x0) = p(x0, x) ; on simule donc une valeur suivant la loi donn´ee par la ligne x0 de la matrice de transition et on obtient une valeur x1. Pour simuler X2, on recommence de la mˆeme fa¸con, mais avec la loi donn´ee par la ligne x1 de la matrice de transition et ainsi de suite, jusqu’`a obtenir le chemin de longueur d´esir´ee.
Attention : Mˆeme si la loi initiale est la mesure stationnaire µ, cela ne revient pas du tout au mˆeme de simuler n fois µ (comme on le ferait pour obtenir un ´echantillon « standard »), et de simuler le chemin de la chaˆıne de Markov, pour lequel il peut y avoir par exemple des transitions interdites.
Pour simuler des lois discr`etes : Nous d´ecrivons ici comment simuler une loi discr`ete ν sur {1, . . . , m}, donn´ee par p1 = ν(1), . . . , pm = ν(m).
Pour obtenir un ´echantillon de taille 1, on d´ecoupe l’intervalle [0, 1] en m sous-intervalles de longueur p1, p2, . . . , pm. On a ainsi par exemple I1 = [0, p1[, I2 = [p1, p1+ p2[, . . ., Im−1 = [p1+ . . . + pm−2, p1+ . . . + pm−1[ et Im = [1 − pm, 1]. On prend une valeur u (la premi`ere valeur) de l’´echantillon uniforme, et si u appartient `a l’intervalle Ij, on pose x1 = j.
Pour obtenir un ´echantillon de taille k, on recommence k fois l’op´eration pr´ec´edente, en renouve- lant le tirage de la valeur uniforme : on utilise successivement u1, u2, . . ., uk.
En r´esum´e, le plus simple est de commencer par d´ecrire la m´ethode de simulation choisie, pour chacune des lois dont on va avoir besoin : la loi initiale, puis la loi donn´ee par chacune des lignes de la matrice. On proc`ede alors `a la simulation en utilisant l’´echantillon uniforme, sans reprendre deux fois le mˆeme ui. Si on a besoin de plusieurs chemins, on applique autant de fois qu’il le faut la m´ethode, en utilisant `a chaque fois des ´echantillon uniformes disjoints : par exemple les n + 1 premi`eres valeurs de l’´echantillon uniforme permettront de construire le premier chemin de longueur n, les n + 1 valeurs suivantes le deuxi`eme chemin et ainsi de suite.
Chapitre 3
Un peu de stat
1 Notion de test statistique
1.1 Principe
Un test statistique est un outil d’aide `a la d´ecision.
On dispose d’un ´echantillon (x1, . . . , xn) relevant de la loi d’une variable al´eatoire X. La loi de X n’est g´en´eralement pas compl`etement d´etermin´ee et on cherche `a obtenir une information sur les param`etres de cette loi `a partir des valeurs observ´ees sur l’´echantillon.
On est ainsi amen´e `a formuler une hypoth`ese, not´ee H0 sur la loi de X. L’hypoth`ese contraire sera not´ee H1. Ces deux hypoth`eses ne jouent pas un rˆole sym´etrique : l’hypoth`ese que l’on pense vraie est H0.
On se donne alors une suite de variables al´eatoires (X1, . . . , Xn) ind´ependantes et de mˆeme loi que X et on construit, pour tout n, une fonction φ de Rn dans R appel´ee statistique de test telle que l’on connaˆıt la loi de φ(X1, . . . , Xn) si X v´erifie l’hypoth`ese H0. Puisque l’on connaˆıt la loi de φ(X1, . . . , Xn), pour tout α ∈]0, 1[, on peut trouver un intervalle [aα,n, bα,n] tel que φ(X1, . . . , Xn) appartienne `a [aα,n, bα,n] avec une probabilit´e (sup´erieure `a ) 1 − α.
Cet intervalle s’appelle la zone d’acceptation du test, son compl´ementaire ´etant la zone de rejet.
On est alors en mesure de conclure : on fixe un risque α (par exemple α = 0.05), on d´etermine la zone d’acceptation et on calcule φobs = φ(n, x1, . . . , xn). Si φobs appartient `a la zone de rejet, on conclut que le test de risque α conduit `a rejeter l’hypoth`ese H0; sinon, on conclut que ce test de risque α ne permet pas de rejeter H0. Dans le langage courant, on dira que les donn´ees observ´ees ne sont significativement pas diff´erentes de ce qu’on attend pour un ´echantillon relevant d’une loi satisfaisant H0.
1.2 Mise en œuvre
La mise en pratique d’un test statistique doit ˆetre rigoureusement appliqu´ee (et r´edig´ee !) On distingue ainsi les ´etapes suivantes :
1. Recueil des donn´ees : ´echantillon (xk)k≤n
2. Formulation des hypoth`eses H0 et H1
3. Choix du risque α
4. Choix du test : il peut arriver que plusieurs tests permettent de tester la mˆeme hypoth`ese. Il convient dans ce cas de choisir le test « le plus puissant » (voir 1.3)
5. Statistique de test, loi de la statistique de test 6. D´etermination de la zone d’acceptation
7. Calcul de la statistique observ´ee sur l’´echantillon 8. Conclusion du test
1.3 Risque et puissance d’un test
Le risque α, appel´e ´egalement risque de premi`ere esp`ece, repr´esente la probabilit´e de rejeter l’hypoth`ese alors que X la v´erifie : rejeter H0 alors qu’elle est vraie peut sembler contradictoire de prime abord, mais la zone d’acceptation est construire de telle fa¸con que, si X v´erifie l’hypoth`ese, la statistique de test appartient `a la zone d’acceptation avec probabilit´e 1 − α. La probabilit´e pour que la statistique de test soit dans la zone de rejet est donc ´egale `a α.
On pr´ef`ererait bien entendu ne rejeter H0 que lorsque X ne v´erifie pas cette hypoth`ese, mais ce n’est pas concr`etement r´ealisable : cela revient `a prendre un risque α nul, et la zone d’acceptation n’est alors plus born´ee. Autrement dit, dans ce cas, on accepte toujours l’hypoth`ese H0, quelle que soit la loi de X, donc le test ne sert `a rien.
Concr`etement, si l’on proc`ede `a N tests sur des ´echantillons relevant de la loi de X v´erifiant H0, on rejettera environ N × α fois l’hypoth`ese.
De fa¸con similaire, ce n’est pas parce qu’on accepte H0 que la loi de X la v´erifie vraiment.
Imaginons par exemple que l’hypoth`ese H0 soit « X est d’esp´erance 3 » et que l’on ait obtenu l’´echantillon en simulant une loi d’esp´erance 3, 001. Il est fort vraisemblable (tout au moins si la taille de l’´echantillon est petite) que le test ne permettra pas de discriminer 3 et 3, 001, donc on acceptera H0. Ce probl`eme est li´e `a la puissance du test : plus le test est « puissant », mieux il discrimine les hypoth`eses H0 et H1. Grosso modo, plus le test est pr´ecis, plus il est puissant : par exemple un test permettant de tester la moyenne d’un ´echantillon gaussien de variance connue sera plus pr´ecis qu’un test permettant de tester la moyenne d’un ´echantillon gaussien, lui-mˆeme plus puissant qu’un test permettant de tester la moyenne d’un ´echantillon dont la loi n’est pas pr´ecis´ee.
Le risque d’accepter H0 alors que la loi de X ne v´erifie pas cette hypoth`ese est appeler « risque de deuxi`eme esp`ece » et est g´en´eralement not´e β. Ce risque est plus compliqu´e `a quantifier que α : en effet, d´eterminer la probabilit´e d’accepter H0 alors qu’elle est fausse suppose que l’on est capable de construire une probabilit´e sur l’ensemble des lois de variables al´eatoires ne v´erifiant pas H0, ce qui n’est pas simple `a conceptualiser.
On peut regrouper ces questions dans le tableau suivant :
``r´eponse du test`````````````
H0
vraie fausse
acceptation OK β
rejet α OK
2 Tests sur la moyenne
2.1 R´ esultats utilis´ es
Les deux r´esultats ´enonc´es ci-dessous sont fondamentaux dans (tous) les th´eor`emes statistiques, mais ne sont pas les seuls utiles !
Proposition 3.1 (Somme de gaussiennes). Si X et Y sont des variables al´eatoires ind´ependantes et de lois normales, alors pour tous r´eels a, b et c avec a ou b non nuls, la variable al´eatoire aX + bY + c suit une loi normale d’esp´erance aE(X) + bE(Y ) + c et de variance a2var (X) + b2var (Y ).
Proposition 3.2 (TCL). Soit (Xn) une suite de variables al´eatoires ind´ependantes et de mˆeme loi telle que E(X12) < ∞. On note m = E(X1), σ2 = var (X1) et ¯Xn = (X1 + · · · + Xn)/n. Alors, pour