Chaînes de Markov (et applications)
Raphael Lachieze-Rey∗ 25 avril 2016
M1 Paris Descartes.
Table des matières
1 Chaînes de Markov homogènes 2
1.1 Exemples et définitions . . . . 2
1.2 Loi desXn . . . . 2
2 Temps d’absorption 3 2.1 Temps d’arrêt . . . . 3
2.2 Probabilités et temps d’absorptions . . . . 4
3 Classification des états 5 3.1 Récurrence et transience . . . . 5
4 Distributions invariantes 6 4.1 Convergence à l’équilibre . . . . 8
4.2 Théorème ergodique . . . . 9
5 Chaines de Markov et simulation 9 5.1 Algorithme Hit-and-run . . . . 9
5.2 Algorithme de Metropolis . . . . 10
6 Chaînes de Markov en temps continu, processus de Poisson 11 6.1 Lois sans mémoire . . . . 11
6.2 Processus de Poisson . . . . 11
6.3 Générateur infinitésimal . . . . 12
6.4 Processus de Poisson composé . . . . 12
(Ω,P)est un espace probabilisé.
1 Chaînes de Markov homogènes
1.1 Exemples et définitions
Définition 1. Formellement, soit E un espace fini ou dénombrable. Ce sera l’espace d’états. Soit X ={Xn;n≥0}une suite de variables aléatoires à va- leurs dansE. On dit queXest une chaîne de Markov si, pour toutx1, . . . , xn+1∈ E, on a
P(Xn+1=xn+1
| {z }
Le futur
|X1=x1, X2=x2, . . . , Xn=xn
| {z }
Le passé (et le présent)
) =P(Xn+1=xn+1
| {z }
Le futur
| Xn=xn
| {z }
Le présent
)
Cette propriété des chaînes de Markov est aussi connue comme propriété de Markov.
Définition 2. On dit qu’une matrice Q(éventuellement infinie) est stochas- tiquessi tous ses coefficients sont ≥0 et si la somme de chaque ligne fait1 :
∀x∈E,
X
y∈E
Q(x, y) = 1.
On dit aussimatrice markovienne.
Proposition 1. SiQest la matrice de transition d’une chaîne de Markov, alors elle est stochastique.
Etant donné une matrice stochastiqueQ, il existe une chaîne de Markov de matrice de transition Q. Etant donné x ∈ E, la suite de variables aléatoires définie récursivement parX0=x,
P(Xn+1=y|Xn=x, Xn−1, . . . , X0) =Q(x, y) est une chaîne de Markov de matrice de transitionQ.
1.2 Loi des Xn
On appelleµ0 laloi initiale deX, définie par µ0(x) =P(X0=x).
Connaissantµ0 et Q, on peut calculer directement la loi de Xn. Proposition 2. Pour toute suite {x0, x1, . . . , xn} dansE, on a
P(X0=x0, X1=x1,X2=x2, . . . , Xn=xn)
=µ0(x0)Q(x0, x1)Q(x1, x2). . . Q(xn−1, xn).
Notation 1. Pour une mesureµ0 et une matriceQ, on note la mesure (µ0Q)(y) =X
x∈E
µ0(x)Q(x, y).
Cela revient à multiplier (matriciellement) la mesureµ0vue comme un vecteur µ0= (µ0(x1), µ0(x2), . . .)par la matriceQ.
Proposition 3. Si µes la loi deX0, alors(µQ)est la loi deX1.
Pour une même chaîneX, on considère souvent plusieurs lois initiales diffé- rentes. Dans ce cas on précise la loi utilisée en notant
P=Pµ
dans chaque calcul de probabilité, et l’espérance est alors notéeEx. Si la loi est un “Dirac” µ=δx pour un certainx∈E (ce qui veut direX0 =xp.s.), alors on note plus simplementPδx =Px,Eδx =Ex.
Proposition 4. Pour tout n, la loi deXn estµQn. Remarque 1. TRES IMPORTANT ! !
Qk(x, y)6=Q(x, y)k. membre de gauche : multiplication matricielle.
membre de droite : multiplication de réels (beaucoup plus facile).
Proposition 5. On a pour n≥0, k≥0
P(Xn+k =y|Xn=x) =Qk(x, y)
2 Temps d’absorption
2.1 Temps d’arrêt
Pourx∈E on définit le temps aléatoire
Tx= min{n≥0 : Xn=x}, premier moment ou la chaîne atteintx.
Définition 3. SoitT une variable aléatoire à valeurs dansN.T est un temps d’arrêt si pour tout n, l’évènement (T = n) dépend uniquement du passé, c’est-a-dire si l’évènement(T =n) est entièrement déterminé par les variables X1, . . . , Xn (c’est-à-dire mesurable par rapport àσ(X1, . . . , Xn)).
Exemple 1. Pourx∈E, le tempsTxest un temps d’arrêt : Pourn∈N, (Tx=n) = (X16=x, X26=x, . . . , Xn−16=x, Xn=x).
C’est bien un évènement qui est entièrement déterminé si on connait les valeurs deX1, . . . , Xn.
Proposition 6 (propriété de Markov forte ). Soit k≥1, et T un temps d’arrêt . Pourx, y∈E,
P(XT+k =y|XT =x) =P(Xk =y|X0=x) =Qk(x, y).
Proposition 7. Une autre manière de formuler la propriété de Markov est la suivante : Pour tout temps d’arrêtT, la chaîne
X0 = (X00 =XT, X10 =XT+1, . . .)
est une chaîne de Markov dont la matrice de transition est Q et la loi initiale estXT. De plus, la loi deX0 est indépendante de(X0, . . . , XT−1)conditionnel- lement àXT.
2.2 Probabilités et temps d’absorptions
Avec le langage introduit dans la section précédente, on s’intéresse pour A⊂E aux quantités
hA=P(TA<∞), kA=E(TA).
Remarquons que sihA6= 1, kA=∞, donc il faut calculerhA en premier, et ensuitekAsi ça a du sens.
Si l’on conditionne par l’état de départx∈E, on a
hAx =Px(TA<∞) Probabilité d’arriver un jour enAen partant de x , kAx =Ex(TA) Temps moyen pour y arriver.
SiA={y} est constitué d’un unique point, on noteh{y}x =hyx, kx{y}=kxy. Théorème 1. Si x /∈A, pour les calculer efficacement il faut se persuader des deux faits suivants :
hAx =X
y∈E
Q(x, y)hAy, pour tout x∈E
kxA= 1 +X
y∈E
Q(x, y)kAy, pour toutx∈E.
De plus, si ce système linéaire a plusieurs solutions,(hAx)x (resp.(kxA)x) est la plus petite solution positive du système vérifiant hAx = 1 (reps. kxA = 0) pour x∈A.
3 Classification des états
On dit qu’un étatx∈E mène à un étaty∈E si Px(∃n≥0, Xn=y)>0.
La probabilité de passer pary après être passée par x est non-nulle. On note dans ce cas
x y.
Six y ety x, on note
x!y et on dit quexet y communiquent.
il est facile de voir quex yssi il existe une suite d’étatsx0=x, x1, . . . , xk= y qui “mène” dexày et telle que Q(xm, xm+1)>0. On appelle un tel chemin un chemin probable. x y ssi∃n≥0tel que Qn(x, y)>0 .
Théorème 2. La relation !est une relation d’équivalence et on peut parti- tionnerE par l’ensemble des classes d’équivalences
E=∪x∈ECx
avecCx=Cy six!y, etCx∩Cy=∅ sinon.
3.1 Récurrence et transience
Définition 4. On rappelle queTxest le temps de 1er passage enx. Pourr≥0, on note
Tx(r) le temps der-ème retour enx, défini par récurrence par
Tx(0)=Tx; Tx(r+1)= inf{n > Tx(r):Xn=x}.
Définition 5. Un étatxest dit récurrent si la probabilité de retour est 1, c’est- à-dire si
Px(Tx(1)<∞) = 1.
Si cette propriété n’est pas vérifiée, on dit que l’état est transient.
Proposition 8. Pour tous x∈E, r≥0,Tx(r) est un temps d’arrêt.
On appeller-ème excursion
Sx(r)=Tx(r+1)−Tx(r)
le temps passé loin dexentre ler-ème et ler+ 1-ème passage.
Proposition 9. La loi de Sx(r) ne dépend pas der: Pour toutk≥1 P(Sx(r)=k) =P(Sx(1)=k) =Px(Tx=k).
De plus,Sx(r)est indépendante de(Xk;k≤Tx(r)). Les Sx(r), r>0, forment donc une suite de variables IID (indépendantes et identiquement distribuées).
Une autre manière de voir les choses est de considérer le nombre de visites en un pointxaprès0sachantX0=x:
Vx= #{n≥1 : Xn=x}=
∞
X
n=1
1Xn=x.
Proposition 10. x∈E est récurrent ssi pour toute loi initiale Vx=∞ p.s.
ssi
X
n≥0
Qn(x, x) =∞.
Théorème 3(Polya,1921). La marche aléatoire sur Zd est récurrente (en tous points) sid≤2 et transiente (en tous points) si d≥3.
Proposition 11. Au sein d’une même classe d’équivalence, les états sont soit tous récurrents, soit tous transients. On parle alors de classe récurrente ou de classe transiente.
Remarque 2. SiE est fini, il y a toujours au moins une classe récurrente. (Il est impossible que tous les états n’aient été visités qu’un nombre fini de fois en un temps infini).
Il peut y avoir plusieurs classes récurrentes.
Définition 6. On dit qu’une chaîne de Markov est irréductible si il n’y a qu’une seule classe.
4 Distributions invariantes
Définition 7. Soit µ une mesure sur E. On dit que µ est invariante pour la chaîne de MarkovX de matrice de transitionQsiµQ=µ.
µest une mesure invariante ssi pour toutx∈E µ(x) =X
y∈E
Q(y, x)µ(y).
Proposition 12. Siµ0 la distribution initiale est invariante, alors µ0 est éga- lement la distribution deX1, X2, . . ., c’est-à-dire pour tout x∈E
Pµ0(X1=x) =Pµ0(X2=x) =· · ·=µ0(x).
Proposition 13. On supposeE fini. On sait que pourx∈E, pour toutn≥0, µx,n= (Qn(x, y))y∈E= (Px(Xn =y))y∈E est une mesure de probabilité.
Si il existe x∈E et une mesure de probabilitéπtel que pour chaque y µx,n(y)→π(y),
alorsπ est une distribution invariante.
Théorème 4 (Admis). Toute chaîne de Markov irréductible récurrente admet au plus une mesure invariante à une constante multiplicative près (et donc au plus une probabilité invariante).
Proposition 14. Soit X une chaîne de Markov IR, et x∈E. On appelle µx
la mesure définie par
µx(y) =Ex(
Tx(1)
X
n=1
1Xn=y), y∈E
le nombre moyen de visites en y entre 2 passages en x. Alors pour tout x, µx
est une mesure invariante.
De plus,0< µx(y)<∞ pour toutx, y∈E.
Commeµxest une mesure invariante, si sa masse est finie, alors π(y) = µx(y)
µx(E), y∈E.
est une distribution invariante (et ne dépend pas dex).
On a
µx(E) =X
y∈E
Ex
Tx(1)
X
n=1
1Xn=y=Ex
Tx(1)
X
n=1
X
y
1Xn=y=Ex
Tx(1)
X
n=1
1 =ExTx(1).
On en déduit
π(y) = µx(y) ExTx(1)
Avecx=y, ça nous donne notamment une relation entre la valeur de la distri- bution invariante enxet le temps de retour moyen :
π(x) = 1 ExTx(1)
Même si c’est théoriquement intéressant,ExTx(1)(ouπx(y)) est dur à calculer en pratique : Il faut résoudre un systèmes de|E|équations a |E|inconnues.
Voici un outil plus pratique :
Proposition 15. On dit qu’une distribution µest réversible si µ(x)Q(x, y) =µ(y)Q(y, x), x, y∈E.
Toute distribution réversible est aussi invariante
Théorème 5. SoitX une chaîne de Markov irréductible. Alors on a les équi- valences suivantes :
(i)X admet une distribution invariante unique, définie par
π(x) = 1 Ex(Tx(1))
(ii) Tout étatxvérifie
Ex(Tx(1))<∞ (iii) Un étatxle vérifie.
Si X vérifie la condition (i) (ou de manière équivalente (ii) et (iii)), on dit queX estrécurrente positive, sinon on dit qu’elle estrécurrente nulle.
Théorème 6. SoitX une chaîne de Markov IR sur un espace d’états fini. Alors X est IRP.
4.1 Convergence à l’équilibre
Définition 8. Une chaîne irréductible est dite apériodique ssi pour toutx∈E Qn(x, x)>0 pournsuffisamment grand.
A l’inverse, pour une chaine périodique, il existe un entierp > 1 minimal, appelée période, tel que pour un certainx∈E et un certain entierk, pour tout n≥1,
Qk+np(x, x) = 0.
(admis)
Théorème 7. Une chaine est apériodique si pour un x∈E le pgcd de tous les tempsntels queQn(x, x)>0est 1.
Théorème 8(Convergence à l’équilibre). SoitX une chaîne de Markov IRPA.
Supposons queπsoit une distribution invariante pourX. Alors pour toutx∈E, Px(Xn=y)→π(y).
4.2 Théorème ergodique
Théorème 9(Théorème ergodique). SoitX une chaîne de Markov irréductible de distribution initiale une probabilitéµ0. Pourn≥1, on noteVx(n)le nombre de visites enxavant le tempsn
Vx(n) =
n
X
k=1
1Xk=x.
Alors pour tout étatx∈E p.s.
1
nVx(n) = 1 n
n
X
k=1
1Xk=x→ 1 Ex(Tx(1))
.
Remarque 3. Comme on a pas fait d’hypothèse de récurrence, cette dernière quantité peut être nulle.
5 Chaines de Markov et simulation
5.1 Algorithme Hit-and-run
Exercice 1 (Simulation de la loi uniforme, Hit-and-Run Algorithm). Soit A un sous-ensemble mesurable de Rd tel que λ(A) > 0, où λ est la mesure de Lebesgued-dimensionnelle. On rappelle qu’une variable uniforme surAa la loi
µA(dx) =λ(dx) λ(A).
Pour certains ensemblesA, les méthodes accept-or-reject sont très peu efficaces, typiquement lorsqueAest très “mince”, ou que la dimensiondest très grande.
Les chaines de Markov peuvent fournir une alternative.
Pour simplifier et parce qu’on travaille dans un cadre discret, on suppose ici queAest un sous-ensemble fini deZ2. On suppose de plus queA est connexe, où un point est relié à un autre ssi ils sont reliés par une arête deZ2.
On considère la suite de variables aléatoires au comportement suivant :
— X0∈A.
— A chaque tempsn, on choisit avec probabilité1/2la ligne sur laquelle se situe Xn ou la colonne sur laquelle se situeXn.
— On tire uniformémentXn+1∈Asur cette ligne ou cette colonne.
1. Identifier la matrice de transition Q et les propriétés de la chaîne de Markov .
2. Montrer que la distribution uniforme surAest invariante.
3. En déduire une manière de simuler approximativement une variable uni- forme surA. Quelle convergence a-t-on ?
4. Comment pourrait-on généraliser cette méthode dans le cadre continu (informel) ?
5.2 Algorithme de Metropolis
Etant donné une mesure de probabilitéπsur un espace E, le but de l’algo- rithme de Metropolis est de construire une chaine de MarkovX = (Xn) telle que la loi deXn converge versπ,
Xn
→L π.
On suppose sans perte de généralité que π(x) > 0 sur E (autrement il suffit d’ôter deEles points où πs’annule). Une manière pour approximerπde cette manière est de trouver une matrice stochastiqueQ(x, y)telle que la chaine de Markov correspondante soit IRPA etπest invariante pourQ. L’algorithme de Metropolis consiste en les étapes suivantes :
— Construire matrice de transition P(x, y) quelconque telle que la chaîne de Markov correspondante qui vit dans le bon espace d’états E soit ir- réductible apériodique. Il faut de plus queP soit symétrique :P(x, y) = P(y, x). Pour le bon fonctionnement de l’algorithme de simulation, il faut que la chaine de Markov correspondante soit facile à simuler, c’est-à-dire que la loi P(x,·)doit être facile à calculer.
— Tirer X1 suivant une loi quelconque µ (typiquement µ = δx pour une certaine configurationx∈E)
— Pour chaquen, tirerYn+1 suivant la loiP(Xn,·)(c’est-à-dire tirerYn+1
comme si(Xn, Yn+1, . . .)était une chaîne de Markov de matrice de tran- sitionP(x, y))
— TirerUn une variable de loi uniforme sur[0,1]indépendamment de(Xn) et (Yn).
— Siπ(Yn+1)/π(Xn)>Un, poserXn+1=Yn+1
— Sinon, garderXn+1=Xn.
En d’autre termes, on fait évoluer X = (Xn) comme une chaîne de Markov normale de matrice de transition P, à la différence qu’à chaque itération on ne garde la nouvelle valeur Xn+1 que si le nouveau ratio π(Xn+1)/π(Xn) est suffisamment élevé, autrement on laisse l’ancienne valeurXn+1=Xn.
Exercice 2. Pourquoi(Xn)est une chaîne de Markov (homogène) ? Quelle est sa matrice de transition ? Montrer qu’elle est irréductible et réversible. Qu’en déduisez-vous sur la limite de Xn? Par quel type plus général de condition peut-on remplacer
Un≤ π(Yn+1) π(Xn) ? Barker a proposé la condition
Un≤ π(Yn+1) π(Xn) +π(Yn+1)
6 Chaînes de Markov en temps continu, proces- sus de Poisson
6.1 Lois sans mémoire
Pourt, s>0,
P(T ∈[t, t+s])|T >t) =P(T ∈[0, s]).
Cette propriété caractérise ce qu’on appelle les lois sans mémoire, et il y a peu de solutions.
Exercice 3. Les seules variables aléatoires sans mémoire sont les variables exponentielles, c’est-a-dire avec fonction de distribution
P(T >t) = exp(−λt), t>0, oùλ >0est le paramètre de la loi.
6.2 Processus de Poisson
Le processus décrit précédemment est appelé le processus de Poisson. For- mellement, on le définit ainsi :
— Soitλ >0.
— Soit Ti, i > 1, une famille de variables aléatoires IID exponentielles de paramètre λ.
— SoitSn =Pn
k=1Tk, n>0(avecS0= 0),
— Pourt>0, on pose
X(t) = max{n:Sn 6t}= min{n:Sn+1 > t}=
∞
X
k=1
1{Sk6t}. Ce processus possède la propriété de Markov continue :
∀n>1,0< t1< t2<· · ·< tn, x1∈N, . . . , xn∈N, P(Xtn =mn|Xt1=x1, . . . , Xtn−1 =xn−1) =P(Xtn=mn|Xtn−1 =xn−1)
Au lieu de matrice de transition, on parle pour le processusXtde noyau de transitionQt(x, y), t >0, x, y∈N,
Qt(x, y) =P(Xt=y|X0=x).
Proposition 16. Pourt >0, soitNtune variable de Poisson de paramètreλt.
Pour le processus de Poisson,
Qt(x, y) =P(Nt=y−x), t >0, x6y∈N.
Proposition 17. On déduit de l’exercice précédent le résultat suivant : Le pro- cessus de Poisson est àaccroissements stationnaires, c’est-à-dire
∀t1, t2, s >0, Xt1+s−Xt1 (d)= Xt2+s−Xt2.
6.3 Générateur infinitésimal
Soitf une fonction bornée et dérivable. On pose Lf(x) = lim
ε→0
E[f(Xt+ε)−f(Xt)]
ε
en supposant que la limite existe. Remarquons que si le processus est homogène, la limite ne dépend pas det.
Si de plus le processus est à accroissements stationnaires, comme c’est le cas pour le processus de Poisson, cet opérateur ne dépend pas det : En effet, Xt+ε−Xε
(d)= Xε−X0 pour toust, ε >0.
Dans ce cas, l’opérateur L transforme une fonction en une autre fonction, qui dénote la manière dontf(Xt)varie au voisinage de0siX0=x.
Dans le cas Poissonien, Xε−X0 est une variable de Poisson de paramètre λε.
E[f(Xε)−f(X0)|X0=x] = (f(x+ 0)−f(x))∗exp(−λε) + (f(x+ 1)−f(x))λεexp(−λε) + 2kfk∞o(ε) Lf(x) =λ(f(x+ 1)−f(x))
— On dit que Xt est un processus de sauts, car il ne peut varier que par discontinuités.
— Dans ce cas, Xt est un processus de saut à taux constant λ : λ est l’intensité avec laquelle le processus saute, sous-entendu la répartition des sauts est Poissonnienne, c’est-à-dire que les sauts sont séparés par des variables exponentielles IID.
6.4 Processus de Poisson composé
On introduit une loi de probabilitéµ surR, qui représente la variable aléa- toire de la quantité d’argent déposée par un client.
Pour modéliser la quantité d’argent déposée à un instant t >0, on intro- duit une suite de variables iid Yk, k > 1, indépendants de µt, avec comme loi communeµ, et on suppose que lei-ème client a apporté une quantité d’argent Yk ∈R.
En appelant Xt le processus de Poisson défini au chapitre précédent (avec paramètre d’intensitéλ >0), la quantité d’argent déposée à l’instanttest donc
Zt=
∞
X
k=1
Yk1{Xt>k},
en gros, on comptabilise les sommes de tous les clients qui sont effectivement déjà passés à l’instantt.
En utilisant le fait que Xt est une variable de Poisson de paramètre λt, et que les Yi sont IID de loi µ, on peut déterminer la loi de Zt, via la fonction caractéristique.
Théorème 10. Avec les notations précédentes, pourt >0,la fonction caracté- ristique deZt est
ψZt(θ) = exp (λt(ψY1(θ)−1)), θ∈R.
Cela nous permet par exemple de déterminer les premiers moments deZt:
EZt=−id dθ
|θ=0ψZt(θ) =−iλtψ0Y1(0) exp
λt(ψY1(0)
| {z }
=1
−1)
=λtE[Y1]
EZt2=−d2
dt2|t=0ψZt(θ) =−exp (...)
λtψ00Y1(0) + (λtψY01(0))2
= (λtEY12+λ2t2(EY1)2) Du coup, la variance est
Var(Zt) =E[Zt2]−(EZt)2=λtEY12. Le GI deZtest
Lf(x) =λE[f(x+Y1)−f(x)].