Chaînes de Markov (et applications)

(1)

Chaînes de Markov (et applications)

Raphael Lachieze-Rey^∗ 25 avril 2016

M1 Paris Descartes.

Table des matières

1 Chaînes de Markov homogènes 2

1.1 Exemples et définitions . . . . 2

1.2 Loi desXn . . . . 2

2 Temps d’absorption 3 2.1 Temps d’arrêt . . . . 3

2.2 Probabilités et temps d’absorptions . . . . 4

3 Classification des états 5 3.1 Récurrence et transience . . . . 5

4 Distributions invariantes 6 4.1 Convergence à l’équilibre . . . . 8

4.2 Théorème ergodique . . . . 9

5 Chaines de Markov et simulation 9 5.1 Algorithme Hit-and-run . . . . 9

5.2 Algorithme de Metropolis . . . . 10

6 Chaînes de Markov en temps continu, processus de Poisson 11 6.1 Lois sans mémoire . . . . 11

6.2 Processus de Poisson . . . . 11

6.3 Générateur infinitésimal . . . . 12

6.4 Processus de Poisson composé . . . . 12

(Ω,P)est un espace probabilisé.

∗[email protected]

(2)

1 Chaînes de Markov homogènes

1.1 Exemples et définitions

Définition 1. Formellement, soit E un espace fini ou dénombrable. Ce sera l’espace d’états. Soit X ={Xn;n≥0}une suite de variables aléatoires à valeurs dansE. On dit queXest une chaîne de Markov si, pour toutx1, . . . , xn+1∈ E, on a

P(Xn+1=xn+1

| {z }

Le futur

|X1=x1, X2=x2, . . . , Xn=xn

| {z }

Le passé (et le présent)

) =P(Xn+1=xn+1

| {z }

Le futur

| Xn=xn

| {z }

Le présent

)

Cette propriété des chaînes de Markov est aussi connue comme propriété de Markov.

Définition 2. On dit qu’une matrice Q(éventuellement infinie) est stochas- tiquessi tous ses coefficients sont ≥0 et si la somme de chaque ligne fait1 :

∀x∈E,

X

y∈E

Q(x, y) = 1.

On dit aussimatrice markovienne.

Proposition 1. SiQest la matrice de transition d’une chaîne de Markov, alors elle est stochastique.

Etant donné une matrice stochastiqueQ, il existe une chaîne de Markov de matrice de transition Q. Etant donné x ∈ E, la suite de variables aléatoires définie récursivement parX0=x,

P(Xn+1=y|Xn=x, X_n−1, . . . , X0) =Q(x, y) est une chaîne de Markov de matrice de transitionQ.

1.2 Loi des Xn

On appelleµ₀ laloi initiale deX, définie par µ₀(x) =P(X₀=x).

Connaissantµ0 et Q, on peut calculer directement la loi de Xn. Proposition 2. Pour toute suite {x0, x1, . . . , xn} dansE, on a

P(X0=x0, X1=x1,X2=x2, . . . , Xn=xn)

=µ₀(x₀)Q(x₀, x₁)Q(x₁, x₂). . . Q(x_n−1, x_n).

(3)

Notation 1. Pour une mesureµ0 et une matriceQ, on note la mesure (µ0Q)(y) =X

x∈E

µ0(x)Q(x, y).

Cela revient à multiplier (matriciellement) la mesureµ0vue comme un vecteur µ0= (µ0(x1), µ0(x2), . . .)par la matriceQ.

Proposition 3. Si µes la loi deX₀, alors(µQ)est la loi deX₁.

Pour une même chaîneX, on considère souvent plusieurs lois initiales diffé- rentes. Dans ce cas on précise la loi utilisée en notant

P=Pµ

dans chaque calcul de probabilité, et l’espérance est alors notéeEx. Si la loi est un “Dirac” µ=δx pour un certainx∈E (ce qui veut direX0 =xp.s.), alors on note plus simplementPδx =Px,Eδx =Ex.

Proposition 4. Pour tout n, la loi deXn estµQⁿ. Remarque 1. TRES IMPORTANT ! !

Q^k(x, y)6=Q(x, y)^k. membre de gauche : multiplication matricielle.

membre de droite : multiplication de réels (beaucoup plus facile).

Proposition 5. On a pour n≥0, k≥0

P(Xn+k =y|Xn=x) =Q^k(x, y)

2 Temps d’absorption

2.1 Temps d’arrêt

Pourx∈E on définit le temps aléatoire

Tx= min{n≥0 : Xn=x}, premier moment ou la chaîne atteintx.

Définition 3. SoitT une variable aléatoire à valeurs dansN.T est un temps d’arrêt si pour tout n, l’évènement (T = n) dépend uniquement du passé, c’est-a-dire si l’évènement(T =n) est entièrement déterminé par les variables X₁, . . . , X_n (c’est-à-dire mesurable par rapport àσ(X₁, . . . , X_n)).

Exemple 1. Pourx∈E, le tempsTxest un temps d’arrêt : Pourn∈N, (T_x=n) = (X₁6=x, X₂6=x, . . . , X_n−16=x, X_n=x).

C’est bien un évènement qui est entièrement déterminé si on connait les valeurs deX1, . . . , Xn.

(4)

Proposition 6 (propriété de Markov forte ). Soit k≥1, et T un temps d’arrêt . Pourx, y∈E,

P(XT+k =y|XT =x) =P(Xk =y|X0=x) =Q^k(x, y).

Proposition 7. Une autre manière de formuler la propriété de Markov est la suivante : Pour tout temps d’arrêtT, la chaîne

X⁰ = (X₀⁰ =X_T, X₁⁰ =X_T₊₁, . . .)

est une chaîne de Markov dont la matrice de transition est Q et la loi initiale estXT. De plus, la loi deX⁰ est indépendante de(X0, . . . , XT−1)conditionnel- lement àXT.

2.2 Probabilités et temps d’absorptions

Avec le langage introduit dans la section précédente, on s’intéresse pour A⊂E aux quantités

h^A=P(T_A<∞), k^A=E(TA).

Remarquons que sih_A6= 1, kÂ=∞, donc il faut calculerhÂ en premier, et ensuitekÂsi ça a du sens.

Si l’on conditionne par l’état de départx∈E, on a

h^A_x =Px(TA<∞) Probabilité d’arriver un jour enAen partant de x , k^A_x =Ex(TA) Temps moyen pour y arriver.

SiA={y} est constitué d’un unique point, on noteh^{y}x =h^y_x, kx^{y}=k_x^y. Théorème 1. Si x /∈A, pour les calculer efficacement il faut se persuader des deux faits suivants :

h^A_x =X

y∈E

Q(x, y)h^A_y, pour tout x∈E

k_x^A= 1 +X

y∈E

Q(x, y)k^A_y, pour toutx∈E.

De plus, si ce système linéaire a plusieurs solutions,(hÂ_x)_x (resp.(k_xÂ)_x) est la plus petite solution positive du système vérifiant hÂ_x = 1 (reps. k_xÂ = 0) pour x∈A.

(5)

3 Classification des états

On dit qu’un étatx∈E mène à un étaty∈E si Px(∃n≥0, X_n=y)>0.

La probabilité de passer pary après être passée par x est non-nulle. On note dans ce cas

x y.

Six y ety x, on note

x!y et on dit quexet y communiquent.

il est facile de voir quex yssi il existe une suite d’étatsx0=x, x1, . . . , xk= y qui “mène” dexày et telle que Q(xm, xm+1)>0. On appelle un tel chemin un chemin probable. x y ssi∃n≥0tel que Qⁿ(x, y)>0 .

Théorème 2. La relation !est une relation d’équivalence et on peut parti- tionnerE par l’ensemble des classes d’équivalences

E=∪x∈ECx

avecCx=Cy six!y, etCx∩Cy=∅ sinon.

3.1 Récurrence et transience

Définition 4. On rappelle queTxest le temps de 1er passage enx. Pourr≥0, on note

T_x^(r) le temps der-ème retour enx, défini par récurrence par

T_x⁽⁰⁾=Tx; T_x^(r+1)= inf{n > T_x^(r):Xn=x}.

Définition 5. Un étatxest dit récurrent si la probabilité de retour est 1, c’est- à-dire si

Px(T_x⁽¹⁾<∞) = 1.

Si cette propriété n’est pas vérifiée, on dit que l’état est transient.

Proposition 8. Pour tous x∈E, r≥0,Tx^(r) est un temps d’arrêt.

On appeller-ème excursion

S_x^(r)=T_x^(r+1)−T_x^(r)

le temps passé loin dexentre ler-ème et ler+ 1-ème passage.

(6)

Proposition 9. La loi de Sx^(r) ne dépend pas der: Pour toutk≥1 P(S_x^(r)=k) =P(S_x⁽¹⁾=k) =Px(T_x=k).

De plus,Sx^(r)est indépendante de(Xk;k≤Tx^(r)). Les Sx^(r), r>0, forment donc une suite de variables IID (indépendantes et identiquement distribuées).

Une autre manière de voir les choses est de considérer le nombre de visites en un pointxaprès0sachantX0=x:

Vx= #{n≥1 : Xn=x}=

∞

X

n=1

1X_n=x.

Proposition 10. x∈E est récurrent ssi pour toute loi initiale Vx=∞ p.s.

ssi

X

n≥0

Qⁿ(x, x) =∞.

Théorème 3(Polya,1921). La marche aléatoire sur Z^d est récurrente (en tous points) sid≤2 et transiente (en tous points) si d≥3.

Proposition 11. Au sein d’une même classe d’équivalence, les états sont soit tous récurrents, soit tous transients. On parle alors de classe récurrente ou de classe transiente.

Remarque 2. SiE est fini, il y a toujours au moins une classe récurrente. (Il est impossible que tous les états n’aient été visités qu’un nombre fini de fois en un temps infini).

Il peut y avoir plusieurs classes récurrentes.

Définition 6. On dit qu’une chaîne de Markov est irréductible si il n’y a qu’une seule classe.

4 Distributions invariantes

Définition 7. Soit µ une mesure sur E. On dit que µ est invariante pour la chaîne de MarkovX de matrice de transitionQsiµQ=µ.

µest une mesure invariante ssi pour toutx∈E µ(x) =X

y∈E

Q(y, x)µ(y).

(7)

Proposition 12. Siµ0 la distribution initiale est invariante, alors µ0 est éga- lement la distribution deX1, X2, . . ., c’est-à-dire pour tout x∈E

P^µ0(X1=x) =P^µ0(X2=x) =· · ·=µ0(x).

Proposition 13. On supposeE fini. On sait que pourx∈E, pour toutn≥0, µ_x,n= (Qⁿ(x, y))_y∈E= (Px(X_n =y))_y∈E est une mesure de probabilité.

Si il existe x∈E et une mesure de probabilitéπtel que pour chaque y µx,n(y)→π(y),

alorsπ est une distribution invariante.

Théorème 4 (Admis). Toute chaîne de Markov irréductible récurrente admet au plus une mesure invariante à une constante multiplicative près (et donc au plus une probabilité invariante).

Proposition 14. Soit X une chaîne de Markov IR, et x∈E. On appelle µx

la mesure définie par

µ_x(y) =Ex(

T_x⁽¹⁾

X

n=1

1_X_n_=y), y∈E

le nombre moyen de visites en y entre 2 passages en x. Alors pour tout x, µx

est une mesure invariante.

De plus,0< µx(y)<∞ pour toutx, y∈E.

Commeµxest une mesure invariante, si sa masse est finie, alors π(y) = µx(y)

µ_x(E), y∈E.

est une distribution invariante (et ne dépend pas dex).

On a

µx(E) =X

y∈E

E^x

T_x⁽¹⁾

X

n=1

1X_n=y=E^x

T_x⁽¹⁾

X

n=1

X

y

1X_n=y=E^x

T_x⁽¹⁾

X

n=1

1 =E^xT_x⁽¹⁾.

On en déduit

π(y) = µx(y) ExTx⁽¹⁾

Avecx=y, ça nous donne notamment une relation entre la valeur de la distribution invariante enxet le temps de retour moyen :

π(x) = 1 ExTx⁽¹⁾

Même si c’est théoriquement intéressant,ExTx⁽¹⁾(ouπx(y)) est dur à calculer en pratique : Il faut résoudre un systèmes de|E|équations a |E|inconnues.

Voici un outil plus pratique :

(8)

Proposition 15. On dit qu’une distribution µest réversible si µ(x)Q(x, y) =µ(y)Q(y, x), x, y∈E.

Toute distribution réversible est aussi invariante

Théorème 5. SoitX une chaîne de Markov irréductible. Alors on a les équi- valences suivantes :

(i)X admet une distribution invariante unique, définie par

π(x) = 1 Ex(Tx⁽¹⁾)

(ii) Tout étatxvérifie

Ex(T_x⁽¹⁾)<∞ (iii) Un étatxle vérifie.

Si X vérifie la condition (i) (ou de manière équivalente (ii) et (iii)), on dit queX estrécurrente positive, sinon on dit qu’elle estrécurrente nulle.

Théorème 6. SoitX une chaîne de Markov IR sur un espace d’états fini. Alors X est IRP.

4.1 Convergence à l’équilibre

Définition 8. Une chaîne irréductible est dite apériodique ssi pour toutx∈E Qⁿ(x, x)>0 pournsuffisamment grand.

A l’inverse, pour une chaine périodique, il existe un entierp > 1 minimal, appelée période, tel que pour un certainx∈E et un certain entierk, pour tout n≥1,

Q^k+np(x, x) = 0.

(admis)

Théorème 7. Une chaine est apériodique si pour un x∈E le pgcd de tous les tempsntels queQⁿ(x, x)>0est 1.

Théorème 8(Convergence à l’équilibre). SoitX une chaîne de Markov IRPA.

Supposons queπsoit une distribution invariante pourX. Alors pour toutx∈E, Px(Xn=y)→π(y).

(9)

4.2 Théorème ergodique

Théorème 9(Théorème ergodique). SoitX une chaîne de Markov irréductible de distribution initiale une probabilitéµ₀. Pourn≥1, on noteV_x(n)le nombre de visites enxavant le tempsn

Vx(n) =

n

X

k=1

1X_k=x.

Alors pour tout étatx∈E p.s.

1

nVx(n) = 1 n

n

X

k=1

1X_k=x→ 1 Ex(Tx⁽¹⁾)

.

Remarque 3. Comme on a pas fait d’hypothèse de récurrence, cette dernière quantité peut être nulle.

5 Chaines de Markov et simulation

5.1 Algorithme Hit-and-run

Exercice 1 (Simulation de la loi uniforme, Hit-and-Run Algorithm). Soit A un sous-ensemble mesurable de R^d tel que λ(A) > 0, où λ est la mesure de Lebesgued-dimensionnelle. On rappelle qu’une variable uniforme surAa la loi

µA(dx) =λ(dx) λ(A).

Pour certains ensemblesA, les méthodes accept-or-reject sont très peu efficaces, typiquement lorsqueAest très “mince”, ou que la dimensiondest très grande.

Les chaines de Markov peuvent fournir une alternative.

Pour simplifier et parce qu’on travaille dans un cadre discret, on suppose ici queAest un sous-ensemble fini deZ². On suppose de plus queA est connexe, où un point est relié à un autre ssi ils sont reliés par une arête deZ².

On considère la suite de variables aléatoires au comportement suivant :

— X0∈A.

— A chaque tempsn, on choisit avec probabilité1/2la ligne sur laquelle se situe Xn ou la colonne sur laquelle se situeXn.

— On tire uniformémentXn+1∈Asur cette ligne ou cette colonne.

1. Identifier la matrice de transition Q et les propriétés de la chaîne de Markov .

2. Montrer que la distribution uniforme surAest invariante.

3. En déduire une manière de simuler approximativement une variable uniforme surA. Quelle convergence a-t-on ?

4. Comment pourrait-on généraliser cette méthode dans le cadre continu (informel) ?

(10)

5.2 Algorithme de Metropolis

Etant donné une mesure de probabilitéπsur un espace E, le but de l’algorithme de Metropolis est de construire une chaine de MarkovX = (X_n) telle que la loi deX_n converge versπ,

Xn

→L π.

On suppose sans perte de généralité que π(x) > 0 sur E (autrement il suffit d’ôter deEles points où πs’annule). Une manière pour approximerπde cette manière est de trouver une matrice stochastiqueQ(x, y)telle que la chaine de Markov correspondante soit IRPA etπest invariante pourQ. L’algorithme de Metropolis consiste en les étapes suivantes :

— Construire matrice de transition P(x, y) quelconque telle que la chaîne de Markov correspondante qui vit dans le bon espace d’états E soit ir- réductible apériodique. Il faut de plus queP soit symétrique :P(x, y) = P(y, x). Pour le bon fonctionnement de l’algorithme de simulation, il faut que la chaine de Markov correspondante soit facile à simuler, c’est-à-dire que la loi P(x,·)doit être facile à calculer.

— Tirer X1 suivant une loi quelconque µ (typiquement µ = δx pour une certaine configurationx∈E)

— Pour chaquen, tirerYn+1 suivant la loiP(Xn,·)(c’est-à-dire tirerYn+1

comme si(Xn, Yn+1, . . .)était une chaîne de Markov de matrice de tran- sitionP(x, y))

— TirerU_n une variable de loi uniforme sur[0,1]indépendamment de(X_n) et (Y_n).

— Siπ(Y_n+1)/π(X_n)>U_n, poserX_n+1=Y_n+1

— Sinon, garderX_n+1=X_n.

En d’autre termes, on fait évoluer X = (X_n) comme une chaîne de Markov normale de matrice de transition P, à la différence qu’à chaque itération on ne garde la nouvelle valeur Xn+1 que si le nouveau ratio π(Xn+1)/π(Xn) est suffisamment élevé, autrement on laisse l’ancienne valeurXn+1=Xn.

Exercice 2. Pourquoi(Xn)est une chaîne de Markov (homogène) ? Quelle est sa matrice de transition ? Montrer qu’elle est irréductible et réversible. Qu’en déduisez-vous sur la limite de Xn? Par quel type plus général de condition peut-on remplacer

U_n≤ π(Y_n+1) π(Xn) ? Barker a proposé la condition

Un≤ π(Yn+1) π(Xn) +π(Yn+1)

(11)

6 Chaînes de Markov en temps continu, proces- sus de Poisson

6.1 Lois sans mémoire

Pourt, s>0,

P(T ∈[t, t+s])|T >t) =P(T ∈[0, s]).

Cette propriété caractérise ce qu’on appelle les lois sans mémoire, et il y a peu de solutions.

Exercice 3. Les seules variables aléatoires sans mémoire sont les variables exponentielles, c’est-a-dire avec fonction de distribution

P(T >t) = exp(−λt), t>0, oùλ >0est le paramètre de la loi.

6.2 Processus de Poisson

Le processus décrit précédemment est appelé le processus de Poisson. For- mellement, on le définit ainsi :

— Soitλ >0.

— Soit T_i, i > 1, une famille de variables aléatoires IID exponentielles de paramètre λ.

— SoitS_n =Pn

k=1T_k, n>0(avecS₀= 0),

— Pourt>0, on pose

X(t) = max{n:S_n 6t}= min{n:S_n+1 > t}=

∞

X

k=1

1_{S_k₆_t}. Ce processus possède la propriété de Markov continue :

∀n>1,0< t₁< t₂<· · ·< t_n, x₁∈N, . . . , x_n∈N, P(Xt_n =mn|Xt₁=x1, . . . , Xtn−1 =xn−1) =P(Xt_n=mn|Xtn−1 =xn−1)

Au lieu de matrice de transition, on parle pour le processusXtde noyau de transitionQt(x, y), t >0, x, y∈N,

Qt(x, y) =P(Xt=y|X0=x).

Proposition 16. Pourt >0, soitN_tune variable de Poisson de paramètreλt.

Pour le processus de Poisson,

Q_t(x, y) =P(N_t=y−x), t >0, x6y∈N.

Proposition 17. On déduit de l’exercice précédent le résultat suivant : Le processus de Poisson est àaccroissements stationnaires, c’est-à-dire

∀t1, t₂, s >0, X_t₁_+s−X_t₁ ^(d)= X_t₂_+s−X_t₂.

(12)

6.3 Générateur infinitésimal

Soitf une fonction bornée et dérivable. On pose Lf(x) = lim

ε→0

E[f(Xt+ε)−f(Xt)]

ε

en supposant que la limite existe. Remarquons que si le processus est homogène, la limite ne dépend pas det.

Si de plus le processus est à accroissements stationnaires, comme c’est le cas pour le processus de Poisson, cet opérateur ne dépend pas det : En effet, Xt+ε−Xε

(d)= Xε−X0 pour toust, ε >0.

Dans ce cas, l’opérateur L transforme une fonction en une autre fonction, qui dénote la manière dontf(Xt)varie au voisinage de0siX0=x.

Dans le cas Poissonien, Xε−X0 est une variable de Poisson de paramètre λε.

E[f(X_ε)−f(X₀)|X0=x] = (f(x+ 0)−f(x))∗exp(−λε) + (f(x+ 1)−f(x))λεexp(−λε) + 2kfk∞o(ε) Lf(x) =λ(f(x+ 1)−f(x))

— On dit que Xt est un processus de sauts, car il ne peut varier que par discontinuités.

— Dans ce cas, Xt est un processus de saut à taux constant λ : λ est l’intensité avec laquelle le processus saute, sous-entendu la répartition des sauts est Poissonnienne, c’est-à-dire que les sauts sont séparés par des variables exponentielles IID.

6.4 Processus de Poisson composé

On introduit une loi de probabilitéµ surR, qui représente la variable aléa- toire de la quantité d’argent déposée par un client.

Pour modéliser la quantité d’argent déposée à un instant t >0, on introduit une suite de variables iid Yk, k > 1, indépendants de µt, avec comme loi communeµ, et on suppose que lei-ème client a apporté une quantité d’argent Y_k ∈R.

En appelant X_t le processus de Poisson défini au chapitre précédent (avec paramètre d’intensitéλ >0), la quantité d’argent déposée à l’instanttest donc

Zt=

∞

X

k=1

Yk1_{X_t_>_k},

en gros, on comptabilise les sommes de tous les clients qui sont effectivement déjà passés à l’instantt.

En utilisant le fait que X_t est une variable de Poisson de paramètre λt, et que les Yi sont IID de loi µ, on peut déterminer la loi de Zt, via la fonction caractéristique.

(13)

Théorème 10. Avec les notations précédentes, pourt >0,la fonction caracté- ristique deZt est

ψZ_t(θ) = exp (λt(ψY₁(θ)−1)), θ∈R.

Cela nous permet par exemple de déterminer les premiers moments deZ_t:

EZ_t=−id dθ

|θ=0ψ_Z_t(θ) =−iλtψ⁰_Y₁(0) exp



λt(ψ_Y₁(0)

| {z }

=1

−1)



=λtE[Y₁]

EZ_t²=−d²

dt²|t=0ψZ_t(θ) =−exp (...)

λtψ⁰⁰_Y₁(0) + (λtψ_Y⁰₁(0))²

= (λtEY₁²+λ²t²(EY1)²) Du coup, la variance est

Var(Zt) =E[Z_t²]−(EZt)²=λtEY₁². Le GI deZtest

Lf(x) =λE[f(x+Y1)−f(x)].