2
Chapitre 1
Fonction génératrices et
application au processus de Galton-Watson
1.1 Fonctions génératrices
1.1.1 Définition
Définition 1.1. Soit X une variable aléatoire à valeur dans N . La série entière définie par
φ
X(z) = E z
X=
+∞
X
k=0
P (X = k)z
kest de rayon de convergence au moins 1 puisque P
+∞k=0
P (X = k) = 1. La fonction φ
Xest donc définie sur ] − 1, 1].
Elle est appelée fonction génératrice de X . Exemples 1.1. Bernoulli : X ∼ B(p)
φ
X(z) = P (X = 0)z
0+ P (X = 1)z
1= 1 − p + pz Binômiale : X ∼ B(n, p)
φ
X(z) =
n
X
k=0
n k
p
k(1 − p)
n−kz
k=
n
X
k=0
n k
(pz)
k(1 − p)
n−k= (1 − p + pz )
n3
4CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON Poisson : X ∼ P (λ)
φ
X(z) =
+∞
X
k=0
λ
kk! e
−λz
k= e
−λ+∞
X
k=0
(λz)
kk!
= e
λ(z−1)Géométrique : X ∼ G(p), avec q = 1 − p
φ
X(z) =
+∞
X
k=0
pq
k−1z
k= pz
+∞
X
l=0
q
lz
l= pz 1 − qz
Propriété 1.1. φ
X= φ
Ysi et seulement si X = Y p.s.
Démonstration. Si X = Y p.s., les deux fonctions génératrices sont égales de façon évidente.
Inversement, si φ
X= φ
Y, l’unicité du développement en série entière entraîne que P (X = k) = P (Y = k) pour tout k.
1.1.2 Sommes de variables indépendantes
Propriété 1.2. Soient X et Y des v.a. indépendantes. Alors φ
X+Y= φ
Xφ
YEn particulier, si X
1, . . . , X
nsont des v.a. indépendantes et identiquement distribuées,
φ
X1,...,Xn= φ
nXDémonstration. Avec des séries entières : Pour tout k, P (X + Y = k) = X
l=0
P (X = l, Y = k − l) X
l=0
P (X = l) P (Y = k − l) par indépendance
On reconnait alors la formule de la multiplication des séries entières.
1.1. FONCTIONS GÉNÉRATRICES 5 Avec des probabilités : Comme X et Y sont indépendantes, E (f (X )g(Y )) =
E (f (X)) E (g(Y )). En particulier, pour tout |z| < 1, E (z
Xz
Y) = E (z
X) E (z
Y).
Exemple 1.1. Retrouver la fonction génératrice d’une variable binômiale en écrivant cette dernière comme la somme de variables de Bernoulli.
1.1.3 Dérivées de φ
Xet moments de X
Propriété 1.3. Soit p ∈ N . Si E X
pexiste, alors φ
Xest p fois dérivable sur ] − 1, 1[. De plus, si φ
(p)Xexiste et est continue en 1,
φ
(p)X(1) = E X (X − 1) . . . (X − p + 1) En particulier,
E X = φ
0X(1)
varX = φ
00X(1) + φ
0X(1) − φ
0X2(1)
Démonstration. Une série entière étant indéfiniment dérivable sur l’intérieur de son domaine ed convergence, φ
(p)Xexiste pour |z| < 1 et
φ
(p)X(z) =
+∞
X
k≥p
k(k − 1) . . . (k
p+ 1)z
k−pLe fait que E X
pexiste signifie que P
+∞k=0
P (X = k)k
pconverge. Or, pour
|z| < 1,
|k(k − 1) . . . (k
p+ 1)z
k−p| ≤ k
pdonc (theoreme ?)
z→1
lim φ
(p)X(z) =
+∞
X
k=0
P (X = k)k(k − 1) . . . (k
p+ 1)
Le deuxième membre est égal à E X(X − 1) . . . (X − p + 1) et le premier vaut φ
(p)X(1) par continuité de φ
(p)X.
La démonstration des cas particuliers de l’espérance et de la variance est laissée en exercice.
Exemple 1.2. Bernoulli : Si X ∼ B(p), φ
X(z) = 1 − p + pz φ
0X(z) = p
φ
00X(z) = 0
On retrouve E (X) = p et varX = p(1 − p).
6CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON Binômiale : Si X ∼ B(n, p),
φ
X(z) = (1 − p + pz)
nφ
0X(z) = np(1 − p + pz)
n−1φ
00X(z) = n(n − 1)p
2(1 − p + pz)
n−2On retrouve E (X) = np et varX = np(1 − p).
Poisson : Si X ∼ P(λ),
φ
X(z) = e
λ(z−1)φ
0X(z) = λe
λ(z−1)φ
00X(z) = λ
2e
λ(z−1)On retrouve E (X) = λ et varX = λ.
Géométrique partant de 1 : Si X ∼ G(p) φ
X(z) = pz
1 − qz = z − 1 1 − qz + 1 φ
0X(z) = p
(1 − qz)
2φ
00X(z) = 2pp
(1 − pz)
3On retrouve E (X) =
1pet var(X ) =
pq2.
1.1.4 Cas d’une variable continue : transformée de Laplace
Dans le cas d’une variable aléatoire continue positive, à densité f , on peut définir la transformée de Laplace, définie pour t ≥ 0 par
φ
X(t) = E (e
−tX) = Z
+∞0
e
−txf (x)dx
Les propriétés des fonctions génératrices se généralisent, en particulier que φ
X+Y(t) = φ
X(t)φ
Y(t) si X et Y sont indépendantes, et que les valeurs des dérivées successives en 0 donnent les moments de la loi (démonstrations laissées en exercice, sur le même modèle que celle des fonctions génratrices).
Propriété 1.4. Soit X et Y deux variables aléatoires continues positives et indépendantes. Alors φ
X+Y= φ
Xφ
Y.
Propriété 1.5. Soit X une variable aléatoire continue posisitve, telle que E X
pexiste. Alors φ
Xest p fois dérivable et , pour tout 0 ≤ k ≤ p, φ
(k)(0) =
(−1)
kE X
k.
1.2. PROCESSUS DE GALTON-WATSON 7 Remarque:
La notion de transformée de Laplace peut être étendue à des variables non- positives en commençant l’intégrale en −∞. Il faut cependant alors vérifier la convergence de l’intégrale généralisée.
Ainsi, la loi normale, dont la densité est équivalente en l’infini à un terme en Ke
−Cx2admet une transformée de Laplace en intégrant entre −∞ et +∞.
En effet, pour tout t, R
+∞−∞
e
−tx−Kx2dx converge.
1.2 Processus de Galton-Watson
1.2.1 Présentation du modèle
Le but de ce modèle est de modéliser l’évolution d’une population en temps discret. Il a été introduit en 1874 par Francis Galton et Henry Watson pour répondre au problème de la probabilité d’extinction des noms aristocratiques dans l’angleterre victorienne. Le fait qu’il ait été appliqué à des noms de fa- mille explique son hypothèse simplificatrice consistant à considérer des arbres généalogiques où les parents sont uniques.
Sous ce modèle, la population initiale se réduit à un ancêtre unique. Cet ancêtre a ensuite un nombre aléatoire de descendants, et chacun des descendants de même , et ainsi de suite. On fait de plus l’hypothèse que le nombre des fils de chaque individu est identiquement distribué et indépendant du parent.
DESSIN
Le processus peut alors être modélisé par deux suites de variables aléatoires : 1. (Z
n, n ≥ 0) où Z
nest le nombre d’individus de la génération n
2. (X
i,j, i ≥ 0, j ≥ 1) où X
i,jest le nombre de descendants de l’individu j de la génération i.
On a alors, pour tout n ≥ 1,
Z
0= 1
Z
1= X
0,1Z
2=
Z1
X
j=1
X
1,j· · · · · ·
Z
n+1=
Zn
X
j=1
X
n,j,
la suite devenant uniformément nulle si elle s’annule une première fois (extinc-
tion).
8CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON
1.2.2 Espérance et variance de Z
nOn suppose connue φ, la fonction génératrice commune des variables (X
i,j)
i,j. Soit G
nla fonction génératrice de Z
n. Alors
Propriété 1.6. a) G
n+1(s) = G
n(φ(s)) pour tout n ≥ 0.
b) G
n(s) = φ
(n)(s), où φ
(n)désigne la composition n fois de φ avec elle- même.
Démonstration. On démontre la propriété b) par récurrence, la propriété a) étant démontrée au passage.
— Pour n = 0, G
0(s) = 1 car Z
0= 1.
— Supposons la propriété vraie au rang n.
Or,
G
n+1(s) = E s
PZnj=1Xn,j= E
+∞
X
k=0
s
PZnj=1Xn,jI
Zn=k=
+∞
X
k=0
E s
PZnj=1Xn,jI
Zn=k∗ ∗
=
+∞
X
k=0
E s
PZnj=1Xn,jP (Z
n= k)car Z
nest indépendante des X
n,j=
+∞
X
k=0
E φ(s)
kP (Z
n= k)car les X
n,jsont indépendantes
= G
n(φ(s))
= φ
(n)(φ(s)) par hypothèse de récurrence
= φ
(n+1)(s) Remarque:
En **, l’espérance et la somme peuvent être échangées car toutes les variables sont positives (la somme infinie pose problème sinon). On peut éviter le recours à cet argument dans le cas où les X
i,jsont bornés par Q, car alors Z
n≤ Q
n(et cela paraît raisonnable dans le cas des humains).
La propriété précédente permet de déduire la fonction génératrice de Z
nen fonction de celle de Z
1(comme Z
1= X
0,1, elle est de fonction génératrice φ).
On peut alors en déduire l’espérance et la variance de Z
nen fonction de celle de Z
1.
Propriété 1.7. a) Si m = E Z
1< +∞, alors E Z
n= m
n.
1.2. PROCESSUS DE GALTON-WATSON 9
b) Si σ
2= varZ
1< +∞, alors varZ
n= nσ
2si m = 1
mn(mn−1)
m(m−1)
σ
2si m 6= 1 Démonstration. a) En dérivant l’égalité de la Proposition 1.6 a),
G
0n+1(s) = G
0n(φ(s))φ
0(s) Pour s = 1 et comme φ
0(1) = E Z
1= m, on obtient que
G
0n+1(s) = mG
0n(s)
Comme de plus G
1= φ, on obtient par récurrence que G
0n(1) = m
n. On en déduit la propriété a) puisque G
nest la fonction génératrice de Z
n. b) On démontre cette propriété par récurrnce, en se basant sur la Proposi-
tion 1.3 :
varZ
n= G
00n+1(1) + G
0n(1) − (G
0n(1))
2(1.1) Pour n = 1, la propriété est vraie par définition et l’équation 1.1 entraîne que
σ
2= φ
00(1) + φ
0(1) − (φ
0(1))
2(1.2) Supposons que la propriété est vraie pour n. Pour appliquer l’équation 1.1, il faut commencer par déterminer G
00n+1(1). Or,
G
00n+1=
G
0noφ(s)φ
00= G
00noφ.φ
02+ G
0noφ.φ
00On l’applique en 1, en utilisant l’équation 1.1 pour remplacer G
00n(1), l’équation 1.2 pour remplacer φ
00(1), et le fait que G
0n(1) = m
n.
G
00n+1(1) = (varZ
n− m
n+ m
2n)m
2+ m
n(σ
2− m + m
2)
= m
2varZ
n+ m
nσ
2+ m
2n+2− m
n+1En le réinjectant dans l’équation 1.1, on obtient
varZ
n+1= m
2varZ
n+ m
nσ
2(1.3) Si m = 1 L’équation 1.3 avec varZ
n= nσ
2donne facilement que varZ
n+1=
(n + 1)σ
2et que la propriété est vraie au rang n + 1.
Si m 6= 1 Par hypothèse de récurrence, varZ
n+1= m
2m
n(m
n− 1)
m(m − 1) σ
2+ m
nσ
2= m
n+1(m
n+1− 1)
m(m − 1) σ
210CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON
1.2.3 Probabilité d’extinction
Soit E l’évènement désignant le fait que la population s’éteint.
E = ∪
n≥1{Z
n= 0}
Les évènements {Z
n= 0} constituant une suite croissantr d’évènements, P (E) = lim
n→+∞
P (Z
n= 0)
Théorème 1.1. P (E) est la plus petite solution dans [0, 1] de l’équation φ(s) = s.
Si m ≤ 1, P (E) = 1, sinon 0 ≤ P (E) < 1.
Démonstration. La propriété 1.6 b) entraîne que G
n(s) = φ(G
n−1(s)). En par- ticulier
G
n(0) = φ(G
n−1(0) P (Z
n= 0) = φ( P (Z
n−1= 0))
n→∞
lim P (Z
n= 0) = lim
n→∞
φ( P (Z
n−1= 0))
n→∞
lim P (Z
n= 0) = φ( lim
n→∞
P (Z
n−1= 0)) car φ est continue P (E) = φ( P (E))
P (E) est donc une solution de φ(s) = s.
Soit q la plus petite solution de φ(s) = s appartenant [0, 1]. Comme φ est croissante, φ
(n)l’est également. Par conséquent,
φ
(n)(0) ≤ φ
(n)(q) P (Z
n= 0) ≤ q
P (E) ≤ q par passage à la limite.
Par minimalité de q, on a donc forcément P (E) = q.
De plus, φ est de dérivée et de dérivée seconde positive puisque : φ
0(s) = X
k≥1
k P (Z
1= k)s
k−1φ
00(s) = X
k≥2
k(k − 1) P (Z
1= k)s
k−2En particulier, φ
0est croissante.
P (Z
1= 0) + P (Z
1= 1) 6= 1 : Il existe un k > 1 tel que P (Z
1= k) > 0. La fonction φ
00est alors strictement positive donc φ
0est strictement crois- sante.
Si m ≤ 1, on a pour tout s < 1, (φ(s) − s)
0= φ
0(s) − 1 < φ
0(1) − 1 ≤ 0.
Donc φ(s) −s > φ(1)− 1 = 0. 1 est donc la plus petite racine de φ(s) = s.
1.2. PROCESSUS DE GALTON-WATSON 11 Si m > 1, comme φ
0(0) = P (Z
1= 1) < 1 et φ
0(1) = m > 1, il existe un unique s
0tel que φ
0(s
0) = 1. Une étude de signe de φ(s) − s donne alors
0 s
01
φ
0(s) − 1 − + φ(s) − s & % 0
P (Z
1= 0) + P (Z
1= 1) = 1 : Alors φ(s) = α+ (1 − α)s avec α = P (Z
n= 0).
Donc φ(s) = s entraîne α = αs puis s = 1. Ce cas correspond de plus bien à m ≤ 1.
AJOUTER DESSINS DES FONCTIONS DANS LES TROIS CAS.
1.2.4 Comportement asymptotique
Cas sous-critique (m < 1)
Dans ce cas, la probabilité d’extinction est de 1, si bien que la variable d’interêt devient le temps τ de l’extinction. Comme {τ > n} = {Z
n6= 0} et que P (Z
n= 0) = G
n(0),
P (τ > n) = 1 − G
n(0)
Etudier τ revient donc à étudier la vitesse de convergence de G
n(0) vers 1.
Propriété 1.8. Supposons m = 1 et soit τ le temps d’extinction du processus.
Il existe C > 0 tel que P (τ > n) ∼ Cm
n.
Démonstration. Le théorème de Taylor implique qu’il existe c
n∈ [G
n(0), 1] tel que
φ(G
n(0)) − φ(1) = φ
0(1)(G
n(0) − 1) + φ
00(c
n)
2 (G
n(0) − 1)
21 − G
n+1(0) = m(1 − G
n(0)) − φ
00(c
n)
2 (1 − G
n(0))
2La fonction φ
(3)étant continue et positive,
0 ≤ φ
00(c
n) ≤ φ
00(1) donc,
m − φ
00(1)(1 − G
n(0)) ≤ 1 − G
n+1(0)
1 − G
n(0) ≤ m (1.4)
L’inégalité de droite entraîne que
1−G1−Gn(0)0(0)
≤ m
net que par conséquent,
comme G
0(0) = 0, 1 − G
n(0) ≤ m
n.
12CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON L’égalité 1.4 entraîne alors que ∀n ≥ N
1m − φ
00(1)m
n≤ 1 − G
n+1(0) 1 − G
n(0) ≤ m 1 − φ
00(1)m
n−1≤ m
−(n+1)(1 − G
n+1(0))
m
−n(1 − G
n(0)) ≤ 1
ln(1 − φ
00(1)m
n−1) ≤ ln(m
−(n+1)(1 − G
n+1(0))) − ln(m
−n((1 − G
n(0))) ≤ 0 (1.5) Or, ln(1 − x) ≥ −2x pour 0 ≤ x < 1 suffisamment proche de 0 donc il existe N tel que, ∀n ≥ N
ln(1 − φ
00(1)m
n−1) ≥ −2φ
00(1)m
n−1(1.6) La série de terme général m
n−1convergeant car m < 1, on en déduit que la série de terme général négatif ln(1−φ
00(1)m
n−1) converge également. L’équation 1.5 entraîne alors que la série de terme général ln(m
−(n+1)(1 − G
n+1(0))) − ln(m
−n((1 − G
n(0))) converge également, vers un réel néagtif K. La somme partielle d’ordre n de cette série valant ln(m
−n((1 − G
n(0))), on en déduit que lim
n→+∞m
−n((1 − G
n(0)) = e
K= C. Ceci démontre le théorème.
Cas critique (m = 1)
Dans ce cas, la probabilité d’extinction est également de 1. L’approche est semblable au cas sous-critique, la seule différence étant la vitesse de convergence.
Propriété 1.9. Supposons m < 1 et soit τ le temps d’extinction du processus.
Soit σ
2la variance de Z
1. Alors P (τ > n) ∼
nσ22. Démonstration. cf TD 1.
Cas sur-critique (m > 1)
Dans ce cas, la probabilité d’extinction est inférieure à 1 et l’espérance de Z
nvaut m
net tend donc vers l’infini. Les variations de Z
nautour de sa moyenne sont données par la théorème suivant.
Propriété 1.10. Il existe une v.a. positive W avec E W = 1 et varW =
m(m−1)σ2telle que
n→+∞
lim Z
nm
n= W presque surement De plus, P (W > 0) = 1 − P (E).
Démonstration. Admis
Chapitre 2
Communautés dans les
réseaux et clustering spectral
Référence pour ce chapitre : [?]. Ce chapitre est repris du cours écrit par Florent Beanych-Georges. Merci à lui d’avoir accepté que je le reprenne.
2.1 Introduction : graphes et réseaux sociaux
Supposons qu’un ensemble d’individus sont reliés par des liens réciproques.
Comme par exemple dans un réseau social type Facebook (mais cela pourrait être aussi des agents économiques entre certains desquels s’établissent des rela- tions). La structure d’un tel réseau peut être représentée par un graphe. On se limitera ici aux graphes simples et non orientées.
Définition 2.1. Un graphe est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un ensemble de parties à deux éléments de E. Deux sommets v, w sont dits adjacents s’ils sont reliés par une arête, i.e. si {v, w} ∈ E. Le degré d’un sommet est le nombre de sommets qui lui sont adjacents.
On introduit ici une définition qui nous sera utile par la suite :
Définition 2.2. Soit G = (V, E) un graphe avec V = {1, . . . , n}. La matrice d’adjacence du graphe est la matrice A
G= [a
ij]
1≤i,j≤ndéfinie par
a
ij= 1 {i, j} ∈ E.
Remarque:
Les coordonnées de A
Gvalent 0 ou 1 et A
Gest une matrice symétrique : a
ij= a
ji.
Exercice 2.1. Donner V , E et A
Gpour le graphe de la figure ??.
13
14CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL
Figure 2.1 – Exemple de graphe
Exemple 2.1. 1. Le réseau Facebook : V = ensemble des utilisateurs et E = ensemble des couples d’utilisateurs amis.
2. Un sous-ensemble du réseau Facebook : V = partie ensemble des utili- sateurs et E = ensemble des couples d’utilisateurs amis qui sont dans V .
Figure 2.2 – Internet en 1999
La structure des graphes issus vie réelle pose de nombreuses question pra-
tiques (analyse de la dépendance des banques entre elles, identification des sites
internet remportant le plus de succès, mise en place de la publicité personnali-
sée pour les annonceurs, etc...). Le problème auquel on va s’intéresser ici, qui se
pose de façon cruciale dans de nombreuses situations, est celui du clustering :
la partition de l’ensemble des sommets en sous-ensembles homogènes.
2.2. STOCHASTIC BLOCK MODEL 15
Figure 2.3 – Exemple de graphe orienté : Australian Banking System Network On rappelle la définition :
Définition 2.3. Soit V un ensemble. Une partition de V est un ensemble {V
1, . . . , V
k} de parties non vides, deux à deux disjointes, de V telles que
∪
ki=1V
i= V.
2.2 Stochastic Block Model
2.2.1 Introduction informelle
Supposons qu’il existe une partition V
1, . . . , V
kde l’ensemble V des som- mets d’un graphe G tel que deux sommets ont plus tendance à être connectés quand ils sont dans un même V
ique quand ils sont dans deux V
idifférents (cf Figure 2.4). Les ensembles V
imodélisent des communautés. On cherche à identifier ces ensembles V
i.
Nous allons voir ici deux algos d’identification des ensembles V
i. L’un repose
sur l’analyse des degrés des sommets et l’autre repose sur des considérations
d’algèbre linéaire. Notre objectif sera d’analyser l’efficacité de ces algorithmes,
càd d’estimer les chances que ce qu’ils rendent corresponde à peu près à ce qu’on
attend. Pour cela, il faut avoir une idée de ce à quoi le graphe ressemble. Plus
précisément, si on parle de "chances", il faut se donner un "modèle probabiliste",
càd supposer que le graphe est aléatoire et choisir "modèle" pour sa loi.
16CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL
Figure 2.4 – Exemple de SBM à 3 communautés
2.2.2 Introduction formelle
On va donc supposer que le graphe choisi de façon aléatoire. Son ensemble de sommets, V = {1, . . . , n}, n’est pas aléatoire, la partition {V
1, . . . , V
k} non plus, mais les liens qui relient les sommets, les arêtes, le seront. On se donne, pour tout couple V
r, V
sde communautés 1 ≤ r, s ≤ k, un nombre p
rs∈ [0, 1]
tel que dans le graphe, la probabilité qu’il y ait entre un sommet de V
ret un sommet de V
sest égale à p
rset les arêtes existent indépendament les unes des autres.
Voici une définition formelle du graphe aléatoire G (voir Figure 2.5).
Définition 2.4. Soit k ≥ 1, {V
1, . . . , V
k} une partition de V = {1, . . . , n}
et, pour tout r, s ∈ {1, . . . , k}, P := [p
rs]
1≤r,s≤kune matrice symétrique à coordonnées p
rs∈ [0, 1]. Soit c : V → {1, . . . , k} l’application communauté, définie par i ∈ V
c(i)pour tout i. Le graphe G est le graphe (aléatoire) dont la matrice d’adjacence A
G= [a
ij]
1≤i,j≤nest une matrice symétrique telle que les nombres (a
ij)
1≤i≤j≤nsont des v.a. indépendantes avec, pour tout i, j,
a
ij∼ B(p
c(i)c(j)).
Exercice 2.2. Cas particulier où il n’y a qu’une communauté (graphe d’ER) : quelle est alors la loi du degré de chaque sommet ?
Exercice 2.3. Notons n
1, . . . , n
kles cardinaux de resp. V
1, . . . , V
k. Donner,
pour chaque i ∈ {1, . . . , n}, une expression de la loi de la v.a. deg(i) en fonction
de v.a. de loi binomiales. Donner son espérance et sa variance.
2.3. INÉGALITÉ DE BENNETT ET APPLICATION 17
Figure 2.5 – Exemple de SBM à 3 communautés et matrice d’adjacence cor- respondante (le SBM est ici orienté, c’est pourquoi la matrice n’est pas symmé- trique)
2.3 Inégalité de Bennett et application
2.3.1 Préliminaires : étude de la fonction h
Lemme 2.1. a) Pour tout x ∈ R , e
x− 1 ≥ x.
b) Pour tout x > −1, log(1 + x) ≤ x.
Démonstration. Etudes de fonction.
Définition 2.5. Soit, pour κ > −1,
h(κ) := (1 + κ) log(1 + κ) − κ.
Lemme 2.2. (i) h est la primitive de log(1 + κ) qui s’annule en 0, (ii) h(κ) ≥ 0, avec égalité pour κ = 0,
(iii) pour x ∈ (−1, 1),
h(x) = X
k≥2
(−1)
kx
kk(k − 1)
(iv) h(κ) ∼
κ22quand κ → 0 et h(κ) ∼ κ log κ quand κ → +∞
(v) pour x ≥ 0,
h(x) ≥ 1
3 min{x
2, x}
(vi) For any κ ≥ 0,
max
t≥0{(1 + κ)t − (e
t− 1)} = h(κ).
Démonstration. (i), (ii), (iii), (iv) sont évidents. Par (iii), sur [0, 1), h(x) ≥ x
22 − x
36 = x
22 (1 − x 3 ) ≥ x
23 .
18CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL Pour prouver (v), il suffit donc de prouver que pour x ≥ 1, h(x) − x/3 ≥ 0.
Cela est vrai pour x = 1 et la dérivée de h(x) − x/3 est log(1 + x) − 1/3, qui est croissante et positive en 1 (car log(8) ≥ log(e)). Par conséquent, (v) est vraie. Pour démontrer (vi), il suffit de prouver que le maximum est atteint en t = log(1 + κ), ce qui se vérifie aisément.
2.3.2 Enoncé
Théorème 2.1. Let Y = X
1+ . . . + X
n, avec X
1, . . . , X
ndes variables de Bernoulli indépendantes de paramètres respectifs p
1, . . . , p
net soit λ := p
1+
· · · + p
n. Alors, pour tout > 0,
P (Y ≥ λ + ) ≤ exp{−λh(/λ)} (2.1) et
P (Y ≤ λ − ) ≤ exp{−λh(/λ)} (2.2) si bien que
P (|Y − λ| ≥ ) ≤ 2 exp{−λh(/λ)} (2.3) Lemme 2.3. Soit Y v.a., t ≥ 0 et y ∈ R . Alors
P (Y ≥ y) ≤ E e
t(Y−y)et
P (Y ≤ y) ≤ E e
−t(Y−y). Démonstration. Par Chebichev,
P (Y ≥ y) = P (Y − y ≥ 0) ≤ E e
t(Y−y)et
P (Y ≤ y) = P (y − Y ≥ 0) ≤ E e
t(y−Y)= E e
−t(Y−y)Lemme 2.4. Soient X
1, X
2deux v.a. bornées indépendantes. Alors pour tout t ∈ R ,
E e
t(X1+X2)= E e
tX1E e
tX2.
Preuve du Théorème 2.1. Soit Z une variable de Bernoulli de paramètre q. Alors, pour tout t ∈ R , E [e
tZ] = 1 + q(e
t− 1) ≤ e
q(et−1). Puis, d’après le lemme pré- cédent,
E [e
tY] ≤ e
λ(et−1). (2.4)
On définit la fonction ϕ(t) :=
1λlog E [e
tY]. Pour tout t ≥ 0, et pour κ := /λ, P (Y ≥ λ + ) ≤ E [e
t{Y−λ−}] = exp{−λ[(1 + κ)t − ϕ(t)]}. (2.5) L’équation (2.4) implique ϕ(t) ≤ e
t− 1. Il s’ensuit que pour tout t ≥ 0,
P (Y ≥ λ + ) ≤ exp{−λ[(1 + κ)t − (e
t− 1)]}.
2.3. INÉGALITÉ DE BENNETT ET APPLICATION 19 Pour en conclure l’équation (2.1), il suffit de vérifier que
max
t≥0
{(1 + κ)t − (e
t− 1)} = h(κ) > 0, ce qui découle de ce qui précède.
Pour démontrer l’équation (2.2), on procède de même en choisissant t ≤ 0 et en utilisant
P (Y ≤ λ − ) ≤ E [e
t{Y−(λ−)}] = exp{−λ[(1 − κ)t − ϕ(t)]}
à la place de l’équation (2.5).
Corollaire 2.1. Avec les mêmes hypothèses,
P (|Y − λ| ≥ ) ≤ 2 exp{− λ
3 min{/λ, (/λ)
2} (2.6)
2.3.3 Application aux degrés d’un SBM
Soit G un SBM et, pour tout i, d
i:= E deg(i). Alors, pour tout i, et tou η > 0,
P (| deg(i) − d
i| ≥ ηd
i) ≤ 2 exp{− 1
3 d
imin{η, η
2}}.
On en déduit
Théorème 2.2. Soit t > 0. Si, pour tout i, d
i≥ t log n, alors, pour tout η > 0, P (∀i = 1, . . . , n, | deg(i) − d
i| ≥ ηd
i) ≤ 2n
−tmin{η,η2}−3
3
.
Bien entendu, pour tout i, d
ine dépend que du numéro c(i) de la classe de i. On pose, pour tout r = 1, . . . , k, d
(c)rle d
icommun des i de V
r. On pose aussi
η
0:= 1 100 min
r
1 d
(c)rdist(d
(c)r, {d
(c)s; s 6= r}).
Corollaire 2.2. Sous les hypothèses précédentes, avec une proba ≥ 1−2n
−tmin{η0,η20}−3
3
,
on a, pour tout i, en notant r := c(i),
| deg(i) − d
(c)r| ≥ 1 100 min
s6=r
|d
(c)s− d
(c)r|.
Ainsi, si n et t sont assez grands et les degrés moyens associés aux différentes
classes assez distants les un des autres, les degrés des sommets se concentrent
assez bien autour de leurs valeurs moyennes pour que l’on puisse facilement les
regrouper par classes.
20CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL
2.4 Rappels d’algèbre linéaire : diagonalisation des matrices symétriques réelles et norme de matrices
2.4.1 Diagonalisation
Définition 2.6. On rappelle que pour x = (x
1, . . . , x
n), y = (y
1, . . . , y
n) ∈ R
n, hx, yi = X
i
x
iy
iet que
kxk = p hx, xi.
Définition 2.7. Une valeur propre d’une matrice carrée A est un nombre λ ∈ C tel qu’il existe un vecteur colonne v non nul tel que Av = λv. Dans ce cas, les vecteurs propres associés à λ sont les vecteurs non nuls v tels que Av = λv.
Théorème 2.3. Soit A une matrice symétrique réelle n × n. Alors il existe une base orthonormée (v
1, . . . , v
n) de R
net des nombres réels λ
1≥ λ
2≥ · · · ≥ λ
ntels que pour tout i,
Av
i= λ
iv
i.
De plus, les λ
isont les valeurs propres de A et sont définies de manière unique et pour tout i, λ
i−1> λ
i> λ
i+1(avec les conventions λ
0= +∞ et λ
n+1= −∞), v
iest unique, à multiplication par −1 près.
Exercice 2.4. Donner v
1, v
2pour A = 2.5 .5 .5 2.5 .
2.4.2 Norme d’opérateur d’une matrice
Définition 2.8. La norme d’opérateur d’une matrice réelle A de taille n × n est le nombre
kAk := sup
kxk=1
kAxk.
2.5 Clustering spectral
2.5.1 Présentation
L’algorithme que nous avons vus au dessus repose sur le fait que les degrés moyens associés aux différentes classes sont différents, et même assez distants les uns des autres. Nous allons maintenant voir un autre algorithme, qui fonc- tionne aussi lorsque les degrés moyens associés aux classes sont les mêmes. Pour simplifier les choses, on fera les hypothèses simplificatrices suivantes :
1. on n’a que deux communautés, (k = 2),
2. les deux communautés sont de cardinal n/2 (donc n est pair),
2.5. CLUSTERING SPECTRAL 21 3. la matrice P a la forme p
inp
outp
outp
inavec p
in≥ p
out. L’algorithme de clustering spectral est alors le suivant : a) Calculer la matrice d’adjacence A
Gde G.
b) Calculer le vecteur propre v
2associé à la deuxième valeur propre de A
G. c) Partitioner les sommets selon les signes des coordonnées de v
2: une com- munauté est donnée par les i tels que v
2,i> 0 et l’autre communauté est donnée par les i tels que v
2,i≤ 0.
Théorème 2.4. Avec probabilité ≥ 1 − e
−n, la proportion de sommets mal clusterisés par cet algo est
≤ 8C
2nµ
2pour une certaine constante universelle C et pour
µ := min{ p
in− p
out2 , p
out}.
2.5.2 Preuve du Théorème 2.4
Pour prouver ce théorème, nous allons admettre plusieurs résultats, que voici.
On pose E A
Gla matrice n× n dont les coordonnées sont les nombres E a
ij= p
c(i)c(j).
Théorème 2.5. Il existe une constante C (ne dépendant d’aucun des para- mètres) telle que, avec probabilité ≥ 1 − e
−n,
kA
G− E A
Gk ≤ C √ n.
Soient X, Y des matrices symétriques réelles de même taille. On note λ
1(X ) ≥
· · · ≥ λ
n(X ) les valeurs propres ordonnées de X et λ
1(Y ) ≥ · · · ≥ λ
n(Y ) celles de Y . De même, on note v
1(X ), . . . , v
n(X) et v
1(Y ), . . . , v
n(Y ) des vecteurs propres associés de norme 1.
Théorème 2.6 (Inégalité de Weyl). Alors pour tout i,
|λ
i(Y ) − λ
i(X)| ≤ kY − Xk.
Théorème 2.7 (Davis-Kahan). Soit i
0tel que δ := min
i6=i0|λ
i(X )− λ
i0(X)| >
0. Alors il existe θ ∈ {−1, 1} tel que
kv
i0(Y ) − θv
i0(X)k ≤ 2
3/2δ kY − X k.
Les deux théorèmes précédents disent que si la matrice Y n’est pas trop loin
de la matrice X, alors les valeurs propres de Y ne sont pas loin de ceux de X ,
et qu’il en est de même pour les vecteurs propres associés à des valeurs propres
assez isolées du reste du spectre.
22CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL Lemme 2.5. Le spectre de E A
Gest
λ
1= n p
in+ p
out2 , λ
2= n p
in− p
out2 , 0, . . . , 0,
et les deux premiers vecteurs propres sont v
1= n
−1/2(1, . . . , 1)
Tet le vecteur v
2défini par
v
2,i:=
( n
−1/2si i ∈ V
1,
−n
−1/2si i ∈ V
2.
Démonstration. a) On montre que, pour M := E A
G, M v
i= λ
iv
ipour chaque i = 1, 2.
b) On montre que (v
1, v
2) est une famille orthonormée, que l’on peut donc étendre en une base orthonormée (v
1, . . . , v
n).
c) Soit O la matrice dont les colonnes sont les v
jet D = diag(λ
1, λ
2, 0, . . . , 0).
Montrons que
M = ODO
−1,
ce qui clôt la preuve. Comme (v
1, . . . , v
n) est une base orthonormée, O est ortho- gonale donc O
−1= O
T. En développant (ODO
T)
ij, on arrive très rapidement à M
ij.
On a donc, en appliquant ce qui précède avec Y = A
G, X = E A
Get i
0= 2 : δ = min{λ
2( E A
G), λ
1( E A
G) − λ
2( E A
G)} = n min{ p
in− p
out2 , p
out}
| {z }
=µ
et
kY − Xk ≤ C √ n
avec probabilité ≥ 1 − e
−n. On en déduit qu’il existe un signe θ ∈ {−1, 1} tel que
kv
2(A
G) − θv
2( E A
G)k ≤ 2
3/2C µ √
n .
Autrement dit, X
i
( √
nv
2,i(A
G) − √
nθv
2,i( E A
G))
2≤ 8C
2µ
2.
Chaque i tel que √
nθv
2,i( E A
G) n’est pas du bon signe, càd tel que θv
2,i( E A
G)
n’est pas du bon signe, contribue à la somme précédente de au moins 1, il y en
a donc au plus
8Cµ22.
2.6. REMARQUE 23
2.6 Remarque
Le choix a été fait de présenter dans ce chapitre deux manières de faire qui ne sont pas les seules envisagebles. On peut par exemple également écrire la vraisemblance de l’observation sous le modèle SBM. En effet, si Z
idésigne la classe de l’individu i dans un modèle à k classes, la probabilité d’observer une matrice d’adjacence donnée A est
L(A) = X
c∈{1,...,k}n
P (A|Z
1= c
1, . . . Z
k= c
k) P (Z
1= c
1, . . . Z
k= c
k)
= X
c∈{1,...,k}n
Y
i,j
a
pijc(i)c(j)(1 − a
ij)
1−pc(i)c(j)Y
i
α
c(i)On peut ensuite optimiser cette fonction et les Z correspondant au point pour lequel le maximum est atteint peuvent être utilisés pour déterminer les classes des sommets. Cette fonction ne peut cependant pas être optimisée de façon exacte et n’est pas cnvexe, il faut donc recourir à des heuristiques.
Un autre point qui a été passé sous silence dans ce chapitre est le choix du
nombre de classes, appelé problème du choix de modèle, qui dépasse le cadre de
ce cours.
24CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL
Chapitre 3
Chaînes de Markov et applications
3.1 Comment fonctionne Google ?
Pour cette section, les références sont [?] pour l’intro et [?] pour la suite.
3.1.1 Introduction
Google domine le marché des moteurs de recherche grâce à son algorithme de classement des page ordre de pertinence.
L’algorithme évolue continuellement depuis sa création et n’est pas entière- ment public, mais l’idée principale a été publiée par Sergey Brin and Larry Page en 1998. Elle repose sur l’idée de chaîne de Markov, connue depuis longtemps en mathématiques.
Le web est un chaos :
— les contenus sont hétérogènes
— les pages évoluent constamment
Une des clés du succès fulgurant de Google a été de mettre sur cet ensemble une structure de graphe orienté.
Définition 3.1. Un graphe orienté est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un sous- ensemble de V × V . Pour v, w ∈ V , on note v → w si (v, w) ∈ E.
La structure de graphe orientée que Google appose au web est la suivante : V = {pages web} et pour v, w pages web, v → w si v contient un lien vers w.
3.1.2 Comment hiérarchiser ce graphe ?
Comptage naïf
Idée : on constate que les pages importantes sont la cible de nombreux liens
25
26 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS On peut penser à renverser l’affirmation et à déclarer que le nombre de liens entrants est un indicateur de l’importance d’une page
— Pros : simple à calculer
— Cons :
a) Pas forcément vrai
b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.
Comptage pondéré
Idée : Toutes les pages ont la même quantité de poids à distribuer.
m
i= (importance de la page i)
= X
j→i
1
nombre de pages pointées par la page j
— Pros : facile à calculer
— Cons :
a) Donner le même poids à distribuer à toutes les pages ne semble pas pertinent
b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.
Comptage pondéré récursif
Idée : une page est importante si de nombreuses pages importantes pointent vers elle
m
i= (importance de la page i)
= X
j→i
m
jnombre de pages pointées par la page j
— Pros :
a) correspond mieux à l’intuition b) tricher est plus difficile
— Cons : calcul : système linéaire (certes creux) à résoudre, avec autant de variables que de pages web
Comment déterminer le vecteur des poids
Considérons un surfeur aléatoire qui se promène sur la toile en allant au hasard depuis chaque page sur l’une des pages vers lesquelles elle pointe.
L’idée (qui sera justifiée théoriquement par la théorie des chaînes de Markov),
est que le vecteur des poids solution de problème précédent est proportionnel au
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 27 vecteur du temps que passe ce surfeur sur chacunde des pages. Il faut cependant un peu modifier le processus de promenade alétoire afin de s’assurer de ne pas resté indéfiniment sur une page qui ne pointerait vers aucune autre page.
3.2 Chaînes de Markov à espaces d’états finis
3.2.1 Définition
On considère une suite de variables aléatoires discrètes (X
i)
i≥0à valeurs dans le même espace S. La suite de (X
i)
i≥0est appelée chaîne de Markov si elle vérifie la propriété de Markov, qui caractérise les processus sans mémoire :
P (X
i+1= x
i+1|X
i= x
i, X
i−1= x
i−1, . . . , X
0= x
0) = P (X
i+1= x
i+1|X
i= x
i) En d’autres termes, sachant le présent, le futur ne dépend pas du passé.
On note π
ila distribution de X
i. La chaîne est alors caractérisée de façon unique par la distribution π
0et par ses probabilités de transition ((p
qr))
q,r∈S2entre états
p
qr= P (X
i+1= r|X
i= q)
La matrice P (éventuellement infinie si S est un ensemble dénombrable) regroupant les ((p
qr))
q,r∈S2est appelée matrice de transition de la chaîne de Markov.
3.2.2 Probabilité d’une trajectoire
La première question qu’on peut se poser est celle de la vraisemblance d’une chaîne observée, afin d’inférer les probabilités de transition.
Propriété 3.1. Soit x
0, . . . , x
nune trajectoire observée. La probabilité de cette trajectoire sous notre modèle (appelé aussi sa vraisemblance) est
P (X
n= x
n, X
n−1= x
n−1, . . . , X
0= x
0) =
n−1
Y
i=0
p
xixi+1π
0(x
0)
Démonstration. Récurrence sur n avec conditionnement.
On peut alors reécrire cette vraisemblance comme
P (X
n= x
n, X
n−1= x
n−1, . . . , X
0= x
0) = π
0(x
0) Y
q,r
p
nqrqroù n
qrindique le nombre de passage de l’état q à l’état r. Oon peut démontrer
que la vraisemblance est maximale pour p ˆ
qr=
nSTn.
28 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS
3.2.3 Distribution limite - Mesure invariante
Une autre questionest de déterminer si la suite des (π
i) converge et vers quelle distribution limite.
Il est aisé de démontrer que Propriété 3.2. Pour tout n ≥ 1,
π
nt= π
tn−1P (3.1)
et par conséquent
π
tn= π
0tP
n(3.2)
Démonstration. Par récurrence sur n.
L’égalité 3.2 implique que la suite des distributions converge si et seulement la suite des puissances de la matrice de transition converge. L’égalité 3.1 implique que si une limite µ existe pour les distributions π
i, elle vérifie
µ
t= µ
tP
Une mesure vérifiant cette égalité est appelée mesure invariante de la chaîne de Markov.
3.2.4 Classification des chaînes de Markov
Il existe plusieurs types de chaînes dont l’étude est différente. On peut ce- pendant essentiellement toujours se ramener au même type de chaînes, appelées irréductibles et apériodiques.
Chaînes apériodiques
Définition 3.2. La chaîne de Markov est dite apériodique si il existe n
0tel que pour tout n ≥ n
0et pour tout x, y ∈ E,
P
n(x, y) > 0.
En d’autres termes, une chaîne est apériodique s’il n’y a pas de couple (x, y) d’états tels que toutes les façons d’aller de x à y ont une longueur multiple de k, k ≥ 2.
Il existe d’autres caractérisations de l’apériodicité équivalentes à celle-ci. Par exemple celle-ci :
Propriété 3.3. La chaîne de Markov est apériodique si elle est irréductible et
il existe x ∈ E tel que P(x, x) > 0.
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 29 Décomposition d’une chaîne en composantes irréductibles Les chaînes de Markov ont deux types d’états distincts : ceux en qui elles passent une infinité de fois si elles y passent une première fois, et ceux qu’elles visitent un nombre fini de fois avant de les quitter définitivement.
Définition 3.3. Un état v d’une chaîne de Markov est récurrent si, étant donné que le point de départ de la chaîne est v, elle revient en v avec probabilité 1.
Si cette probabilité est < 1, l’état est dit transient ou transitoire.
Si p
vv= 1, la marche ne quitte plus v si elle l’atteint. Dans ce cas, l’état est dit absorbant. Les états absorbants sont des cas particulier des états récurrents.
Dans le cas d’un état transitoire, il y a une probabilité non nulle, à chaque passage en v, que la marche passe par v pour la dernière fois. Elle finit donc par le quitter et ne pas y revenir. Si on note p la probabilité de revenir, le nombre de passage sachant qu’il est au moins égal à 1 suit une loi géométrique de paramètre p. Elle est donc d’espérance finie.
Une chaîne de Markov peut être représentée par un graphe dirigé dont les sommets sont les états et dont les arêtes sont valués par les probabilités de transition. Les états récurrents et transitoires peuvent facilement être identifiés sur ce graphe.
Définition 3.4. Une composante fortement connexe dans un graphe orienté est un ensemble maximal S de sommets vérifiant la propriété suivante : pour toute paire de sommets u et v de S, il existe un chemin dirigé de u vers v et un chemin dirigé de v vers u.
Remarque:
Posons x ∼ y si P
n≥0
(P
n)
xy> 0 et P
n≥0
(P
n)
yx> 0. ∼ est une relation d’équivalence. Les composantes irréductibles de la chaîne correspondent alors aux classes d’équivalence de cette relation.
Propriété 3.4. On considère la décomposition du graphe G représentant une chaîne de Markov en ses composantes fortement connexes. Soit H un graphe ayant un sommet pour chaque composante fortement connexe de G et tel que (u, v) ∈ E(H ) s’il existe une arête de G allant de la composante correspondant à u à la composante correspondant à v.
Alors le graphe H est acyclique. De plus, les états récurrents sont les états situés dans les composantes connexes dont le degré sortant dans H est nul.
Démonstration. L’acyclicité de H est due au fait que l’existence d’un cycle contredirait la maximalité des composantes fortement connexes (DESSIN).
Considérons une composante fortement connexe S dont le degré sortant est
non nul et T = inf{k ∈ N , X
k∈ / S}. Soit v un état de S tel qu’il existe une
arête de probabilité non nulle issue de v et sortant de la composante. S étant
une composante fortement connexe, il existe pour tout état u de v un chemin
de longueur ≤ K et de probabilité non nulle allant de u à v puis empruntant
30 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS cette arête. Soit α le minimum des probabilités de ces chemins pour l’ensemble des états u de S (DESSIN). Alors,
P (T > n + K|T > n) ≤ (1 − α) puis
P (T > nK ) ≤ (1 − α)
nLa série P (1−α)
nétant convergente, la série P
P (T > nK) converge également.
Or E (T ) = P
k≥0
P (T > K) ≤ K P
n≥0
P (T > nK) pour tout n, donc on en conclut que E (T ) est finie, c’est-à-dire que la chaîne finit presque surement par sortir de S. Par acyclicité de H, elle n’y revient jamais, et donc tout état de S est transient.
Soit v un état dans une composante fortement connexe dont le degré sortant est nul. Si la marche passe en v, elle reste enfermée dans cette composante. Celle- ci étant fortement connexe, il y a un chemin de probabilité non nulle allant de tout sommet vers v. On peut reprendre le raisonnement précédent en posant T comme le temps du passage suivant en v et α la plus petite probabilité d’aller en v depuis l’ensemble des états de la composante. On montre que T est presque surement fini et on en déduit que v est récurrent.
En résumé, une chaîne peut être décomposée en composantes fortement connexes et l’étude du comportement à long terme de la chaîne peut être réduit à
1. Déterminer les composantes connexes ’terminales’
2. Déterminer la probabilité d’atteindre chacune d’elles étant donnée la dis- tribution de départ
3. Déterminer le comportement à l’intérieur de ces composantes en fonction de leurs probabilités de transition internes
Les étapes 1. et 2. sont appelées réduction de la chaîne de Markov. L’étape 3. se ramène à l’étude des chaînes de Markov irréductibles :
Définition 3.5. Une chaîne de Markov est irréductible si le graphe associé est fortement connexe, ou autrement dit s’il existe un chemin entre toute paire d’états.
Exemple 3.1. DESSIN
Etats récurrents positifs Un état d’une chaîne de Markov est
récurrent si la probabilité de retour en cet état, partant de cet état, vaut 1.
transient s’il n’est pas récurrent ; dans ce cas, la chaîne passera peut-être plusieurs fois par cet été mais finira par le quitter définitivement.
récurrent positif s’il est récurrent et que l’espérance du temps de retour
en cet état, partant de cet état, est fini. En d’autres termes, si la chaîne
passe en fois par cet état, elle y passera infiniment souvent.
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 31 Dans le cadre de ce cours qui se limite aux chaînes finies, il y a équivalence entre être récurrent et être récurrent positif. En particulier, si la chaîne est finie et irréductible, tout état est récurrent positif.
La situation est plus complexe si on considère des chaînes discrètes avec un nombre d’état infini dénombrable (hors cadre de ce module) :
1. On considère une marche aléatoire symétrique sur Z , pour laquelle à chapque étape on fait un pas vers la gauche ou vers la droite avec pro- babilité
12. On peut démontrer que dans ce cas la probabilité de retour en 0 est de 1 mais que l’espérance du temps de retour en 0 est infinie : 0 n’est pas récurrent positif.
2. On considère une marche aléatoire non symétrique sur Z , pour laquelle la probabilité de faire un pas à droite est de p >
12et celle de faire un pas à gauche est de q = 1 − p. On peut montrer que la probabilité de retour en 0 n’est pas de 1 car la marche tend presque surement vers l’infini : 0 est un état transient.
3. On considère une marche aléatoire non symétrique sur Z , telle qu’on fait un pas vers 0 avec probabilité p >
12et un pas opposé avec probabilité q = 1 − p. On peut alors montrer que 0 est récurrent positif.
3.2.5 Convergence pour les chaînes irréductibles apério- diques
En passant à la limite dans l’égalité
tπ
k+1=
tπ
kP, on pressent que si la marche a une distribution limite quand le nombre de pas tend vers l’infini, cette distribution devra vérifier
tπ =
tπP , c’est-à-dire être un vecteur propre à gauche associé à la valeur propre 1.
Définition 3.6. Une mesure invariante
tµ pour une chaîne de Markov de ma- trice de transition P est un vecteur vérifiant
tµ =
tµP .
La distribution limite, si elle existe, est donc une distribution invariante.
Nous pouvons maintenent énoncer le théorème central de la théorie des chaînes de Markov, qui va être l’idée centrale de l’algorithme MCMC :
Théorème 3.1. On considère une chaîne de Markov irréductible et apériodique, admettant un état récurrent positif. Alors tous les états sont récurrent positifs et il existe une unique mesure invariante µ.
De plus, quel que soit la mesure initiale π
0, la suite des lois π
ndes X
nconverge vers µ.
Idée de la démonstration dans le cas d’un espace d’état fini L’existence d’un vecteur propre à gauche associé à 1 est assurée par le fait que P est une matrice stochastique et que
1 .. . 1
est donc un vecteur propre à droite associé à
la valeur propre 1.
32 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS Dans le cas apériodique et irréductible, il est possible d’obtenir les résultats suivants :
Théorème 3.1. Perron-Frobenius Soit P la matrice d’une chaîne de Markov irréductible. Alors :
1. 1 est une valeur propre simple.
2. tout vecteur propre à gauche associé à 1 a toutes ses coordonnées de même signe. En particulier, celui de somme 1 correspond bien à une distribution de probabilités.
3. si la chaîne est apériodique, toute autre valeur propre λ vérifie |λ| < 1.
En d’autres termes, toute chaîne de Markov irréductible admet une unique mesure de probabilité invariante.
Démonstration. Existence : Soit q
0un état, considéré comme l’état de départ de la chaîne. Soit T le temps du premier retour en q
0. On définit λ(q) comme le nombre moyen de passage en q avant T
λ(q) = E
T
X
i=1
1
Xi=q=
+∞
X
i=0
P (X
i= q, i ≤ T )
= X
r∈S +∞
X
i=0
P (X
i= q, X
i−1= r, i ≤ T )
= X
r∈S +∞
X
i=0
P (X
i−1= r, i − 1 ≤ T )P
rq= (
tλP )(q)
L’unique multiple de λ de somme 1 est donc bien une mesure de probabilité invariante. 1 est donc bien une valeur propre.
Unicité : Soit µ une mesure telle que µ(q
0) = 1. Alors
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 33
µ(q) = X
r
µ(r)P
rq= P
q0q+ X
r6=q0
X
t
µ(t)P
trP
rq= P
q0q+ X
r6=q0
P
q0rP
rq+ X
r6=q0
X
t6=q0
X
u
µ(u)P
utP
trP
rq= X
n≥0
X
u1,...,un−16=q0
P
q0u1. . . P
un−1q= X
n≥0
P (X
n+1= q, T > n + 1)
= λ(q)
Cela démontre à la fois le fait que 1 est valeur propre simple et le point 2.
Remarques:
1. Soit q un état. La preuve appliquée pour q
0= q implique que π(q) = λ(q)
P
r
λ(r)
= 1
E (T
q) où T
qest le temps du premier retour en q.
2. Si la chaîne n’est pas irréductible, la partie concernant la monotonie du signe du vecteur propre est encore valable. Par contre, l’espace propre peut être de dimension supérieure : il n’y a plus unicité de la mesure invariante.
Théorème 3.2. Soit P la matrice d’une chaîne de Markov irréductible et apé-
riodique et µ l’unique mesure invariante associée. Alors, pour tout X
0, lim
tn→+∞π
0P
n=
tµ.
De plus, la vitesse de convergence est en |λ
2|
n, où λ
2est la valeur propre de valeur absolue maximale parmi les valeurs propres différentes de 1.
Démonstration. On se contente de démontrer cette propriété dans le cas où P est diagonalisable. Soit (1, λ
2, . . . , λ
N) les valeurs propres de P rangées par valeurs absolues décroissantes (avec éventuellement λ
i= λ
i+1en cas de valeur propre multiple). Dans ce cas, il existe une base de vecteurs propres (µ, u
2, . . . , u
N) de R
N, u
iétant associé à λ
i. On peut écrire
t
X
0= α
t1µ + X
i≥2
α
tiu
i34 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS d’où
t
X
0P
n= α
t1µ + X
i≥2
α
iλ
niu
i||
tX
0P
n− α
t1µ|| = |λ
2|
n||u
2+ X
i≥3
λ
iλ
2 nu
i||
||
tX
0P
n− α
t1µ|| ≤ C|λ
2|
nCconstante
On en déduit que
tX
0P
ntend vers α
1µ à la vitesse |λ
2|
n. Le fait que
tX
0P
net µ sont des distributions implique que α
1= 1.
3.2.6 Théorème ergodique
Théorème 3.2. On considère une chaîne de Markov irréductible apériodique de mesure invariante π et f : S → R une fonction telle que P
q∈S
π
q|f (q)| < +∞.
Alors,
n→+∞
lim 1 n
n
X
i=0
f (X
i) = X
q∈S
π
qf (q) Démonstration.
1 n
n
X
i=0
f (X
i) = X
q∈S
N
q(n) n
où N
q(n) est le nombre de fois où la chaîne se trouve en q entre les instants 0 et n.
On note S
qila variable aléatoire dénotant le temps de la i
emeexcursion entre deux passsages successifs de la chaîne en q. Alors
S
q0+ . . . + S
qNq(n)−1≤ n < S
q0+ . . . + S
qNq(n)Par la propriété de Markov, les S
iqsont indépendantes et identiquement distribués, de même loi que le temps de retour T
qen q. La loi des grands nombres implique donc que
lim
Nq(n)→+∞
S
0q+ . . . + S
qNq(n)N
q(n) = E (T
q)
Le fait que lim
n→+∞N
q(n) = +∞, l’encadrement précédent et l’égalité E (T
q) =
π(q)1(cf remarque plus haut) imploquent le théorème.
Remarques:
1. Si S ⊂ R , on retrouve en prenant f = Id,
n→+∞
lim 1 n
n
X
i=0