Chapitre 1
Fonction génératrices et
application au processus de Galton-Watson
1.1 Fonctions génératrices
1.1.1 Définition
Définition 1.1. Soit X une variable aléatoire à valeur dans N . La série entière définie par
φ
X(z) = E z
X=
+∞
X
k=0
P (X = k)z
kest de rayon de convergence au moins 1 puisque P
+∞k=0
P (X = k) = 1. La fonction φ
Xest donc définie sur ] − 1, 1].
Elle est appelée fonction génératrice de X . Exemples 1.1. Bernoulli : X ∼ B(p)
φ
X(z) = P (X = 0)z
0+ P (X = 1)z
1= 1 − p + pz Binômiale : X ∼ B(n, p)
φ
X(z) =
n
X
k=0
n k
p
k(1 − p)
n−kz
k=
n
X
k=0
n k
(pz)
k(1 − p)
n−k= (1 − p + pz )
n3
Poisson : X ∼ P (λ)
φ
X(z) =
+∞
X
k=0
λ
kk! e
−λz
k= e
−λ+∞
X
k=0
(λz)
kk!
= e
λ(z−1)Géométrique : X ∼ G(p), avec q = 1 − p
φ
X(z) =
+∞
X
k=0
pq
k−1z
k= pz
+∞
X
l=0
q
lz
l= pz 1 − qz
Propriété 1.1. φ
X= φ
Ysi et seulement si X = Y p.s.
Démonstration. Si X = Y p.s., les deux fonctions génératrices sont égales de façon évidente.
Inversement, si φ
X= φ
Y, l’unicité du développement en série entière entraîne que P (X = k) = P (Y = k) pour tout k.
1.1.2 Sommes de variables indépendantes
Propriété 1.2. Soient X et Y des v.a. indépendantes. Alors φ
X+Y= φ
Xφ
YEn particulier, si X
1, . . . , X
nsont des v.a. indépendantes et identiquement distribuées,
φ
X1,...,Xn= φ
nXDémonstration. Avec des séries entières : Pour tout k, P (X + Y = k) = X
l=0
P (X = l, Y = k − l) X
l=0
P (X = l) P (Y = k − l) par indépendance
On reconnait alors la formule de la multiplication des séries entières.
1.1. FONCTIONS GÉNÉRATRICES 5 Avec des probabilités : Comme X et Y sont indépendantes, E (f (X )g(Y )) =
E (f (X)) E (g(Y )). En particulier, pour tout |z| < 1, E (z
Xz
Y) = E (z
X) E (z
Y).
Exemple 1.1. Retrouver la fonction génératrice d’une variable binômiale en écrivant cette dernière comme la somme de variables de Bernoulli.
1.1.3 Dérivées de φ
Xet moments de X
Propriété 1.3. Soit p ∈ N . Si E X
pexiste, alors φ
Xest p fois dérivable sur ] − 1, 1[. De plus, si φ
(p)Xexiste et est continue en 1,
φ
(p)X(1) = E X (X − 1) . . . (X − p + 1) En particulier,
E X = φ
0X(1)
varX = φ
00X(1) + φ
0X(1) − φ
0X2(1)
Démonstration. Une série entière étant indéfiniment dérivable sur l’intérieur de son domaine ed convergence, φ
(p)Xexiste pour |z| < 1 et
φ
(p)X(z) =
+∞
X
k≥p
k(k − 1) . . . (k
p+ 1)z
k−pLe fait que E X
pexiste signifie que P
+∞k=0
P (X = k)k
pconverge. Or, pour
|z| < 1,
|k(k − 1) . . . (k
p+ 1)z
k−p| ≤ k
pdonc (theoreme ?)
z→1
lim φ
(p)X(z) =
+∞
X
k=0
P (X = k)k(k − 1) . . . (k
p+ 1)
Le deuxième membre est égal à E X(X − 1) . . . (X − p + 1) et le premier vaut φ
(p)X(1) par continuité de φ
(p)X.
La démonstration des cas particuliers de l’espérance et de la variance est laissée en exercice.
Exemple 1.2. Bernoulli : Si X ∼ B(p), φ
X(z) = 1 − p + pz φ
0X(z) = p
φ
00X(z) = 0
On retrouve E (X) = p et varX = p(1 − p).
Binômiale : Si X ∼ B(n, p),
φ
X(z) = (1 − p + pz)
nφ
0X(z) = np(1 − p + pz)
n−1φ
00X(z) = n(n − 1)p
2(1 − p + pz)
n−2On retrouve E (X) = np et varX = np(1 − p).
Poisson : Si X ∼ P(λ),
φ
X(z) = e
λ(z−1)φ
0X(z) = λe
λ(z−1)φ
00X(z) = λ
2e
λ(z−1)On retrouve E (X) = λ et varX = λ.
Géométrique partant de 1 : Si X ∼ G(p) φ
X(z) = pz
1 − qz = z − 1 1 − qz + 1 φ
0X(z) = p
(1 − qz)
2φ
00X(z) = 2pp
(1 − pz)
3On retrouve E (X) =
1pet var(X ) =
pq2.
1.1.4 Cas d’une variable continue : transformée de Laplace
Dans le cas d’une variable aléatoire continue positive, à densité f , on peut définir la transformée de Laplace, définie pour t ≥ 0 par
φ
X(t) = E (e
−tX) = Z
+∞0
e
−txf (x)dx
Les propriétés des fonctions génératrices se généralisent, en particulier que φ
X+Y(t) = φ
X(t)φ
Y(t) si X et Y sont indépendantes, et que les valeurs des dérivées successives en 0 donnent les moments de la loi (démonstrations laissées en exercice, sur le même modèle que celle des fonctions génratrices).
Propriété 1.4. Soit X et Y deux variables aléatoires continues positives et indépendantes. Alors φ
X+Y= φ
Xφ
Y.
Propriété 1.5. Soit X une variable aléatoire continue posisitve, telle que E X
pexiste. Alors φ
Xest p fois dérivable et , pour tout 0 ≤ k ≤ p, φ
(k)(0) =
(−1)
kE X
k.
1.2. PROCESSUS DE GALTON-WATSON 7 Remarque:
La notion de transformée de Laplace peut être étendue à des variables non- positives en commençant l’intégrale en −∞. Il faut cependant alors vérifier la convergence de l’intégrale généralisée.
Ainsi, la loi normale, dont la densité est équivalente en l’infini à un terme en Ke
−Cx2admet une transformée de Laplace en intégrant entre −∞ et +∞.
En effet, pour tout t, R
+∞−∞
e
−tx−Kx2dx converge.
1.2 Processus de Galton-Watson
1.2.1 Présentation du modèle
Le but de ce modèle est de modéliser l’évolution d’une population en temps discret. Il a été introduit en 1874 par Francis Galton et Henry Watson pour répondre au problème de la probabilité d’extinction des noms aristocratiques dans l’angleterre victorienne. Le fait qu’il ait été appliqué à des noms de fa- mille explique son hypothèse simplificatrice consistant à considérer des arbres généalogiques où les parents sont uniques.
Sous ce modèle, la population initiale se réduit à un ancêtre unique. Cet ancêtre a ensuite un nombre aléatoire de descendants, et chacun des descendants de même , et ainsi de suite. On fait de plus l’hypothèse que le nombre des fils de chaque individu est identiquement distribué et indépendant du parent.
DESSIN
Le processus peut alors être modélisé par deux suites de variables aléatoires : 1. (Z
n, n ≥ 0) où Z
nest le nombre d’individus de la génération n
2. (X
i,j, i ≥ 0, j ≥ 1) où X
i,jest le nombre de descendants de l’individu j de la génération i.
On a alors, pour tout n ≥ 1,
Z
0= 1
Z
1= X
0,1Z
2=
Z1
X
j=1
X
1,j· · · · · ·
Z
n+1=
Zn
X
j=1
X
n,j,
la suite devenant uniformément nulle si elle s’annule une première fois (extinc-
tion).
1.2.2 Espérance et variance de Z
nOn suppose connue φ, la fonction génératrice commune des variables (X
i,j)
i,j. Soit G
nla fonction génératrice de Z
n. Alors
Propriété 1.6. a) G
n+1(s) = G
n(φ(s)) pour tout n ≥ 0.
b) G
n(s) = φ
(n)(s), où φ
(n)désigne la composition n fois de φ avec elle- même.
Démonstration. On démontre la propriété b) par récurrence, la propriété a) étant démontrée au passage.
— Pour n = 0, G
0(s) = 1 car Z
0= 1.
— Supposons la propriété vraie au rang n.
Or,
G
n+1(s) = E s
PZnj=1Xn,j= E
+∞
X
k=0
s
PZnj=1Xn,jI
Zn=k=
+∞
X
k=0
E s
PZnj=1Xn,jI
Zn=k∗ ∗
=
+∞
X
k=0
E s
PZnj=1Xn,jP (Z
n= k)car Z
nest indépendante des X
n,j=
+∞
X
k=0
E φ(s)
kP (Z
n= k)car les X
n,jsont indépendantes
= G
n(φ(s))
= φ
(n)(φ(s)) par hypothèse de récurrence
= φ
(n+1)(s) Remarque:
En **, l’espérance et la somme peuvent être échangées car toutes les variables sont positives (la somme infinie pose problème sinon). On peut éviter le recours à cet argument dans le cas où les X
i,jsont bornés par Q, car alors Z
n≤ Q
n(et cela paraît raisonnable dans le cas des humains).
La propriété précédente permet de déduire la fonction génératrice de Z
nen fonction de celle de Z
1(comme Z
1= X
0,1, elle est de fonction génératrice φ).
On peut alors en déduire l’espérance et la variance de Z
nen fonction de celle de Z
1.
Propriété 1.7. a) Si m = E Z
1< +∞, alors E Z
n= m
n.
1.2. PROCESSUS DE GALTON-WATSON 9
b) Si σ
2= varZ
1< +∞, alors varZ
n= nσ
2si m = 1
mn(mn−1)
m(m−1)
σ
2si m 6= 1 Démonstration. a) En dérivant l’égalité de la Proposition 1.6 a),
G
0n+1(s) = G
0n(φ(s))φ
0(s) Pour s = 1 et comme φ
0(1) = E Z
1= m, on obtient que
G
0n+1(s) = mG
0n(s)
Comme de plus G
1= φ, on obtient par récurrence que G
0n(1) = m
n. On en déduit la propriété a) puisque G
nest la fonction génératrice de Z
n. b) On démontre cette propriété par récurrnce, en se basant sur la Proposi-
tion 1.3 :
varZ
n= G
00n+1(1) + G
0n(1) − (G
0n(1))
2(1.1) Pour n = 1, la propriété est vraie par définition et l’équation 1.1 entraîne que
σ
2= φ
00(1) + φ
0(1) − (φ
0(1))
2(1.2) Supposons que la propriété est vraie pour n. Pour appliquer l’équation 1.1, il faut commencer par déterminer G
00n+1(1). Or,
G
00n+1=
G
0noφ(s)φ
00= G
00noφ.φ
02+ G
0noφ.φ
00On l’applique en 1, en utilisant l’équation 1.1 pour remplacer G
00n(1), l’équation 1.2 pour remplacer φ
00(1), et le fait que G
0n(1) = m
n.
G
00n+1(1) = (varZ
n− m
n+ m
2n)m
2+ m
n(σ
2− m + m
2)
= m
2varZ
n+ m
nσ
2+ m
2n+2− m
n+1En le réinjectant dans l’équation 1.1, on obtient
varZ
n+1= m
2varZ
n+ m
nσ
2(1.3) Si m = 1 L’équation 1.3 avec varZ
n= nσ
2donne facilement que varZ
n+1=
(n + 1)σ
2et que la propriété est vraie au rang n + 1.
Si m 6= 1 Par hypothèse de récurrence, varZ
n+1= m
2m
n(m
n− 1)
m(m − 1) σ
2+ m
nσ
2= m
n+1(m
n+1− 1)
m(m − 1) σ
21.2.3 Probabilité d’extinction
Soit E l’évènement désignant le fait que la population s’éteint.
E = ∪
n≥1{Z
n= 0}
Les évènements {Z
n= 0} constituant une suite croissantr d’évènements, P (E) = lim
n→+∞
P (Z
n= 0)
Théorème 1.1. P (E) est la plus petite solution dans [0, 1] de l’équation φ(s) = s.
Si m ≤ 1, P (E) = 1, sinon 0 ≤ P (E) < 1.
Démonstration. La propriété 1.6 b) entraîne que G
n(s) = φ(G
n−1(s)). En par- ticulier
G
n(0) = φ(G
n−1(0) P (Z
n= 0) = φ( P (Z
n−1= 0))
n→∞
lim P (Z
n= 0) = lim
n→∞
φ( P (Z
n−1= 0))
n→∞
lim P (Z
n= 0) = φ( lim
n→∞
P (Z
n−1= 0)) car φ est continue P (E) = φ( P (E))
P (E) est donc une solution de φ(s) = s.
Soit q la plus petite solution de φ(s) = s appartenant [0, 1]. Comme φ est croissante, φ
(n)l’est également. Par conséquent,
φ
(n)(0) ≤ φ
(n)(q) P (Z
n= 0) ≤ q
P (E) ≤ q par passage à la limite.
Par minimalité de q, on a donc forcément P (E) = q.
De plus, φ est de dérivée et de dérivée seconde positive puisque : φ
0(s) = X
k≥1
k P (Z
1= k)s
k−1φ
00(s) = X
k≥2
k(k − 1) P (Z
1= k)s
k−2En particulier, φ
0est croissante.
P (Z
1= 0) + P (Z
1= 1) 6= 1 : Il existe un k > 1 tel que P (Z
1= k) > 0. La fonction φ
00est alors strictement positive donc φ
0est strictement crois- sante.
Si m ≤ 1, on a pour tout s < 1, (φ(s) − s)
0= φ
0(s) − 1 < φ
0(1) − 1 ≤ 0.
Donc φ(s) −s > φ(1)− 1 = 0. 1 est donc la plus petite racine de φ(s) = s.
1.2. PROCESSUS DE GALTON-WATSON 11 Si m > 1, comme φ
0(0) = P (Z
1= 1) < 1 et φ
0(1) = m > 1, il existe un unique s
0tel que φ
0(s
0) = 1. Une étude de signe de φ(s) − s donne alors
0 s
01
φ
0(s) − 1 − + φ(s) − s & % 0
P (Z
1= 0) + P (Z
1= 1) = 1 : Alors φ(s) = α+ (1 − α)s avec α = P (Z
n= 0).
Donc φ(s) = s entraîne α = αs puis s = 1. Ce cas correspond de plus bien à m ≤ 1.
AJOUTER DESSINS DES FONCTIONS DANS LES TROIS CAS.
1.2.4 Comportement asymptotique
Cas sous-critique (m < 1)
Dans ce cas, la probabilité d’extinction est de 1, si bien que la variable d’interêt devient le temps τ de l’extinction. Comme {τ > n} = {Z
n6= 0} et que P (Z
n= 0) = G
n(0),
P (τ > n) = 1 − G
n(0)
Etudier τ revient donc à étudier la vitesse de convergence de G
n(0) vers 1.
Propriété 1.8. Supposons m = 1 et soit τ le temps d’extinction du processus.
Il existe C > 0 tel que P (τ > n) ∼ Cm
n.
Démonstration. Le théorème de Taylor implique qu’il existe c
n∈ [G
n(0), 1] tel que
φ(G
n(0)) − φ(1) = φ
0(1)(G
n(0) − 1) + φ
00(c
n)
2 (G
n(0) − 1)
21 − G
n+1(0) = m(1 − G
n(0)) − φ
00(c
n)
2 (1 − G
n(0))
2La fonction φ
(3)étant continue et positive,
0 ≤ φ
00(c
n) ≤ φ
00(1) donc,
m − φ
00(1)(1 − G
n(0)) ≤ 1 − G
n+1(0)
1 − G
n(0) ≤ m (1.4)
L’inégalité de droite entraîne que
1−G1−Gn(0)0(0)
≤ m
net que par conséquent,
comme G
0(0) = 0, 1 − G
n(0) ≤ m
n.
L’égalité 1.4 entraîne alors que ∀n ≥ N
1m − φ
00(1)m
n≤ 1 − G
n+1(0)
1 − G
n(0) ≤ m 1 − φ
00(1)m
n−1≤ m
−(n+1)(1 − G
n+1(0))
m
−n(1 − G
n(0)) ≤ 1
ln(1 − φ
00(1)m
n−1) ≤ ln(m
−(n+1)(1 − G
n+1(0))) − ln(m
−n((1 − G
n(0))) ≤ 0 (1.5) Or, ln(1 − x) ≥ −2x pour 0 ≤ x < 1 suffisamment proche de 0 donc il existe N tel que, ∀n ≥ N
ln(1 − φ
00(1)m
n−1) ≥ −2φ
00(1)m
n−1(1.6) La série de terme général m
n−1convergeant car m < 1, on en déduit que la série de terme général négatif ln(1−φ
00(1)m
n−1) converge également. L’équation 1.5 entraîne alors que la série de terme général ln(m
−(n+1)(1 − G
n+1(0))) − ln(m
−n((1 − G
n(0))) converge également, vers un réel néagtif K. La somme partielle d’ordre n de cette série valant ln(m
−n((1 − G
n(0))), on en déduit que lim
n→+∞m
−n((1 − G
n(0)) = e
K= C. Ceci démontre le théorème.
Cas critique (m = 1)
Dans ce cas, la probabilité d’extinction est également de 1. L’approche est semblable au cas sous-critique, la seule différence étant la vitesse de convergence.
Propriété 1.9. Supposons m < 1 et soit τ le temps d’extinction du processus.
Soit σ
2la variance de Z
1. Alors P (τ > n) ∼
nσ22. Démonstration. cf TD 1.
Cas sur-critique (m > 1)
Dans ce cas, la probabilité d’extinction est inférieure à 1 et l’espérance de Z
nvaut m
net tend donc vers l’infini. Les variations de Z
nautour de sa moyenne sont données par la théorème suivant.
Propriété 1.10. Il existe une v.a. positive W avec E W = 1 et varW =
m(m−1)σ2telle que
n→+∞
lim Z
nm
n= W presque surement De plus, P (W > 0) = 1 − P (E).
Démonstration. Admis
Chapitre 2
Communautés dans les
réseaux et clustering spectral
Référence pour ce chapitre : [?]. Ce chapitre est repris du cours écrit par Florent Beanych-Georges. Merci à lui d’avoir accepté que je le reprenne.
2.1 Introduction : graphes et réseaux sociaux
Supposons qu’un ensemble d’individus sont reliés par des liens réciproques.
Comme par exemple dans un réseau social type Facebook (mais cela pourrait être aussi des agents économiques entre certains desquels s’établissent des rela- tions). La structure d’un tel réseau peut être représentée par un graphe. On se limitera ici aux graphes simples et non orientées.
Définition 2.1. Un graphe est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un ensemble de parties à deux éléments de E. Deux sommets v, w sont dits adjacents s’ils sont reliés par une arête, i.e. si {v, w} ∈ E. Le degré d’un sommet est le nombre de sommets qui lui sont adjacents.
On introduit ici une définition qui nous sera utile par la suite :
Définition 2.2. Soit G = (V, E) un graphe avec V = {1, . . . , n}. La matrice d’adjacence du graphe est la matrice A
G= [a
ij]
1≤i,j≤ndéfinie par
a
ij= 1 {i, j} ∈ E.
Remarque:
Les coordonnées de A
Gvalent 0 ou 1 et A
Gest une matrice symétrique : a
ij= a
ji.
Exercice 2.1. Donner V , E et A
Gpour le graphe de la figure ??.
13
Figure 2.1 – Exemple de graphe
Exemple 2.1. 1. Le réseau Facebook : V = ensemble des utilisateurs et E = ensemble des couples d’utilisateurs amis.
2. Un sous-ensemble du réseau Facebook : V = partie ensemble des utili- sateurs et E = ensemble des couples d’utilisateurs amis qui sont dans V .
Figure 2.2 – Internet en 1999
La structure des graphes issus vie réelle pose de nombreuses question pra-
tiques (analyse de la dépendance des banques entre elles, identification des sites
internet remportant le plus de succès, mise en place de la publicité personnali-
sée pour les annonceurs, etc...). Le problème auquel on va s’intéresser ici, qui se
pose de façon cruciale dans de nombreuses situations, est celui du clustering :
la partition de l’ensemble des sommets en sous-ensembles homogènes.
2.2. STOCHASTIC BLOCK MODEL 15
Figure 2.3 – Exemple de graphe orienté : Australian Banking System Network On rappelle la définition :
Définition 2.3. Soit V un ensemble. Une partition de V est un ensemble {V
1, . . . , V
k} de parties non vides, deux à deux disjointes, de V telles que
∪
ki=1V
i= V.
2.2 Stochastic Block Model
2.2.1 Introduction informelle
Supposons qu’il existe une partition V
1, . . . , V
kde l’ensemble V des som- mets d’un graphe G tel que deux sommets ont plus tendance à être connectés quand ils sont dans un même V
ique quand ils sont dans deux V
idifférents (cf Figure 2.4). Les ensembles V
imodélisent des communautés. On cherche à identifier ces ensembles V
i.
Nous allons voir ici deux algos d’identification des ensembles V
i. L’un repose
sur l’analyse des degrés des sommets et l’autre repose sur des considérations
d’algèbre linéaire. Notre objectif sera d’analyser l’efficacité de ces algorithmes,
càd d’estimer les chances que ce qu’ils rendent corresponde à peu près à ce qu’on
attend. Pour cela, il faut avoir une idée de ce à quoi le graphe ressemble. Plus
précisément, si on parle de "chances", il faut se donner un "modèle probabiliste",
càd supposer que le graphe est aléatoire et choisir "modèle" pour sa loi.
Figure 2.4 – Exemple de SBM à 3 communautés
2.2.2 Introduction formelle
On va donc supposer que le graphe choisi de façon aléatoire. Son ensemble de sommets, V = {1, . . . , n}, n’est pas aléatoire, la partition {V
1, . . . , V
k} non plus, mais les liens qui relient les sommets, les arêtes, le seront. On se donne, pour tout couple V
r, V
sde communautés 1 ≤ r, s ≤ k, un nombre p
rs∈ [0, 1]
tel que dans le graphe, la probabilité qu’il y ait entre un sommet de V
ret un sommet de V
sest égale à p
rset les arêtes existent indépendament les unes des autres.
Voici une définition formelle du graphe aléatoire G (voir Figure 2.5).
Définition 2.4. Soit k ≥ 1, {V
1, . . . , V
k} une partition de V = {1, . . . , n}
et, pour tout r, s ∈ {1, . . . , k}, P := [p
rs]
1≤r,s≤kune matrice symétrique à coordonnées p
rs∈ [0, 1]. Soit c : V → {1, . . . , k} l’application communauté, définie par i ∈ V
c(i)pour tout i. Le graphe G est le graphe (aléatoire) dont la matrice d’adjacence A
G= [a
ij]
1≤i,j≤nest une matrice symétrique telle que les nombres (a
ij)
1≤i≤j≤nsont des v.a. indépendantes avec, pour tout i, j,
a
ij∼ B(p
c(i)c(j)).
Exercice 2.2. Cas particulier où il n’y a qu’une communauté (graphe d’ER) : quelle est alors la loi du degré de chaque sommet ?
Exercice 2.3. Notons n
1, . . . , n
kles cardinaux de resp. V
1, . . . , V
k. Donner,
pour chaque i ∈ {1, . . . , n}, une expression de la loi de la v.a. deg(i) en fonction
de v.a. de loi binomiales. Donner son espérance et sa variance.
2.3. INÉGALITÉ DE BENNETT ET APPLICATION 17
Figure 2.5 – Exemple de SBM à 3 communautés et matrice d’adjacence cor- respondante (le SBM est ici orienté, c’est pourquoi la matrice n’est pas symmé- trique)
2.3 Inégalité de Bennett et application
2.3.1 Préliminaires : étude de la fonction h
Lemme 2.1. a) Pour tout x ∈ R , e
x− 1 ≥ x.
b) Pour tout x > −1, log(1 + x) ≤ x.
Démonstration. Etudes de fonction.
Définition 2.5. Soit, pour κ > −1,
h(κ) := (1 + κ) log(1 + κ) − κ.
Lemme 2.2. (i) h est la primitive de log(1 + κ) qui s’annule en 0, (ii) h(κ) ≥ 0, avec égalité pour κ = 0,
(iii) pour x ∈ (−1, 1),
h(x) = X
k≥2
(−1)
kx
kk(k − 1)
(iv) h(κ) ∼
κ22quand κ → 0 et h(κ) ∼ κ log κ quand κ → +∞
(v) pour x ≥ 0,
h(x) ≥ 1
3 min{x
2, x}
(vi) For any κ ≥ 0,
max
t≥0{(1 + κ)t − (e
t− 1)} = h(κ).
Démonstration. (i), (ii), (iii), (iv) sont évidents. Par (iii), sur [0, 1), h(x) ≥ x
22 − x
36 = x
22 (1 − x 3 ) ≥ x
23 .
Pour prouver (v), il suffit donc de prouver que pour x ≥ 1, h(x) − x/3 ≥ 0.
Cela est vrai pour x = 1 et la dérivée de h(x) − x/3 est log(1 + x) − 1/3, qui est croissante et positive en 1 (car log(8) ≥ log(e)). Par conséquent, (v) est vraie. Pour démontrer (vi), il suffit de prouver que le maximum est atteint en t = log(1 + κ), ce qui se vérifie aisément.
2.3.2 Enoncé
Théorème 2.1. Let Y = X
1+ . . . + X
n, avec X
1, . . . , X
ndes variables de Bernoulli indépendantes de paramètres respectifs p
1, . . . , p
net soit λ := p
1+
· · · + p
n. Alors, pour tout > 0,
P (Y ≥ λ + ) ≤ exp{−λh(/λ)} (2.1)
et
P (Y ≤ λ − ) ≤ exp{−λh(/λ)} (2.2)
si bien que
P (|Y − λ| ≥ ) ≤ 2 exp{−λh(/λ)} (2.3) Lemme 2.3. Soit Y v.a., t ≥ 0 et y ∈ R . Alors
P (Y ≥ y) ≤ E e
t(Y−y)et
P (Y ≤ y) ≤ E e
−t(Y−y). Démonstration. Par Chebichev,
P (Y ≥ y) = P (Y − y ≥ 0) ≤ E e
t(Y−y)et
P (Y ≤ y) = P (y − Y ≥ 0) ≤ E e
t(y−Y)= E e
−t(Y−y)Lemme 2.4. Soient X
1, X
2deux v.a. bornées indépendantes. Alors pour tout t ∈ R ,
E e
t(X1+X2)= E e
tX1E e
tX2.
Preuve du Théorème 2.1. Soit Z une variable de Bernoulli de paramètre q. Alors, pour tout t ∈ R , E [e
tZ] = 1 + q(e
t− 1) ≤ e
q(et−1). Puis, d’après le lemme pré- cédent,
E [e
tY] ≤ e
λ(et−1). (2.4)
On définit la fonction ϕ(t) :=
1λlog E [e
tY]. Pour tout t ≥ 0, et pour κ := /λ, P (Y ≥ λ + ) ≤ E [e
t{Y−λ−}] = exp{−λ[(1 + κ)t − ϕ(t)]}. (2.5) L’équation (2.4) implique ϕ(t) ≤ e
t− 1. Il s’ensuit que pour tout t ≥ 0,
P (Y ≥ λ + ) ≤ exp{−λ[(1 + κ)t − (e
t− 1)]}.
2.3. INÉGALITÉ DE BENNETT ET APPLICATION 19 Pour en conclure l’équation (2.1), il suffit de vérifier que
max
t≥0
{(1 + κ)t − (e
t− 1)} = h(κ) > 0, ce qui découle de ce qui précède.
Pour démontrer l’équation (2.2), on procède de même en choisissant t ≤ 0 et en utilisant
P (Y ≤ λ − ) ≤ E [e
t{Y−(λ−)}] = exp{−λ[(1 − κ)t − ϕ(t)]}
à la place de l’équation (2.5).
Corollaire 2.1. Avec les mêmes hypothèses,
P (|Y − λ| ≥ ) ≤ 2 exp{− λ
3 min{/λ, (/λ)
2} (2.6)
2.3.3 Application aux degrés d’un SBM
Soit G un SBM et, pour tout i, d
i:= E deg(i). Alors, pour tout i, et tou η > 0,
P (| deg(i) − d
i| ≥ ηd
i) ≤ 2 exp{− 1
3 d
imin{η, η
2}}.
On en déduit
Théorème 2.2. Soit t > 0. Si, pour tout i, d
i≥ t log n, alors, pour tout η > 0, P (∀i = 1, . . . , n, | deg(i) − d
i| ≥ ηd
i) ≤ 2n
−tmin{η,η2}−3
3
.
Bien entendu, pour tout i, d
ine dépend que du numéro c(i) de la classe de i. On pose, pour tout r = 1, . . . , k, d
(c)rle d
icommun des i de V
r. On pose aussi
η
0:= 1 100 min
r
1 d
(c)rdist(d
(c)r, {d
(c)s; s 6= r}).
Corollaire 2.2. Sous les hypothèses précédentes, avec une proba ≥ 1−2n
−tmin{η0,η20}−3
3
,
on a, pour tout i, en notant r := c(i),
| deg(i) − d
(c)r| ≥ 1 100 min
s6=r
|d
(c)s− d
(c)r|.
Ainsi, si n et t sont assez grands et les degrés moyens associés aux différentes
classes assez distants les un des autres, les degrés des sommets se concentrent
assez bien autour de leurs valeurs moyennes pour que l’on puisse facilement les
regrouper par classes.
2.4 Rappels d’algèbre linéaire : diagonalisation des matrices symétriques réelles et norme de matrices
2.4.1 Diagonalisation
Définition 2.6. On rappelle que pour x = (x
1, . . . , x
n), y = (y
1, . . . , y
n) ∈ R
n, hx, yi = X
i
x
iy
iet que
kxk = p hx, xi.
Définition 2.7. Une valeur propre d’une matrice carrée A est un nombre λ ∈ C tel qu’il existe un vecteur colonne v non nul tel que Av = λv. Dans ce cas, les vecteurs propres associés à λ sont les vecteurs non nuls v tels que Av = λv.
Théorème 2.3. Soit A une matrice symétrique réelle n × n. Alors il existe une base orthonormée (v
1, . . . , v
n) de R
net des nombres réels λ
1≥ λ
2≥ · · · ≥ λ
ntels que pour tout i,
Av
i= λ
iv
i.
De plus, les λ
isont les valeurs propres de A et sont définies de manière unique et pour tout i, λ
i−1> λ
i> λ
i+1(avec les conventions λ
0= +∞ et λ
n+1= −∞), v
iest unique, à multiplication par −1 près.
Exercice 2.4. Donner v
1, v
2pour A = 2.5 .5 .5 2.5 .
2.4.2 Norme d’opérateur d’une matrice
Définition 2.8. La norme d’opérateur d’une matrice réelle A de taille n × n est le nombre
kAk := sup
kxk=1
kAxk.
2.5 Clustering spectral
2.5.1 Présentation
L’algorithme que nous avons vus au dessus repose sur le fait que les degrés moyens associés aux différentes classes sont différents, et même assez distants les uns des autres. Nous allons maintenant voir un autre algorithme, qui fonc- tionne aussi lorsque les degrés moyens associés aux classes sont les mêmes. Pour simplifier les choses, on fera les hypothèses simplificatrices suivantes :
1. on n’a que deux communautés, (k = 2),
2. les deux communautés sont de cardinal n/2 (donc n est pair),
2.5. CLUSTERING SPECTRAL 21 3. la matrice P a la forme p
inp
outp
outp
inavec p
in≥ p
out. L’algorithme de clustering spectral est alors le suivant : a) Calculer la matrice d’adjacence A
Gde G.
b) Calculer le vecteur propre v
2associé à la deuxième valeur propre de A
G. c) Partitioner les sommets selon les signes des coordonnées de v
2: une com- munauté est donnée par les i tels que v
2,i> 0 et l’autre communauté est donnée par les i tels que v
2,i≤ 0.
Théorème 2.4. Avec probabilité ≥ 1 − e
−n, la proportion de sommets mal clusterisés par cet algo est
≤ 8C
2nµ
2pour une certaine constante universelle C et pour
µ := min{ p
in− p
out2 , p
out}.
2.5.2 Preuve du Théorème 2.4
Pour prouver ce théorème, nous allons admettre plusieurs résultats, que voici.
On pose E A
Gla matrice n× n dont les coordonnées sont les nombres E a
ij= p
c(i)c(j).
Théorème 2.5. Il existe une constante C (ne dépendant d’aucun des para- mètres) telle que, avec probabilité ≥ 1 − e
−n,
kA
G− E A
Gk ≤ C √ n.
Soient X, Y des matrices symétriques réelles de même taille. On note λ
1(X ) ≥
· · · ≥ λ
n(X ) les valeurs propres ordonnées de X et λ
1(Y ) ≥ · · · ≥ λ
n(Y ) celles de Y . De même, on note v
1(X ), . . . , v
n(X) et v
1(Y ), . . . , v
n(Y ) des vecteurs propres associés de norme 1.
Théorème 2.6 (Inégalité de Weyl). Alors pour tout i,
|λ
i(Y ) − λ
i(X)| ≤ kY − Xk.
Théorème 2.7 (Davis-Kahan). Soit i
0tel que δ := min
i6=i0|λ
i(X )− λ
i0(X)| >
0. Alors il existe θ ∈ {−1, 1} tel que
kv
i0(Y ) − θv
i0(X)k ≤ 2
3/2δ kY − X k.
Les deux théorèmes précédents disent que si la matrice Y n’est pas trop loin
de la matrice X, alors les valeurs propres de Y ne sont pas loin de ceux de X ,
et qu’il en est de même pour les vecteurs propres associés à des valeurs propres
assez isolées du reste du spectre.
Lemme 2.5. Le spectre de E A
Gest λ
1= n p
in+ p
out2 , λ
2= n p
in− p
out2 , 0, . . . , 0,
et les deux premiers vecteurs propres sont v
1= n
−1/2(1, . . . , 1)
Tet le vecteur v
2défini par
v
2,i:=
( n
−1/2si i ∈ V
1,
−n
−1/2si i ∈ V
2.
Démonstration. a) On montre que, pour M := E A
G, M v
i= λ
iv
ipour chaque i = 1, 2.
b) On montre que (v
1, v
2) est une famille orthonormée, que l’on peut donc étendre en une base orthonormée (v
1, . . . , v
n).
c) Soit O la matrice dont les colonnes sont les v
jet D = diag(λ
1, λ
2, 0, . . . , 0).
Montrons que
M = ODO
−1,
ce qui clôt la preuve. Comme (v
1, . . . , v
n) est une base orthonormée, O est ortho- gonale donc O
−1= O
T. En développant (ODO
T)
ij, on arrive très rapidement à M
ij.
On a donc, en appliquant ce qui précède avec Y = A
G, X = E A
Get i
0= 2 : δ = min{λ
2( E A
G), λ
1( E A
G) − λ
2( E A
G)} = n min{ p
in− p
out2 , p
out}
| {z }
=µ
et
kY − Xk ≤ C √ n
avec probabilité ≥ 1 − e
−n. On en déduit qu’il existe un signe θ ∈ {−1, 1} tel que
kv
2(A
G) − θv
2( E A
G)k ≤ 2
3/2C µ √
n .
Autrement dit, X
i
( √
nv
2,i(A
G) − √
nθv
2,i( E A
G))
2≤ 8C
2µ
2.
Chaque i tel que √
nθv
2,i( E A
G) n’est pas du bon signe, càd tel que θv
2,i( E A
G)
n’est pas du bon signe, contribue à la somme précédente de au moins 1, il y en
a donc au plus
8Cµ22.
2.6. REMARQUE 23
2.6 Remarque
Le choix a été fait de présenter dans ce chapitre deux manières de faire qui ne sont pas les seules envisagebles. On peut par exemple également écrire la vraisemblance de l’observation sous le modèle SBM. En effet, si Z
idésigne la classe de l’individu i dans un modèle à k classes, la probabilité d’observer une matrice d’adjacence donnée A est
L(A) = X
c∈{1,...,k}n
P (A|Z
1= c
1, . . . Z
k= c
k) P (Z
1= c
1, . . . Z
k= c
k)
= X
c∈{1,...,k}n
Y
i,j
a
pijc(i)c(j)(1 − a
ij)
1−pc(i)c(j)Y
i
α
c(i)On peut ensuite optimiser cette fonction et les Z correspondant au point pour lequel le maximum est atteint peuvent être utilisés pour déterminer les classes des sommets. Cette fonction ne peut cependant pas être optimisée de façon exacte et n’est pas cnvexe, il faut donc recourir à des heuristiques.
Un autre point qui a été passé sous silence dans ce chapitre est le choix du
nombre de classes, appelé problème du choix de modèle, qui dépasse le cadre de
ce cours.
Chapitre 3
Chaînes de Markov et applications
3.1 Comment fonctionne Google ?
Pour cette section, les références sont [?] pour l’intro et [?] pour la suite.
3.1.1 Introduction
Google domine le marché des moteurs de recherche grâce à son algorithme de classement des page ordre de pertinence.
L’algorithme évolue continuellement depuis sa création et n’est pas entière- ment public, mais l’idée principale a été publiée par Sergey Brin and Larry Page en 1998. Elle repose sur l’idée de chaîne de Markov, connue depuis longtemps en mathématiques.
Le web est un chaos :
— les contenus sont hétérogènes
— les pages évoluent constamment
Une des clés du succès fulgurant de Google a été de mettre sur cet ensemble une structure de graphe orienté.
Définition 3.1. Un graphe orienté est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un sous- ensemble de V × V . Pour v, w ∈ V , on note v → w si (v, w) ∈ E.
La structure de graphe orientée que Google appose au web est la suivante : V = {pages web} et pour v, w pages web, v → w si v contient un lien vers w.
3.1.2 Comment hiérarchiser ce graphe ?
Comptage naïf
Idée : on constate que les pages importantes sont la cible de nombreux liens
25
On peut penser à renverser l’affirmation et à déclarer que le nombre de liens entrants est un indicateur de l’importance d’une page
— Pros : simple à calculer
— Cons :
a) Pas forcément vrai
b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.
Comptage pondéré
Idée : Toutes les pages ont la même quantité de poids à distribuer.
m
i= (importance de la page i)
= X
j→i
1
nombre de pages pointées par la page j
— Pros : facile à calculer
— Cons :
a) Donner le même poids à distribuer à toutes les pages ne semble pas pertinent
b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.
Comptage pondéré récursif
Idée : une page est importante si de nombreuses pages importantes pointent vers elle
m
i= (importance de la page i)
= X
j→i
m
jnombre de pages pointées par la page j
— Pros :
a) correspond mieux à l’intuition b) tricher est plus difficile
— Cons : calcul : système linéaire (certes creux) à résoudre, avec autant de variables que de pages web
Comment déterminer le vecteur des poids
Considérons un surfeur aléatoire qui se promène sur la toile en allant au hasard depuis chaque page sur l’une des pages vers lesquelles elle pointe.
L’idée (qui sera justifiée théoriquement par la théorie des chaînes de Markov),
est que le vecteur des poids solution de problème précédent est proportionnel au
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 27 vecteur du temps que passe ce surfeur sur chacunde des pages. Il faut cependant un peu modifier le processus de promenade alétoire afin de s’assurer de ne pas resté indéfiniment sur une page qui ne pointerait vers aucune autre page.
3.2 Chaînes de Markov à espaces d’états finis
3.2.1 Définitions : chaînes de Markov et matrices marko- viennes
Définition 3.2. Soit E ensemble fini. Une chaîne de Markov homogène à valeurs dans E est une suite (X
n) de variables aléatoires telles que pour tout n,
L(X
n+1|(X
0, . . . , X
n)) = L(X
n+1|X
n) = L(X
1|X
0). (3.1) Remarque:
L’équation (3.1) signifie que l’avenir ne dépend du passé que via le présent (mémoire courte).
Exercice 3.1. Supposons que E = {1, 2}, que (X
n) soit une chaîne de Markov sur E telle que L(X
1|X
0= 1) = p
11δ
1+ p
12δ
2et L(X
1|X
0= 2) = p
21δ
1+ p
22δ
2. Soit µ = (a, b) avec L(X
0) = aδ
1+ bδ
2. On pose
P = [p
ij].
1. Donner la loi de X
1.
2. La loi de X
ns’écrit a
nδ
0+ b
nδ
1. Donner une formule de récurrence pour a
net b
n.
3. Montrer, par récurence sur n, que
(a
n, b
n) = µP
n.
On introduit, pour la suite, une chaîne de Markov (X
n) à valeurs dans un ensemble E. Pour x, y ∈ E, on pose
P (x, y) := P (X
n+1= y|X
n= x), qui ne dépend bien entendu pas de n.
Lemme 3.1. On a alors, pour tout x, X
y
P (x, y) = 1.
Définition 3.3. Une matrice (indéxée par un ensemble quelconque) est dite markovienne si ses coordonnées sont ≥ 0 et ses lignes se somment toutes à 1.
Définition 3.4. On étend naturellement le produit matriciel à des matrices
indéxées par des éléments quelconques. On assimile aussi les lois de probabilité
sur E aux vecteurs lignes indexés par E de coordonnées ≥ 0 et de somme 1.
Théorème 3.1. — Pour tout n, k, pour tout x, y, L(X
n+k= y|X
n= x) = P
n(x, y).
— Pour tout n,
L(X
n) = µP
n, où µ désigne la loi de X
0.
Mesures invariantes
Définition 3.5. Une mesure (càd une loi de probabilité) µ sur E est dite invariante si une des deux conditions équivalentes suivantes est satisfaite :
(i) µP = µ
(ii) Si X
0∼ µ, alors X
n∼ µ pour tout n.
Théorème 3.2 (Perron-Frobenius). Il existe toujours au moins une mesure invariante.
Exercice 3.2. Montrer que la mesure uniforme est invariante pour P :=
0 1/3 2/3 2/3 0 1/3 1/3 2/3 0
.
Exercice 3.3. Soient p, q ∈ [0, 1] et P :=
p 1 − p 1 − q q
. a) Donner les mesures invariantes.
b) A quelle condition y en a-t-il une unique ? Classification des états et théorème ergodique Définition 3.6. Soitent x, y ∈ E.
— Nous dirons que x −→ y si P (x, y) > 0.
— Un chemin de longueur n ≥ 1 de x à y est une suite finie x
0−→ x
1−→
x
2−→ · · · −→ x
nde points de E tel que x
0= x et x
n= y.
— Nous dirons que x 99K y si, pour un certain n ≥ 1, il existe un chemin de longueur n de x à y, càd si il existe n ≥ 1 tel que P
n(x, y) > 0.
— Nous dirons qu’un point x est récurrent si,
∀x
0∈ E, x 99K x
0= ⇒ x
099K x.
— Nous dirons qu’un point x est transitoire s’il n’est pas récurrent.
Nous noterons T l’ensemble des points transitoires et R l’ensemble des points récurrents.
Lemme 3.2. — Si x est récurrent, alors tout y tel que x 99K y est aussi récurrent.
— La relation x 99K y est transitive.
3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 29
— Sur R, la relation 99K est une relation d’équivalence, dont les classes sont appelées classes de récurrence.
Définition 3.7. La chaîne de Markov est dite irréductible s’il n’y a pas de point transitoire et s’il n’y a qu’une classe de récurrence.
Théorème 3.3 (Théorème ergodique). Une chaîne de Markov irréductible pos- sède une unique mesure invariante µ, et pour tout x ∈ E, µ(x) > 0. De plus, quelle que soit la loi de X
0et pour tout x ∈ E, on a
1 n
n−1
X
i=0
1
Xi=x−→
n→∞
µ(x) pour la convergence en probabilités.
Remarque:
On a là l’interprétation de µ(x) en termes de proportion du temps passé en x, qui est le point de départ de ce chapitre dont l’objectif est de comprendre l’algo de Google.
Remarque:
Ce théorème dit que
1 n
n−1
X
i=0
δ
Xi−→
n→∞
µ
pr la convergence en proba. On peut montrer, en utilisant le TCL martingales, pour pour toute fonction test f , on a
√ n 1 n
n−1
X
i=0
f (X
i) − µ(f )
!
n→∞
−→ N (0, σ
f2)
pour un certain σ
f.
Chaînes apériodiques et convergence en loi
Définition 3.8. La chaîne de Markov est dite apériodique si il existe n
0tel que pour tout n ≥ n
0et pour tout x, y ∈ E,
P
n(x, y) > 0.
Il existe d’autres caractérisations de l’apériodicité, faisant appel à l’arithmé- tique, équivalentes à celle-ci. Nous retiendrons néanmoins celle-ci :
Propriété 3.1. La chaîne de Markov est apériodique si elle est irréductible et il existe x ∈ E tel que P (x, x) > 0.
Théorème 3.4 (Convergence en loi pour les chaînes irréductibles apériodiques).
Supposons la chaîne de Markov (X
n) irréductible et apériodique. Notons µ son unique loi invariante. Alors quelle que soit la loi de X
0, pour tout x ∈ E,
P (X
n= x) −→
n→∞
µ(x).
3.2.2 PageRank comme unique loi invariante d’une cer- taine chaine de Markov
La formule
m
i= + (1 − ) X
j→i
m
jnumber of pages pointed by page j
permet d’interpréter la version renormalisée µ de m comme l’unique loi inva- riante de la chaîne de Markov d’espace d’états E = {pages web} et de matrice de transition
P(x, ·) = U
E+ (1 − )U
V(x),
où U
Edésigne la loi uniforme sur E et U
V(x)désigne la loi uniforme sur V(x) := {pages pointées depuis x}.
3.3 Modèle de migration de particules : urne d’Eh- renfest
Pour ce chapitre, voir [?, ?].
3.3.1 Problème et modèle
On considère deux volumes A et B reliés par une petite ouverture. Les ob- servations prouvent que les pressions dans les deux volumes finissent par s’équi- librer. On cherche à comprendre ce phénomène.
Pour cela, on fait l’hypothèse (tout à fait raisonnable) que la pression est proportionnelle au nombre de particules présentes dans le volume.
De plus, on considère un pas de temps très faible, pendant lequel il est rai- sonnable de considérer qu’au plus une particule passe par l’ouverture. Cette particule est choisie de façon équiprobable parmi toutes les particules, ce qui revient à dire que le mouvement s’effectue de façon proportionnelle à la pres- sion.
On note N le nombre total de particules et X
tle nombre de particules dans le volume A au temps t.
On obtient alors, en notant la probabilité qu’aucune particule ne passe par l’ouverture pendant la pas de temps,
P (X
t+1= X
t|X
t) =
P (X
t+1= X
t− 1|X
t) = (1 − ) X
tN P (X
t+1= X
t+ 1|X
t) = (1 − ) N − X
tN
3.3. MODÈLE DE MIGRATION DE PARTICULES : URNE D’EHRENFEST31 X
tétant un entier entre 0 et n, on peut reécrire ces transitions sous la forme d’une chaîne de Markov à N + 1 éléments avec la matrice de probabilité
P =
1 −
(1 − )
N1(1 − )
NN−1· · · · · ·
(1 − )
Nk(1 − )
NN−k· · · · · ·
(1 − )
NN−1(1 − )
N11 −
3.3.2 Convergence de la chaîne
Il existe des boucles de longueur 1, ce qui implique que la chaîne est apério- dique. De plus, comme il y a une arête de k à k + 1 et inversement pour tout k, il est possible de construire un chemin de tout sommet vers tout sommet, ce qui assure le caractère irréductible de la chaîne.
Le théorème 3.4 assure donc que la chaîne converge vers sa mesure invariante.
Propriété 3.2. La mesure invariante π est la loi B (N, 1/2), càd
∀0 ≤ k ≤ N, π(k) = 1 2
NN k
Démonstration. On commence par montrer par récurrence que
∀0 ≤ k ≤ N, π(k) = N
k
π(0)
La propriété est trivialement vraie pour k = 0.
Pour k = 1, le fait que π est invariante entraîne (en regardant la première coordonnée de l’égalité π
T= π
TP ) que
π(0) + 1 −
N π(1) = π(0),
d’où on déduit que π(1) = N π(0). La propriété est donc vraie au rang 1.
Supposons qu’elle est vraie pour k et k − 1, avec k ≥ 2. Le fait que π est invariante entraîne (en regardant la k
iemecoordonnée de l’égalité π
T= π
TP ) que
(1 − ) N − (k − 1)
N π(k − 1) + π(k) + (1 − ) k + 1
N π(k + 1) = π(k).
D’où
π(k + 1) = N k + 1
π(k) − N − (k − 1)
N π(k − 1)
Par l’hypothèse de récurrence et le triangle de Pascal, on en déduit que la formule
est vraie au rang k + 1.
La propriété est donc vraie par récurrence.
π étant une mesure de proba, P
Nk=0
π(k) = 1. Or,
N
X
k=0
π(k) =
N
X
k=0