L3 Modélisation stochastique

(1)

L3

Modélisation stochastique

Etienne Birmelé

[email protected]

(2)

(3)

Chapitre 1

Fonction génératrices et

application au processus de Galton-Watson

1.1 Fonctions génératrices

1.1.1 Définition

Définition 1.1. Soit X une variable aléatoire à valeur dans N . La série entière définie par

φ

_X

(z) = E z

^X

=

+∞

X

k=0

P (X = k)z

^k

est de rayon de convergence au moins 1 puisque P

+∞

k=0

P (X = k) = 1. La fonction φ

X

est donc définie sur ] − 1, 1].

Elle est appelée fonction génératrice de X . Exemples 1.1. Bernoulli : X ∼ B(p)

φ

X

(z) = P (X = 0)z

⁰

+ P (X = 1)z

¹

= 1 − p + pz Binômiale : X ∼ B(n, p)

φ

_X

(z) =

n

X

k=0

n k

p

^k

(1 − p)

^n−k

z

^k

=

n

X

k=0

n k

(pz)

^k

(1 − p)

^n−k

= (1 − p + pz )

ⁿ

3

(4)

Poisson : X ∼ P (λ)

φ

_X

(z) =

+∞

X

k=0

λ

^k

k! e

^−λ

z

^k

= e

^−λ

+∞

X

k=0

(λz)

^k

k!

= e

^λ(z−1)

Géométrique : X ∼ G(p), avec q = 1 − p

φ

_X

(z) =

+∞

X

k=0

pq

^k−1

z

^k

= pz

+∞

X

l=0

q

^l

z

^l

= pz 1 − qz

Propriété 1.1. φ

X

= φ

Y

si et seulement si X = Y p.s.

Démonstration. Si X = Y p.s., les deux fonctions génératrices sont égales de façon évidente.

Inversement, si φ

X

= φ

Y

, l’unicité du développement en série entière entraîne que P (X = k) = P (Y = k) pour tout k.

1.1.2 Sommes de variables indépendantes

Propriété 1.2. Soient X et Y des v.a. indépendantes. Alors φ

_X+Y

= φ

_X

φ

_Y

En particulier, si X

1

, . . . , X

n

sont des v.a. indépendantes et identiquement distribuées,

φ

X₁,...,X_n

= φ

ⁿ_X

Démonstration. Avec des séries entières : Pour tout k, P (X + Y = k) = X

l=0

P (X = l, Y = k − l) X

l=0

P (X = l) P (Y = k − l) par indépendance

On reconnait alors la formule de la multiplication des séries entières.

(5)

1.1. FONCTIONS GÉNÉRATRICES 5 Avec des probabilités : Comme X et Y sont indépendantes, E (f (X )g(Y )) =

E (f (X)) E (g(Y )). En particulier, pour tout |z| < 1, E (z

^X

z

^Y

) = E (z

^X

) E (z

^Y

).

Exemple 1.1. Retrouver la fonction génératrice d’une variable binômiale en écrivant cette dernière comme la somme de variables de Bernoulli.

1.1.3 Dérivées de φ

_X

et moments de X

Propriété 1.3. Soit p ∈ N . Si E X

^p

existe, alors φ

X

est p fois dérivable sur ] − 1, 1[. De plus, si φ

^(p)_X

existe et est continue en 1,

φ

^(p)_X

(1) = E X (X − 1) . . . (X − p + 1) En particulier,

E X = φ

⁰_X

(1)

varX = φ

⁰⁰_X

(1) + φ

⁰_X

(1) − φ

⁰_X²

(1)

Démonstration. Une série entière étant indéfiniment dérivable sur l’intérieur de son domaine ed convergence, φ

^(p)_X

existe pour |z| < 1 et

φ

^(p)_X

(z) =

+∞

X

k≥p

k(k − 1) . . . (k

p

+ 1)z

^k−p

Le fait que E X

^p

existe signifie que P

+∞

k=0

P (X = k)k

^p

converge. Or, pour

|z| < 1,

|k(k − 1) . . . (k

_p

+ 1)z

^k−p

| ≤ k

^p

donc (theoreme ?)

z→1

lim φ

^(p)_X

(z) =

+∞

X

k=0

P (X = k)k(k − 1) . . . (k

_p

+ 1)

Le deuxième membre est égal à E X(X − 1) . . . (X − p + 1) et le premier vaut φ

^(p)_X

(1) par continuité de φ

^(p)_X

.

La démonstration des cas particuliers de l’espérance et de la variance est laissée en exercice.

Exemple 1.2. Bernoulli : Si X ∼ B(p), φ

X

(z) = 1 − p + pz φ

⁰_X

(z) = p

φ

⁰⁰_X

(z) = 0

On retrouve E (X) = p et varX = p(1 − p).

(6)

Binômiale : Si X ∼ B(n, p),

φ

X

(z) = (1 − p + pz)

ⁿ

φ

⁰_X

(z) = np(1 − p + pz)

ⁿ⁻¹

φ

⁰⁰_X

(z) = n(n − 1)p

²

(1 − p + pz)

ⁿ⁻²

On retrouve E (X) = np et varX = np(1 − p).

Poisson : Si X ∼ P(λ),

φ

X

(z) = e

^λ(z−1)

φ

⁰_X

(z) = λe

^λ(z−1)

φ

⁰⁰_X

(z) = λ

²

e

^λ(z−1)

On retrouve E (X) = λ et varX = λ.

Géométrique partant de 1 : Si X ∼ G(p) φ

X

(z) = pz

1 − qz = z − 1 1 − qz + 1 φ

⁰_X

(z) = p

(1 − qz)

²

φ

⁰⁰_X

(z) = 2pp

(1 − pz)

³

On retrouve E (X) =

¹_p

et var(X ) =

_p^q2

.

1.1.4 Cas d’une variable continue : transformée de Laplace

Dans le cas d’une variable aléatoire continue positive, à densité f , on peut définir la transformée de Laplace, définie pour t ≥ 0 par

φ

X

(t) = E (e

^−tX

) = Z

+∞

0

e

^−tx

f (x)dx

Les propriétés des fonctions génératrices se généralisent, en particulier que φ

X+Y

(t) = φ

X

(t)φ

Y

(t) si X et Y sont indépendantes, et que les valeurs des dérivées successives en 0 donnent les moments de la loi (démonstrations laissées en exercice, sur le même modèle que celle des fonctions génratrices).

Propriété 1.4. Soit X et Y deux variables aléatoires continues positives et indépendantes. Alors φ

X+Y

= φ

X

φ

Y

.

Propriété 1.5. Soit X une variable aléatoire continue posisitve, telle que E X

^p

existe. Alors φ

_X

est p fois dérivable et , pour tout 0 ≤ k ≤ p, φ

^(k)

(0) =

(−1)

^k

E X

^k

.

(7)

1.2. PROCESSUS DE GALTON-WATSON 7 Remarque:

La notion de transformée de Laplace peut être étendue à des variables non- positives en commençant l’intégrale en −∞. Il faut cependant alors vérifier la convergence de l’intégrale généralisée.

Ainsi, la loi normale, dont la densité est équivalente en l’infini à un terme en Ke

^−Cx²

admet une transformée de Laplace en intégrant entre −∞ et +∞.

En effet, pour tout t, R

+∞

−∞

e

^−tx−Kx²

dx converge.

1.2 Processus de Galton-Watson

1.2.1 Présentation du modèle

Le but de ce modèle est de modéliser l’évolution d’une population en temps discret. Il a été introduit en 1874 par Francis Galton et Henry Watson pour répondre au problème de la probabilité d’extinction des noms aristocratiques dans l’angleterre victorienne. Le fait qu’il ait été appliqué à des noms de famille explique son hypothèse simplificatrice consistant à considérer des arbres généalogiques où les parents sont uniques.

Sous ce modèle, la population initiale se réduit à un ancêtre unique. Cet ancêtre a ensuite un nombre aléatoire de descendants, et chacun des descendants de même , et ainsi de suite. On fait de plus l’hypothèse que le nombre des fils de chaque individu est identiquement distribué et indépendant du parent.

DESSIN

Le processus peut alors être modélisé par deux suites de variables aléatoires : 1. (Z

_n

, n ≥ 0) où Z

_n

est le nombre d’individus de la génération n

2. (X

_i,j

, i ≥ 0, j ≥ 1) où X

_i,j

est le nombre de descendants de l’individu j de la génération i.

On a alors, pour tout n ≥ 1,

Z

0

= 1

Z

₁

= X

_0,1

Z

2

=

Z₁

X

j=1

X

1,j

· · · · · ·

Z

n+1

=

Zn

X

j=1

X

n,j

,

la suite devenant uniformément nulle si elle s’annule une première fois (extinc-

tion).

(8)

1.2.2 Espérance et variance de Z

_n

On suppose connue φ, la fonction génératrice commune des variables (X

i,j

)

i,j

. Soit G

n

la fonction génératrice de Z

n

. Alors

Propriété 1.6. a) G

_n+1

(s) = G

_n

(φ(s)) pour tout n ≥ 0.

b) G

_n

(s) = φ

⁽ⁿ⁾

(s), où φ

⁽ⁿ⁾

désigne la composition n fois de φ avec elle- même.

Démonstration. On démontre la propriété b) par récurrence, la propriété a) étant démontrée au passage.

— Pour n = 0, G

0

(s) = 1 car Z

0

= 1.

— Supposons la propriété vraie au rang n.

Or,

G

n+1

(s) = E s

^P^Zn^j=1^X^n,j

= E

+∞

X

k=0

s

^P^Zn^j=1^X^n,j

I

Z_n=k

=

+∞

X

k=0

E s

^P^Zn^j=1^X^n,j

I

Z_n=k

∗ ∗

=

+∞

X

k=0

E s

^P^Zn^j=1^X^n,j

P (Z

n

= k)car Z

n

est indépendante des X

n,j

=

+∞

X

k=0

E φ(s)

^k

P (Z

n

= k)car les X

n,j

sont indépendantes

= G

n

(φ(s))

= φ

⁽ⁿ⁾

(φ(s)) par hypothèse de récurrence

= φ

⁽ⁿ⁺¹⁾

(s) Remarque:

En **, l’espérance et la somme peuvent être échangées car toutes les variables sont positives (la somme infinie pose problème sinon). On peut éviter le recours à cet argument dans le cas où les X

i,j

sont bornés par Q, car alors Z

n

≤ Q

ⁿ

(et cela paraît raisonnable dans le cas des humains).

La propriété précédente permet de déduire la fonction génératrice de Z

n

en fonction de celle de Z

1

(comme Z

1

= X

0,1

, elle est de fonction génératrice φ).

On peut alors en déduire l’espérance et la variance de Z

n

en fonction de celle de Z

1

.

Propriété 1.7. a) Si m = E Z

₁

< +∞, alors E Z

_n

= m

ⁿ

.

(9)

1.2. PROCESSUS DE GALTON-WATSON 9

b) Si σ

²

= varZ

1

< +∞, alors varZ

n

= nσ

²

si m = 1

mⁿ(mⁿ−1)

m(m−1)

σ

²

si m 6= 1 Démonstration. a) En dérivant l’égalité de la Proposition 1.6 a),

G

⁰_n+1

(s) = G

⁰_n

(φ(s))φ

⁰

(s) Pour s = 1 et comme φ

⁰

(1) = E Z

₁

= m, on obtient que

G

⁰_n+1

(s) = mG

⁰_n

(s)

Comme de plus G

1

= φ, on obtient par récurrence que G

⁰_n

(1) = m

ⁿ

. On en déduit la propriété a) puisque G

n

est la fonction génératrice de Z

n

. b) On démontre cette propriété par récurrnce, en se basant sur la Proposi-

tion 1.3 :

varZ

_n

= G

⁰⁰_n+1

(1) + G

⁰_n

(1) − (G

⁰_n

(1))

²

(1.1) Pour n = 1, la propriété est vraie par définition et l’équation 1.1 entraîne que

σ

²

= φ

⁰⁰

(1) + φ

⁰

(1) − (φ

⁰

(1))

²

(1.2) Supposons que la propriété est vraie pour n. Pour appliquer l’équation 1.1, il faut commencer par déterminer G

⁰⁰_n+1

(1). Or,

G

⁰⁰_n+1

=

G

⁰_n

oφ(s)φ

⁰

0

= G

⁰⁰_n

oφ.φ

⁰²

+ G

⁰_n

oφ.φ

⁰⁰

On l’applique en 1, en utilisant l’équation 1.1 pour remplacer G

⁰⁰_n

(1), l’équation 1.2 pour remplacer φ

⁰⁰

(1), et le fait que G

⁰_n

(1) = m

ⁿ

.

G

⁰⁰_n+1

(1) = (varZ

n

− m

ⁿ

+ m

²ⁿ

)m

²

+ m

ⁿ

(σ

²

− m + m

²

)

= m

²

varZ

n

+ m

ⁿ

σ

²

+ m

²ⁿ⁺²

− m

ⁿ⁺¹

En le réinjectant dans l’équation 1.1, on obtient

varZ

n+1

= m

²

varZ

n

+ m

ⁿ

σ

²

(1.3) Si m = 1 L’équation 1.3 avec varZ

_n

= nσ

²

donne facilement que varZ

_n+1

=

(n + 1)σ

²

et que la propriété est vraie au rang n + 1.

Si m 6= 1 Par hypothèse de récurrence, varZ

n+1

= m

²

m

ⁿ

(m

ⁿ

− 1)

m(m − 1) σ

²

+ m

ⁿ

σ

²

= m

ⁿ⁺¹

(m

ⁿ⁺¹

− 1)

m(m − 1) σ

²

(10)

1.2.3 Probabilité d’extinction

Soit E l’évènement désignant le fait que la population s’éteint.

E = ∪

n≥1

{Z

n

= 0}

Les évènements {Z

n

= 0} constituant une suite croissantr d’évènements, P (E) = lim

n→+∞

P (Z

n

= 0)

Théorème 1.1. P (E) est la plus petite solution dans [0, 1] de l’équation φ(s) = s.

Si m ≤ 1, P (E) = 1, sinon 0 ≤ P (E) < 1.

Démonstration. La propriété 1.6 b) entraîne que G

_n

(s) = φ(G

_n−1

(s)). En particulier

G

n

(0) = φ(G

_n−1

(0) P (Z

_n

= 0) = φ( P (Z

_n−1

= 0))

n→∞

lim P (Z

n

= 0) = lim

n→∞

φ( P (Z

_n−1

= 0))

n→∞

lim P (Z

n

= 0) = φ( lim

n→∞

P (Z

_n−1

= 0)) car φ est continue P (E) = φ( P (E))

P (E) est donc une solution de φ(s) = s.

Soit q la plus petite solution de φ(s) = s appartenant [0, 1]. Comme φ est croissante, φ

⁽ⁿ⁾

l’est également. Par conséquent,

φ

⁽ⁿ⁾

(0) ≤ φ

⁽ⁿ⁾

(q) P (Z

_n

= 0) ≤ q

P (E) ≤ q par passage à la limite.

Par minimalité de q, on a donc forcément P (E) = q.

De plus, φ est de dérivée et de dérivée seconde positive puisque : φ

⁰

(s) = X

k≥1

k P (Z

₁

= k)s

^k−1

φ

⁰⁰

(s) = X

k≥2

k(k − 1) P (Z

1

= k)s

^k−2

En particulier, φ

⁰

est croissante.

P (Z

₁

= 0) + P (Z

₁

= 1) 6= 1 : Il existe un k > 1 tel que P (Z

₁

= k) > 0. La fonction φ

⁰⁰

est alors strictement positive donc φ

⁰

est strictement croissante.

Si m ≤ 1, on a pour tout s < 1, (φ(s) − s)

⁰

= φ

⁰

(s) − 1 < φ

⁰

(1) − 1 ≤ 0.

Donc φ(s) −s > φ(1)− 1 = 0. 1 est donc la plus petite racine de φ(s) = s.

(11)

1.2. PROCESSUS DE GALTON-WATSON 11 Si m > 1, comme φ

⁰

(0) = P (Z

₁

= 1) < 1 et φ

⁰

(1) = m > 1, il existe un unique s

₀

tel que φ

⁰

(s

₀

) = 1. Une étude de signe de φ(s) − s donne alors

0 s

₀

1 φ

⁰

(s) − 1 − + φ(s) − s & % 0

P (Z

1

= 0) + P (Z

1

= 1) = 1 : Alors φ(s) = α+ (1 − α)s avec α = P (Z

n

= 0).

Donc φ(s) = s entraîne α = αs puis s = 1. Ce cas correspond de plus bien à m ≤ 1.

AJOUTER DESSINS DES FONCTIONS DANS LES TROIS CAS.

1.2.4 Comportement asymptotique

Cas sous-critique (m < 1)

Dans ce cas, la probabilité d’extinction est de 1, si bien que la variable d’interêt devient le temps τ de l’extinction. Comme {τ > n} = {Z

_n

6= 0} et que P (Z

_n

= 0) = G

_n

(0),

P (τ > n) = 1 − G

n

(0)

Etudier τ revient donc à étudier la vitesse de convergence de G

n

(0) vers 1.

Propriété 1.8. Supposons m = 1 et soit τ le temps d’extinction du processus.

Il existe C > 0 tel que P (τ > n) ∼ Cm

ⁿ

.

Démonstration. Le théorème de Taylor implique qu’il existe c

n

∈ [G

n

(0), 1] tel que

φ(G

_n

(0)) − φ(1) = φ

⁰

(1)(G

_n

(0) − 1) + φ

⁰⁰

(c

_n

)

2 (G

_n

(0) − 1)

²

1 − G

n+1

(0) = m(1 − G

n

(0)) − φ

⁰⁰

(c

n

)

2 (1 − G

n

(0))

²

La fonction φ

⁽³⁾

étant continue et positive,

0 ≤ φ

⁰⁰

(c

_n

) ≤ φ

⁰⁰

(1) donc,

m − φ

⁰⁰

(1)(1 − G

n

(0)) ≤ 1 − G

n+1

(0)

1 − G

n

(0) ≤ m (1.4)

L’inégalité de droite entraîne que

^1−G_1−Gⁿ⁽⁰⁾

0(0)

≤ m

ⁿ

et que par conséquent,

comme G

₀

(0) = 0, 1 − G

_n

(0) ≤ m

ⁿ

.

(12)

L’égalité 1.4 entraîne alors que ∀n ≥ N

₁

m − φ

⁰⁰

(1)m

ⁿ

≤ 1 − G

n+1

(0)

1 − G

_n

(0) ≤ m 1 − φ

⁰⁰

(1)m

ⁿ⁻¹

≤ m

⁻⁽ⁿ⁺¹⁾

(1 − G

_n+1

(0))

m

⁻ⁿ

(1 − G

n

(0)) ≤ 1

ln(1 − φ

⁰⁰

(1)m

ⁿ⁻¹

) ≤ ln(m

⁻⁽ⁿ⁺¹⁾

(1 − G

_n+1

(0))) − ln(m

⁻ⁿ

((1 − G

_n

(0))) ≤ 0 (1.5) Or, ln(1 − x) ≥ −2x pour 0 ≤ x < 1 suffisamment proche de 0 donc il existe N tel que, ∀n ≥ N

ln(1 − φ

⁰⁰

(1)m

ⁿ⁻¹

) ≥ −2φ

⁰⁰

(1)m

ⁿ⁻¹

(1.6) La série de terme général m

ⁿ⁻¹

convergeant car m < 1, on en déduit que la série de terme général négatif ln(1−φ

⁰⁰

(1)m

ⁿ⁻¹

) converge également. L’équation 1.5 entraîne alors que la série de terme général ln(m

⁻⁽ⁿ⁺¹⁾

(1 − G

n+1

(0))) − ln(m

⁻ⁿ

((1 − G

n

(0))) converge également, vers un réel néagtif K. La somme partielle d’ordre n de cette série valant ln(m

⁻ⁿ

((1 − G

n

(0))), on en déduit que lim

n→+∞

m

⁻ⁿ

((1 − G

n

(0)) = e

^K

= C. Ceci démontre le théorème.

Cas critique (m = 1)

Dans ce cas, la probabilité d’extinction est également de 1. L’approche est semblable au cas sous-critique, la seule différence étant la vitesse de convergence.

Propriété 1.9. Supposons m < 1 et soit τ le temps d’extinction du processus.

Soit σ

²

la variance de Z

1

. Alors P (τ > n) ∼

_nσ²2

. Démonstration. cf TD 1.

Cas sur-critique (m > 1)

Dans ce cas, la probabilité d’extinction est inférieure à 1 et l’espérance de Z

n

vaut m

ⁿ

et tend donc vers l’infini. Les variations de Z

n

autour de sa moyenne sont données par la théorème suivant.

Propriété 1.10. Il existe une v.a. positive W avec E W = 1 et varW =

_m(m−1)^σ²

telle que

n→+∞

lim Z

n

m

ⁿ

= W presque surement De plus, P (W > 0) = 1 − P (E).

Démonstration. Admis

(13)

Chapitre 2

Communautés dans les

réseaux et clustering spectral

Référence pour ce chapitre : [?]. Ce chapitre est repris du cours écrit par Florent Beanych-Georges. Merci à lui d’avoir accepté que je le reprenne.

2.1 Introduction : graphes et réseaux sociaux

Supposons qu’un ensemble d’individus sont reliés par des liens réciproques.

Comme par exemple dans un réseau social type Facebook (mais cela pourrait être aussi des agents économiques entre certains desquels s’établissent des rela- tions). La structure d’un tel réseau peut être représentée par un graphe. On se limitera ici aux graphes simples et non orientées.

Définition 2.1. Un graphe est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un ensemble de parties à deux éléments de E. Deux sommets v, w sont dits adjacents s’ils sont reliés par une arête, i.e. si {v, w} ∈ E. Le degré d’un sommet est le nombre de sommets qui lui sont adjacents.

On introduit ici une définition qui nous sera utile par la suite :

Définition 2.2. Soit G = (V, E) un graphe avec V = {1, . . . , n}. La matrice d’adjacence du graphe est la matrice A

G

= [a

ij

]

1≤i,j≤n

définie par

a

ij

= 1 {i, j} ∈ E.

Remarque:

Les coordonnées de A

G

valent 0 ou 1 et A

G

est une matrice symétrique : a

ij

= a

ji

.

Exercice 2.1. Donner V , E et A

_G

pour le graphe de la figure ??.

13

(14)

Figure 2.1 – Exemple de graphe

Exemple 2.1. 1. Le réseau Facebook : V = ensemble des utilisateurs et E = ensemble des couples d’utilisateurs amis.

2. Un sous-ensemble du réseau Facebook : V = partie ensemble des utilisateurs et E = ensemble des couples d’utilisateurs amis qui sont dans V .

Figure 2.2 – Internet en 1999

La structure des graphes issus vie réelle pose de nombreuses question pra-

tiques (analyse de la dépendance des banques entre elles, identification des sites

internet remportant le plus de succès, mise en place de la publicité personnali-

sée pour les annonceurs, etc...). Le problème auquel on va s’intéresser ici, qui se

pose de façon cruciale dans de nombreuses situations, est celui du clustering :

la partition de l’ensemble des sommets en sous-ensembles homogènes.

(15)

2.2. STOCHASTIC BLOCK MODEL 15

Figure 2.3 – Exemple de graphe orienté : Australian Banking System Network On rappelle la définition :

Définition 2.3. Soit V un ensemble. Une partition de V est un ensemble {V

1

, . . . , V

k

} de parties non vides, deux à deux disjointes, de V telles que

∪

^k_i=1

V

i

= V.

2.2 Stochastic Block Model

2.2.1 Introduction informelle

Supposons qu’il existe une partition V

₁

, . . . , V

_k

de l’ensemble V des sommets d’un graphe G tel que deux sommets ont plus tendance à être connectés quand ils sont dans un même V

_i

que quand ils sont dans deux V

_i

différents (cf Figure 2.4). Les ensembles V

_i

modélisent des communautés. On cherche à identifier ces ensembles V

_i

.

Nous allons voir ici deux algos d’identification des ensembles V

i

. L’un repose

sur l’analyse des degrés des sommets et l’autre repose sur des considérations

d’algèbre linéaire. Notre objectif sera d’analyser l’efficacité de ces algorithmes,

càd d’estimer les chances que ce qu’ils rendent corresponde à peu près à ce qu’on

attend. Pour cela, il faut avoir une idée de ce à quoi le graphe ressemble. Plus

précisément, si on parle de "chances", il faut se donner un "modèle probabiliste",

càd supposer que le graphe est aléatoire et choisir "modèle" pour sa loi.

(16)

Figure 2.4 – Exemple de SBM à 3 communautés

2.2.2 Introduction formelle

On va donc supposer que le graphe choisi de façon aléatoire. Son ensemble de sommets, V = {1, . . . , n}, n’est pas aléatoire, la partition {V

₁

, . . . , V

_k

} non plus, mais les liens qui relient les sommets, les arêtes, le seront. On se donne, pour tout couple V

r

, V

s

de communautés 1 ≤ r, s ≤ k, un nombre p

rs

∈ [0, 1]

tel que dans le graphe, la probabilité qu’il y ait entre un sommet de V

r

et un sommet de V

s

est égale à p

rs

et les arêtes existent indépendament les unes des autres.

Voici une définition formelle du graphe aléatoire G (voir Figure 2.5).

Définition 2.4. Soit k ≥ 1, {V

1

, . . . , V

_k

} une partition de V = {1, . . . , n}

et, pour tout r, s ∈ {1, . . . , k}, P := [p

_rs

]

_1≤r,s≤k

une matrice symétrique à coordonnées p

_rs

∈ [0, 1]. Soit c : V → {1, . . . , k} l’application communauté, définie par i ∈ V

_c(i)

pour tout i. Le graphe G est le graphe (aléatoire) dont la matrice d’adjacence A

_G

= [a

_ij

]

_1≤i,j≤n

est une matrice symétrique telle que les nombres (a

ij

)

_{1≤i≤j≤n}

sont des v.a. indépendantes avec, pour tout i, j,

a

_ij

∼ B(p

_c(i)c(j)

).

Exercice 2.2. Cas particulier où il n’y a qu’une communauté (graphe d’ER) : quelle est alors la loi du degré de chaque sommet ?

Exercice 2.3. Notons n

₁

, . . . , n

_k

les cardinaux de resp. V

₁

, . . . , V

_k

. Donner,

pour chaque i ∈ {1, . . . , n}, une expression de la loi de la v.a. deg(i) en fonction

de v.a. de loi binomiales. Donner son espérance et sa variance.

(17)

2.3. INÉGALITÉ DE BENNETT ET APPLICATION 17

Figure 2.5 – Exemple de SBM à 3 communautés et matrice d’adjacence cor- respondante (le SBM est ici orienté, c’est pourquoi la matrice n’est pas symmé- trique)

2.3 Inégalité de Bennett et application

2.3.1 Préliminaires : étude de la fonction h

Lemme 2.1. a) Pour tout x ∈ R , e

^x

− 1 ≥ x.

b) Pour tout x > −1, log(1 + x) ≤ x.

Démonstration. Etudes de fonction.

Définition 2.5. Soit, pour κ > −1,

h(κ) := (1 + κ) log(1 + κ) − κ.

Lemme 2.2. (i) h est la primitive de log(1 + κ) qui s’annule en 0, (ii) h(κ) ≥ 0, avec égalité pour κ = 0,

(iii) pour x ∈ (−1, 1),

h(x) = X

k≥2

(−1)

^k

x

^k

k(k − 1)

(iv) h(κ) ∼

^κ₂²

quand κ → 0 et h(κ) ∼ κ log κ quand κ → +∞

(v) pour x ≥ 0,

h(x) ≥ 1

3 min{x

²

, x}

(vi) For any κ ≥ 0,

max

t≥0

{(1 + κ)t − (e

^t

− 1)} = h(κ).

Démonstration. (i), (ii), (iii), (iv) sont évidents. Par (iii), sur [0, 1), h(x) ≥ x

²

2 − x

³

6 = x

²

2 (1 − x 3 ) ≥ x

²

3 .

(18)

Pour prouver (v), il suffit donc de prouver que pour x ≥ 1, h(x) − x/3 ≥ 0.

Cela est vrai pour x = 1 et la dérivée de h(x) − x/3 est log(1 + x) − 1/3, qui est croissante et positive en 1 (car log(8) ≥ log(e)). Par conséquent, (v) est vraie. Pour démontrer (vi), il suffit de prouver que le maximum est atteint en t = log(1 + κ), ce qui se vérifie aisément.

2.3.2 Enoncé

Théorème 2.1. Let Y = X

1

+ . . . + X

n

, avec X

1

, . . . , X

n

des variables de Bernoulli indépendantes de paramètres respectifs p

1

, . . . , p

n

et soit λ := p

1

+

· · · + p

n

. Alors, pour tout > 0,

P (Y ≥ λ + ) ≤ exp{−λh(/λ)} (2.1)

et

P (Y ≤ λ − ) ≤ exp{−λh(/λ)} (2.2)

si bien que

P (|Y − λ| ≥ ) ≤ 2 exp{−λh(/λ)} (2.3) Lemme 2.3. Soit Y v.a., t ≥ 0 et y ∈ R . Alors

P (Y ≥ y) ≤ E e

^t(Y^−y)

et

P (Y ≤ y) ≤ E e

^−t(Y^−y)

. Démonstration. Par Chebichev,

P (Y ≥ y) = P (Y − y ≥ 0) ≤ E e

^t(Y^−y)

et

P (Y ≤ y) = P (y − Y ≥ 0) ≤ E e

^t(y−Y⁾

= E e

^−t(Y^−y)

Lemme 2.4. Soient X

₁

, X

₂

deux v.a. bornées indépendantes. Alors pour tout t ∈ R ,

E e

^t(X¹^+X²⁾

= E e

^tX¹

E e

^tX²

.

Preuve du Théorème 2.1. Soit Z une variable de Bernoulli de paramètre q. Alors, pour tout t ∈ R , E [e

^tZ

] = 1 + q(e

^t

− 1) ≤ e

^q(e^t⁻¹⁾

. Puis, d’après le lemme pré- cédent,

E [e

^tY

] ≤ e

^λ(e^t⁻¹⁾

. (2.4)

On définit la fonction ϕ(t) :=

¹_λ

log E [e

^tY

]. Pour tout t ≥ 0, et pour κ := /λ, P (Y ≥ λ + ) ≤ E [e

^t{Y^−λ−}

] = exp{−λ[(1 + κ)t − ϕ(t)]}. (2.5) L’équation (2.4) implique ϕ(t) ≤ e

^t

− 1. Il s’ensuit que pour tout t ≥ 0,

P (Y ≥ λ + ) ≤ exp{−λ[(1 + κ)t − (e

^t

− 1)]}.

(19)

2.3. INÉGALITÉ DE BENNETT ET APPLICATION 19 Pour en conclure l’équation (2.1), il suffit de vérifier que

max

t≥0

{(1 + κ)t − (e

^t

− 1)} = h(κ) > 0, ce qui découle de ce qui précède.

Pour démontrer l’équation (2.2), on procède de même en choisissant t ≤ 0 et en utilisant

P (Y ≤ λ − ) ≤ E [e

^t{Y^−(λ−)}

] = exp{−λ[(1 − κ)t − ϕ(t)]}

à la place de l’équation (2.5).

Corollaire 2.1. Avec les mêmes hypothèses,

P (|Y − λ| ≥ ) ≤ 2 exp{− λ

3 min{/λ, (/λ)

²

} (2.6)

2.3.3 Application aux degrés d’un SBM

Soit G un SBM et, pour tout i, d

_i

:= E deg(i). Alors, pour tout i, et tou η > 0,

P (| deg(i) − d

_i

| ≥ ηd

_i

) ≤ 2 exp{− 1

3 d

_i

min{η, η

²

}}.

On en déduit

Théorème 2.2. Soit t > 0. Si, pour tout i, d

i

≥ t log n, alors, pour tout η > 0, P (∀i = 1, . . . , n, | deg(i) − d

_i

| ≥ ηd

_i

) ≤ 2n

⁻^t^min{η,η

2}−3

3

.

Bien entendu, pour tout i, d

_i

ne dépend que du numéro c(i) de la classe de i. On pose, pour tout r = 1, . . . , k, d

^(c)r

le d

_i

commun des i de V

_r

. On pose aussi

η

₀

:= 1 100 min

r

1 d

^(c)r

dist(d

^(c)_r

, {d

^(c)_s

; s 6= r}).

Corollaire 2.2. Sous les hypothèses précédentes, avec une proba ≥ 1−2n

⁻^t^min{η⁰^,η

20}−3

3

,

on a, pour tout i, en notant r := c(i),

| deg(i) − d

^(c)_r

| ≥ 1 100 min

s6=r

|d

^(c)_s

− d

^(c)_r

|.

Ainsi, si n et t sont assez grands et les degrés moyens associés aux différentes

classes assez distants les un des autres, les degrés des sommets se concentrent

assez bien autour de leurs valeurs moyennes pour que l’on puisse facilement les

regrouper par classes.

(20)

2.4 Rappels d’algèbre linéaire : diagonalisation des matrices symétriques réelles et norme de matrices

2.4.1 Diagonalisation

Définition 2.6. On rappelle que pour x = (x

₁

, . . . , x

_n

), y = (y

₁

, . . . , y

_n

) ∈ R

ⁿ

, hx, yi = X

i

x

i

y

i

et que

kxk = p hx, xi.

Définition 2.7. Une valeur propre d’une matrice carrée A est un nombre λ ∈ C tel qu’il existe un vecteur colonne v non nul tel que Av = λv. Dans ce cas, les vecteurs propres associés à λ sont les vecteurs non nuls v tels que Av = λv.

Théorème 2.3. Soit A une matrice symétrique réelle n × n. Alors il existe une base orthonormée (v

₁

, . . . , v

_n

) de R

ⁿ

et des nombres réels λ

₁

≥ λ

₂

≥ · · · ≥ λ

_n

tels que pour tout i,

Av

_i

= λ

_i

v

_i

.

De plus, les λ

_i

sont les valeurs propres de A et sont définies de manière unique et pour tout i, λ

_i−1

> λ

_i

> λ

_i+1

(avec les conventions λ

₀

= +∞ et λ

_n+1

= −∞), v

_i

est unique, à multiplication par −1 près.

Exercice 2.4. Donner v

1

, v

2

pour A = 2.5 .5 .5 2.5 .

2.4.2 Norme d’opérateur d’une matrice

Définition 2.8. La norme d’opérateur d’une matrice réelle A de taille n × n est le nombre

kAk := sup

kxk=1

kAxk.

2.5 Clustering spectral

2.5.1 Présentation

L’algorithme que nous avons vus au dessus repose sur le fait que les degrés moyens associés aux différentes classes sont différents, et même assez distants les uns des autres. Nous allons maintenant voir un autre algorithme, qui fonctionne aussi lorsque les degrés moyens associés aux classes sont les mêmes. Pour simplifier les choses, on fera les hypothèses simplificatrices suivantes :

1. on n’a que deux communautés, (k = 2),

2. les deux communautés sont de cardinal n/2 (donc n est pair),

(21)

2.5. CLUSTERING SPECTRAL 21 3. la matrice P a la forme p

in

p

out

p

out

p

in

avec p

in

≥ p

out

. L’algorithme de clustering spectral est alors le suivant : a) Calculer la matrice d’adjacence A

G

de G.

b) Calculer le vecteur propre v

2

associé à la deuxième valeur propre de A

G

. c) Partitioner les sommets selon les signes des coordonnées de v

2

: une com- munauté est donnée par les i tels que v

2,i

> 0 et l’autre communauté est donnée par les i tels que v

2,i

≤ 0.

Théorème 2.4. Avec probabilité ≥ 1 − e

⁻ⁿ

, la proportion de sommets mal clusterisés par cet algo est

≤ 8C

²

nµ

²

pour une certaine constante universelle C et pour

µ := min{ p

in

− p

out

2 , p

out

}.

2.5.2 Preuve du Théorème 2.4

Pour prouver ce théorème, nous allons admettre plusieurs résultats, que voici.

On pose E A

_G

la matrice n× n dont les coordonnées sont les nombres E a

_ij

= p

_c(i)c(j)

.

Théorème 2.5. Il existe une constante C (ne dépendant d’aucun des para- mètres) telle que, avec probabilité ≥ 1 − e

⁻ⁿ

,

kA

G

− E A

G

k ≤ C √ n.

Soient X, Y des matrices symétriques réelles de même taille. On note λ

₁

(X ) ≥

· · · ≥ λ

_n

(X ) les valeurs propres ordonnées de X et λ

₁

(Y ) ≥ · · · ≥ λ

_n

(Y ) celles de Y . De même, on note v

1

(X ), . . . , v

n

(X) et v

1

(Y ), . . . , v

n

(Y ) des vecteurs propres associés de norme 1.

Théorème 2.6 (Inégalité de Weyl). Alors pour tout i,

|λ

i

(Y ) − λ

i

(X)| ≤ kY − Xk.

Théorème 2.7 (Davis-Kahan). Soit i

₀

tel que δ := min

_i6=i₀

|λ

_i

(X )− λ

_i₀

(X)| >

0. Alors il existe θ ∈ {−1, 1} tel que

kv

i₀

(Y ) − θv

i₀

(X)k ≤ 2

^3/2

δ kY − X k.

Les deux théorèmes précédents disent que si la matrice Y n’est pas trop loin

de la matrice X, alors les valeurs propres de Y ne sont pas loin de ceux de X ,

et qu’il en est de même pour les vecteurs propres associés à des valeurs propres

assez isolées du reste du spectre.

(22)

Lemme 2.5. Le spectre de E A

_G

est λ

₁

= n p

_in

+ p

_out

2 , λ

₂

= n p

_in

− p

_out

2 , 0, . . . , 0,

et les deux premiers vecteurs propres sont v

1

= n

^−1/2

(1, . . . , 1)

^T

et le vecteur v

2

défini par

v

_2,i

:=

( n

^−1/2

si i ∈ V

1

,

−n

^−1/2

si i ∈ V

2

.

Démonstration. a) On montre que, pour M := E A

_G

, M v

_i

= λ

_i

v

_i

pour chaque i = 1, 2.

b) On montre que (v

1

, v

2

) est une famille orthonormée, que l’on peut donc étendre en une base orthonormée (v

1

, . . . , v

n

).

c) Soit O la matrice dont les colonnes sont les v

j

et D = diag(λ

1

, λ

2

, 0, . . . , 0).

Montrons que

M = ODO

⁻¹

,

ce qui clôt la preuve. Comme (v

1

, . . . , v

n

) est une base orthonormée, O est ortho- gonale donc O

⁻¹

= O

^T

. En développant (ODO

^T

)

ij

, on arrive très rapidement à M

ij

.

On a donc, en appliquant ce qui précède avec Y = A

G

, X = E A

G

et i

0

= 2 : δ = min{λ

2

( E A

G

), λ

1

( E A

G

) − λ

2

( E A

G

)} = n min{ p

in

− p

out

2 , p

out

}

| {z }

=µ

et

kY − Xk ≤ C √ n

avec probabilité ≥ 1 − e

⁻ⁿ

. On en déduit qu’il existe un signe θ ∈ {−1, 1} tel que

kv

2

(A

G

) − θv

2

( E A

G

)k ≤ 2

^3/2

C µ √

n .

Autrement dit, X

i

( √

nv

_2,i

(A

_G

) − √

nθv

_2,i

( E A

_G

))

²

≤ 8C

²

µ

²

.

Chaque i tel que √

nθv

2,i

( E A

G

) n’est pas du bon signe, càd tel que θv

2,i

( E A

G

)

n’est pas du bon signe, contribue à la somme précédente de au moins 1, il y en

a donc au plus

^8C_µ₂²

.

(23)

2.6. REMARQUE 23

2.6 Remarque

Le choix a été fait de présenter dans ce chapitre deux manières de faire qui ne sont pas les seules envisagebles. On peut par exemple également écrire la vraisemblance de l’observation sous le modèle SBM. En effet, si Z

i

désigne la classe de l’individu i dans un modèle à k classes, la probabilité d’observer une matrice d’adjacence donnée A est

L(A) = X

c∈{1,...,k}ⁿ

P (A|Z

1

= c

1

, . . . Z

k

= c

k

) P (Z

1

= c

1

, . . . Z

k

= c

k

)

= X

c∈{1,...,k}ⁿ

Y

i,j

a

^p_ij^c(i)c(j)

(1 − a

ij

)

^1−p^c(i)c(j)

Y

i

α

_c(i)

On peut ensuite optimiser cette fonction et les Z correspondant au point pour lequel le maximum est atteint peuvent être utilisés pour déterminer les classes des sommets. Cette fonction ne peut cependant pas être optimisée de façon exacte et n’est pas cnvexe, il faut donc recourir à des heuristiques.

Un autre point qui a été passé sous silence dans ce chapitre est le choix du

nombre de classes, appelé problème du choix de modèle, qui dépasse le cadre de

ce cours.

(24)

(25)

Chapitre 3

Chaînes de Markov et applications

3.1 Comment fonctionne Google ?

Pour cette section, les références sont [?] pour l’intro et [?] pour la suite.

3.1.1 Introduction

Google domine le marché des moteurs de recherche grâce à son algorithme de classement des page ordre de pertinence.

L’algorithme évolue continuellement depuis sa création et n’est pas entière- ment public, mais l’idée principale a été publiée par Sergey Brin and Larry Page en 1998. Elle repose sur l’idée de chaîne de Markov, connue depuis longtemps en mathématiques.

Le web est un chaos :

— les contenus sont hétérogènes

— les pages évoluent constamment

Une des clés du succès fulgurant de Google a été de mettre sur cet ensemble une structure de graphe orienté.

Définition 3.1. Un graphe orienté est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un sous- ensemble de V × V . Pour v, w ∈ V , on note v → w si (v, w) ∈ E.

La structure de graphe orientée que Google appose au web est la suivante : V = {pages web} et pour v, w pages web, v → w si v contient un lien vers w.

3.1.2 Comment hiérarchiser ce graphe ?

Comptage naïf

Idée : on constate que les pages importantes sont la cible de nombreux liens

25

(26)

On peut penser à renverser l’affirmation et à déclarer que le nombre de liens entrants est un indicateur de l’importance d’une page

— Pros : simple à calculer

— Cons :

a) Pas forcément vrai

b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.

Comptage pondéré

Idée : Toutes les pages ont la même quantité de poids à distribuer.

m

_i

= (importance de la page i)

= X

j→i

1 nombre de pages pointées par la page j

— Pros : facile à calculer

— Cons :

a) Donner le même poids à distribuer à toutes les pages ne semble pas pertinent

b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.

Comptage pondéré récursif

Idée : une page est importante si de nombreuses pages importantes pointent vers elle

m

i

= (importance de la page i)

= X

j→i

m

_j

nombre de pages pointées par la page j

— Pros :

a) correspond mieux à l’intuition b) tricher est plus difficile

— Cons : calcul : système linéaire (certes creux) à résoudre, avec autant de variables que de pages web

Comment déterminer le vecteur des poids

Considérons un surfeur aléatoire qui se promène sur la toile en allant au hasard depuis chaque page sur l’une des pages vers lesquelles elle pointe.

L’idée (qui sera justifiée théoriquement par la théorie des chaînes de Markov),

est que le vecteur des poids solution de problème précédent est proportionnel au

(27)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 27 vecteur du temps que passe ce surfeur sur chacunde des pages. Il faut cependant un peu modifier le processus de promenade alétoire afin de s’assurer de ne pas resté indéfiniment sur une page qui ne pointerait vers aucune autre page.

3.2 Chaînes de Markov à espaces d’états finis

3.2.1 Définitions : chaînes de Markov et matrices marko- viennes

Définition 3.2. Soit E ensemble fini. Une chaîne de Markov homogène à valeurs dans E est une suite (X

_n

) de variables aléatoires telles que pour tout n,

L(X

n+1

|(X

0

, . . . , X

n

)) = L(X

n+1

|X

n

) = L(X

1

|X

0

). (3.1) Remarque:

L’équation (3.1) signifie que l’avenir ne dépend du passé que via le présent (mémoire courte).

Exercice 3.1. Supposons que E = {1, 2}, que (X

n

) soit une chaîne de Markov sur E telle que L(X

1

|X

0

= 1) = p

₁₁

δ

₁

+ p

₁₂

δ

₂

et L(X

1

|X

0

= 2) = p

₂₁

δ

₁

+ p

₂₂

δ

₂

. Soit µ = (a, b) avec L(X

0

) = aδ

₁

+ bδ

₂

. On pose

P = [p

ij

].

1. Donner la loi de X

1

.

2. La loi de X

n

s’écrit a

n

δ

0

+ b

n

δ

1

. Donner une formule de récurrence pour a

n

et b

n

.

3. Montrer, par récurence sur n, que

(a

n

, b

n

) = µP

ⁿ

.

On introduit, pour la suite, une chaîne de Markov (X

_n

) à valeurs dans un ensemble E. Pour x, y ∈ E, on pose

P (x, y) := P (X

n+1

= y|X

n

= x), qui ne dépend bien entendu pas de n.

Lemme 3.1. On a alors, pour tout x, X

y

P (x, y) = 1.

Définition 3.3. Une matrice (indéxée par un ensemble quelconque) est dite markovienne si ses coordonnées sont ≥ 0 et ses lignes se somment toutes à 1.

Définition 3.4. On étend naturellement le produit matriciel à des matrices

indéxées par des éléments quelconques. On assimile aussi les lois de probabilité

sur E aux vecteurs lignes indexés par E de coordonnées ≥ 0 et de somme 1.

(28)

Théorème 3.1. — Pour tout n, k, pour tout x, y, L(X

_n+k

= y|X

_n

= x) = P

ⁿ

(x, y).

— Pour tout n,

L(X

_n

) = µP

ⁿ

, où µ désigne la loi de X

0

.

Mesures invariantes

Définition 3.5. Une mesure (càd une loi de probabilité) µ sur E est dite invariante si une des deux conditions équivalentes suivantes est satisfaite :

(i) µP = µ

(ii) Si X

₀

∼ µ, alors X

_n

∼ µ pour tout n.

Théorème 3.2 (Perron-Frobenius). Il existe toujours au moins une mesure invariante.

Exercice 3.2. Montrer que la mesure uniforme est invariante pour P :=





0 1/3 2/3 2/3 0 1/3 1/3 2/3 0



 .

Exercice 3.3. Soient p, q ∈ [0, 1] et P :=

p 1 − p 1 − q q

. a) Donner les mesures invariantes.

b) A quelle condition y en a-t-il une unique ? Classification des états et théorème ergodique Définition 3.6. Soitent x, y ∈ E.

— Nous dirons que x −→ y si P (x, y) > 0.

— Un chemin de longueur n ≥ 1 de x à y est une suite finie x

0

−→ x

1

−→

x

2

−→ · · · −→ x

n

de points de E tel que x

0

= x et x

n

= y.

— Nous dirons que x 99K y si, pour un certain n ≥ 1, il existe un chemin de longueur n de x à y, càd si il existe n ≥ 1 tel que P

ⁿ

(x, y) > 0.

— Nous dirons qu’un point x est récurrent si,

∀x

⁰

∈ E, x 99K x

⁰

= ⇒ x

⁰

99K x.

— Nous dirons qu’un point x est transitoire s’il n’est pas récurrent.

Nous noterons T l’ensemble des points transitoires et R l’ensemble des points récurrents.

Lemme 3.2. — Si x est récurrent, alors tout y tel que x 99K y est aussi récurrent.

— La relation x 99K y est transitive.

(29)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 29

— Sur R, la relation 99K est une relation d’équivalence, dont les classes sont appelées classes de récurrence.

Définition 3.7. La chaîne de Markov est dite irréductible s’il n’y a pas de point transitoire et s’il n’y a qu’une classe de récurrence.

Théorème 3.3 (Théorème ergodique). Une chaîne de Markov irréductible pos- sède une unique mesure invariante µ, et pour tout x ∈ E, µ(x) > 0. De plus, quelle que soit la loi de X

₀

et pour tout x ∈ E, on a

1 n

n−1

X

i=0

1

X_i=x

−→

n→∞

µ(x) pour la convergence en probabilités.

Remarque:

On a là l’interprétation de µ(x) en termes de proportion du temps passé en x, qui est le point de départ de ce chapitre dont l’objectif est de comprendre l’algo de Google.

Remarque:

Ce théorème dit que

1 n

n−1

X

i=0

δ

X_i

−→

n→∞

µ

pr la convergence en proba. On peut montrer, en utilisant le TCL martingales, pour pour toute fonction test f , on a

√ n 1 n

n−1

X

i=0

f (X

_i

) − µ(f )

!

n→∞

−→ N (0, σ

_f²

)

pour un certain σ

_f

.

Chaînes apériodiques et convergence en loi

Définition 3.8. La chaîne de Markov est dite apériodique si il existe n

0

tel que pour tout n ≥ n

0

et pour tout x, y ∈ E,

P

ⁿ

(x, y) > 0.

Il existe d’autres caractérisations de l’apériodicité, faisant appel à l’arithmé- tique, équivalentes à celle-ci. Nous retiendrons néanmoins celle-ci :

Propriété 3.1. La chaîne de Markov est apériodique si elle est irréductible et il existe x ∈ E tel que P (x, x) > 0.

Théorème 3.4 (Convergence en loi pour les chaînes irréductibles apériodiques).

Supposons la chaîne de Markov (X

n

) irréductible et apériodique. Notons µ son unique loi invariante. Alors quelle que soit la loi de X

0

, pour tout x ∈ E,

P (X

_n

= x) −→

n→∞

µ(x).

(30)

3.2.2 PageRank comme unique loi invariante d’une certaine chaine de Markov

La formule

m

_i

= + (1 − ) X

j→i

m

j

number of pages pointed by page j

permet d’interpréter la version renormalisée µ de m comme l’unique loi invariante de la chaîne de Markov d’espace d’états E = {pages web} et de matrice de transition

P(x, ·) = U

E

+ (1 − )U

_V(x)

,

où U

E

désigne la loi uniforme sur E et U

_V(x)

désigne la loi uniforme sur V(x) := {pages pointées depuis x}.

3.3 Modèle de migration de particules : urne d’Eh- renfest

Pour ce chapitre, voir [?, ?].

3.3.1 Problème et modèle

On considère deux volumes A et B reliés par une petite ouverture. Les ob- servations prouvent que les pressions dans les deux volumes finissent par s’équi- librer. On cherche à comprendre ce phénomène.

Pour cela, on fait l’hypothèse (tout à fait raisonnable) que la pression est proportionnelle au nombre de particules présentes dans le volume.

De plus, on considère un pas de temps très faible, pendant lequel il est raisonnable de considérer qu’au plus une particule passe par l’ouverture. Cette particule est choisie de façon équiprobable parmi toutes les particules, ce qui revient à dire que le mouvement s’effectue de façon proportionnelle à la pression.

On note N le nombre total de particules et X

_t

le nombre de particules dans le volume A au temps t.

On obtient alors, en notant la probabilité qu’aucune particule ne passe par l’ouverture pendant la pas de temps,

P (X

t+1

= X

t

|X

t

) =

P (X

t+1

= X

t

− 1|X

t

) = (1 − ) X

t

N P (X

_t+1

= X

_t

+ 1|X

_t

) = (1 − ) N − X

t

N

(31)

3.3. MODÈLE DE MIGRATION DE PARTICULES : URNE D’EHRENFEST31 X

_t

étant un entier entre 0 et n, on peut reécrire ces transitions sous la forme d’une chaîne de Markov à N + 1 éléments avec la matrice de probabilité

P =







1 −

(1 − )

_N¹

(1 − )

^N_N⁻¹

· · · · · ·

(1 − )

_N^k

(1 − )

^N_N^−k

· · · · · ·

(1 − )

^N_N⁻¹

(1 − )

_N¹

1 −







3.3.2 Convergence de la chaîne

Il existe des boucles de longueur 1, ce qui implique que la chaîne est apério- dique. De plus, comme il y a une arête de k à k + 1 et inversement pour tout k, il est possible de construire un chemin de tout sommet vers tout sommet, ce qui assure le caractère irréductible de la chaîne.

Le théorème 3.4 assure donc que la chaîne converge vers sa mesure invariante.

Propriété 3.2. La mesure invariante π est la loi B (N, 1/2), càd

∀0 ≤ k ≤ N, π(k) = 1 2

^N

N k

Démonstration. On commence par montrer par récurrence que

∀0 ≤ k ≤ N, π(k) = N

k

π(0)

La propriété est trivialement vraie pour k = 0.

Pour k = 1, le fait que π est invariante entraîne (en regardant la première coordonnée de l’égalité π

^T

= π

^T

P ) que

π(0) + 1 −

N π(1) = π(0),

d’où on déduit que π(1) = N π(0). La propriété est donc vraie au rang 1.

Supposons qu’elle est vraie pour k et k − 1, avec k ≥ 2. Le fait que π est invariante entraîne (en regardant la k

^ieme

coordonnée de l’égalité π

^T

= π

^T

P ) que

(1 − ) N − (k − 1)

N π(k − 1) + π(k) + (1 − ) k + 1

N π(k + 1) = π(k).

D’où

π(k + 1) = N k + 1

π(k) − N − (k − 1)

N π(k − 1)

Par l’hypothèse de récurrence et le triangle de Pascal, on en déduit que la formule

est vraie au rang k + 1.

(32)

La propriété est donc vraie par récurrence.

π étant une mesure de proba, P

N

k=0

π(k) = 1. Or,

N

X

k=0

π(k) =

N

X

k=0

N k

π(0) = 2

^N

π(0)

Par conséquent, π(0) =

₂¹_N

.

Le théorème 3.4 assure que la chaîne converge vers π.

3.3.3 Retour au problème

L’étude de la chaîne de Markov donne la limite de la pression sous notre modèle. Cette distribution est strictement positive pour tout k entre 0 et N, y compris pour 0. Cela signifie qu’il y a une probabilité non nulle dans ce modèle que, de façon spontanée, toutes les particules se retrouvent dans le volume B et que le volume A soit vide.

Cependant, la loi binomiale est fortement concentrée autour de son espé- rance : on peut montrer que

Propriété 3.3. Soit Y ∼ B(N, 1/2). Alors pour tout t ≥ 0,

P (|Y − N/2| ≥ t) ≤ 2 exp{− 2t

²

3N } (3.2)

Démonstration. Le corollaire 2.1 nous assure que ce résultat est vrai si t ≤ N/2.