L3 Modélisation stochastique

(1)

L3

Modélisation stochastique

Etienne Birmelé

[email protected]

(2)

2

(3)

Chapitre 1

Fonction génératrices et

application au processus de Galton-Watson

1.1 Fonctions génératrices

1.1.1 Définition

Définition 1.1. Soit X une variable aléatoire à valeur dans N . La série entière définie par

φ

_X

(z) = E z

^X

=

+∞

X

k=0

P (X = k)z

^k

est de rayon de convergence au moins 1 puisque P

+∞

k=0

P (X = k) = 1. La fonction φ

X

est donc définie sur ] − 1, 1].

Elle est appelée fonction génératrice de X . Exemples 1.1. Bernoulli : X ∼ B(p)

φ

X

(z) = P (X = 0)z

⁰

+ P (X = 1)z

¹

= 1 − p + pz Binômiale : X ∼ B(n, p)

φ

_X

(z) =

n

X

k=0

n k

p

^k

(1 − p)

^n−k

z

^k

=

n

X

k=0

n k

(pz)

^k

(1 − p)

^n−k

= (1 − p + pz )

ⁿ

3

(4)

4CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON Poisson : X ∼ P (λ)

φ

_X

(z) =

+∞

X

k=0

λ

^k

k! e

^−λ

z

^k

= e

^−λ

+∞

X

k=0

(λz)

^k

k!

= e

^λ(z−1)

Géométrique : X ∼ G(p), avec q = 1 − p

φ

_X

(z) =

+∞

X

k=0

pq

^k−1

z

^k

= pz

+∞

X

l=0

q

^l

z

^l

= pz 1 − qz

Propriété 1.1. φ

X

= φ

Y

si et seulement si X = Y p.s.

Démonstration. Si X = Y p.s., les deux fonctions génératrices sont égales de façon évidente.

Inversement, si φ

X

= φ

Y

, l’unicité du développement en série entière entraîne que P (X = k) = P (Y = k) pour tout k.

1.1.2 Sommes de variables indépendantes

Propriété 1.2. Soient X et Y des v.a. indépendantes. Alors φ

_X+Y

= φ

_X

φ

_Y

En particulier, si X

1

, . . . , X

n

sont des v.a. indépendantes et identiquement distribuées,

φ

X₁,...,X_n

= φ

ⁿ_X

Démonstration. Avec des séries entières : Pour tout k, P (X + Y = k) = X

l=0

P (X = l, Y = k − l) X

l=0

P (X = l) P (Y = k − l) par indépendance

On reconnait alors la formule de la multiplication des séries entières.

(5)

1.1. FONCTIONS GÉNÉRATRICES 5 Avec des probabilités : Comme X et Y sont indépendantes, E (f (X )g(Y )) =

E (f (X)) E (g(Y )). En particulier, pour tout |z| < 1, E (z

^X

z

^Y

) = E (z

^X

) E (z

^Y

).

Exemple 1.1. Retrouver la fonction génératrice d’une variable binômiale en écrivant cette dernière comme la somme de variables de Bernoulli.

1.1.3 Dérivées de φ

_X

et moments de X

Propriété 1.3. Soit p ∈ N . Si E X

^p

existe, alors φ

X

est p fois dérivable sur ] − 1, 1[. De plus, si φ

^(p)_X

existe et est continue en 1,

φ

^(p)_X

(1) = E X (X − 1) . . . (X − p + 1) En particulier,

E X = φ

⁰_X

(1)

varX = φ

⁰⁰_X

(1) + φ

⁰_X

(1) − φ

⁰_X²

(1)

Démonstration. Une série entière étant indéfiniment dérivable sur l’intérieur de son domaine ed convergence, φ

^(p)_X

existe pour |z| < 1 et

φ

^(p)_X

(z) =

+∞

X

k≥p

k(k − 1) . . . (k

p

+ 1)z

^k−p

Le fait que E X

^p

existe signifie que P

+∞

k=0

P (X = k)k

^p

converge. Or, pour

|z| < 1,

|k(k − 1) . . . (k

_p

+ 1)z

^k−p

| ≤ k

^p

donc (theoreme ?)

z→1

lim φ

^(p)_X

(z) =

+∞

X

k=0

P (X = k)k(k − 1) . . . (k

_p

+ 1)

Le deuxième membre est égal à E X(X − 1) . . . (X − p + 1) et le premier vaut φ

^(p)_X

(1) par continuité de φ

^(p)_X

.

La démonstration des cas particuliers de l’espérance et de la variance est laissée en exercice.

Exemple 1.2. Bernoulli : Si X ∼ B(p), φ

X

(z) = 1 − p + pz φ

⁰_X

(z) = p

φ

⁰⁰_X

(z) = 0

On retrouve E (X) = p et varX = p(1 − p).

(6)

6CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON Binômiale : Si X ∼ B(n, p),

φ

X

(z) = (1 − p + pz)

ⁿ

φ

⁰_X

(z) = np(1 − p + pz)

ⁿ⁻¹

φ

⁰⁰_X

(z) = n(n − 1)p

²

(1 − p + pz)

ⁿ⁻²

On retrouve E (X) = np et varX = np(1 − p).

Poisson : Si X ∼ P(λ),

φ

X

(z) = e

^λ(z−1)

φ

⁰_X

(z) = λe

^λ(z−1)

φ

⁰⁰_X

(z) = λ

²

e

^λ(z−1)

On retrouve E (X) = λ et varX = λ.

Géométrique partant de 1 : Si X ∼ G(p) φ

X

(z) = pz

1 − qz = z − 1 1 − qz + 1 φ

⁰_X

(z) = p

(1 − qz)

²

φ

⁰⁰_X

(z) = 2pp

(1 − pz)

³

On retrouve E (X) =

¹_p

et var(X ) =

_p^q2

.

1.1.4 Cas d’une variable continue : transformée de Laplace

Dans le cas d’une variable aléatoire continue positive, à densité f , on peut définir la transformée de Laplace, définie pour t ≥ 0 par

φ

X

(t) = E (e

^−tX

) = Z

+∞

0

e

^−tx

f (x)dx

Les propriétés des fonctions génératrices se généralisent, en particulier que φ

X+Y

(t) = φ

X

(t)φ

Y

(t) si X et Y sont indépendantes, et que les valeurs des dérivées successives en 0 donnent les moments de la loi (démonstrations laissées en exercice, sur le même modèle que celle des fonctions génratrices).

Propriété 1.4. Soit X et Y deux variables aléatoires continues positives et indépendantes. Alors φ

X+Y

= φ

X

φ

Y

.

Propriété 1.5. Soit X une variable aléatoire continue posisitve, telle que E X

^p

existe. Alors φ

_X

est p fois dérivable et , pour tout 0 ≤ k ≤ p, φ

^(k)

(0) =

(−1)

^k

E X

^k

.

(7)

1.2. PROCESSUS DE GALTON-WATSON 7 Remarque:

La notion de transformée de Laplace peut être étendue à des variables non- positives en commençant l’intégrale en −∞. Il faut cependant alors vérifier la convergence de l’intégrale généralisée.

Ainsi, la loi normale, dont la densité est équivalente en l’infini à un terme en Ke

^−Cx²

admet une transformée de Laplace en intégrant entre −∞ et +∞.

En effet, pour tout t, R

+∞

−∞

e

^−tx−Kx²

dx converge.

1.2 Processus de Galton-Watson

1.2.1 Présentation du modèle

Le but de ce modèle est de modéliser l’évolution d’une population en temps discret. Il a été introduit en 1874 par Francis Galton et Henry Watson pour répondre au problème de la probabilité d’extinction des noms aristocratiques dans l’angleterre victorienne. Le fait qu’il ait été appliqué à des noms de fa- mille explique son hypothèse simplificatrice consistant à considérer des arbres généalogiques où les parents sont uniques.

Sous ce modèle, la population initiale se réduit à un ancêtre unique. Cet ancêtre a ensuite un nombre aléatoire de descendants, et chacun des descendants de même , et ainsi de suite. On fait de plus l’hypothèse que le nombre des fils de chaque individu est identiquement distribué et indépendant du parent.

DESSIN

Le processus peut alors être modélisé par deux suites de variables aléatoires : 1. (Z

_n

, n ≥ 0) où Z

_n

est le nombre d’individus de la génération n

2. (X

_i,j

, i ≥ 0, j ≥ 1) où X

_i,j

est le nombre de descendants de l’individu j de la génération i.

On a alors, pour tout n ≥ 1,

Z

0

= 1

Z

₁

= X

_0,1

Z

2

=

Z₁

X

j=1

X

1,j

· · · · · ·

Z

n+1

=

Zn

X

j=1

X

n,j

,

la suite devenant uniformément nulle si elle s’annule une première fois (extinc-

tion).

(8)

8CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON

1.2.2 Espérance et variance de Z

_n

On suppose connue φ, la fonction génératrice commune des variables (X

i,j

)

i,j

. Soit G

n

la fonction génératrice de Z

n

. Alors

Propriété 1.6. a) G

_n+1

(s) = G

_n

(φ(s)) pour tout n ≥ 0.

b) G

_n

(s) = φ

⁽ⁿ⁾

(s), où φ

⁽ⁿ⁾

désigne la composition n fois de φ avec elle- même.

Démonstration. On démontre la propriété b) par récurrence, la propriété a) étant démontrée au passage.

— Pour n = 0, G

0

(s) = 1 car Z

0

= 1.

— Supposons la propriété vraie au rang n.

Or,

G

n+1

(s) = E s

^P^Zn^j=1^X^n,j

= E

+∞

X

k=0

s

^P^Zn^j=1^X^n,j

I

Z_n=k

=

+∞

X

k=0

E s

^P^Zn^j=1^X^n,j

I

Z_n=k

∗ ∗

=

+∞

X

k=0

E s

^P^Zn^j=1^X^n,j

P (Z

n

= k)car Z

n

est indépendante des X

n,j

=

+∞

X

k=0

E φ(s)

^k

P (Z

n

= k)car les X

n,j

sont indépendantes

= G

n

(φ(s))

= φ

⁽ⁿ⁾

(φ(s)) par hypothèse de récurrence

= φ

⁽ⁿ⁺¹⁾

(s) Remarque:

En **, l’espérance et la somme peuvent être échangées car toutes les variables sont positives (la somme infinie pose problème sinon). On peut éviter le recours à cet argument dans le cas où les X

i,j

sont bornés par Q, car alors Z

n

≤ Q

ⁿ

(et cela paraît raisonnable dans le cas des humains).

La propriété précédente permet de déduire la fonction génératrice de Z

n

en fonction de celle de Z

1

(comme Z

1

= X

0,1

, elle est de fonction génératrice φ).

On peut alors en déduire l’espérance et la variance de Z

n

en fonction de celle de Z

1

.

Propriété 1.7. a) Si m = E Z

₁

< +∞, alors E Z

_n

= m

ⁿ

.

(9)

1.2. PROCESSUS DE GALTON-WATSON 9

b) Si σ

²

= varZ

1

< +∞, alors varZ

n

= nσ

²

si m = 1

mⁿ(mⁿ−1)

m(m−1)

σ

²

si m 6= 1 Démonstration. a) En dérivant l’égalité de la Proposition 1.6 a),

G

⁰_n+1

(s) = G

⁰_n

(φ(s))φ

⁰

(s) Pour s = 1 et comme φ

⁰

(1) = E Z

₁

= m, on obtient que

G

⁰_n+1

(s) = mG

⁰_n

(s)

Comme de plus G

1

= φ, on obtient par récurrence que G

⁰_n

(1) = m

ⁿ

. On en déduit la propriété a) puisque G

n

est la fonction génératrice de Z

n

. b) On démontre cette propriété par récurrnce, en se basant sur la Proposi-

tion 1.3 :

varZ

_n

= G

⁰⁰_n+1

(1) + G

⁰_n

(1) − (G

⁰_n

(1))

²

(1.1) Pour n = 1, la propriété est vraie par définition et l’équation 1.1 entraîne que

σ

²

= φ

⁰⁰

(1) + φ

⁰

(1) − (φ

⁰

(1))

²

(1.2) Supposons que la propriété est vraie pour n. Pour appliquer l’équation 1.1, il faut commencer par déterminer G

⁰⁰_n+1

(1). Or,

G

⁰⁰_n+1

=

G

⁰_n

oφ(s)φ

⁰

0

= G

⁰⁰_n

oφ.φ

⁰²

+ G

⁰_n

oφ.φ

⁰⁰

On l’applique en 1, en utilisant l’équation 1.1 pour remplacer G

⁰⁰_n

(1), l’équation 1.2 pour remplacer φ

⁰⁰

(1), et le fait que G

⁰_n

(1) = m

ⁿ

.

G

⁰⁰_n+1

(1) = (varZ

n

− m

ⁿ

+ m

²ⁿ

)m

²

+ m

ⁿ

(σ

²

− m + m

²

)

= m

²

varZ

n

+ m

ⁿ

σ

²

+ m

²ⁿ⁺²

− m

ⁿ⁺¹

En le réinjectant dans l’équation 1.1, on obtient

varZ

n+1

= m

²

varZ

n

+ m

ⁿ

σ

²

(1.3) Si m = 1 L’équation 1.3 avec varZ

_n

= nσ

²

donne facilement que varZ

_n+1

=

(n + 1)σ

²

et que la propriété est vraie au rang n + 1.

Si m 6= 1 Par hypothèse de récurrence, varZ

n+1

= m

²

m

ⁿ

(m

ⁿ

− 1)

m(m − 1) σ

²

+ m

ⁿ

σ

²

= m

ⁿ⁺¹

(m

ⁿ⁺¹

− 1)

m(m − 1) σ

²

(10)

10CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON

1.2.3 Probabilité d’extinction

Soit E l’évènement désignant le fait que la population s’éteint.

E = ∪

n≥1

{Z

n

= 0}

Les évènements {Z

n

= 0} constituant une suite croissantr d’évènements, P (E) = lim

n→+∞

P (Z

n

= 0)

Théorème 1.1. P (E) est la plus petite solution dans [0, 1] de l’équation φ(s) = s.

Si m ≤ 1, P (E) = 1, sinon 0 ≤ P (E) < 1.

Démonstration. La propriété 1.6 b) entraîne que G

_n

(s) = φ(G

_n−1

(s)). En par- ticulier

G

n

(0) = φ(G

_n−1

(0) P (Z

_n

= 0) = φ( P (Z

_n−1

= 0))

n→∞

lim P (Z

n

= 0) = lim

n→∞

φ( P (Z

_n−1

= 0))

n→∞

lim P (Z

n

= 0) = φ( lim

n→∞

P (Z

_n−1

= 0)) car φ est continue P (E) = φ( P (E))

P (E) est donc une solution de φ(s) = s.

Soit q la plus petite solution de φ(s) = s appartenant [0, 1]. Comme φ est croissante, φ

⁽ⁿ⁾

l’est également. Par conséquent,

φ

⁽ⁿ⁾

(0) ≤ φ

⁽ⁿ⁾

(q) P (Z

_n

= 0) ≤ q

P (E) ≤ q par passage à la limite.

Par minimalité de q, on a donc forcément P (E) = q.

De plus, φ est de dérivée et de dérivée seconde positive puisque : φ

⁰

(s) = X

k≥1

k P (Z

₁

= k)s

^k−1

φ

⁰⁰

(s) = X

k≥2

k(k − 1) P (Z

1

= k)s

^k−2

En particulier, φ

⁰

est croissante.

P (Z

₁

= 0) + P (Z

₁

= 1) 6= 1 : Il existe un k > 1 tel que P (Z

₁

= k) > 0. La fonction φ

⁰⁰

est alors strictement positive donc φ

⁰

est strictement crois- sante.

Si m ≤ 1, on a pour tout s < 1, (φ(s) − s)

⁰

= φ

⁰

(s) − 1 < φ

⁰

(1) − 1 ≤ 0.

Donc φ(s) −s > φ(1)− 1 = 0. 1 est donc la plus petite racine de φ(s) = s.

(11)

1.2. PROCESSUS DE GALTON-WATSON 11 Si m > 1, comme φ

⁰

(0) = P (Z

₁

= 1) < 1 et φ

⁰

(1) = m > 1, il existe un unique s

₀

tel que φ

⁰

(s

₀

) = 1. Une étude de signe de φ(s) − s donne alors

0 s

₀

1 φ

⁰

(s) − 1 − + φ(s) − s & % 0

P (Z

1

= 0) + P (Z

1

= 1) = 1 : Alors φ(s) = α+ (1 − α)s avec α = P (Z

n

= 0).

Donc φ(s) = s entraîne α = αs puis s = 1. Ce cas correspond de plus bien à m ≤ 1.

AJOUTER DESSINS DES FONCTIONS DANS LES TROIS CAS.

1.2.4 Comportement asymptotique

Cas sous-critique (m < 1)

Dans ce cas, la probabilité d’extinction est de 1, si bien que la variable d’interêt devient le temps τ de l’extinction. Comme {τ > n} = {Z

_n

6= 0} et que P (Z

_n

= 0) = G

_n

(0),

P (τ > n) = 1 − G

n

(0)

Etudier τ revient donc à étudier la vitesse de convergence de G

n

(0) vers 1.

Propriété 1.8. Supposons m = 1 et soit τ le temps d’extinction du processus.

Il existe C > 0 tel que P (τ > n) ∼ Cm

ⁿ

.

Démonstration. Le théorème de Taylor implique qu’il existe c

n

∈ [G

n

(0), 1] tel que

φ(G

_n

(0)) − φ(1) = φ

⁰

(1)(G

_n

(0) − 1) + φ

⁰⁰

(c

_n

)

2 (G

_n

(0) − 1)

²

1 − G

n+1

(0) = m(1 − G

n

(0)) − φ

⁰⁰

(c

n

)

2 (1 − G

n

(0))

²

La fonction φ

⁽³⁾

étant continue et positive,

0 ≤ φ

⁰⁰

(c

_n

) ≤ φ

⁰⁰

(1) donc,

m − φ

⁰⁰

(1)(1 − G

n

(0)) ≤ 1 − G

n+1

(0)

1 − G

n

(0) ≤ m (1.4)

L’inégalité de droite entraîne que

^1−G_1−Gⁿ⁽⁰⁾

0(0)

≤ m

ⁿ

et que par conséquent,

comme G

₀

(0) = 0, 1 − G

_n

(0) ≤ m

ⁿ

.

(12)

12CHAPITRE 1. FONCTION GÉNÉRATRICES ET APPLICATION AU PROCESSUS DE GALTON-WATSON L’égalité 1.4 entraîne alors que ∀n ≥ N

₁

m − φ

⁰⁰

(1)m

ⁿ

≤ 1 − G

n+1

(0) 1 − G

_n

(0) ≤ m 1 − φ

⁰⁰

(1)m

ⁿ⁻¹

≤ m

⁻⁽ⁿ⁺¹⁾

(1 − G

_n+1

(0))

m

⁻ⁿ

(1 − G

n

(0)) ≤ 1

ln(1 − φ

⁰⁰

(1)m

ⁿ⁻¹

) ≤ ln(m

⁻⁽ⁿ⁺¹⁾

(1 − G

_n+1

(0))) − ln(m

⁻ⁿ

((1 − G

_n

(0))) ≤ 0 (1.5) Or, ln(1 − x) ≥ −2x pour 0 ≤ x < 1 suffisamment proche de 0 donc il existe N tel que, ∀n ≥ N

ln(1 − φ

⁰⁰

(1)m

ⁿ⁻¹

) ≥ −2φ

⁰⁰

(1)m

ⁿ⁻¹

(1.6) La série de terme général m

ⁿ⁻¹

convergeant car m < 1, on en déduit que la série de terme général négatif ln(1−φ

⁰⁰

(1)m

ⁿ⁻¹

) converge également. L’équation 1.5 entraîne alors que la série de terme général ln(m

⁻⁽ⁿ⁺¹⁾

(1 − G

n+1

(0))) − ln(m

⁻ⁿ

((1 − G

n

(0))) converge également, vers un réel néagtif K. La somme partielle d’ordre n de cette série valant ln(m

⁻ⁿ

((1 − G

n

(0))), on en déduit que lim

n→+∞

m

⁻ⁿ

((1 − G

n

(0)) = e

^K

= C. Ceci démontre le théorème.

Cas critique (m = 1)

Dans ce cas, la probabilité d’extinction est également de 1. L’approche est semblable au cas sous-critique, la seule différence étant la vitesse de convergence.

Propriété 1.9. Supposons m < 1 et soit τ le temps d’extinction du processus.

Soit σ

²

la variance de Z

1

. Alors P (τ > n) ∼

_nσ²2

. Démonstration. cf TD 1.

Cas sur-critique (m > 1)

Dans ce cas, la probabilité d’extinction est inférieure à 1 et l’espérance de Z

n

vaut m

ⁿ

et tend donc vers l’infini. Les variations de Z

n

autour de sa moyenne sont données par la théorème suivant.

Propriété 1.10. Il existe une v.a. positive W avec E W = 1 et varW =

_m(m−1)^σ²

telle que

n→+∞

lim Z

n

m

ⁿ

= W presque surement De plus, P (W > 0) = 1 − P (E).

Démonstration. Admis

(13)

Chapitre 2

Communautés dans les

réseaux et clustering spectral

Référence pour ce chapitre : [?]. Ce chapitre est repris du cours écrit par Florent Beanych-Georges. Merci à lui d’avoir accepté que je le reprenne.

2.1 Introduction : graphes et réseaux sociaux

Supposons qu’un ensemble d’individus sont reliés par des liens réciproques.

Comme par exemple dans un réseau social type Facebook (mais cela pourrait être aussi des agents économiques entre certains desquels s’établissent des rela- tions). La structure d’un tel réseau peut être représentée par un graphe. On se limitera ici aux graphes simples et non orientées.

Définition 2.1. Un graphe est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un ensemble de parties à deux éléments de E. Deux sommets v, w sont dits adjacents s’ils sont reliés par une arête, i.e. si {v, w} ∈ E. Le degré d’un sommet est le nombre de sommets qui lui sont adjacents.

On introduit ici une définition qui nous sera utile par la suite :

Définition 2.2. Soit G = (V, E) un graphe avec V = {1, . . . , n}. La matrice d’adjacence du graphe est la matrice A

G

= [a

ij

]

1≤i,j≤n

définie par

a

ij

= 1 {i, j} ∈ E.

Remarque:

Les coordonnées de A

G

valent 0 ou 1 et A

G

est une matrice symétrique : a

ij

= a

ji

.

Exercice 2.1. Donner V , E et A

_G

pour le graphe de la figure ??.

13

(14)

14CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL

Figure 2.1 – Exemple de graphe

Exemple 2.1. 1. Le réseau Facebook : V = ensemble des utilisateurs et E = ensemble des couples d’utilisateurs amis.

2. Un sous-ensemble du réseau Facebook : V = partie ensemble des utili- sateurs et E = ensemble des couples d’utilisateurs amis qui sont dans V .

Figure 2.2 – Internet en 1999

La structure des graphes issus vie réelle pose de nombreuses question pra-

tiques (analyse de la dépendance des banques entre elles, identification des sites

internet remportant le plus de succès, mise en place de la publicité personnali-

sée pour les annonceurs, etc...). Le problème auquel on va s’intéresser ici, qui se

pose de façon cruciale dans de nombreuses situations, est celui du clustering :

la partition de l’ensemble des sommets en sous-ensembles homogènes.

(15)

2.2. STOCHASTIC BLOCK MODEL 15

Figure 2.3 – Exemple de graphe orienté : Australian Banking System Network On rappelle la définition :

Définition 2.3. Soit V un ensemble. Une partition de V est un ensemble {V

1

, . . . , V

k

} de parties non vides, deux à deux disjointes, de V telles que

∪

^k_i=1

V

i

= V.

2.2 Stochastic Block Model

2.2.1 Introduction informelle

Supposons qu’il existe une partition V

₁

, . . . , V

_k

de l’ensemble V des som- mets d’un graphe G tel que deux sommets ont plus tendance à être connectés quand ils sont dans un même V

_i

que quand ils sont dans deux V

_i

différents (cf Figure 2.4). Les ensembles V

_i

modélisent des communautés. On cherche à identifier ces ensembles V

_i

.

Nous allons voir ici deux algos d’identification des ensembles V

i

. L’un repose

sur l’analyse des degrés des sommets et l’autre repose sur des considérations

d’algèbre linéaire. Notre objectif sera d’analyser l’efficacité de ces algorithmes,

càd d’estimer les chances que ce qu’ils rendent corresponde à peu près à ce qu’on

attend. Pour cela, il faut avoir une idée de ce à quoi le graphe ressemble. Plus

précisément, si on parle de "chances", il faut se donner un "modèle probabiliste",

càd supposer que le graphe est aléatoire et choisir "modèle" pour sa loi.

(16)

16CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL

Figure 2.4 – Exemple de SBM à 3 communautés

2.2.2 Introduction formelle

On va donc supposer que le graphe choisi de façon aléatoire. Son ensemble de sommets, V = {1, . . . , n}, n’est pas aléatoire, la partition {V

₁

, . . . , V

_k

} non plus, mais les liens qui relient les sommets, les arêtes, le seront. On se donne, pour tout couple V

r

, V

s

de communautés 1 ≤ r, s ≤ k, un nombre p

rs

∈ [0, 1]

tel que dans le graphe, la probabilité qu’il y ait entre un sommet de V

r

et un sommet de V

s

est égale à p

rs

et les arêtes existent indépendament les unes des autres.

Voici une définition formelle du graphe aléatoire G (voir Figure 2.5).

Définition 2.4. Soit k ≥ 1, {V

1

, . . . , V

_k

} une partition de V = {1, . . . , n}

et, pour tout r, s ∈ {1, . . . , k}, P := [p

_rs

]

_1≤r,s≤k

une matrice symétrique à coordonnées p

_rs

∈ [0, 1]. Soit c : V → {1, . . . , k} l’application communauté, définie par i ∈ V

_c(i)

pour tout i. Le graphe G est le graphe (aléatoire) dont la matrice d’adjacence A

_G

= [a

_ij

]

_1≤i,j≤n

est une matrice symétrique telle que les nombres (a

ij

)

_{1≤i≤j≤n}

sont des v.a. indépendantes avec, pour tout i, j,

a

_ij

∼ B(p

_c(i)c(j)

).

Exercice 2.2. Cas particulier où il n’y a qu’une communauté (graphe d’ER) : quelle est alors la loi du degré de chaque sommet ?

Exercice 2.3. Notons n

₁

, . . . , n

_k

les cardinaux de resp. V

₁

, . . . , V

_k

. Donner,

pour chaque i ∈ {1, . . . , n}, une expression de la loi de la v.a. deg(i) en fonction

de v.a. de loi binomiales. Donner son espérance et sa variance.

(17)

2.3. INÉGALITÉ DE BENNETT ET APPLICATION 17

Figure 2.5 – Exemple de SBM à 3 communautés et matrice d’adjacence cor- respondante (le SBM est ici orienté, c’est pourquoi la matrice n’est pas symmé- trique)

2.3 Inégalité de Bennett et application

2.3.1 Préliminaires : étude de la fonction h

Lemme 2.1. a) Pour tout x ∈ R , e

^x

− 1 ≥ x.

b) Pour tout x > −1, log(1 + x) ≤ x.

Démonstration. Etudes de fonction.

Définition 2.5. Soit, pour κ > −1,

h(κ) := (1 + κ) log(1 + κ) − κ.

Lemme 2.2. (i) h est la primitive de log(1 + κ) qui s’annule en 0, (ii) h(κ) ≥ 0, avec égalité pour κ = 0,

(iii) pour x ∈ (−1, 1),

h(x) = X

k≥2

(−1)

^k

x

^k

k(k − 1)

(iv) h(κ) ∼

^κ₂²

quand κ → 0 et h(κ) ∼ κ log κ quand κ → +∞

(v) pour x ≥ 0,

h(x) ≥ 1

3 min{x

²

, x}

(vi) For any κ ≥ 0,

max

t≥0

{(1 + κ)t − (e

^t

− 1)} = h(κ).

Démonstration. (i), (ii), (iii), (iv) sont évidents. Par (iii), sur [0, 1), h(x) ≥ x

²

2 − x

³

6 = x

²

2 (1 − x 3 ) ≥ x

²

3 .

(18)

18CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL Pour prouver (v), il suffit donc de prouver que pour x ≥ 1, h(x) − x/3 ≥ 0.

Cela est vrai pour x = 1 et la dérivée de h(x) − x/3 est log(1 + x) − 1/3, qui est croissante et positive en 1 (car log(8) ≥ log(e)). Par conséquent, (v) est vraie. Pour démontrer (vi), il suffit de prouver que le maximum est atteint en t = log(1 + κ), ce qui se vérifie aisément.

2.3.2 Enoncé

Théorème 2.1. Let Y = X

1

+ . . . + X

n

, avec X

1

, . . . , X

n

des variables de Bernoulli indépendantes de paramètres respectifs p

1

, . . . , p

n

et soit λ := p

1

+

· · · + p

n

. Alors, pour tout > 0,

P (Y ≥ λ + ) ≤ exp{−λh(/λ)} (2.1) et

P (Y ≤ λ − ) ≤ exp{−λh(/λ)} (2.2) si bien que

P (|Y − λ| ≥ ) ≤ 2 exp{−λh(/λ)} (2.3) Lemme 2.3. Soit Y v.a., t ≥ 0 et y ∈ R . Alors

P (Y ≥ y) ≤ E e

^t(Y^−y)

et

P (Y ≤ y) ≤ E e

^−t(Y^−y)

. Démonstration. Par Chebichev,

P (Y ≥ y) = P (Y − y ≥ 0) ≤ E e

^t(Y^−y)

et

P (Y ≤ y) = P (y − Y ≥ 0) ≤ E e

^t(y−Y⁾

= E e

^−t(Y^−y)

Lemme 2.4. Soient X

₁

, X

₂

deux v.a. bornées indépendantes. Alors pour tout t ∈ R ,

E e

^t(X¹^+X²⁾

= E e

^tX¹

E e

^tX²

.

Preuve du Théorème 2.1. Soit Z une variable de Bernoulli de paramètre q. Alors, pour tout t ∈ R , E [e

^tZ

] = 1 + q(e

^t

− 1) ≤ e

^q(e^t⁻¹⁾

. Puis, d’après le lemme pré- cédent,

E [e

^tY

] ≤ e

^λ(e^t⁻¹⁾

. (2.4)

On définit la fonction ϕ(t) :=

¹_λ

log E [e

^tY

]. Pour tout t ≥ 0, et pour κ := /λ, P (Y ≥ λ + ) ≤ E [e

^t{Y^−λ−}

] = exp{−λ[(1 + κ)t − ϕ(t)]}. (2.5) L’équation (2.4) implique ϕ(t) ≤ e

^t

− 1. Il s’ensuit que pour tout t ≥ 0,

P (Y ≥ λ + ) ≤ exp{−λ[(1 + κ)t − (e

^t

− 1)]}.

(19)

2.3. INÉGALITÉ DE BENNETT ET APPLICATION 19 Pour en conclure l’équation (2.1), il suffit de vérifier que

max

t≥0

{(1 + κ)t − (e

^t

− 1)} = h(κ) > 0, ce qui découle de ce qui précède.

Pour démontrer l’équation (2.2), on procède de même en choisissant t ≤ 0 et en utilisant

P (Y ≤ λ − ) ≤ E [e

^t{Y^−(λ−)}

] = exp{−λ[(1 − κ)t − ϕ(t)]}

à la place de l’équation (2.5).

Corollaire 2.1. Avec les mêmes hypothèses,

P (|Y − λ| ≥ ) ≤ 2 exp{− λ

3 min{/λ, (/λ)

²

} (2.6)

2.3.3 Application aux degrés d’un SBM

Soit G un SBM et, pour tout i, d

_i

:= E deg(i). Alors, pour tout i, et tou η > 0,

P (| deg(i) − d

_i

| ≥ ηd

_i

) ≤ 2 exp{− 1

3 d

_i

min{η, η

²

}}.

On en déduit

Théorème 2.2. Soit t > 0. Si, pour tout i, d

i

≥ t log n, alors, pour tout η > 0, P (∀i = 1, . . . , n, | deg(i) − d

_i

| ≥ ηd

_i

) ≤ 2n

⁻^t^min{η,η

2}−3

3

.

Bien entendu, pour tout i, d

_i

ne dépend que du numéro c(i) de la classe de i. On pose, pour tout r = 1, . . . , k, d

^(c)r

le d

_i

commun des i de V

_r

. On pose aussi

η

₀

:= 1 100 min

r

1 d

^(c)r

dist(d

^(c)_r

, {d

^(c)_s

; s 6= r}).

Corollaire 2.2. Sous les hypothèses précédentes, avec une proba ≥ 1−2n

⁻^t^min{η⁰^,η

20}−3

3

,

on a, pour tout i, en notant r := c(i),

| deg(i) − d

^(c)_r

| ≥ 1 100 min

s6=r

|d

^(c)_s

− d

^(c)_r

|.

Ainsi, si n et t sont assez grands et les degrés moyens associés aux différentes

classes assez distants les un des autres, les degrés des sommets se concentrent

assez bien autour de leurs valeurs moyennes pour que l’on puisse facilement les

regrouper par classes.

(20)

20CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL

2.4 Rappels d’algèbre linéaire : diagonalisation des matrices symétriques réelles et norme de matrices

2.4.1 Diagonalisation

Définition 2.6. On rappelle que pour x = (x

₁

, . . . , x

_n

), y = (y

₁

, . . . , y

_n

) ∈ R

ⁿ

, hx, yi = X

i

x

i

y

i

et que

kxk = p hx, xi.

Définition 2.7. Une valeur propre d’une matrice carrée A est un nombre λ ∈ C tel qu’il existe un vecteur colonne v non nul tel que Av = λv. Dans ce cas, les vecteurs propres associés à λ sont les vecteurs non nuls v tels que Av = λv.

Théorème 2.3. Soit A une matrice symétrique réelle n × n. Alors il existe une base orthonormée (v

₁

, . . . , v

_n

) de R

ⁿ

et des nombres réels λ

₁

≥ λ

₂

≥ · · · ≥ λ

_n

tels que pour tout i,

Av

_i

= λ

_i

v

_i

.

De plus, les λ

_i

sont les valeurs propres de A et sont définies de manière unique et pour tout i, λ

_i−1

> λ

_i

> λ

_i+1

(avec les conventions λ

₀

= +∞ et λ

_n+1

= −∞), v

_i

est unique, à multiplication par −1 près.

Exercice 2.4. Donner v

1

, v

2

pour A = 2.5 .5 .5 2.5 .

2.4.2 Norme d’opérateur d’une matrice

Définition 2.8. La norme d’opérateur d’une matrice réelle A de taille n × n est le nombre

kAk := sup

kxk=1

kAxk.

2.5 Clustering spectral

2.5.1 Présentation

L’algorithme que nous avons vus au dessus repose sur le fait que les degrés moyens associés aux différentes classes sont différents, et même assez distants les uns des autres. Nous allons maintenant voir un autre algorithme, qui fonc- tionne aussi lorsque les degrés moyens associés aux classes sont les mêmes. Pour simplifier les choses, on fera les hypothèses simplificatrices suivantes :

1. on n’a que deux communautés, (k = 2),

2. les deux communautés sont de cardinal n/2 (donc n est pair),

(21)

2.5. CLUSTERING SPECTRAL 21 3. la matrice P a la forme p

in

p

out

p

out

p

in

avec p

in

≥ p

out

. L’algorithme de clustering spectral est alors le suivant : a) Calculer la matrice d’adjacence A

G

de G.

b) Calculer le vecteur propre v

2

associé à la deuxième valeur propre de A

G

. c) Partitioner les sommets selon les signes des coordonnées de v

2

: une com- munauté est donnée par les i tels que v

2,i

> 0 et l’autre communauté est donnée par les i tels que v

2,i

≤ 0.

Théorème 2.4. Avec probabilité ≥ 1 − e

⁻ⁿ

, la proportion de sommets mal clusterisés par cet algo est

≤ 8C

²

nµ

²

pour une certaine constante universelle C et pour

µ := min{ p

in

− p

out

2 , p

out

}.

2.5.2 Preuve du Théorème 2.4

Pour prouver ce théorème, nous allons admettre plusieurs résultats, que voici.

On pose E A

_G

la matrice n× n dont les coordonnées sont les nombres E a

_ij

= p

_c(i)c(j)

.

Théorème 2.5. Il existe une constante C (ne dépendant d’aucun des para- mètres) telle que, avec probabilité ≥ 1 − e

⁻ⁿ

,

kA

G

− E A

G

k ≤ C √ n.

Soient X, Y des matrices symétriques réelles de même taille. On note λ

₁

(X ) ≥

· · · ≥ λ

_n

(X ) les valeurs propres ordonnées de X et λ

₁

(Y ) ≥ · · · ≥ λ

_n

(Y ) celles de Y . De même, on note v

1

(X ), . . . , v

n

(X) et v

1

(Y ), . . . , v

n

(Y ) des vecteurs propres associés de norme 1.

Théorème 2.6 (Inégalité de Weyl). Alors pour tout i,

|λ

i

(Y ) − λ

i

(X)| ≤ kY − Xk.

Théorème 2.7 (Davis-Kahan). Soit i

₀

tel que δ := min

_i6=i₀

|λ

_i

(X )− λ

_i₀

(X)| >

0. Alors il existe θ ∈ {−1, 1} tel que

kv

i₀

(Y ) − θv

i₀

(X)k ≤ 2

^3/2

δ kY − X k.

Les deux théorèmes précédents disent que si la matrice Y n’est pas trop loin

de la matrice X, alors les valeurs propres de Y ne sont pas loin de ceux de X ,

et qu’il en est de même pour les vecteurs propres associés à des valeurs propres

assez isolées du reste du spectre.

(22)

22CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL Lemme 2.5. Le spectre de E A

_G

est

λ

₁

= n p

_in

+ p

_out

2 , λ

₂

= n p

_in

− p

_out

2 , 0, . . . , 0,

et les deux premiers vecteurs propres sont v

1

= n

^−1/2

(1, . . . , 1)

^T

et le vecteur v

2

défini par

v

_2,i

:=

( n

^−1/2

si i ∈ V

1

,

−n

^−1/2

si i ∈ V

2

.

Démonstration. a) On montre que, pour M := E A

_G

, M v

_i

= λ

_i

v

_i

pour chaque i = 1, 2.

b) On montre que (v

1

, v

2

) est une famille orthonormée, que l’on peut donc étendre en une base orthonormée (v

1

, . . . , v

n

).

c) Soit O la matrice dont les colonnes sont les v

j

et D = diag(λ

1

, λ

2

, 0, . . . , 0).

Montrons que

M = ODO

⁻¹

,

ce qui clôt la preuve. Comme (v

1

, . . . , v

n

) est une base orthonormée, O est ortho- gonale donc O

⁻¹

= O

^T

. En développant (ODO

^T

)

ij

, on arrive très rapidement à M

ij

.

On a donc, en appliquant ce qui précède avec Y = A

G

, X = E A

G

et i

0

= 2 : δ = min{λ

2

( E A

G

), λ

1

( E A

G

) − λ

2

( E A

G

)} = n min{ p

in

− p

out

2 , p

out

}

| {z }

=µ

et

kY − Xk ≤ C √ n

avec probabilité ≥ 1 − e

⁻ⁿ

. On en déduit qu’il existe un signe θ ∈ {−1, 1} tel que

kv

2

(A

G

) − θv

2

( E A

G

)k ≤ 2

^3/2

C µ √

n .

Autrement dit, X

i

( √

nv

_2,i

(A

_G

) − √

nθv

_2,i

( E A

_G

))

²

≤ 8C

²

µ

²

.

Chaque i tel que √

nθv

2,i

( E A

G

) n’est pas du bon signe, càd tel que θv

2,i

( E A

G

)

n’est pas du bon signe, contribue à la somme précédente de au moins 1, il y en

a donc au plus

^8C_µ₂²

.

(23)

2.6. REMARQUE 23

2.6 Remarque

Le choix a été fait de présenter dans ce chapitre deux manières de faire qui ne sont pas les seules envisagebles. On peut par exemple également écrire la vraisemblance de l’observation sous le modèle SBM. En effet, si Z

i

désigne la classe de l’individu i dans un modèle à k classes, la probabilité d’observer une matrice d’adjacence donnée A est

L(A) = X

c∈{1,...,k}ⁿ

P (A|Z

1

= c

1

, . . . Z

k

= c

k

) P (Z

1

= c

1

, . . . Z

k

= c

k

)

= X

c∈{1,...,k}ⁿ

Y

i,j

a

^p_ij^c(i)c(j)

(1 − a

ij

)

^1−p^c(i)c(j)

Y

i

α

_c(i)

On peut ensuite optimiser cette fonction et les Z correspondant au point pour lequel le maximum est atteint peuvent être utilisés pour déterminer les classes des sommets. Cette fonction ne peut cependant pas être optimisée de façon exacte et n’est pas cnvexe, il faut donc recourir à des heuristiques.

Un autre point qui a été passé sous silence dans ce chapitre est le choix du

nombre de classes, appelé problème du choix de modèle, qui dépasse le cadre de

ce cours.

(24)

24CHAPITRE 2. COMMUNAUTÉS DANS LES RÉSEAUX ET CLUSTERING SPECTRAL

(25)

Chapitre 3

Chaînes de Markov et applications

3.1 Comment fonctionne Google ?

Pour cette section, les références sont [?] pour l’intro et [?] pour la suite.

3.1.1 Introduction

Google domine le marché des moteurs de recherche grâce à son algorithme de classement des page ordre de pertinence.

L’algorithme évolue continuellement depuis sa création et n’est pas entière- ment public, mais l’idée principale a été publiée par Sergey Brin and Larry Page en 1998. Elle repose sur l’idée de chaîne de Markov, connue depuis longtemps en mathématiques.

Le web est un chaos :

— les contenus sont hétérogènes

— les pages évoluent constamment

Une des clés du succès fulgurant de Google a été de mettre sur cet ensemble une structure de graphe orienté.

Définition 3.1. Un graphe orienté est un couple G = (V, E) où V est un ensemble fini (les sommets du graphe) et E (les arêtes du graphe) est un sous- ensemble de V × V . Pour v, w ∈ V , on note v → w si (v, w) ∈ E.

La structure de graphe orientée que Google appose au web est la suivante : V = {pages web} et pour v, w pages web, v → w si v contient un lien vers w.

3.1.2 Comment hiérarchiser ce graphe ?

Comptage naïf

Idée : on constate que les pages importantes sont la cible de nombreux liens

25

(26)

26 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS On peut penser à renverser l’affirmation et à déclarer que le nombre de liens entrants est un indicateur de l’importance d’une page

— Pros : simple à calculer

— Cons :

a) Pas forcément vrai

b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.

Comptage pondéré

Idée : Toutes les pages ont la même quantité de poids à distribuer.

m

_i

= (importance de la page i)

= X

j→i

1 nombre de pages pointées par la page j

— Pros : facile à calculer

— Cons :

a) Donner le même poids à distribuer à toutes les pages ne semble pas pertinent

b) Facile à contourner en créant de nombreuses pages pointant sur celle qu’on veut faire remonter au classement.

Comptage pondéré récursif

Idée : une page est importante si de nombreuses pages importantes pointent vers elle

m

i

= (importance de la page i)

= X

j→i

m

_j

nombre de pages pointées par la page j

— Pros :

a) correspond mieux à l’intuition b) tricher est plus difficile

— Cons : calcul : système linéaire (certes creux) à résoudre, avec autant de variables que de pages web

Comment déterminer le vecteur des poids

Considérons un surfeur aléatoire qui se promène sur la toile en allant au hasard depuis chaque page sur l’une des pages vers lesquelles elle pointe.

L’idée (qui sera justifiée théoriquement par la théorie des chaînes de Markov),

est que le vecteur des poids solution de problème précédent est proportionnel au

(27)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 27 vecteur du temps que passe ce surfeur sur chacunde des pages. Il faut cependant un peu modifier le processus de promenade alétoire afin de s’assurer de ne pas resté indéfiniment sur une page qui ne pointerait vers aucune autre page.

3.2 Chaînes de Markov à espaces d’états finis

3.2.1 Définition

On considère une suite de variables aléatoires discrètes (X

i

)

i≥0

à valeurs dans le même espace S. La suite de (X

i

)

i≥0

est appelée chaîne de Markov si elle vérifie la propriété de Markov, qui caractérise les processus sans mémoire :

P (X

i+1

= x

i+1

|X

i

= x

i

, X

_i−1

= x

_i−1

, . . . , X

0

= x

0

) = P (X

i+1

= x

i+1

|X

i

= x

i

) En d’autres termes, sachant le présent, le futur ne dépend pas du passé.

On note π

i

la distribution de X

i

. La chaîne est alors caractérisée de façon unique par la distribution π

0

et par ses probabilités de transition ((p

qr

))

_q,r∈S2

entre états

p

_qr

= P (X

_i+1

= r|X

i

= q)

La matrice P (éventuellement infinie si S est un ensemble dénombrable) regroupant les ((p

_qr

))

_q,r∈S2

est appelée matrice de transition de la chaîne de Markov.

3.2.2 Probabilité d’une trajectoire

La première question qu’on peut se poser est celle de la vraisemblance d’une chaîne observée, afin d’inférer les probabilités de transition.

Propriété 3.1. Soit x

0

, . . . , x

n

une trajectoire observée. La probabilité de cette trajectoire sous notre modèle (appelé aussi sa vraisemblance) est

P (X

_n

= x

_n

, X

_n−1

= x

_n−1

, . . . , X

₀

= x

₀

) =

n−1

Y

i=0

p

_x_i_x_i+1

π

₀

(x

₀

)

Démonstration. Récurrence sur n avec conditionnement.

On peut alors reécrire cette vraisemblance comme

P (X

n

= x

n

, X

_n−1

= x

_n−1

, . . . , X

0

= x

0

) = π

0

(x

0

) Y

q,r

p

ⁿ_qr^qr

où n

_qr

indique le nombre de passage de l’état q à l’état r. Oon peut démontrer

que la vraisemblance est maximale pour p ˆ

_qr

=

ⁿ^ST_n

.

(28)

28 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS

3.2.3 Distribution limite - Mesure invariante

Une autre questionest de déterminer si la suite des (π

i

) converge et vers quelle distribution limite.

Il est aisé de démontrer que Propriété 3.2. Pour tout n ≥ 1,

π

_n^t

= π

^t_n−1

P (3.1)

et par conséquent

π

^t_n

= π

₀^t

P

ⁿ

(3.2)

Démonstration. Par récurrence sur n.

L’égalité 3.2 implique que la suite des distributions converge si et seulement la suite des puissances de la matrice de transition converge. L’égalité 3.1 implique que si une limite µ existe pour les distributions π

i

, elle vérifie

µ

^t

= µ

^t

P

Une mesure vérifiant cette égalité est appelée mesure invariante de la chaîne de Markov.

3.2.4 Classification des chaînes de Markov

Il existe plusieurs types de chaînes dont l’étude est différente. On peut ce- pendant essentiellement toujours se ramener au même type de chaînes, appelées irréductibles et apériodiques.

Chaînes apériodiques

Définition 3.2. La chaîne de Markov est dite apériodique si il existe n

₀

tel que pour tout n ≥ n

₀

et pour tout x, y ∈ E,

P

ⁿ

(x, y) > 0.

En d’autres termes, une chaîne est apériodique s’il n’y a pas de couple (x, y) d’états tels que toutes les façons d’aller de x à y ont une longueur multiple de k, k ≥ 2.

Il existe d’autres caractérisations de l’apériodicité équivalentes à celle-ci. Par exemple celle-ci :

Propriété 3.3. La chaîne de Markov est apériodique si elle est irréductible et

il existe x ∈ E tel que P(x, x) > 0.

(29)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 29 Décomposition d’une chaîne en composantes irréductibles Les chaînes de Markov ont deux types d’états distincts : ceux en qui elles passent une infinité de fois si elles y passent une première fois, et ceux qu’elles visitent un nombre fini de fois avant de les quitter définitivement.

Définition 3.3. Un état v d’une chaîne de Markov est récurrent si, étant donné que le point de départ de la chaîne est v, elle revient en v avec probabilité 1.

Si cette probabilité est < 1, l’état est dit transient ou transitoire.

Si p

_vv

= 1, la marche ne quitte plus v si elle l’atteint. Dans ce cas, l’état est dit absorbant. Les états absorbants sont des cas particulier des états récurrents.

Dans le cas d’un état transitoire, il y a une probabilité non nulle, à chaque passage en v, que la marche passe par v pour la dernière fois. Elle finit donc par le quitter et ne pas y revenir. Si on note p la probabilité de revenir, le nombre de passage sachant qu’il est au moins égal à 1 suit une loi géométrique de paramètre p. Elle est donc d’espérance finie.

Une chaîne de Markov peut être représentée par un graphe dirigé dont les sommets sont les états et dont les arêtes sont valués par les probabilités de transition. Les états récurrents et transitoires peuvent facilement être identifiés sur ce graphe.

Définition 3.4. Une composante fortement connexe dans un graphe orienté est un ensemble maximal S de sommets vérifiant la propriété suivante : pour toute paire de sommets u et v de S, il existe un chemin dirigé de u vers v et un chemin dirigé de v vers u.

Remarque:

Posons x ∼ y si P

n≥0

(P

ⁿ

)

xy

> 0 et P

n≥0

(P

ⁿ

)

yx

> 0. ∼ est une relation d’équivalence. Les composantes irréductibles de la chaîne correspondent alors aux classes d’équivalence de cette relation.

Propriété 3.4. On considère la décomposition du graphe G représentant une chaîne de Markov en ses composantes fortement connexes. Soit H un graphe ayant un sommet pour chaque composante fortement connexe de G et tel que (u, v) ∈ E(H ) s’il existe une arête de G allant de la composante correspondant à u à la composante correspondant à v.

Alors le graphe H est acyclique. De plus, les états récurrents sont les états situés dans les composantes connexes dont le degré sortant dans H est nul.

Démonstration. L’acyclicité de H est due au fait que l’existence d’un cycle contredirait la maximalité des composantes fortement connexes (DESSIN).

Considérons une composante fortement connexe S dont le degré sortant est

non nul et T = inf{k ∈ N , X

k

∈ / S}. Soit v un état de S tel qu’il existe une

arête de probabilité non nulle issue de v et sortant de la composante. S étant

une composante fortement connexe, il existe pour tout état u de v un chemin

de longueur ≤ K et de probabilité non nulle allant de u à v puis empruntant

(30)

30 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS cette arête. Soit α le minimum des probabilités de ces chemins pour l’ensemble des états u de S (DESSIN). Alors,

P (T > n + K|T > n) ≤ (1 − α) puis

P (T > nK ) ≤ (1 − α)

ⁿ

La série P (1−α)

ⁿ

étant convergente, la série P

P (T > nK) converge également.

Or E (T ) = P

k≥0

P (T > K) ≤ K P

n≥0

P (T > nK) pour tout n, donc on en conclut que E (T ) est finie, c’est-à-dire que la chaîne finit presque surement par sortir de S. Par acyclicité de H, elle n’y revient jamais, et donc tout état de S est transient.

Soit v un état dans une composante fortement connexe dont le degré sortant est nul. Si la marche passe en v, elle reste enfermée dans cette composante. Celle- ci étant fortement connexe, il y a un chemin de probabilité non nulle allant de tout sommet vers v. On peut reprendre le raisonnement précédent en posant T comme le temps du passage suivant en v et α la plus petite probabilité d’aller en v depuis l’ensemble des états de la composante. On montre que T est presque surement fini et on en déduit que v est récurrent.

En résumé, une chaîne peut être décomposée en composantes fortement connexes et l’étude du comportement à long terme de la chaîne peut être réduit à

1. Déterminer les composantes connexes ’terminales’

2. Déterminer la probabilité d’atteindre chacune d’elles étant donnée la dis- tribution de départ

3. Déterminer le comportement à l’intérieur de ces composantes en fonction de leurs probabilités de transition internes

Les étapes 1. et 2. sont appelées réduction de la chaîne de Markov. L’étape 3. se ramène à l’étude des chaînes de Markov irréductibles :

Définition 3.5. Une chaîne de Markov est irréductible si le graphe associé est fortement connexe, ou autrement dit s’il existe un chemin entre toute paire d’états.

Exemple 3.1. DESSIN

Etats récurrents positifs Un état d’une chaîne de Markov est

récurrent si la probabilité de retour en cet état, partant de cet état, vaut 1.

transient s’il n’est pas récurrent ; dans ce cas, la chaîne passera peut-être plusieurs fois par cet été mais finira par le quitter définitivement.

récurrent positif s’il est récurrent et que l’espérance du temps de retour

en cet état, partant de cet état, est fini. En d’autres termes, si la chaîne

passe en fois par cet état, elle y passera infiniment souvent.

(31)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 31 Dans le cadre de ce cours qui se limite aux chaînes finies, il y a équivalence entre être récurrent et être récurrent positif. En particulier, si la chaîne est finie et irréductible, tout état est récurrent positif.

La situation est plus complexe si on considère des chaînes discrètes avec un nombre d’état infini dénombrable (hors cadre de ce module) :

1. On considère une marche aléatoire symétrique sur Z , pour laquelle à chapque étape on fait un pas vers la gauche ou vers la droite avec pro- babilité

¹₂

. On peut démontrer que dans ce cas la probabilité de retour en 0 est de 1 mais que l’espérance du temps de retour en 0 est infinie : 0 n’est pas récurrent positif.

2. On considère une marche aléatoire non symétrique sur Z , pour laquelle la probabilité de faire un pas à droite est de p >

¹₂

et celle de faire un pas à gauche est de q = 1 − p. On peut montrer que la probabilité de retour en 0 n’est pas de 1 car la marche tend presque surement vers l’infini : 0 est un état transient.

3. On considère une marche aléatoire non symétrique sur Z , telle qu’on fait un pas vers 0 avec probabilité p >

¹₂

et un pas opposé avec probabilité q = 1 − p. On peut alors montrer que 0 est récurrent positif.

3.2.5 Convergence pour les chaînes irréductibles apério- diques

En passant à la limite dans l’égalité

^t

π

k+1

=

^t

π

k

P, on pressent que si la marche a une distribution limite quand le nombre de pas tend vers l’infini, cette distribution devra vérifier

^t

π =

^t

πP , c’est-à-dire être un vecteur propre à gauche associé à la valeur propre 1.

Définition 3.6. Une mesure invariante

^t

µ pour une chaîne de Markov de ma- trice de transition P est un vecteur vérifiant

^t

µ =

^t

µP .

La distribution limite, si elle existe, est donc une distribution invariante.

Nous pouvons maintenent énoncer le théorème central de la théorie des chaînes de Markov, qui va être l’idée centrale de l’algorithme MCMC :

Théorème 3.1. On considère une chaîne de Markov irréductible et apériodique, admettant un état récurrent positif. Alors tous les états sont récurrent positifs et il existe une unique mesure invariante µ.

De plus, quel que soit la mesure initiale π

₀

, la suite des lois π

_n

des X

_n

converge vers µ.

Idée de la démonstration dans le cas d’un espace d’état fini L’existence d’un vecteur propre à gauche associé à 1 est assurée par le fait que P est une matrice stochastique et que





 1 .. . 1





 est donc un vecteur propre à droite associé à

la valeur propre 1.

(32)

32 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS Dans le cas apériodique et irréductible, il est possible d’obtenir les résultats suivants :

Théorème 3.1. Perron-Frobenius Soit P la matrice d’une chaîne de Markov irréductible. Alors :

1. 1 est une valeur propre simple.

2. tout vecteur propre à gauche associé à 1 a toutes ses coordonnées de même signe. En particulier, celui de somme 1 correspond bien à une distribution de probabilités.

3. si la chaîne est apériodique, toute autre valeur propre λ vérifie |λ| < 1.

En d’autres termes, toute chaîne de Markov irréductible admet une unique mesure de probabilité invariante.

Démonstration. Existence : Soit q

0

un état, considéré comme l’état de départ de la chaîne. Soit T le temps du premier retour en q

0

. On définit λ(q) comme le nombre moyen de passage en q avant T

λ(q) = E

T

X

i=1

1

X_i=q

=

+∞

X

i=0

P (X

i

= q, i ≤ T )

= X

r∈S +∞

X

i=0

P (X

i

= q, X

i−1

= r, i ≤ T )

= X

r∈S +∞

X

i=0

P (X

_i−1

= r, i − 1 ≤ T )P

_rq

= (

^t

λP )(q)

L’unique multiple de λ de somme 1 est donc bien une mesure de probabilité invariante. 1 est donc bien une valeur propre.

Unicité : Soit µ une mesure telle que µ(q

₀

) = 1. Alors

(33)

3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 33

µ(q) = X

r

µ(r)P

rq

= P

_q₀_q

+ X

r6=q0

X

t

µ(t)P

_tr

P

_rq

= P

q₀q

+ X

r6=q0

P

q₀r

P

rq

+ X

r6=q0

X

t6=q0

X

u

µ(u)P

ut

P

tr

P

rq

= X

n≥0

X

u1,...,un−16=q0

P

q₀u₁

. . . P

un−1q

= X

n≥0

P (X

n+1

= q, T > n + 1)

= λ(q)

Cela démontre à la fois le fait que 1 est valeur propre simple et le point 2.

Remarques:

1. Soit q un état. La preuve appliquée pour q

0

= q implique que π(q) = λ(q)

P

r

λ(r)

= 1

E (T

_q

) où T

_q

est le temps du premier retour en q.

2. Si la chaîne n’est pas irréductible, la partie concernant la monotonie du signe du vecteur propre est encore valable. Par contre, l’espace propre peut être de dimension supérieure : il n’y a plus unicité de la mesure invariante.

Théorème 3.2. Soit P la matrice d’une chaîne de Markov irréductible et apé-

riodique et µ l’unique mesure invariante associée. Alors, pour tout X

₀

, lim

^t_n→+∞

π

₀

P

ⁿ

=

^t

µ.

De plus, la vitesse de convergence est en |λ

₂

|

ⁿ

, où λ

₂

est la valeur propre de valeur absolue maximale parmi les valeurs propres différentes de 1.

Démonstration. On se contente de démontrer cette propriété dans le cas où P est diagonalisable. Soit (1, λ

2

, . . . , λ

N

) les valeurs propres de P rangées par valeurs absolues décroissantes (avec éventuellement λ

i

= λ

i+1

en cas de valeur propre multiple). Dans ce cas, il existe une base de vecteurs propres (µ, u

2

, . . . , u

N

) de R

^N

, u

i

étant associé à λ

i

. On peut écrire

t

X

0

= α

^t₁

µ + X

i≥2

α

^t_i

u

i

(34)

34 CHAPITRE 3. CHAÎNES DE MARKOV ET APPLICATIONS d’où

t

X

₀

P

ⁿ

= α

^t₁

µ + X

i≥2

α

_i

λ

ⁿ_i

u

_i

||

^t

X

0

P

ⁿ

− α

^t₁

µ|| = |λ

2

|

ⁿ

||u

2

+ X

i≥3

λ

i

λ

₂

ⁿ

u

i

||

^t

X

0

P

ⁿ

− α

^t₁

µ|| ≤ C|λ

2

|

ⁿ

Cconstante

On en déduit que

^t

X

0

P

ⁿ

tend vers α

1

µ à la vitesse |λ

2

|

ⁿ

. Le fait que

^t

X

0

P

ⁿ

et µ sont des distributions implique que α

1

= 1.

3.2.6 Théorème ergodique

Théorème 3.2. On considère une chaîne de Markov irréductible apériodique de mesure invariante π et f : S → R une fonction telle que P

q∈S

π

q

|f (q)| < +∞.

Alors,

n→+∞

lim 1 n

n

X

i=0

f (X

i

) = X

q∈S

π

q

f (q) Démonstration.

1 n

n

X

i=0

f (X

_i

) = X

q∈S

N

q

(n) n

où N

_q

(n) est le nombre de fois où la chaîne se trouve en q entre les instants 0 et n.

On note S

_qⁱ

la variable aléatoire dénotant le temps de la i

^eme

excursion entre deux passsages successifs de la chaîne en q. Alors

S

_q⁰

+ . . . + S

_q^N^q⁽ⁿ⁾⁻¹

≤ n < S

_q⁰

+ . . . + S

_q^N^q⁽ⁿ⁾

Par la propriété de Markov, les S

ⁱ_q

sont indépendantes et identiquement distribués, de même loi que le temps de retour T

q

en q. La loi des grands nombres implique donc que

lim

N_q(n)→+∞

S

⁰_q

+ . . . + S

q^N^q⁽ⁿ⁾

N

q

(n) = E (T

q

)

Le fait que lim

_n→+∞

N

_q

(n) = +∞, l’encadrement précédent et l’égalité E (T

_q

) =

_π(q)¹

(cf remarque plus haut) imploquent le théorème.

Remarques:

1. Si S ⊂ R , on retrouve en prenant f = Id,

n→+∞

lim 1 n

n

X

i=0

X

i