Mod`eles graphiques

(1)

Mod` eles graphiques

Guillaume Obozinski

INRIA - Ecole Normale Sup´erieure - Paris

E.S. Ecole des Mines, 16 avril 2010

(2)

Pourquoi des mod` eles graphiques?

(3)

Pourquoi des mod` eles graphiques?

BUT: Repr´esenter la structure d’une distribution sur un grand nombre de variables

Apprentissage Statistique: #{variables}grand par rapport

#{donn´ees}

Combien de param`etres faut-il pour mettre une distribution sur {0,1}^p?

Exemples: grid-MRF, alarme d’anesthésie, réseau de capteurs, distribution jointe de marqueurs génétiques.

(4)

Concepts

Esp´erance, Variance, Covariance

La loi Gaussienne, Gaussienne multivariée, paramètres µ,Σ Règle de Bayes

Ind´ependance Conditionelle Chaˆıne de Markov

Regularisation

statistiques bay´esiennes vs statistiques fr´equentistes K-moyennes

Distance de Kullback-Leibler Vraisemblance

Maximum de vraisemblance

(5)

Outline

1 Cadre

2 Mod`ele Graphique Orient´es

3 Champs de Markov

4 Op´erations sur les mod`eles graphiques

5 Inf´erence:l’Algorithme Somme-Produit

6 Mixture Gaussienne et Algorithme EM

7 Mod`ele Graphique Gaussien

8 Chaˆınes de Markov Cach´ees

(6)

Notations

G = (V,E) un graphe.

A chaque noeud du graphei ∈E on associe une variable al´eatoire Xi.

On note ses valeurs xi.

Si A⊂E est un ensemble de noeuds on notera X_A = (X_i)i∈A et xA= (xi)i∈A.

(7)

Distributions de probabilit´ e

Probabilit´e jointe sur les variables X1, . . . ,Xp: p(x1,x2,x3, . . . ,xp).

Soit X_i ∈ {1, . . . ,K}et p(x₁, . . . ,x_p) =P(X₁ =x₁, . . . ,X_p=x_p) Soit (X1, . . . ,Xp) admet une densit´e dansRⁿ

Marginalisation

p(x1) =X

x2

p(x1,x2) Factorisation

p(x₁, . . . ,x_p) =p(x₁)p(x₂|x₁)p(x₃|x₁,x₂). . .p(x_p|x₁, . . . ,xn−1) Ind´ependance

X⊥⊥Y ⇔ p(x,y) =p(x)p(y) Ind´ependance Conditionelle

X⊥⊥Y |Z ⇔ p(x,y|z) =p(x|z)p(y|z)

(8)

Outline

1 Cadre

3 Champs de Markov

(9)

Mod` ele graphique orient´ e

^{ou R´}^{eseau bay´}^esien

p(a,b,c) =p(a)p(b|a)p(c|b,a)

a

b

c

p(x1,x2) =p(x1)p(x2)

x1 x2

p(x₁,x₂,x₃) =p(x₁)p(x₂|x₁)p(x₃|x₂)

x1 x2 x3

a⊥⊥b |c

c

a b

(10)

Mod` ele graphique orient´ e

^{ou R´}^{eseau bay´}^esien

p

Y

j=1

p(x_j|x_Π_j)

x₁

x2 x3

x4 x5

x6 x7

p(x1)

M

Y

j=2

p(x_j|x_j−1)

x1 x2 xM

(11)

Le Sprinkler

R S

G

R= 1: il a plu

S = 1: le sprinkler a fonctionn´e G = 1: le gazon est mouill´e

P(S = 1) = 0.5 P(R = 1) = 0.2 P(G = 1|S,R) R=0 R=1

S=0 0.01 0.8

S=1 0.8 0.95

Si on observe que le gazon est mouill´e, R et S sont ils ind´ependents?

(12)

Le Sprinkler II

S R

G

P R= 1: il a plu

S= 1: le sprinkler a fonctionné G= 1: le gazon est mouillé P= 2: les pattes sont mouillées P(S = 1) = 0.5 P(R = 1) = 0.2

P(G = 1|S,R) R=0 R=1

S=0 0.01 0.8

S=1 0.8 0.95

P(P = 1|G) G=0 G=1 0.2 0.7

(13)

Factorisation et Ind´ ependance

Une factorisation impose des assertions d’ind´ependance

∀x, p(x) =

p

Y

j=1

p(x_j|x_Π_j) ⇔ ∀j, X_j⊥⊥X_{1,...,_j−1}\Π_j |X_Π_j Est-il possible de lire sur le graphe n’importe laquelle de toutes les assertions d’ind´ependance qui sont valides compte tenu de la factorisation?

X₅⊥⊥^? X₂|X₄

x1

x2 x3

x4 x5

x₆ x₇

(14)

Noeuds bloquants

arcs divergents arcs suivis arcs convergents

c

a b

a c b

c

a b

=

a⊥⊥b a⊥⊥b a⊥⊥b

c

a b

a c b

c

a b

= =

a⊥⊥b |c a⊥⊥b|c a⊥⊥b |c

(15)

d-s´ eparation

f

e b

a

c

Th´eor`eme

Soit A,B et C trois ensembles de noeuds disjoints. On a XA⊥⊥XB|XC si tous les chemins joignantA `aB traversent au moins un noeud bloquant ce chemin. Un noeudj bloque un chemin

si les arcs du chemin sont divergent/suivis etj ∈C

si les arcs du chemin sont convergent et nij ni aucun de ses descendant n’est dans C

(16)

Factorisation et Ind´ ependance II

Plusieurs graphes peuvent induire le mˆeme ensemble d’ind´ependences conditionelles.

c

a b

a c b

Certaines combinaisons d’indépendances conditionelles ne peuvent pas être représentées par un modèle graphique.

Quel est le plus petit ensembleC de noeuds tel que

conditionellement `aX_C,j est ind´ependant de tous les autres noeuds du graphe?

(17)

Outline

1 Cadre

3 Champs de Markov

(18)

Champ de Markov

^ou

Mod` ele graphique non-orient´ e

Peut-on définir une sémantique telle que l’indépendance conditionnelle co¨ıncide exactement avec la séparation dans un graphe?

Propri´et´e de Markov Globale

X_A⊥⊥X_B |X_C ⇔C s´epare Aet B

A

C B

(19)

Distribution de Gibbs

Clique Ensemble de noeuds tous connect´es les uns aux autres.

Potentiel Le potentielψC(x_C)≥0 associ´e `a une clique C. Distribution de Gibbs

p(x) = 1 Z

Y

C

ψC(x_C)

Fonction de partition Z =X

x

Y

C

ψC(x_C)

x1

x2

x3

x4

Potentiels sous forme exponentielle: ψC(x_C) = exp{−E(x_C)}. E(xC) est unterme d’´energie.

On parle alors dedistribution de Boltzmann.

(20)

Champ de Markov sur la grille

(21)

Th´ eor` eme d’Hammersley-Clifford (1971)

Une distribution strictement positive satisfait la propriété de Markov Globaleassociée à un grapheG si et seulement si c’est unedistribution de Gibbs associée à G.

distribution de Gibbs: PG : p(x) = 1 Z

Y

C∈C_G

ψC(x_C) propri´et´e de Markov Globale:

PM : XA⊥⊥XB |XC si C sépare Aet B dansG Théorème

On a PG ⇒ PM et (HC): si∀x, p(x)>0, alorsPM ⇒ PG

(22)

Moralisation

Est-il possible de convertir un modèle orienté en modèle non-orienté?

p(x) = 1 Z

Y

C

ψC(x_C) vs

M

Y

j=1

p(x_j|x_Π_j)

x1 x3

x4 x2

x1 x3

x4 x2

“Marier” les parents

Les arbres orientés sans arcs convergents sont équivalent aux arbres non-orientés.

(23)

Outline

1 Cadre

3 Champs de Markov

(24)

Op´ erations sur les mod` eles graphiques

L’Inf´erence

Calculer une marginale p(x_i) ou p(x_i|x₁ = 3,x₇ = 0) Le D´ecodage

Quelle est l’instance la plus probable?

argmax_zp(z|x)

zn−1 zn zn+1

xn−1 xn xn+1

z1 z2

x1 x2

L’Estimation

Soit p(x;θ) = _Z¹_(θ)Q

Cψ(x_C, θC), on veut trouver argmax_θ

n

Y

i=1

p(x⁽ⁱ⁾;θ) = argmax_θ 1 Z(θ)

n

Y

i=1

Y

C

ψ(x_C⁽ⁱ⁾, θC)

(25)

Le classifieur na¨ıf de Bayes

Etiquette de classe: Z

Descripteurs X_j, j = 1, . . . ,D Apprentissage (estimation):

θˆk,j = argmax_θ_k,_jp(xj|z =k;θk,j) Pr´ediction (d´ecodage):

ˆ

z = argmax_z

QD

j=1p(x_j|z)p(z) P

z⁰

QD

j=1p(xj|z⁰)p(z⁰)

Hypoth`ese “na¨ıve”:

p(x₁, . . . ,x_D|z) =

D

Y

j=1

p(x_j|z)

z

x1 xD

Ignore la corr´elation entre descripteurs

Prédiction requiert seulement la règle de Bayes Modèle peut-être appris massivement en parallèle Complexité en O(nD)

Test d’hypoth`ese bay´esien

(26)

La r´ egression lin´ eaire

(27)

Outline

1 Cadre

3 Champs de Markov

(28)

Inference sur une chaˆıne

x1 x2 xM

p(xn) = 1 Z

X

x_−n

ψ1,2(x1,x2). . . ψM−2,M−1(x_M−2,x_M−1)ψM−1,M(x_M−1,xM)

= 1

Z X

x−{n,M}

ψ1,2(x₁,x₂). . . ψM−2,M−1(x_M−2,x_M−1)X

xM

ψM−1,M(x_M−1,x_M)

| {z }

µM→M−1(xM−1)

= 1

Z X

x_{−{n,M,M−1}}

ψ1,2(x1,x2). . .X

x_M−1

ψM−2,M−1(x_M−2,x_M−1)µM→M−1(x_M−1)

| {z }

µM−1→M−2(xM−2)

= 1

Z

"

X

x₁

ψ1,2(x1,x2)

#

| {z }

µ_1→2(x₂)

X

x{2,...,n−1}

ψ2,3(x2,x3). . . ψn−1,n(x_n−1,xn)µn−1→n(xn)

= µn−1→n(xn)µn+1→n(xn)

(29)

Inf´ erence sur un arbre

Soit F_i,j(x_i,x_j,x_D(j)) =ψi,j(x_i,x_j)Q

C∩D(j)6=∅ψC(x_C) p(xi) = 1

Z X

x−i

Y

j∈C(i)

Fi,j(xi,xj,x_D(j)) = 1 Z

Y

j∈C(i)

X

xj,xD(j)

Fi,j(xi,xj,x_D(j))

= 1

Z Y

j∈C(i)

X

xj,xD(j)

ψi,j(xi,xj) Y

k∈C(j)

F_j,k(xj,x_k,x_D(k))

= 1

Z Y

j∈C(i)

X

xj

ψi,j(x_i,x_j) Y

k∈C(j)

X

xk,xD(k)

F_j_,k(x_j,x_k,x_D(k))

| {z }

µk→j(xj)

= 1

Z Y

j∈C(i)

X

xj

ψi,j(x_i,x_j) Y

k∈C(j)

µk→j(x_j)

| {z }

µj→i(xi)

(30)

Algorithme Somme-Produit pour une seule marginale

Algorithme

• La feuillek envoie `a son p`ere j le messageµj→i(xi) =P

xjψi,j(xi,xj).

• Un noeud qui a re¸cu un message de tous ses enfants envoie `a son p`ere µj→i(x_i) =X

xj

ψi,j(x_i,x_j) Y

k∈C(j)

µk→j(x_j)

• La racine calculep(x_i) = _Z¹ Q

j∈C(i)µj→i(x_i).

Comment calculer Z?

Comment calculer p(xi|xA) pour un ensembleA quelconque?

(31)

Algorithme Somme-Produit

Les messages sont de la forme:

µj→i(x_i) =X

xj

ψi,j(x_i,x_j) Y

k∈N(j)\{i}

µk→j(x_j)

Algorithme

Un noeud j qui a re¸cu un message de tous ses voisins sauf i envoie un message `a ce dernier.

Un noeud j qui a re¸cu un message de tous ses voisins envoie un message `a tous les voisinsi auxquels il n’a pas envoy´e de message et il calculep(xi) = _Z¹ Q

j∈N(i)µj→i(xi).

L’algorithme Somme-produit est un algorithme g´en´erique (Viterbi, BJCR, aller-retour, Baum-Welch,α-β,FFT)

(32)

Propagation de croyance

L’algorithme Somme-produit est aussi appel´ealgorithme de propagation de croyance.

C’est un algorithme d’inf´erence exact pour les arbres.

Pour des graphes contenant des cycles, l’algorithme est

généralisable mais il n’y pas de garanties générales de convergence.

Propapagation de croyance cyclique

1 Initialiser les messages de fa¸con quelqonque

2 Chaque noeud qui a re¸cu un nouveau message de l’un de ses voisins, envoie un nouveau message `a tous les autres en utilisant les messages les plus r´ecents de chaque voisin.

Propagation synchrone vs s´equentielle

(33)

Echantillonnage de Gibbs ´

Un algorithme d’inf´erence approch´ee convergent Algorithme

Pour chaque noeud i

Echantillonerx_i^t ∼ PXi(x_i|X−i =x^t−1_−i ) ∝ Y

C3i

ψC(x_i,x_C\i^t−1)

xi

(34)

Autres m´ ethodes d’inf´ erence

Il existe de nombreuse m´ethode d’inf´erences

L’inférence exacte pour un graphe général est NP-dur

L’algorithme somme-produit se généralise à des cliques générale via les graphes de facteurs

Autres m´ethodes d’inf´erence:

Algorithme de l’arbre de jonction M´ethodes variationelles

MCMC et autre m´ethodes d’´echantillonage

(35)

Outline

1 Cadre

3 Champs de Markov

(36)

Mod` ele de Mixture Gaussien

K composantes

zindicateur de la composante z= (z₁, . . . ,z_K)^>∈ {0,1}^K z∼ M(1,(π1, . . . , πK)) p(z) =

K

Y

k=1

π^z_k^k p(x|z; (µk,Σk)k) =

K

X

k=1

zkN(x;µk,Σk)

p(x) =

K

X

k=1

πkN(x;µk,Σk)

Estimation: argmax

µk,Σk

log

" _K X

k=1

πkN(x;µk,Σk)

#

xn

zn

N

µ Σ

π

(a)

0 0.5 1

(37)

Esp´ erance-Maximisation

logp(x;θ) = logX

z

p(x,z;θ) = logX

z

q(z)p(x,z;θ) q(z)

≥ X

z

q(z) logp(x,z;θ)

q(z) =:F(q,θ)

L(q,θ) = logp(x;θ)−KL(q||p(·|x;θ)) = log

"

X

z

q(z)p(x,z;θ)

# +H(q)

•Etape E argmax_qL(q,θ) =p(·|x;θ)

•Etape M argmax_θL(q,θ) = argmax_θ Eq[logp(Z,x;θ)]

(38)

Algorithme EM

•Etape E argmax_qL(q,θ) =p(·|x;θ)

•Etape M argmax_θL(q,θ) = argmax_θ Eq[logp(Z,x;θ)]

Algorithme

It´erer jusqu’`a convergence:

1 Etape E:

q^t+1=p(·,x;θ^t)

Q(θ,θ^t) =E[logp(Z,x;θ)|θ^t]

2 Etape M:

θ^t+1= argmax_θQ(θ,θ^t) ^θ

oldθ^new L(q, θ)

lnp(X|θ)

(39)

Algorithme EM pour la Mixture Gaussienne

Soit θ^t= (π^t,(µ^t_k,Σ^t_k)_k).

n

Y

i=1

p(zⁱ,xⁱ;θ) =

n

Y

i=1 K

Y

k=1

π^z_k^kⁱ

N(xⁱ;µ_k,Σk) z_kⁱ

xn

zn

N

µ Σ

π

Etape E:

p(z¹, . . . ,zⁿ|x¹, . . . ,xⁿ;θ^t) =Qn

i=1p(zⁱ|xⁱ;θ^t) q_kⁱ =P(z_kⁱ= 1|xⁱ;θ^t) = p(xⁱ|z_kⁱ = 1;θ^t)P(z_kⁱ = 1;θ^t)

p(xⁱ;θ^t) = π_k^tN(xⁱ;µ^t_k,Σ^t_k) P

`π_`^tN(xⁱ;µ^t_`,Σ^t_`) Eq[logp(z,x|θ)] =Eq

h X

i,k

z_kⁱ logπk + logN(xⁱ;µ_k,Σk)i

=X

q_kⁱ logπk −1

2qⁱ_k(x_i −µ_k)^>Σ⁻¹_k (x_i −µ_k)−1

2q_kⁱ log((2π)^d|Σk|)

(40)

Algorithme EM pour la Mixture Gaussienne II

Q(θ,θ^t) =X

i,k

qⁱ_klogπk−1

2q_kⁱ(x_i−µ_k)^>Σ⁻¹k (x_i−µ_k)−1

2qⁱ_klog((2π)^d|Σk|)

Etape M:

π,(µmax_k,Σ_k)_kQ

π,(µk,Σk)k

,θ^t

s.t. X

k

πk = 1 Apr`es calculs:

n^t+1_k =X

i

q_kⁱ π^t+1_k = n^t+1_k

n µ^t+1_k = 1 n^t+1_k

X

i

qⁱ_kx_i

Σ^t+1_k = 1 n^t+1_k

X

i

qⁱ_k(xi−µ^t+1_k )(xi−µ^t+1_k )^>

(41)

Algorithme EM pour la Mixture Gaussienne III

p(x|z) p(z|x)

(42)

Outline

1 Cadre

3 Champs de Markov

(43)

Mod` ele graphique Gaussien

Hypoth`ese: Σinversible.

p(x1, . . . ,x_d) = 1

p(2π)^d|Σ|exp n− 1

2(x−µ)^>Σ⁻¹(x−µ) o

Param´etrisation canonique p(x₁, . . . ,x_p) = expn

η^>x−1

2x^>Λx−a(η,Λ)o Λ=Σ⁻¹ η=Σ⁻¹µ a(η,Λ)=¹₂

log((2π)^d/|Λ|)+η^>Λη

Mod`ele de Gibbs p(x1, . . . ,x_d) = 1

Z Y

i

exp

ηix_i−λii

2 x_i² Y

i6=j

exp

−λijx_ix_j La structure du graphe est encod´ee dans la matrice d’information de Fisher Λ.

(44)

Mod` ele graphique Gaussien

Th´eor`eme Pour

„X Y

«

∼ N

„„µx

µy

« ,

»Σxx Σxy

Σyx Σyy

–«

on a

Y|X=x ∼ N(µy+β^>_yx(x−µx),Σyy|x)

avec β_yx=ΣyxΣ⁻¹_xx et Σyy|x =Σyy−ΣyxΣ⁻¹_xxΣxy

Mod`ele graphique orient´e Soit xⁱ = (x₁, . . . ,x_i), on a

p(x) =Y

i

N

x_i;µi+β_x_i_xⁱ⁻¹(xⁱ⁻¹−µⁱ⁻¹),Σxixi|xⁱ⁻¹

La structure du graphe est contenue dans (β_x_i_x_−i)_i=1,...,d

(45)

Outline

1 Cadre

3 Champs de Markov

(46)

Chaˆıne de Markov Cach´ ee (HMM)

reconnaissance vocale langage naturel

reconnaissance d’écriture manuscrite séquence biologiques (protéines, DNA)

b r a c e

(47)

Chaˆıne de Markov Cach´ ee (HMM)

z_n−1 zn zn+1

x_n−1 x_n x_n+1 z1 z2

x₁ x₂

p(x1, . . . ,x_N,z1, . . . ,z_N) =p(z1)

N

Y

n=2

p(zn|zn−1)Y

n=1

p(xn|zn)

Chaˆıne de Markov homog`ene

zn∈ {0,1}^K indicateur d’´etat (1, . . . ,K)

chaˆıne de Markov homog`ene: ∀n, p(z_n|zn−1) =p(z₂|z₁) x_n symbole ´emis ({0,1}^K) / observation (R^d)

(48)

Chaˆıne de Markov Cach´ ee (HMM)

Param´etrisation

distribution de l’´etat initial p(z1;π) =QK k=1π_k^z^1k matrice de transition p(z_n|zn−1;A) =

K

Y

j=1 K

Y

k=1

A_jk^z^n−1,^j^z^nk

probabilités d’émission p(x_n|z_n;φ) e.g. Gaussian Mixture Interprétation

A12 A23

A₃₁ A21

A32

A13 A11 A₂₂

A33

k= 1 k= 2

k= 3

Transistions de z_n

k= 1

k= 2 k= 3

0 0.5 1

p(xn|zn)

0 0.5 1

Trajectoire de xn

(49)

Maximum de vraisemblance pour les CMCs

Application de l’algorithme EM

γ(z_n) =p(z_n|X,θ^t) ξ(zn−1,z_n) =p(zn−1,z_n|X,θ^t) Esp´erance de la log-vraisemblance:

Q(θ,θ^t) =

K

X

k=1

γ(z1k) logπk+

N

X

n=2 K

X

j=1 K

X

k=1

ξ(zn−1,j,znk) logAjk+

N

X

n=1 K

X

k=1

γ(znk) logp(xn|φk)

En maximisant par rapport aux param`etres{π,A}on obtient π^t+1_k = γ(z_1k)

PK

j=1γ(z_1j) A^t+1_jk =

PN

n=2ξ(zn−1,j,z_nk) PK

l=1

PN

n=2ξ(zn−1,j,z_nl) Si les ´emissions sont Gaussiennes on a aussi:

µ^t+1_k = PN

n=1γ(znk)xn

PN

n=1γ(znk) Σ^t+1_k = PN

n=1γ(znk)(xn−µk)(xn−µk)^>

PN n=1γ(znk)

(50)

Maximum de vraisemblance pour les CMCs

Application de l’algorithme Somme-Produit

Dans le cadre des CMCs, l’algorithme est connu sous le nom aller-retour ou algorithme de Baum-Welch.

On propage les messages

forwardα(z_n) =p(x_n|z_n)P

zn−1α(zn−1)p(z_n|zn−1) backwardβ(z_n) =P

zn+1β(z_n+1)p(x_n+1|z_n+1)p(z_n+1|z_n) qui satisfont les propri´et´es:

α(zn) =p(x1, . . . ,xn,zn) β(zn) =p(xn+1, . . . ,x_N|zn) Finalement on obtient les marginales:

γ(zn) =p(zn|X,θ^t) =α(zn)β(zn) p(X|θ^t) et

ξ(z_n−1,z_n) =α(x_n−1)p(x_n|z_n)p(z_n|z_n−1)β(x_n) p(X|θ^t)

(51)

Champ de Markov Cach´ e

Segmentation

(52)

R´ esum´ e

Les modèles graphiques permettent de répresenter et d’utiliser la structure de distributions sur un grand nombre de variables Modèles graphiques orientés et non-orientés

Trois opérations fondamentales sur un modèle graphique l’inférence

le d´ecodage l’estimation

l’algorithme somme-produit permet de faire l’inf´erence sur les arbres l’algorithme max-somme pour le d´ecodage

l’algorithme EM pour faire de l’estimation dans les mod`eles de mixtures

aper¸cu de l’estimation des Chaˆınes de Markov Cach´ees

(53)

R´ ef´ erences

Une bonne partie des illustrations et des notations de cet expos´e proviennent du tr`es bon livre de Christopher Bishop:

Pattern Recognition and Machine Learning, 2006, Springer.

http://research.microsoft.com/ cmbishop/PRML/

Pour aller plus loin:

Daphne Koller et Nir Friedman, Probabilistic Graphical Models - Principles and Techniques, 2009, MIT Press.