Introduction aux mod`eles probabilistes

(1)

Introduction aux mod` eles probabilistes

Guillaume Obozinski

INRIA - Ecole Normale Sup´erieure - Paris

E.S. Apprentissage artificiel Ecole des Mines, 13 avril 2012

(2)

Apprentissage automatique

Objet

Extraire des “relations statistiques” entre

un grand nombre de variables d’entrées / prédicteurs / descripteurs une ou plusieurs variables de sorties / décision(s)

Construire uneconnaissance empirique:

Transformation d’information empirique en connaissance statistique Sp´ecificit´es par rapport aux autres approches en IA

1 Connaissance construite essentiellement `a partir des donn´ees

2 Capacité de généralisation

(3)

Sp´ ecificit´ e par rapport aux statistiques classiques

But

Modèle prédictif/d’action vs modèle explicatif de la réalité.

Difficult´e

Nécessité d’intégrer un un très grand nombre de variables Vision artificielle: 10⁷ dimensions par image

Imagerie C´er´ebrale: 10⁵ dimensions par volume

Traitement automatique des langues: 10⁴−10¹⁵ paramètres Génétique: 10⁴ gènes, 10⁵ SNPs/ microsatellites, 10⁹ bases d’ADN

(4)

Des probl` emes structur´ es de grande dimension

(5)

Fl´ eau de la dimension

(Curse of dimensionality) Croissance exponentielle du ”volume” avec la dimension

⇒ le nombre de param`etres des mod`eles croˆıt exponentiellement.

Histogrammes

Construire l’histogramme de X ∈[0,1] avec 10 intervalles

→ possible avec 100 observations Construire l’histogramme de X ∈[0,1]¹⁰

→ taille et nombre d’intervalles ?

→ a priori impossible avec 100 ou mˆeme 10⁶ observations ! Mod`ele de SNPs

SNP: Single-Nucleotide Polymorphism

Correspondent à 90% des variations génétiques humaines Nombre de loci k>10⁵

Nombre de configurations>2¹⁰⁵...

(6)

Sur-apprentissage

(Overfitting)

R´egression Lin´eaire Y =w0+w1X +w2X² +. . .+wpX^p+ε minw

1 2n

n

X

i=1

y_i −(w₀+w₁x_i+w₂x_i²+. . .+w_px_i^p)2

x t

M= 0

0 1

−1 0 1

x t

M= 1

0 1

−1 0 1

t

M= 3

−1 0 1

t

M= 9

−1 0 1

(7)

Notations, formules,d´ efinitions

Loi jointe deX_A etX_B: p(x_A,x_B) Loi marginale : p(x_A) =P

x_Acp(x_A,x_A^c) Loi conditionnelle : p(x_A|x_B) = ^p(x_p(x^A^,x^B⁾

B) sip(x_B)6= 0 Formule de Bayes

p(x_A|x_B) = p(x_B|x_A)p(x_A) p(x_B)

→ La formule de Bayesn’est pas “bay´esienne”.

(8)

Esp´ erances et Variances

Esp´erance deX : E[X] =P

xx·p(x) Esp´erance def (X), pourf mesurable :

E[f (X)] =X

x

f (x)·p(x) Variance :

Var (X) = E h

(X −E[X])² i

= E X²

−E[X]² Esp´erance conditionnelle deX sachant Y :

E[X|Y] =X

x

x·p(x|y) Variance conditionnelle :

Var (X |Y) = E h

(X −E[X|Y])²|Yi

=E X²|Y

−E[X|Y]²

(9)

Notions d’ind´ ependance

Ind´ependance: X⊥⊥Y

On dit que X et Y sont ind´ependantes et on note X⊥⊥Y ssi:

∀x,y, P(X =x,Y =y) =P(X =x)P(Y =y) Ind´ependance conditionnelle: X⊥⊥Y |Z

On dit queX et Y sont ind´ependantes conditionnellement `aZ et on noteX⊥⊥Y |Z ssi:

∀x,y,z,

P(X =x,Y =y |Z =z) =P(X =x|Z =z)P(Y =y|Z =z)

(10)

Ind´ ependence Conditionnelle: exemple

Exemple d’une “maladie récessive liée à l’X”:

Transmission du g`ene de l’h´emophilie

Risques de maladie pour des fils d’un p`ere sain:

d´ependant pour deux fr`eres.

conditionnellement ind´ependant sachant si la m`ere est porteuse ou non.

(11)

Mod` ele statistique

Modèle paramétrique – Définition:

Ensemble de distributions param´etr´e par un vecteurθ∈Θ⊂R^p PΘ=

p(x|θ)|θ∈Θ Mod`ele de Bernoulli: X ∼Ber(θ) Θ = [0,1]

p(x|θ) =θ^x(1−θ)^(1−x) Mod`ele Binomial : X ∼Bin(n, θ) Θ = [0,1]

p(x|θ) = n

x

θ^x(1−θ)^(1−x)

Mod`ele Multinomial: X ∼ M(n, π₁, π₂, . . . , π_K) Θ = [0,1]^K p(x|θ) =

n x₁, . . . ,x_k

π1x1 . . . π_k^x^k

(12)

Mod` ele gaussien

Loi gaussienne r´eelle : X ∼ N(µ, σ²) X une v.a. r´eelle, etθ= µ, σ²

∈Θ =R×R^∗+.

p_µ,σ2(x) = 1

√2πσ²exp −1 2

(x−µ)² σ²

!

Loi gaussienne multidimensionelle: X ∼ N (µ,Σ)

X v.a. `a valeur dans R^d. SiKn est ensemble des matrices n×n d´efinies positives, et θ= (µ,Σ)∈Θ =R^d× Kn.

p_µ,Σ(x) = 1 q

(2π)^ddet Σ exp

−1

2(x−µ)^TΣ⁻¹(x−µ)

(13)

Densit´ es gaussiennes

(14)

Principe du Maximum de vraisemblance

Soit un mod`ele PΘ=

p(x|θ)|θ∈Θ Soit une observationx

Vraisemblance:

L: Θ → R+

θ 7→ p(x|θ)

Estimateur du maximum de vraisemblance:

θˆ_ML= argmax

θ∈Θ

p(x|θ) Sir Ronald Fisher

(1890-1962)

Cas de donn´ees i.i.d

Pour (xi)1≤i≤n un´echantillonde donn´ees i.i.d de taillen:

θˆ_ML= argmax

θ∈Θ n

Y

i=1

p(xi|θ) = argmax

θ∈Θ n

X

i=1

log p(xi|θ)

(15)

Exemples de calculs de l’EMV

Modèle de Bernoulli Modèle Multinomial Modèle Gaussien

(16)

Estimation bay´ esienne

On traˆıte le param`etre θcomme une variable al´eatoire.

A priori

On dispose d’una priori p(θ) sur les param`etres du mod`ele.

A posteriori

Les observations contribuent via la vraisemblance: p(x|θ).

La probabilit´ea posterioridu mod`ele est alors p(θ|x) = p(x|θ)p(θ)

p(x) ∝p(x|θ)p(θ).

→ L’estimateur bayésien est donc une distribution de probabilité sur les paramètres.

On parle d’inf´erencebay´esienne.

(17)

Entropie et Divergence de Kullback-Leibler

Entropie

H(p) =−X

x

p(x) logp(x) =E[−logp(X)]

→ Esp´erance de la moins log-vraisemblance Divergence de Kullback-Leibler

KL(pkq) =X

x

p(x) logp(x) q(x) =Ep

h

logp(X) q(X) i

→ Esp´erance du log-rapport de vraisemblance

→ Propri´et´e: KL(pkq)≥0

(18)

La r´ egression lin´ eaire

(19)

Le classifieur na¨ıf de Bayes

Donn´ees

Etiquette de classe:

Z ∈ {1, . . . ,K}

DescripteursXj, j = 1, . . . ,D Mod`ele

Mod`ele multinomial:

p(z =k) =π_k Mod`ele pour p(x1, . . . ,xD|z =k) ?

“Hypoth`ese na¨ıve”

p(x₁, . . . ,x_D|z =k)

=

D

Y

j=1

p(xj|z =k;θk,j)

z

x1 xD

Apprentissage (estimation)

πˆ= argmax

π:π^>1=1

Y

k,i

π_k^δ(z⁽ⁱ⁾^,k⁾ θˆk,j = argmax

θk,j

n

X

i=1

logp(x_j⁽ⁱ⁾|z⁽ⁱ⁾=k;θk,j)

(20)

Le classifieur na¨ıf de Bayes (suite)

Pr´ediction (d´ecodage):

ˆ

z = argmax_z QD

j=1p(x_j|z)p(z) P

z⁰

QD

j=1p(xj|z⁰)p(z⁰) Propri´et´es

Ignore la corr´elation entre descripteurs

Prédiction requiert seulement la règle de Bayes Modèle peut-être appris massivement en parallèle Complexité enO(nD)

(21)

Probl` eme du clustering et K-means

(22)

Mod` ele de Mixture Gaussien

K composantes

zindicateur de la composante z= (z₁, . . . ,z_K)^>∈ {0,1}^K z∼ M(1,(π₁, . . . , π_K)) p(z) =

K

Y

k=1

π^z_k^k

p(x|z; (µk,Σk)k) =

K

X

k=1

zkN(x;µk,Σk)

p(x) =

K

X

k=1

πkN(x;µk,Σk)

Estimation: argmax

µk,Σk

log

" _K X

k=1

πkN(x;µk,Σk)

#

xn

zn

N

µ Σ

π

(a)

0 0.5 1

(23)

Esp´ erance-Maximisation

logp(x;θ) = logX

z

p(x,z;θ) = logX

z

q(z)p(x,z;θ) q(z)

≥ X

z

q(z) logp(x,z;θ)

q(z) =:F(q,θ)

L(q,θ) = logp(x;θ)−KL(q||p(·|x;θ)) = log

"

X

z

q(z)p(x,z;θ)

# +H(q)

• Etape E argmax_qL(q,θ) =p(·|x;θ)

• Etape M argmax_θL(q,θ) = argmax_θ Eq[logp(Z,x;θ)]

(24)

Algorithme EM

•Etape E argmax_qL(q,θ) =p(·|x;θ)

•Etape M argmax_θL(q,θ) = argmax_θ Eq[logp(Z,x;θ)]

Algorithme

It´erer jusqu’`a convergence:

1 Etape E:

q^t+1=p(·,x;θ^t)

Q(θ,θ^t) =E[logp(Z,x;θ)|θ^t]

2 Etape M:

θ^t+1= argmax_θQ(θ,θ^t) ^θ

oldθ^new L(q, θ)

lnp(X|θ)

(25)

Algorithme EM pour la Mixture Gaussienne

Soit θ^t= (π^t,(µ^t_k,Σ^t_k)_k).

n

Y

i=1

p(zⁱ,xⁱ;θ) =

n

Y

i=1 K

Y

k=1

π^z_k^kⁱ

N(xⁱ;µ_k,Σ_k) z_kⁱ

xn

zn

N

µ Σ

π

Etape E:

p(z¹, . . . ,zⁿ|x¹, . . . ,xⁿ;θ^t) =Qn

i=1p(zⁱ|xⁱ;θ^t) q_kⁱ =P(z_kⁱ= 1|xⁱ;θ^t) = p(xⁱ|z_kⁱ = 1;θ^t)P(z_kⁱ = 1;θ^t)

p(xⁱ;θ^t) = π_k^tN(xⁱ;µ^t_k,Σ^t_k) P

`π_`^tN(xⁱ;µ^t_`,Σ^t_`) Eq[logp(z,x|θ)] =Eq

h X

i,k

z_kⁱ logπ_k+ logN(xⁱ;µ_k,Σ_k)i

=X

i,k

q_kⁱ logπ_k −1

2qⁱ_k(x_i −µ_k)^>Σ⁻¹_k (x_i −µ_k)−1

2q_kⁱ log((2π)^d|Σ_k|)

(26)

Algorithme EM pour la Mixture Gaussienne II

Q(θ,θ^t) =X

i,k

qⁱ_klogπk−1

2q_kⁱ(x_i−µ_k)^>Σ⁻¹_k (x_i−µ_k)−1

2qⁱ_klog((2π)^d|Σk|)

Etape M:

π,(µmax_k,Σ_k)_kQ

π,(µk,Σk)k

,θ^t

s.t. X

k

πk = 1 Apr`es calculs:

n^t+1_k =X

i

q_kⁱ π^t+1_k = n^t+1_k

n µ^t+1_k = 1 n^t+1_k

X

i

qⁱ_kx_i

Σ^t+1_k = 1 n^t+1_k

X

i

qⁱ_k(xi−µ^t+1_k )(xi−µ^t+1_k )^>

(27)

Algorithme EM pour la Mixture Gaussienne III

p(x|z) p(z|x)

(28)

Chaˆıne de Markov Cach´ ee (HMM)

reconnaissance vocale langage naturel

reconnaissance d’écriture manuscrite séquence biologiques (protéines, DNA)

b r a c e

(29)

Chaˆıne de Markov Cach´ ee (HMM)

z_n−1 zn zn+1

x_n−1 x_n x_n+1 z1 z2

x₁ x₂

p(x1, . . . ,x_N,z1, . . . ,z_N) =p(z1)

N

Y

n=2

p(zn|zn−1)Y

n=1

p(xn|zn)

Chaˆıne de Markov homog`ene

zn∈ {0,1}^K indicateur d’´etat (1, . . . ,K)

chaˆıne de Markov homog`ene: ∀n, p(z_n|zn−1) =p(z₂|z₁) x_n symbole ´emis ({0,1}^K) / observation (R^d)

(30)

Chaˆıne de Markov Cach´ ee (HMM)

Param´etrisation

distribution de l’´etat initial p(z1;π) =QK k=1π_k^z^1k matrice de transition p(z_n|zn−1;A) =

K

Y

j=1 K

Y

k=1

A_jk^z^n−1,^j^z^nk

probabilités d’émission p(xn|zn;φ) e.g. Gaussian Mixture Interprétation

A12 A₂₃

A31 A21

A₃₂

A13 A₁₁ A₂₂

A33

k= 1 k= 2

k= 3

Transistions de z_n

k= 1

k= 2 k= 3

0 0.5 1

p(x_n|z_n)

0 0.5 1

Trajectoire de xn

(31)

Maximum de vraisemblance pour les HMM

Application de l’algorithme EM

γ(z_n) =p(z_n|X,θ^t) ξ(zn−1,z_n) =p(zn−1,z_n|X,θ^t) Esp´erance de la log-vraisemblance:

Q(θ,θ^t) =

K

X

k=1

γ(z1k) logπk+

N

X

n=2 K

X

j=1 K

X

k=1

ξ(zn−1,j,znk) logAjk+

N

X

n=1 K

X

k=1

γ(znk) logp(xn|φk)

En maximisant par rapport aux param`etres {π,A} on obtient

π^t+1_k = γ(z_1k) PK

j=1γ(z1j) A^t+1_jk =

PN

n=2ξ(zn−1,j,z_nk) PK

l=1

PN

n=2ξ(zn−1,j,z_nl) Si les ´emissions sont Gaussiennes on a aussi:

µ^t+1_k = PN

n=1γ(znk)xn

PN

n=1γ(znk) Σ^t+1_k = PN

n=1γ(znk)(xn−µk)(xn−µk)^>

PN n=1γ(znk)

(32)

Maximum de vraisemblance pour les HMM

Application de l’algorithme Somme-Produit

Dans le cadre des HMM, l’algorithme est connu sous le nom aller-retour ou algorithme de Baum-Welch.

On propage les messages

forwardα(z_n) =p(x_n|z_n)P

zn−1α(zn−1)p(z_n|zn−1) backwardβ(z_n) =P

zn+1β(z_n+1)p(x_n+1|z_n+1)p(z_n+1|z_n) qui satisfont les propri´et´es:

α(zn) =p(x1, . . . ,xn,zn) β(zn) =p(xn+1, . . . ,x_N|zn) Finalement on obtient les marginales:

γ(zn) =p(zn|X,θ^t) =α(zn)β(zn) p(X|θ^t) et

ξ(z_n−1,z_n) =α(x_n−1)p(x_n|z_n)p(z_n|z_n−1)β(x_n) p(X|θ^t)

(33)

Champ de Markov Cach´ e

Segmentation

(34)

R´ esum´ e

Les mod`eles graphiques

1 permettent de mod´eliser des distributions sur un grand nombre de variables en utilisant la structure du probl`eme.

2 permettent

l’estimationfréquentiste avec le maximum de vraisemblance l’estimation(ou inférence) bayésienne

Au travers de deux exemples

l’algorithme EM pour l’estimation dans les mod`eles de mixture l’estimation des Chaˆınes de Markov Cach´ees

nous avons vu la nécessité de faire des calculs de probabilités et d’espérance qui utilisent la structure du graphe

→ probl`eme de l’inf´erence probabiliste.

(35)

R´ ef´ erences

Une bonne partie des illustrations et des notations de cet expos´e proviennent du tr`es bon livre de Christopher Bishop:

Pattern Recognition and Machine Learning, 2006, Springer.

http://research.microsoft.com/~cmbishop/PRML/

Pour aller plus loin:

Daphne Koller et Nir Friedman, Probabilistic Graphical Models - Principles and Techniques, 2009, MIT Press.