• Aucun résultat trouvé

Introduction aux mod`eles probabilistes

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction aux mod`eles probabilistes"

Copied!
35
0
0

Texte intégral

(1)

Introduction aux mod` eles probabilistes

Guillaume Obozinski

INRIA - Ecole Normale Sup´erieure - Paris

E.S. Apprentissage artificiel Ecole des Mines, 13 avril 2012

(2)

Apprentissage automatique

Objet

Extraire des “relations statistiques” entre

un grand nombre de variables d’entr´ees / pr´edicteurs / descripteurs une ou plusieurs variables de sorties / d´ecision(s)

Construire uneconnaissance empirique:

Transformation d’information empirique en connaissance statistique Sp´ecificit´es par rapport aux autres approches en IA

1 Connaissance construite essentiellement `a partir des donn´ees

2 Capacit´e de g´en´eralisation

(3)

Sp´ ecificit´ e par rapport aux statistiques classiques

But

Mod`ele pr´edictif/d’action vs mod`ele explicatif de la r´ealit´e.

Difficult´e

N´ecessit´e d’int´egrer un un tr`es grand nombre de variables Vision artificielle: 107 dimensions par image

Imagerie C´er´ebrale: 105 dimensions par volume

Traitement automatique des langues: 104−1015 param`etres G´en´etique: 104 g`enes, 105 SNPs/ microsatellites, 109 bases d’ADN

(4)

Des probl` emes structur´ es de grande dimension

(5)

Fl´ eau de la dimension

(Curse of dimensionality) Croissance exponentielle du ”volume” avec la dimension

⇒ le nombre de param`etres des mod`eles croˆıt exponentiellement.

Histogrammes

Construire l’histogramme de X ∈[0,1] avec 10 intervalles

→ possible avec 100 observations Construire l’histogramme de X ∈[0,1]10

→ taille et nombre d’intervalles ?

→ a priori impossible avec 100 ou mˆeme 106 observations ! Mod`ele de SNPs

SNP: Single-Nucleotide Polymorphism

Correspondent `a 90% des variations g´en´etiques humaines Nombre de loci k>105

Nombre de configurations>2105...

(6)

Sur-apprentissage

(Overfitting)

R´egression Lin´eaire Y =w0+w1X +w2X2 +. . .+wpXp+ε minw

1 2n

n

X

i=1

yi −(w0+w1xi+w2xi2+. . .+wpxip)2

x t

M= 0

0 1

−1 0 1

x t

M= 1

0 1

−1 0 1

t

M= 3

−1 0 1

t

M= 9

−1 0 1

(7)

Notations, formules,d´ efinitions

Loi jointe deXA etXB: p(xA,xB) Loi marginale : p(xA) =P

xAcp(xA,xAc) Loi conditionnelle : p(xA|xB) = p(xp(xA,xB)

B) sip(xB)6= 0 Formule de Bayes

p(xA|xB) = p(xB|xA)p(xA) p(xB)

→ La formule de Bayesn’est pas “bay´esienne”.

(8)

Esp´ erances et Variances

Esp´erance deX : E[X] =P

xx·p(x) Esp´erance def (X), pourf mesurable :

E[f (X)] =X

x

f (x)·p(x) Variance :

Var (X) = E h

(X −E[X])2 i

= E X2

−E[X]2 Esp´erance conditionnelle deX sachant Y :

E[X|Y] =X

x

x·p(x|y) Variance conditionnelle :

Var (X |Y) = E h

(X −E[X|Y])2|Yi

=E X2|Y

−E[X|Y]2

(9)

Notions d’ind´ ependance

Ind´ependance: X⊥⊥Y

On dit que X et Y sont ind´ependantes et on note X⊥⊥Y ssi:

∀x,y, P(X =x,Y =y) =P(X =x)P(Y =y) Ind´ependance conditionnelle: X⊥⊥Y |Z

On dit queX et Y sont ind´ependantes conditionnellement `aZ et on noteX⊥⊥Y |Z ssi:

∀x,y,z,

P(X =x,Y =y |Z =z) =P(X =x|Z =z)P(Y =y|Z =z)

(10)

Ind´ ependence Conditionnelle: exemple

Exemple d’une “maladie r´ecessive li´ee `a l’X”:

Transmission du g`ene de l’h´emophilie

Risques de maladie pour des fils d’un p`ere sain:

d´ependant pour deux fr`eres.

conditionnellement ind´ependant sachant si la m`ere est porteuse ou non.

(11)

Mod` ele statistique

Mod`ele param´etrique – D´efinition:

Ensemble de distributions param´etr´e par un vecteurθ∈Θ⊂Rp PΘ=

p(x|θ)|θ∈Θ Mod`ele de Bernoulli: X ∼Ber(θ) Θ = [0,1]

p(x|θ) =θx(1−θ)(1−x) Mod`ele Binomial : X ∼Bin(n, θ) Θ = [0,1]

p(x|θ) = n

x

θx(1−θ)(1−x)

Mod`ele Multinomial: X ∼ M(n, π1, π2, . . . , πK) Θ = [0,1]K p(x|θ) =

n x1, . . . ,xk

π1x1 . . . πkxk

(12)

Mod` ele gaussien

Loi gaussienne r´eelle : X ∼ N(µ, σ2) X une v.a. r´eelle, etθ= µ, σ2

∈Θ =R×R+.

pµ,σ2(x) = 1

√2πσ2exp −1 2

(x−µ)2 σ2

!

Loi gaussienne multidimensionelle: X ∼ N (µ,Σ)

X v.a. `a valeur dans Rd. SiKn est ensemble des matrices n×n d´efinies positives, et θ= (µ,Σ)∈Θ =Rd× Kn.

pµ,Σ(x) = 1 q

(2π)ddet Σ exp

−1

2(x−µ)TΣ−1(x−µ)

(13)

Densit´ es gaussiennes

(14)

Principe du Maximum de vraisemblance

Soit un mod`ele PΘ=

p(x|θ)|θ∈Θ Soit une observationx

Vraisemblance:

L: Θ → R+

θ 7→ p(x|θ)

Estimateur du maximum de vraisemblance:

θˆML= argmax

θ∈Θ

p(x|θ) Sir Ronald Fisher

(1890-1962)

Cas de donn´ees i.i.d

Pour (xi)1≤i≤n un´echantillonde donn´ees i.i.d de taillen:

θˆML= argmax

θ∈Θ n

Y

i=1

p(xi|θ) = argmax

θ∈Θ n

X

i=1

log p(xi|θ)

(15)

Exemples de calculs de l’EMV

Mod`ele de Bernoulli Mod`ele Multinomial Mod`ele Gaussien

(16)

Estimation bay´ esienne

On traˆıte le param`etre θcomme une variable al´eatoire.

A priori

On dispose d’una priori p(θ) sur les param`etres du mod`ele.

A posteriori

Les observations contribuent via la vraisemblance: p(x|θ).

La probabilit´ea posterioridu mod`ele est alors p(θ|x) = p(x|θ)p(θ)

p(x) ∝p(x|θ)p(θ).

→ L’estimateur bay´esien est donc une distribution de probabilit´e sur les param`etres.

On parle d’inf´erencebay´esienne.

(17)

Entropie et Divergence de Kullback-Leibler

Entropie

H(p) =−X

x

p(x) logp(x) =E[−logp(X)]

→ Esp´erance de la moins log-vraisemblance Divergence de Kullback-Leibler

KL(pkq) =X

x

p(x) logp(x) q(x) =Ep

h

logp(X) q(X) i

→ Esp´erance du log-rapport de vraisemblance

→ Propri´et´e: KL(pkq)≥0

(18)

La r´ egression lin´ eaire

(19)

Le classifieur na¨ıf de Bayes

Donn´ees

Etiquette de classe:

Z ∈ {1, . . . ,K}

DescripteursXj, j = 1, . . . ,D Mod`ele

Mod`ele multinomial:

p(z =k) =πk Mod`ele pour p(x1, . . . ,xD|z =k) ?

“Hypoth`ese na¨ıve”

p(x1, . . . ,xD|z =k)

=

D

Y

j=1

p(xj|z =k;θk,j)

z

x1 xD

Apprentissage (estimation)

πˆ= argmax

π:π>1=1

Y

k,i

πkδ(z(i),k) θˆk,j = argmax

θk,j

n

X

i=1

logp(xj(i)|z(i)=k;θk,j)

(20)

Le classifieur na¨ıf de Bayes (suite)

Pr´ediction (d´ecodage):

ˆ

z = argmaxz QD

j=1p(xj|z)p(z) P

z0

QD

j=1p(xj|z0)p(z0) Propri´et´es

Ignore la corr´elation entre descripteurs

Pr´ediction requiert seulement la r`egle de Bayes Mod`ele peut-ˆetre appris massivement en parall`ele Complexit´e enO(nD)

(21)

Probl` eme du clustering et K-means

(22)

Mod` ele de Mixture Gaussien

K composantes

zindicateur de la composante z= (z1, . . . ,zK)>∈ {0,1}K z∼ M(1,(π1, . . . , πK)) p(z) =

K

Y

k=1

πzkk

p(x|z; (µkk)k) =

K

X

k=1

zkN(x;µkk)

p(x) =

K

X

k=1

πkN(x;µkk)

Estimation: argmax

µkk

log

" K X

k=1

πkN(x;µkk)

#

xn

zn

N

µ Σ

π

(a)

0 0.5 1

0 0.5 1

(23)

Esp´ erance-Maximisation

logp(x;θ) = logX

z

p(x,z;θ) = logX

z

q(z)p(x,z;θ) q(z)

≥ X

z

q(z) logp(x,z;θ)

q(z) =:F(q,θ)

L(q,θ) = logp(x;θ)−KL(q||p(·|x;θ)) = log

"

X

z

q(z)p(x,z;θ)

# +H(q)

• Etape E argmaxqL(q,θ) =p(·|x;θ)

• Etape M argmaxθL(q,θ) = argmaxθ Eq[logp(Z,x;θ)]

(24)

Algorithme EM

•Etape E argmaxqL(q,θ) =p(·|x;θ)

•Etape M argmaxθL(q,θ) = argmaxθ Eq[logp(Z,x;θ)]

Algorithme

It´erer jusqu’`a convergence:

1 Etape E:

qt+1=p(·,x;θt)

Q(θ,θt) =E[logp(Z,x;θ)|θt]

2 Etape M:

θt+1= argmaxθQ(θ,θt) θ

oldθnew L(q, θ)

lnp(X|θ)

(25)

Algorithme EM pour la Mixture Gaussienne

Soit θt= (πt,(µtktk)k).

n

Y

i=1

p(zi,xi;θ) =

n

Y

i=1 K

Y

k=1

πzkki

N(xikk) zki

xn

zn

N

µ Σ

π

Etape E:

p(z1, . . . ,zn|x1, . . . ,xnt) =Qn

i=1p(zi|xit) qki =P(zki= 1|xit) = p(xi|zki = 1;θt)P(zki = 1;θt)

p(xit) = πktN(xitktk) P

`π`tN(xit`t`) Eq[logp(z,x|θ)] =Eq

h X

i,k

zki logπk+ logN(xikk)i

=X

i,k

qki logπk −1

2qik(xi −µk)>Σ−1k (xi −µk)−1

2qki log((2π)dk|)

(26)

Algorithme EM pour la Mixture Gaussienne II

Q(θ,θt) =X

i,k

qiklogπk1

2qki(xiµk)>Σ−1k (xiµk)1

2qiklog((2π)d|Σk|)

Etape M:

π,maxkk)kQ

π,(µkk)k

t

s.t. X

k

πk = 1 Apr`es calculs:

nt+1k =X

i

qki πt+1k = nt+1k

n µt+1k = 1 nt+1k

X

i

qikxi

Σt+1k = 1 nt+1k

X

i

qik(xi−µt+1k )(xi−µt+1k )>

(27)

Algorithme EM pour la Mixture Gaussienne III

p(x|z) p(z|x)

(28)

Chaˆıne de Markov Cach´ ee (HMM)

reconnaissance vocale langage naturel

reconnaissance d’´ecriture manuscrite s´equence biologiques (prot´eines, DNA)

b r a c e

(29)

Chaˆıne de Markov Cach´ ee (HMM)

zn−1 zn zn+1

xn−1 xn xn+1 z1 z2

x1 x2

p(x1, . . . ,xN,z1, . . . ,zN) =p(z1)

N

Y

n=2

p(zn|zn−1)Y

n=1

p(xn|zn)

Chaˆıne de Markov homog`ene

zn∈ {0,1}K indicateur d’´etat (1, . . . ,K)

chaˆıne de Markov homog`ene: ∀n, p(zn|zn−1) =p(z2|z1) xn symbole ´emis ({0,1}K) / observation (Rd)

(30)

Chaˆıne de Markov Cach´ ee (HMM)

Param´etrisation

distribution de l’´etat initial p(z1;π) =QK k=1πkz1k matrice de transition p(zn|zn−1;A) =

K

Y

j=1 K

Y

k=1

Ajkzn−1,jznk

probabilit´es d’´emission p(xn|zn;φ) e.g. Gaussian Mixture Interpr´etation

A12 A23

A31 A21

A32

A13 A11 A22

A33

k= 1 k= 2

k= 3

Transistions de zn

k= 1

k= 2 k= 3

0 0.5 1

0 0.5 1

p(xn|zn)

0 0.5 1

0 0.5 1

Trajectoire de xn

(31)

Maximum de vraisemblance pour les HMM

Application de l’algorithme EM

γ(zn) =p(zn|X,θt) ξ(zn−1,zn) =p(zn−1,zn|X,θt) Esp´erance de la log-vraisemblance:

Q(θ,θt) =

K

X

k=1

γ(z1k) logπk+

N

X

n=2 K

X

j=1 K

X

k=1

ξ(zn−1,j,znk) logAjk+

N

X

n=1 K

X

k=1

γ(znk) logp(xnk)

En maximisant par rapport aux param`etres {π,A} on obtient

πt+1k = γ(z1k) PK

j=1γ(z1j) At+1jk =

PN

n=2ξ(zn−1,j,znk) PK

l=1

PN

n=2ξ(zn−1,j,znl) Si les ´emissions sont Gaussiennes on a aussi:

µt+1k = PN

n=1γ(znk)xn

PN

n=1γ(znk) Σt+1k = PN

n=1γ(znk)(xnµk)(xnµk)>

PN n=1γ(znk)

(32)

Maximum de vraisemblance pour les HMM

Application de l’algorithme Somme-Produit

Dans le cadre des HMM, l’algorithme est connu sous le nom aller-retour ou algorithme de Baum-Welch.

On propage les messages

forwardα(zn) =p(xn|zn)P

zn−1α(zn−1)p(zn|zn−1) backwardβ(zn) =P

zn+1β(zn+1)p(xn+1|zn+1)p(zn+1|zn) qui satisfont les propri´et´es:

α(zn) =p(x1, . . . ,xn,zn) β(zn) =p(xn+1, . . . ,xN|zn) Finalement on obtient les marginales:

γ(zn) =p(zn|X,θt) =α(zn)β(zn) p(X|θt) et

ξ(zn−1,zn) =α(xn−1)p(xn|zn)p(zn|zn−1)β(xn) p(X|θt)

(33)

Champ de Markov Cach´ e

Segmentation

(34)

R´ esum´ e

Les mod`eles graphiques

1 permettent de mod´eliser des distributions sur un grand nombre de variables en utilisant la structure du probl`eme.

2 permettent

l’estimationfr´equentiste avec le maximum de vraisemblance l’estimation(ou inf´erence) bay´esienne

Au travers de deux exemples

l’algorithme EM pour l’estimation dans les mod`eles de mixture l’estimation des Chaˆınes de Markov Cach´ees

nous avons vu la n´ecessit´e de faire des calculs de probabilit´es et d’esp´erance qui utilisent la structure du graphe

→ probl`eme de l’inf´erence probabiliste.

(35)

R´ ef´ erences

Une bonne partie des illustrations et des notations de cet expos´e proviennent du tr`es bon livre de Christopher Bishop:

Pattern Recognition and Machine Learning, 2006, Springer.

http://research.microsoft.com/~cmbishop/PRML/

Pour aller plus loin:

Daphne Koller et Nir Friedman, Probabilistic Graphical Models - Principles and Techniques, 2009, MIT Press.

Références

Documents relatifs

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´

En statistique, cette relation est ` a la base des mod` eles dits lin´ eaires, o` u une variable r´ eponse se d´ efinit comme une somme de variables explicatives o` u chacune de

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

Th´ eor` eme quantile : besoin d’un terme suppl´

On veut utiliser un mod`ele d’Ising (avec la convention, potentiel de valeur 0 quand les deux sites voisins sont de mˆeme classe et β quand les deux sites voisins sont dans des

Dans le cas o` u le nombre total de politiques stationnaires est fini (e.g., si X et U le sont), on peut remplacer “> ” par “> 0” et l’algorithme s’arrˆ ete toujours

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`