• Aucun résultat trouvé

Introduction aux mod`eles probabilistes

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction aux mod`eles probabilistes"

Copied!
35
0
0

Texte intégral

(1)

Introduction aux mod` eles probabilistes

Guillaume Obozinski

INRIA - Ecole Normale Sup´erieure - Paris

E.S. Apprentissage artificiel Ecole des Mines, 13 avril 2012

(2)

Apprentissage automatique

Objet

Extraire des “relations statistiques” entre

un grand nombre de variables d’entr´ees / pr´edicteurs / descripteurs une ou plusieurs variables de sorties / d´ecision(s)

Construire uneconnaissance empirique:

Transformation d’information empirique en connaissance statistique Sp´ecificit´es par rapport aux autres approches en IA

1 Connaissance construite essentiellement `a partir des donn´ees

2 Capacit´e de g´en´eralisation

(3)

Sp´ ecificit´ e par rapport aux statistiques classiques

But

Mod`ele pr´edictif/d’action vs mod`ele explicatif de la r´ealit´e.

Difficult´e

N´ecessit´e d’int´egrer un un tr`es grand nombre de variables Vision artificielle: 107 dimensions par image

Imagerie C´er´ebrale: 105 dimensions par volume

Traitement automatique des langues: 104−1015 param`etres G´en´etique: 104 g`enes, 105 SNPs/ microsatellites, 109 bases d’ADN

(4)

Des probl` emes structur´ es de grande dimension

(5)

Fl´ eau de la dimension

(Curse of dimensionality) Croissance exponentielle du ”volume” avec la dimension

⇒ le nombre de param`etres des mod`eles croˆıt exponentiellement.

Histogrammes

Construire l’histogramme de X ∈[0,1] avec 10 intervalles

→ possible avec 100 observations Construire l’histogramme de X ∈[0,1]10

→ taille et nombre d’intervalles ?

→ a priori impossible avec 100 ou mˆeme 106 observations ! Mod`ele de SNPs

SNP: Single-Nucleotide Polymorphism

Correspondent `a 90% des variations g´en´etiques humaines Nombre de loci k>105

Nombre de configurations>2105...

(6)

Sur-apprentissage

(Overfitting)

R´egression Lin´eaire Y =w0+w1X +w2X2 +. . .+wpXp+ε minw

1 2n

n

X

i=1

yi −(w0+w1xi+w2xi2+. . .+wpxip)2

x t

M= 0

0 1

−1 0 1

x t

M= 1

0 1

−1 0 1

t

M= 3

−1 0 1

t

M= 9

−1 0 1

(7)

Notations, formules,d´ efinitions

Loi jointe deXA etXB: p(xA,xB) Loi marginale : p(xA) =P

xAcp(xA,xAc) Loi conditionnelle : p(xA|xB) = p(xp(xA,xB)

B) sip(xB)6= 0 Formule de Bayes

p(xA|xB) = p(xB|xA)p(xA) p(xB)

→ La formule de Bayesn’est pas “bay´esienne”.

(8)

Esp´ erances et Variances

Esp´erance deX : E[X] =P

xx·p(x) Esp´erance def (X), pourf mesurable :

E[f (X)] =X

x

f (x)·p(x) Variance :

Var (X) = E h

(X −E[X])2 i

= E X2

−E[X]2 Esp´erance conditionnelle deX sachant Y :

E[X|Y] =X

x

x·p(x|y) Variance conditionnelle :

Var (X |Y) = E h

(X −E[X|Y])2|Yi

=E X2|Y

−E[X|Y]2

(9)

Notions d’ind´ ependance

Ind´ependance: X⊥⊥Y

On dit que X et Y sont ind´ependantes et on note X⊥⊥Y ssi:

∀x,y, P(X =x,Y =y) =P(X =x)P(Y =y) Ind´ependance conditionnelle: X⊥⊥Y |Z

On dit queX et Y sont ind´ependantes conditionnellement `aZ et on noteX⊥⊥Y |Z ssi:

∀x,y,z,

P(X =x,Y =y |Z =z) =P(X =x|Z =z)P(Y =y|Z =z)

(10)

Ind´ ependence Conditionnelle: exemple

Exemple d’une “maladie r´ecessive li´ee `a l’X”:

Transmission du g`ene de l’h´emophilie

Risques de maladie pour des fils d’un p`ere sain:

d´ependant pour deux fr`eres.

conditionnellement ind´ependant sachant si la m`ere est porteuse ou non.

(11)

Mod` ele statistique

Mod`ele param´etrique – D´efinition:

Ensemble de distributions param´etr´e par un vecteurθ∈Θ⊂Rp PΘ=

p(x|θ)|θ∈Θ Mod`ele de Bernoulli: X ∼Ber(θ) Θ = [0,1]

p(x|θ) =θx(1−θ)(1−x) Mod`ele Binomial : X ∼Bin(n, θ) Θ = [0,1]

p(x|θ) = n

x

θx(1−θ)(1−x)

Mod`ele Multinomial: X ∼ M(n, π1, π2, . . . , πK) Θ = [0,1]K p(x|θ) =

n x1, . . . ,xk

π1x1 . . . πkxk

(12)

Mod` ele gaussien

Loi gaussienne r´eelle : X ∼ N(µ, σ2) X une v.a. r´eelle, etθ= µ, σ2

∈Θ =R×R+.

pµ,σ2(x) = 1

√2πσ2exp −1 2

(x−µ)2 σ2

!

Loi gaussienne multidimensionelle: X ∼ N (µ,Σ)

X v.a. `a valeur dans Rd. SiKn est ensemble des matrices n×n d´efinies positives, et θ= (µ,Σ)∈Θ =Rd× Kn.

pµ,Σ(x) = 1 q

(2π)ddet Σ exp

−1

2(x−µ)TΣ−1(x−µ)

(13)

Densit´ es gaussiennes

(14)

Principe du Maximum de vraisemblance

Soit un mod`ele PΘ=

p(x|θ)|θ∈Θ Soit une observationx

Vraisemblance:

L: Θ → R+

θ 7→ p(x|θ)

Estimateur du maximum de vraisemblance:

θˆML= argmax

θ∈Θ

p(x|θ) Sir Ronald Fisher

(1890-1962)

Cas de donn´ees i.i.d

Pour (xi)1≤i≤n un´echantillonde donn´ees i.i.d de taillen:

θˆML= argmax

θ∈Θ n

Y

i=1

p(xi|θ) = argmax

θ∈Θ n

X

i=1

log p(xi|θ)

(15)

Exemples de calculs de l’EMV

Mod`ele de Bernoulli Mod`ele Multinomial Mod`ele Gaussien

(16)

Estimation bay´ esienne

On traˆıte le param`etre θcomme une variable al´eatoire.

A priori

On dispose d’una priori p(θ) sur les param`etres du mod`ele.

A posteriori

Les observations contribuent via la vraisemblance: p(x|θ).

La probabilit´ea posterioridu mod`ele est alors p(θ|x) = p(x|θ)p(θ)

p(x) ∝p(x|θ)p(θ).

→ L’estimateur bay´esien est donc une distribution de probabilit´e sur les param`etres.

On parle d’inf´erencebay´esienne.

(17)

Entropie et Divergence de Kullback-Leibler

Entropie

H(p) =−X

x

p(x) logp(x) =E[−logp(X)]

→ Esp´erance de la moins log-vraisemblance Divergence de Kullback-Leibler

KL(pkq) =X

x

p(x) logp(x) q(x) =Ep

h

logp(X) q(X) i

→ Esp´erance du log-rapport de vraisemblance

→ Propri´et´e: KL(pkq)≥0

(18)

La r´ egression lin´ eaire

(19)

Le classifieur na¨ıf de Bayes

Donn´ees

Etiquette de classe:

Z ∈ {1, . . . ,K}

DescripteursXj, j = 1, . . . ,D Mod`ele

Mod`ele multinomial:

p(z =k) =πk Mod`ele pour p(x1, . . . ,xD|z =k) ?

“Hypoth`ese na¨ıve”

p(x1, . . . ,xD|z =k)

=

D

Y

j=1

p(xj|z =k;θk,j)

z

x1 xD

Apprentissage (estimation)

πˆ= argmax

π:π>1=1

Y

k,i

πkδ(z(i),k) θˆk,j = argmax

θk,j

n

X

i=1

logp(xj(i)|z(i)=k;θk,j)

(20)

Le classifieur na¨ıf de Bayes (suite)

Pr´ediction (d´ecodage):

ˆ

z = argmaxz QD

j=1p(xj|z)p(z) P

z0

QD

j=1p(xj|z0)p(z0) Propri´et´es

Ignore la corr´elation entre descripteurs

Pr´ediction requiert seulement la r`egle de Bayes Mod`ele peut-ˆetre appris massivement en parall`ele Complexit´e enO(nD)

(21)

Probl` eme du clustering et K-means

(22)

Mod` ele de Mixture Gaussien

K composantes

zindicateur de la composante z= (z1, . . . ,zK)>∈ {0,1}K z∼ M(1,(π1, . . . , πK)) p(z) =

K

Y

k=1

πzkk

p(x|z; (µkk)k) =

K

X

k=1

zkN(x;µkk)

p(x) =

K

X

k=1

πkN(x;µkk)

Estimation: argmax

µkk

log

" K X

k=1

πkN(x;µkk)

#

xn

zn

N

µ Σ

π

(a)

0 0.5 1

0 0.5 1

(23)

Esp´ erance-Maximisation

logp(x;θ) = logX

z

p(x,z;θ) = logX

z

q(z)p(x,z;θ) q(z)

≥ X

z

q(z) logp(x,z;θ)

q(z) =:F(q,θ)

L(q,θ) = logp(x;θ)−KL(q||p(·|x;θ)) = log

"

X

z

q(z)p(x,z;θ)

# +H(q)

• Etape E argmaxqL(q,θ) =p(·|x;θ)

• Etape M argmaxθL(q,θ) = argmaxθ Eq[logp(Z,x;θ)]

(24)

Algorithme EM

•Etape E argmaxqL(q,θ) =p(·|x;θ)

•Etape M argmaxθL(q,θ) = argmaxθ Eq[logp(Z,x;θ)]

Algorithme

It´erer jusqu’`a convergence:

1 Etape E:

qt+1=p(·,x;θt)

Q(θ,θt) =E[logp(Z,x;θ)|θt]

2 Etape M:

θt+1= argmaxθQ(θ,θt) θ

oldθnew L(q, θ)

lnp(X|θ)

(25)

Algorithme EM pour la Mixture Gaussienne

Soit θt= (πt,(µtktk)k).

n

Y

i=1

p(zi,xi;θ) =

n

Y

i=1 K

Y

k=1

πzkki

N(xikk) zki

xn

zn

N

µ Σ

π

Etape E:

p(z1, . . . ,zn|x1, . . . ,xnt) =Qn

i=1p(zi|xit) qki =P(zki= 1|xit) = p(xi|zki = 1;θt)P(zki = 1;θt)

p(xit) = πktN(xitktk) P

`π`tN(xit`t`) Eq[logp(z,x|θ)] =Eq

h X

i,k

zki logπk+ logN(xikk)i

=X

i,k

qki logπk −1

2qik(xi −µk)>Σ−1k (xi −µk)−1

2qki log((2π)dk|)

(26)

Algorithme EM pour la Mixture Gaussienne II

Q(θ,θt) =X

i,k

qiklogπk1

2qki(xiµk)>Σ−1k (xiµk)1

2qiklog((2π)d|Σk|)

Etape M:

π,maxkk)kQ

π,(µkk)k

t

s.t. X

k

πk = 1 Apr`es calculs:

nt+1k =X

i

qki πt+1k = nt+1k

n µt+1k = 1 nt+1k

X

i

qikxi

Σt+1k = 1 nt+1k

X

i

qik(xi−µt+1k )(xi−µt+1k )>

(27)

Algorithme EM pour la Mixture Gaussienne III

p(x|z) p(z|x)

(28)

Chaˆıne de Markov Cach´ ee (HMM)

reconnaissance vocale langage naturel

reconnaissance d’´ecriture manuscrite s´equence biologiques (prot´eines, DNA)

b r a c e

(29)

Chaˆıne de Markov Cach´ ee (HMM)

zn−1 zn zn+1

xn−1 xn xn+1 z1 z2

x1 x2

p(x1, . . . ,xN,z1, . . . ,zN) =p(z1)

N

Y

n=2

p(zn|zn−1)Y

n=1

p(xn|zn)

Chaˆıne de Markov homog`ene

zn∈ {0,1}K indicateur d’´etat (1, . . . ,K)

chaˆıne de Markov homog`ene: ∀n, p(zn|zn−1) =p(z2|z1) xn symbole ´emis ({0,1}K) / observation (Rd)

(30)

Chaˆıne de Markov Cach´ ee (HMM)

Param´etrisation

distribution de l’´etat initial p(z1;π) =QK k=1πkz1k matrice de transition p(zn|zn−1;A) =

K

Y

j=1 K

Y

k=1

Ajkzn−1,jznk

probabilit´es d’´emission p(xn|zn;φ) e.g. Gaussian Mixture Interpr´etation

A12 A23

A31 A21

A32

A13 A11 A22

A33

k= 1 k= 2

k= 3

Transistions de zn

k= 1

k= 2 k= 3

0 0.5 1

0 0.5 1

p(xn|zn)

0 0.5 1

0 0.5 1

Trajectoire de xn

(31)

Maximum de vraisemblance pour les HMM

Application de l’algorithme EM

γ(zn) =p(zn|X,θt) ξ(zn−1,zn) =p(zn−1,zn|X,θt) Esp´erance de la log-vraisemblance:

Q(θ,θt) =

K

X

k=1

γ(z1k) logπk+

N

X

n=2 K

X

j=1 K

X

k=1

ξ(zn−1,j,znk) logAjk+

N

X

n=1 K

X

k=1

γ(znk) logp(xnk)

En maximisant par rapport aux param`etres {π,A} on obtient

πt+1k = γ(z1k) PK

j=1γ(z1j) At+1jk =

PN

n=2ξ(zn−1,j,znk) PK

l=1

PN

n=2ξ(zn−1,j,znl) Si les ´emissions sont Gaussiennes on a aussi:

µt+1k = PN

n=1γ(znk)xn

PN

n=1γ(znk) Σt+1k = PN

n=1γ(znk)(xnµk)(xnµk)>

PN n=1γ(znk)

(32)

Maximum de vraisemblance pour les HMM

Application de l’algorithme Somme-Produit

Dans le cadre des HMM, l’algorithme est connu sous le nom aller-retour ou algorithme de Baum-Welch.

On propage les messages

forwardα(zn) =p(xn|zn)P

zn−1α(zn−1)p(zn|zn−1) backwardβ(zn) =P

zn+1β(zn+1)p(xn+1|zn+1)p(zn+1|zn) qui satisfont les propri´et´es:

α(zn) =p(x1, . . . ,xn,zn) β(zn) =p(xn+1, . . . ,xN|zn) Finalement on obtient les marginales:

γ(zn) =p(zn|X,θt) =α(zn)β(zn) p(X|θt) et

ξ(zn−1,zn) =α(xn−1)p(xn|zn)p(zn|zn−1)β(xn) p(X|θt)

(33)

Champ de Markov Cach´ e

Segmentation

(34)

R´ esum´ e

Les mod`eles graphiques

1 permettent de mod´eliser des distributions sur un grand nombre de variables en utilisant la structure du probl`eme.

2 permettent

l’estimationfr´equentiste avec le maximum de vraisemblance l’estimation(ou inf´erence) bay´esienne

Au travers de deux exemples

l’algorithme EM pour l’estimation dans les mod`eles de mixture l’estimation des Chaˆınes de Markov Cach´ees

nous avons vu la n´ecessit´e de faire des calculs de probabilit´es et d’esp´erance qui utilisent la structure du graphe

→ probl`eme de l’inf´erence probabiliste.

(35)

R´ ef´ erences

Une bonne partie des illustrations et des notations de cet expos´e proviennent du tr`es bon livre de Christopher Bishop:

Pattern Recognition and Machine Learning, 2006, Springer.

http://research.microsoft.com/~cmbishop/PRML/

Pour aller plus loin:

Daphne Koller et Nir Friedman, Probabilistic Graphical Models - Principles and Techniques, 2009, MIT Press.

Références

Documents relatifs

En statistique, cette relation est ` a la base des mod` eles dits lin´ eaires, o` u une variable r´ eponse se d´ efinit comme une somme de variables explicatives o` u chacune de

Th´ eor` eme quantile : besoin d’un terme suppl´

On veut utiliser un mod`ele d’Ising (avec la convention, potentiel de valeur 0 quand les deux sites voisins sont de mˆeme classe et β quand les deux sites voisins sont dans des

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´

Dans le cas o` u le nombre total de politiques stationnaires est fini (e.g., si X et U le sont), on peut remplacer “> ” par “> 0” et l’algorithme s’arrˆ ete toujours