• Principe de maximum de vraisemblance

(1)

• Objectif

• estimer la densit ´e p(x)

• étant donn é D_n = (X₁,X₂,...,X_n) tir é iid de p(x)

• Classification

• estimateurs a-posteriori: p(x|C_i):

• estimateurs a-priori: P(C_i):

• on utilise P(C_i)p(x|C_i) comme des fonctions discriminantes

(2)

• θ: vecteur de param `etres

• Approche de maximum de vraisemblance

• les param `etres sont fixes mais inconnus

• maximiser la probabilit ´e des donn ´ees

• Approche bayesienne

• les param `etres sont al ´eatoires par nature

• les donn ées sont utilis ées pour raffiner la distribution a-priori des param ètres

(3)

• Principe de maximum de vraisemblance

• le vraisemblance de θ par rapport `a D_n: p(D_n|θ) =

∏

ⁿ

i=1

p(x_i|θ)

• fonction de log-vraisemblance:

l(θ) = ln p(D_n|θ) =

∑

ⁿ

i=1

ln p(x_i|θ)

(4)

• Principe de maximum de vraisemblance

• estimation de maximum de vraisemblance θ = arg max

θ

p(D_n|θ) = arg max

θ

n

∏

i=1

p(x_i|θ)

= arg max

θ

n i

∑

=1

ln p(x_i|θ) = arg max

θ

l(θ)

• conditions n ´ecessaires:

θl(θ) =

∑

ⁿ

i=1

θln p(x_i|θ) =0

(5)

1 2 3 4 5 6 7

-100 -60 -40 -20

θ l(θ )

θ θ

0.4 x 10-7 0.8 x 10-7 1.2 x 10-7

θ p(D|θ )

x

-80

ˆ

(6)

• Le principe de minimisation du risque empirique

• perte: L(x,p) =−lnp(x)

• risque: R(p) = −^Z p(x)lnp(x)dx

• pour une densit ´e pquelconque: R(p) ≤R(p)

• entropie:

H(p) =−^Z p(x)ln p(x)dx

• “distance” de Kullback-Leibler:

d(p,p) =−^Z p(x)ln p(x) p(x)dx

(7)

• Exemple: densit ´e normale, µ inconnu

• µ= 1 n

n

∑

i=1

x_i

• Exemple: densit ´e normale, µ , Σ inconnus

• µ= 1 n

n

∑

i=1

x_i

• Σ = 1 n

n i

∑

=1

(x_i−µ)(x_i−µ)^t

(8)

• Estimation bayesienne

• densit ´e a-priori connue: p(θ)

• densit ´e a-posteriori p(θ|D_n) = “p(θ) +D_n”

• utilisation:

p(x|D_n) = ^Z p(x|θ)p(θ|D_n)dθ

= p(x|θ^∗) o `u

θ^∗ = arg max

θ

p(θ|D_n)

(9)

1

-4 -2 2 4

µ

1

30

20

5 10

0

(10)

• Estimation bayesienne: cas normal

• densit ´e a-posteriori p(µ|D_n) =?, p(σ²|D_n) =?

• cas univari ´e: p(x|µ)∼ N(µ,σ²)

• densit ´e a-priori p(µ) =N(µ₀,σ²₀)

(11)

• Estimation bayesienne: cas normal

• th ´eor `eme de Bayes:

p(µ|D_n) = _R p(D_n|µ)p(µ)

p(D_n|µ)p(µ)dµ= α

n

∏

i=1

p(x_k|µ)p(µ)

= 1

√2πσn

exp

−1 2

µ−µ_n

σn

2

o `u

µ_n =

nσ²₀

nσ²₀+σ²

²

µ_n+ σ²

nσ²₀+σ²µ₀ σ²_n = σ²₀σ²

nσ²₀+σ²

(12)

• Estimation bayesienne: cas normal

• densit ´e conditionnelle de classe

p(x|D_n) = ^Z p(x,µ|D_n)dµ=^Z p(x|µ,D_n)p(µ|D_n)dµ

= ^Z p(x|µ)p(µ|D_n)dµ

∼ N(µ_n,σ²+σ²_n)

(13)

• Avantages de l’approche bayesienne

• connaissances a-priori int ´egr ´ees doucement

• tendance `a mieux fonctionner pour les petites donn ´ees

• Avantages de l’approche de maximum de vraisemblance

• simplicit ´e

• interpr ´etabilit ´e

• vitesse du calcul