• Aucun résultat trouvé

• Principe de maximum de vraisemblance

N/A
N/A
Protected

Academic year: 2022

Partager "• Principe de maximum de vraisemblance"

Copied!
13
0
0

Texte intégral

(1)

Objectif

estimer la densit ´e p(x)

´etant donn ´e Dn = (X1,X2,...,Xn) tir ´e iid de p(x)

Classification

estimateurs a-posteriori: p(x|Ci):

estimateurs a-priori: P(Ci):

on utilise P(Ci)p(x|Ci) comme des fonctions discriminantes

(2)

θ: vecteur de param `etres

Approche de maximum de vraisemblance

les param `etres sont fixes mais inconnus

maximiser la probabilit ´e des donn ´ees

Approche bayesienne

les param `etres sont al ´eatoires par nature

les donn ´ees sont utilis ´ees pour raffiner la distribution a-priori des param `etres

(3)

Principe de maximum de vraisemblance

le vraisemblance de θ par rapport `a Dn: p(Dn|θ) =

n

i=1

p(xi|θ)

fonction de log-vraisemblance:

l(θ) = ln p(Dn|θ) =

n

i=1

ln p(xi|θ)

(4)

Principe de maximum de vraisemblance

estimation de maximum de vraisemblance θ = arg max

θ

p(Dn|θ) = arg max

θ

n

i=1

p(xi|θ)

= arg max

θ

n i

=1

ln p(xi|θ) = arg max

θ

l(θ)

conditions n ´ecessaires:

θl(θ) =

n

i=1

θln p(xi|θ) =0

(5)

1 2 3 4 5 6 7

1 2 3 4 5 6 7

1 2 3 4 5 6 7

-100 -60 -40 -20

θ l(θ )

θ θ

0.4 x 10-7 0.8 x 10-7 1.2 x 10-7

θ p(D|θ )

x

-80

ˆ

ˆ

(6)

Le principe de minimisation du risque empirique

perte: L(x,p) =lnp(x)

risque: R(p) = Z p(x)lnp(x)dx

pour une densit ´e pquelconque: R(p) ≤R(p)

entropie:

H(p) =Z p(x)ln p(x)dx

“distance” de Kullback-Leibler:

d(p,p) =Z p(x)ln p(x) p(x)dx

(7)

Exemple: densit ´e normale, µ inconnu

µ= 1 n

n

i=1

xi

Exemple: densit ´e normale, µ , Σ inconnus

µ= 1 n

n

i=1

xi

Σ = 1 n

n i

=1

(xi−µ)(xi−µ)t

(8)

Estimation bayesienne

densit ´e a-priori connue: p(θ)

densit ´e a-posteriori p(θ|Dn) = “p(θ) +Dn

utilisation:

p(x|Dn) = Z p(x|θ)p(θ|Dn)dθ

= p(x|θ) o `u

θ = arg max

θ

p|Dn)

(9)

1

-4 -2 2 4

µ

1

30

20

5 10

0

(10)

Estimation bayesienne: cas normal

densit ´e a-posteriori p(µ|Dn) =?, p2|Dn) =?

cas univari ´e: p(x|µ) N(µ,σ2)

densit ´e a-priori p(µ) =N(µ0,σ20)

(11)

Estimation bayesienne: cas normal

th ´eor `eme de Bayes:

p(µ|Dn) = R p(Dn)p(µ)

p(Dn)p(µ)= α

n

i=1

p(xk)p(µ)

= 1

2πσn

exp

1 2

µ−µn

σn

2

o `u

µn =

nσ20

nσ202

2

µn+ σ2

nσ202µ0 σ2n = σ20σ2

nσ202

(12)

Estimation bayesienne: cas normal

densit ´e conditionnelle de classe

p(x|Dn) = Z p(x,µ|Dn)=Z p(x|µ,Dn)p(µ|Dn)

= Z p(x|µ)p(µ|Dn)

N(µn,σ22n)

(13)

Avantages de l’approche bayesienne

connaissances a-priori int ´egr ´ees doucement

tendance `a mieux fonctionner pour les petites donn ´ees

Avantages de l’approche de maximum de vraisemblance

simplicit ´e

interpr ´etabilit ´e

vitesse du calcul

Références

Documents relatifs

[r]

[r]

[r]

Interrogeons nous maintenant sur la fa¸con dont sont construits ces tests multidimensionnels, autrement dit sur la fa¸con dont sont obtenues les matrices E pour les erreurs du

Perdre ses photos de vacances : ¸ca n’a pas de

Puisque la fonction portera sur au moins deux classes il faudra commencer par d´ eclarer une premi`ere classe, sans la d´efinir, puis d´efinir la seconde (qui fera appel ` a

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on