• Objectif
• estimer la densit ´e p(x)
• ´etant donn ´e Dn = (X1,X2,...,Xn) tir ´e iid de p(x)
• Classification
• estimateurs a-posteriori: p(x|Ci):
• estimateurs a-priori: P(Ci):
• on utilise P(Ci)p(x|Ci) comme des fonctions discriminantes
• θ: vecteur de param `etres
• Approche de maximum de vraisemblance
• les param `etres sont fixes mais inconnus
• maximiser la probabilit ´e des donn ´ees
• Approche bayesienne
• les param `etres sont al ´eatoires par nature
• les donn ´ees sont utilis ´ees pour raffiner la distribution a-priori des param `etres
• Principe de maximum de vraisemblance
• le vraisemblance de θ par rapport `a Dn: p(Dn|θ) =
∏
ni=1
p(xi|θ)
• fonction de log-vraisemblance:
l(θ) = ln p(Dn|θ) =
∑
ni=1
ln p(xi|θ)
• Principe de maximum de vraisemblance
• estimation de maximum de vraisemblance θ = arg max
θ
p(Dn|θ) = arg max
θ
n
∏
i=1p(xi|θ)
= arg max
θ
n i
∑
=1ln p(xi|θ) = arg max
θ
l(θ)
• conditions n ´ecessaires:
θl(θ) =
∑
ni=1
θln p(xi|θ) =0
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
-100 -60 -40 -20
θ l(θ )
θ θ
0.4 x 10-7 0.8 x 10-7 1.2 x 10-7
θ p(D|θ )
x
-80
ˆ
ˆ
• Le principe de minimisation du risque empirique
• perte: L(x,p) =−lnp(x)
• risque: R(p) = −Z p(x)lnp(x)dx
• pour une densit ´e pquelconque: R(p) ≤R(p)
• entropie:
H(p) =−Z p(x)ln p(x)dx
• “distance” de Kullback-Leibler:
d(p,p) =−Z p(x)ln p(x) p(x)dx
• Exemple: densit ´e normale, µ inconnu
• µ= 1 n
n
∑
i=1xi
• Exemple: densit ´e normale, µ , Σ inconnus
• µ= 1 n
n
∑
i=1xi
• Σ = 1 n
n i
∑
=1(xi−µ)(xi−µ)t
• Estimation bayesienne
• densit ´e a-priori connue: p(θ)
• densit ´e a-posteriori p(θ|Dn) = “p(θ) +Dn”
• utilisation:
p(x|Dn) = Z p(x|θ)p(θ|Dn)dθ
= p(x|θ∗) o `u
θ∗ = arg max
θ
p(θ|Dn)
1
-4 -2 2 4
µ
1
30
20
5 10
0
• Estimation bayesienne: cas normal
• densit ´e a-posteriori p(µ|Dn) =?, p(σ2|Dn) =?
• cas univari ´e: p(x|µ)∼ N(µ,σ2)
• densit ´e a-priori p(µ) =N(µ0,σ20)
• Estimation bayesienne: cas normal
• th ´eor `eme de Bayes:
p(µ|Dn) = R p(Dn|µ)p(µ)
p(Dn|µ)p(µ)dµ= α
n
∏
i=1p(xk|µ)p(µ)
= 1
√2πσn
exp
−1 2
µ−µn
σn
2
o `u
µn =
nσ20
nσ20+σ2
2
µn+ σ2
nσ20+σ2µ0 σ2n = σ20σ2
nσ20+σ2
• Estimation bayesienne: cas normal
• densit ´e conditionnelle de classe
p(x|Dn) = Z p(x,µ|Dn)dµ=Z p(x|µ,Dn)p(µ|Dn)dµ
= Z p(x|µ)p(µ|Dn)dµ
∼ N(µn,σ2+σ2n)
• Avantages de l’approche bayesienne
• connaissances a-priori int ´egr ´ees doucement
• tendance `a mieux fonctionner pour les petites donn ´ees
• Avantages de l’approche de maximum de vraisemblance
• simplicit ´e
• interpr ´etabilit ´e
• vitesse du calcul