C
AS D’
UNE VRAISEMBLANCE CONTINUE Julie Scholler - Bureau B246mars 2021
I. Introduction
Loi a priori continue et vraisemblance continue
Formalisme
• Loi a priori : fT(θ)
• Vraisemblance : fX|T=θ(x)
• Loi a posteriori : fT|X=x(θ)
fT|X=x(θ) = fX|T=θ(x)× fT(θ) fX(x)
fX(x)?
Loi a posteriori ∝ Vraisemblance × Loi a priori
Cas d’une vraisemblance exponentielle
On souhaite estimer le temps d’attente d’un bus.
• X|T = θ ∼ Exp(θ) Rappels : loi exponentielle
• Y ∼ Exp(θ)
• fY(x) = θe−θx1[0;+∞[(x)
• E(Y) = 1
θ et V(Y) = 1 θ2
Loi a priori
• T(Ω) = R∗+, loi de T ?
II. Vraisemblance exponentielle
Choix de la loi a priori
• T(Ω) = R∗+
• loi du χ2, loi exponentielle,...
Loi a priori exponentielle
• T(Ω) = R∗+
• T ∼ Exp(λ)
• fT(θ) = λe−λθ1[0;+∞[(θ)
• X|T = θ ∼ Exp(θ)
• fX|T=θ(x) = θe−θx1[0;+∞[(x)
Loi a posteriori
fT|X=x(θ) ∝ θe−(λ+x)θ1[0;+∞[(x)
Famille de lois Gamma
• α et β deux réels strictement positifs
• Y ∼ Gamma(α, β) Alors
• Y(Ω) = [0 ; +∞[
• fY(t) = c ×tα−1e−βt1[0;+∞[(t) avec c = βα
Γ(α)
Rappel : si α ∈∗N, alors Γ(α) = (α −1)!
II. Vraisemblance exponentielle
0.0 0.5 1.0 1.5
0 2 4 6
paramètres
(0.6,2) (1,1) (2,0.6) (2,2)
0.0 2.5 5.0 7.5 10.0
0 1 2 3
paramètres
(1,1) (1,10) (1,2) (1,4)
II. Vraisemblance exponentielle
0 2 4 6
0.0 0.5 1.0 1.5 2.0
paramètres
(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)
Remarques
• Si X ∼ Exp(λ), alors X ∼ Gamma(1, λ)
• Si X ∼ χ2(ν), alors X ∼ Gamma ν
2; 1 2
• Si X ∼ N (0 ; 1), alors X2 ∼ Gamma 1
2; 1 2
Caractéristiques
• α et β deux réels strictement positifs
• Y ∼ Gamma(α, β) Alors
• E(X) = α
β et V(X) = α β2
• Mode : α− 1
β si α > 1
II. Vraisemblance exponentielle
0.0 0.5 1.0
0 2 4 6
paramètres
(1,1) (10,10) (2,2) (4,4)
Quelques propriétés de lois Gamma
Stabilité par addition
Soient Y1 ∼ Γ(α1, β) et Y2 ∼ Γ(α2, β), deux variables aléatoires indépendantes entre elles.
Alors on a
Y1 +Y2 ∼ Γ(α1 + α2, β) Changement d’échelle
Soient Y ∼ Γ(α, β) et λ ∈ R∗+. Alors on a
λY ∼ Γ
α, β λ
Application
Soient Xi ∼ Exp(λ), i ∈ J1;nK. On a X ∼ Γ (n;nλ)
II. Vraisemblance exponentielle
Retour au cas d’une vraisemblance exponentielle
Formalisme
• Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R∗+(θ)
• Vraisemblance : fX|T=θ(x) = θe−θx1R∗+(x)
• Loi a posteriori : fT|X=x(θ) ∝ θαe−β(θ+x)1R∗+(θ)
Mise à jour des paramètres
T|X = x ∼ Γ(α+ 1 ;β +x) Plusieurs observations
T|X1 = x1, . . . ,Xn = xn ∼ Γ α +n;β +
n
X
i=1
xi
!
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n− x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α +x ;β +n − x) θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Exp(θ) Γ α+ n ;β +
n
X
i=1
xi
!
II. Vraisemblance exponentielle
Situation
• Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R∗+(θ)
• Vraisemblance : fX|T=θ(x) = θe−θx1R∗+(x)
• Loi a posteriori : fT|X=x(θ) ∝ θαe−θ(β+x)1R∗+(θ) Espérances a priori et a posteriori
E(T) = α
β et E(T|X = x) = α+ n β + nx 1
E(T|X = x) = α
α +n × β
α + n
α+ n ×x
A priori effective sample size : α
Retour à l’arrêt de bus
On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.
Choix de la loi a priori
• Famille conjuguée : Γ(α, β)
• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β
• Poids de la loi a priori : a priori effective sample size : α = 100 Loi a priori : T ∼ Γ(100 ; 1000)
• Écart type : σT =
√α
β = 0.01
• P 1
T ∈ [8.30; 12.29]
' 0.95 (obtention des quantiles avec R)
II. Vraisemblance exponentielle
Retour à l’arrêt de bus
On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.
• Loi a priori : T ∼ Γ(100 ; 1000)
• Observation : X = 12
• Loi a posteriori : T|X = 12 ∼ Γ(101 ; 1012) Estimation : E(T|X = 12) = 101
1012 ' 0.0998 Estimation : 1
E(T|X = 12) ' 10.02
0 10 20 30 40
0.06 0.08 0.10 0.12 0.14
1 : Γ(101,1001) 12 : Γ(101,1012) 60 : Γ(101,1060) A priori : Γ(100,1000)
Loi a posteriori selon le temps d’attente
II. Vraisemblance exponentielle
En fait, on est dans une ville dont on ne connaît pas le système de bus.
Choix d’un a priori moins fort
• Famille conjuguée : Γ(α, β)
• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β
• Poids de la loi a priori : a priori effective sample size : α = 10 Loi a priori : T ∼ Γ(10 ; 100)
• Écart type : σT =
√α
β ' 0.03
• P 1
T ∈ [8.85; 20.85]
' 0.95
0 5 10 15 20
0.00 0.05 0.10 0.15 0.20 0.25
1 : Γ(11,101) 12 : Γ(11,112) 60 : Γ(11,160) A priori : Γ(10,100)
Loi a posteriori selon le temps d’attente
II. Vraisemblance exponentielle
Utilisation de la loi a posteriori
On est dans une ville dont on ne connaît pas le système de bus.
• Loi a priori : T ∼ Γ(10 ; 100)
• Vraisemblance : X1|T = θ ∼ Exp(θ)
• Observation : x1 = 12
• Loi a posteriori : T|X1 = 12 ∼ Γ(11 ; 112) Je dois reprendre le bus le lendemain.
Quelle est la probabilité que j’attende à nouveau 12 min ou plus ? P[X1=12](X2 > 12) ? fX2|X1=12?
Choix d’une loi a priori non ou peu informative
Première idée
• charger uniformément toutes les valeurs possibles
• pseudo-loi uniforme sur R∗+
fT(θ) ∝ 1× 1R∗+(θ)
• loi a priori impropre mais utilisable
« T ∼ Γ(1; 0) » et T|X = x ∼ Γ 1 + n;
n
X
i=1
xi
!
• correspond à un prior effective sample size de 1
II. Vraisemblance exponentielle
Choix d’une loi a priori non ou peu informative
Deuxième idée
• diminuer le prior effective sample size : α
• Γ(ε, ε) avec ε très petit
• cas limite : Γ(0 ; 0)
• fT(θ) ∝θ−1 mais
Z +∞
0
fT(θ)dθ = +∞
• loi a priori impropre mais utilisable
• loi a posteriori : T|X =x ∼Γ n;
n
X
i=1
xi
!
• Estimation : E(T|X = x) = 1
→ estimateur du maximum de vraisemblancex
Choix d’une loi a priori non ou peu informative
Troisième idée - à titre indicatif
• Loi a priori non informative de Jeffreys : fT(θ) ∝ qI(θ)
• Pour une loi Exp(θ) : I(θ) = 1 θ2 fT(θ) ∝ 1
θ =⇒ T ∼ Γ (0; 0)
II. Vraisemblance exponentielle
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n −x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α +x ;β + n− x) θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Exp(θ) Γ α+ n ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Γ (a ;θ) Γ α +na ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
P(θ) Γ α+
n
X
i=1
xi ;β + n
!
Vraisemblance normale
Vraisemblance
Loi normale : X|T = θ ∼ N(θ;σ) avec σ connu fX,θ(x) = 1
√
2πσ2e−
1 2
(x−θ)2 σ2
Quelle loi conjuguée ? Loi a priori
Loi normale : T ∼ N(µ0;σ0) Loi a posteriori
fT|X=x(t) ∝ e
−12
(x−θ)2
σ2 +(θ−µ0)
2 σ2
0
∝ e−
1
2(τ+τ0)
θ−τxτ+τ+τ0µ0
0
2
avec τ = 1
σ2 et τ0 = 1 σ02
III. Vraisemblance normale
Résumé
• Loi a priori : T ∼ N(µ0;σ0)
• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu
• Loi a posteriori : T|X = x ∼ N (µ1;σ1) avec
µ1 = τ0µ0 +τx τ0 + τ =
µ0
σ02 + σx2
1
σ02 + σ12
et
σ1 = 1
√τ0 +τ = 1 q 1
σ20 + σ12
On a τ1 = τ0 +τ. Ainsi on a toujours σ1 < σ0
Application
• Loi a priori : T ∼ N(3; 1)
• Vraisemblance : X|T = θ ∼ N(θ; 1)
• Observation : x = 5 Loi a posteriori
Loi a posteriori : T|X = x ∼ N
3 + x 2 ; 1
√2
• Estimation : E(T|X = x) = 3 +x ici E(T|X = 5) = 42
• Intervalle de crédibilité pour θ à 95% :
4± 1.96× 1
√2
' [2.614; 5.386]
III. Vraisemblance normale
0 1 2 3 4 5 6 7
0.0 0.2 0.4 0.6 0.8
Mise à jour de la loi du paramètre θ
• Loi a priori : T ∼ N(µ0;σ0)
• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu Une observation
• Loi a posteriori : T|X = x ∼ N
τ0µ0 +τx
τ0 + τ ; 1
√τ0 +τ
Généralisation à n observations
• Xn = (X1, . . . ,Xn) et xn = (x1, . . . ,xn).
• Loi a posteriori : T|Xn = xn ∼ N(µn;σn) avec
τn = τ0 + nτ et µn = τ0µ0 + τ Pni=1 xi τ0 + nτ
III. Vraisemblance normale
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ (xi)i∈
J1;nK Beta (α ;β)
n
Y
i=1
G(θ) Beta α +n ;β +
n
X
i=1
xi − n
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Exp(θ) Γ α +n ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Γ (a ;θ) Γ α+ na ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
P(θ) Γ α +
n
X
i=1
xi ;β +n
!
θ (xi)i∈
J1;nK N(µ0;σ0) N(θ;σ) N
µ0
σ02 + nσx2
1
σ02 + σn2 ; 1 q 1
σ02 + σn2
Application
• Loi a priori : T ∼ N(3; 1)
• Vraisemblance : X|T = θ ∼ N(θ; 1)
• Observations : n = 15 et x = 5 Loi a posteriori
Loi a posteriori : T|X15 = 5 ∼ N 39
8 ; 1 4
• Estimation :E
T
X15 = 5 = 39
8 ' 4.875
• Intervalle de crédibilité pour θ à 95% : 39
8 ±1.96× 1 4
' [4.385; 5.365]
• Probabilité a posteriori : PX=5 (T 6 4.5)' 0.067
III. Vraisemblance normale
0 1 2 3 4 5 6 7
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Mise à jour de la loi du paramètre θ
Poids de la loi a priori
µn = τ0µ0 +τ Pni=1xi
τ0 +nτ = τ0
τ0 +nτ µ0 + nτ τ0 + nτx
=
τ0
τ τ0
τ + nµ0 + n
τ0
τ + nx Prior effective sample size : τ0
τ = σ2 σ02
III. Vraisemblance normale
Choix de la loi a priori
A priori informatif
On se base sur les caractéristiques de la loi normale et des intervalles de fluctuation.
A priori non informatif Première idée
• on veut τ0
τ = σ2
σ02 très petit, c’est-à-dire σ20 très grand
• correspond au cas limite : N(µ0; +∞)
• Posterior : T|X = x ∼ N
x; σ
√n
• Estimation : E
TX = x = x
Les autres idées classiques reviennent au même dans ce cadre.
• pseudo-loi uniforme sur R : fT(θ) ∝ 1× 1R(θ)
• loi a priori non informative de Jeffreys
Loi normale à espérance connue
Vraisemblance
Loi normale : X|T = θ ∼ N µ;θ−12 avec µ connu Loi a priori
Loi Gamma : T ∼ Γ(α;β), fT(θ) ∝ θα−1e−βθ1R+(θ) Loi a posteriori
Loi Gamma :
T|X1 = x1, . . . ,Xn = xn ∼ Γ α+ n
2;β + Pn
i=1(xi − µ)2 2
!
IV. Vraisemblance : exponentielle tronquée
Estimation du paramètre d’une exponentielle tronquée
X de densité fX de paramètre θ inconnu
fX(x) = eθ−x1[θ;+∞[(x) On a observé 10 valeurs :
9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 et on cherche à estimer θ.
Retour dans le monde fréquentiste
• θb= X − 1 : estimateur sans biais de θ (car E(X) = θ + 1)
• on a obtenu l’intervalle de confiance suivant : [9.40; 10.64]
Rappel des valeurs observées
9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 On a forcément θ 6 9.2.
IV. Vraisemblance : exponentielle tronquée
Utilisation de la statistique bayésienne
• Loi a priori : fT(θ) ∝ 1×1R(θ)
• Vraisemblance : fX|T=θ(x) = eθ−x1[θ;+∞[(x)
• Loi a posteriori : fT|X=x(θ) ∝ eθ−x1]−∞;x](θ) On répète n observations.
fT|Xn=xn(θ) ∝ en(θ−x)1]−∞;min(xi)](θ) Application
n = 10 et Xxi = 110.2
fT|Xn=xn(θ) ∝ e10θ−110.21]−∞;9.2](θ)
8.4 8.6 8.8 9.0 9.2 9.4 9.6
Intervalle de crédibilité à 95% (le plus court possible) : [8.9,9.2]