Diapos-C3-v0

(1)

C

AS D

’

UNE VRAISEMBLANCE CONTINUE Julie Scholler - Bureau B246

mars 2021

I. Introduction

Loi a priori continue et vraisemblance continue

Formalisme

• Loi a priori : f_T(θ)

• Vraisemblance : f_X_|T_=θ(x)

• Loi a posteriori : f_T_|X_=x(θ)

f_T_|X_=x(θ) = f_X_|T_=θ(x)× f_T(θ) f_X(x)

f_X(x)?

Loi a posteriori ∝ Vraisemblance × Loi a priori

(2)

Cas d’une vraisemblance exponentielle

On souhaite estimer le temps d’attente d’un bus.

• X|T = θ ∼ Exp(θ) Rappels : loi exponentielle

• Y ∼ Exp(θ)

• f_Y(x) = θe^−θx1[0;+∞[(x)

• E(Y) = 1

θ et V(Y) = 1 θ²

Loi a priori

• T(Ω) = R^∗+, loi de T ?

II. Vraisemblance exponentielle

Choix de la loi a priori

• T(Ω) = R^∗+

• loi du χ², loi exponentielle,...

Loi a priori exponentielle

• T(Ω) = R^∗+

• T ∼ Exp(λ)

• f_T(θ) = λe^−λθ1[0;+∞[(θ)

• X|T = θ ∼ Exp(θ)

• f_X_|T_=θ(x) = θe^−θx1[0;+∞[(x)

Loi a posteriori

f_T_|X_=x(θ) ∝ θe^−(λ+x^)θ1[0;+∞[(x)

(3)

Famille de lois Gamma

• α et β deux réels strictement positifs

• Y ∼ Gamma(α, β) Alors

• Y(Ω) = [0 ; +∞[

• f_Y(t) = c ×t^α−1e^−βt1[0;+∞[(t) avec c = β^α

Γ(α)

Rappel : si α ∈^∗_N, alors Γ(α) = (α −1)!

0.0 0.5 1.0 1.5

0 2 4 6

paramètres

(0.6,2) (1,1) (2,0.6) (2,2)

(4)

0.0 2.5 5.0 7.5 10.0

0 1 2 3

paramètres

(1,1) (1,10) (1,2) (1,4)

0 2 4 6

0.0 0.5 1.0 1.5 2.0

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(5)

Remarques

• Si X ∼ Exp(λ), alors X ∼ Gamma(1, λ)

• Si X ∼ χ²(ν), alors X ∼ Gamma ν

2; 1 2

• Si X ∼ N (0 ; 1), alors X² ∼ Gamma 1

2; 1 2

Caractéristiques

• α et β deux réels strictement positifs

• Y ∼ Gamma(α, β) Alors

• E(X) = α

β et V(X) = α β²

• Mode : α− 1

β si α > 1

0.0 0.5 1.0

0 2 4 6

paramètres

(1,1) (10,10) (2,2) (4,4)

(6)

Quelques propriétés de lois Gamma

Stabilité par addition

Soient Y₁ ∼ Γ(α₁, β) et Y₂ ∼ Γ(α₂, β), deux variables aléatoires indépendantes entre elles.

Alors on a

Y₁ +Y₂ ∼ Γ(α₁ + α₂, β) Changement d’échelle

Soient Y ∼ Γ(α, β) et λ ∈ R^∗+. Alors on a

λY ∼ Γ

α, β λ

Application

Soient X_i ∼ Exp(λ), i ∈ J1;nK. On a X ∼ Γ (n;nλ)

Retour au cas d’une vraisemblance exponentielle

Formalisme

• Loi a priori :T ∼ Γ(α, β), f_T(θ) ∝ θ^α−1e^−βθ1R^∗₊(θ)

• Vraisemblance : f_X_|T_=θ(x) = θe^−θx1R^∗₊(x)

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^αe^−β^(θ+x⁾1R^∗+(θ)

Mise à jour des paramètres

T|X = x ∼ Γ(α+ 1 ;β +x) Plusieurs observations

T|X₁ = x₁, . . . ,X_n = x_n ∼ Γ α +n;β +

n

X

i=1

x_i

!

(7)

Hyp. Don. A priori Vraisemb. A posteriori

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n− x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α +x ;β +n − x) θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Exp(θ) Γ α+ n ;β +

n

X

i=1

x_i

!

Situation

• Loi a priori :T ∼ Γ(α, β), f_T(θ) ∝ θ^α−1e^−βθ1R^∗+(θ)

• Vraisemblance : f_X_|T_=θ(x) = θe^−θx1_R^∗₊(x)

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^αe^−θ(β+x⁾1R^∗₊(θ) Espérances a priori et a posteriori

E(T) = α

β et E(T|X = x) = α+ n β + nx 1

E(T|X = x) = α

α +n × β

α + n

α+ n ×x

A priori effective sample size : α

(8)

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

Choix de la loi a priori

• Famille conjuguée : Γ(α, β)

• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

• Poids de la loi a priori : a priori effective sample size : α = 100 Loi a priori : T ∼ Γ(100 ; 1000)

• Écart type : σ_T =

√α

β = 0.01

• P 1

T ∈ [8.30; 12.29]

' 0.95 (obtention des quantiles avec R)

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

• Loi a priori : T ∼ Γ(100 ; 1000)

• Observation : X = 12

• Loi a posteriori : T|X = 12 ∼ Γ(101 ; 1012) Estimation : E(T|X = 12) = 101

1012 ' 0.0998 Estimation : 1

E(T|X = 12) ' 10.02

(9)

0 10 20 30 40

0.06 0.08 0.10 0.12 0.14

1 : Γ(101,1001) 12 : Γ(101,1012) 60 : Γ(101,1060) A priori : Γ(100,1000)

Loi a posteriori selon le temps d’attente

En fait, on est dans une ville dont on ne connaît pas le système de bus.

Choix d’un a priori moins fort

• Famille conjuguée : Γ(α, β)

• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

• Poids de la loi a priori : a priori effective sample size : α = 10 Loi a priori : T ∼ Γ(10 ; 100)

• Écart type : σ_T =

√α

β ' 0.03

• P 1

T ∈ [8.85; 20.85]

' 0.95

(10)

0 5 10 15 20

0.00 0.05 0.10 0.15 0.20 0.25

1 : Γ(11,101) 12 : Γ(11,112) 60 : Γ(11,160) A priori : Γ(10,100)

Loi a posteriori selon le temps d’attente

Utilisation de la loi a posteriori

On est dans une ville dont on ne connaît pas le système de bus.

• Loi a priori : T ∼ Γ(10 ; 100)

• Vraisemblance : X1|T = θ ∼ Exp(θ)

• Observation : x₁ = 12

• Loi a posteriori : T|X₁ = 12 ∼ Γ(11 ; 112) Je dois reprendre le bus le lendemain.

Quelle est la probabilité que j’attende à nouveau 12 min ou plus ? P[X₁=12](X₂ > 12) ? f_X₂_|X₁₌₁₂?

(11)

Choix d’une loi a priori non ou peu informative

Première idée

• charger uniformément toutes les valeurs possibles

• pseudo-loi uniforme sur R^∗+

f_T(θ) ∝ 1× 1R^∗+(θ)

• loi a priori impropre mais utilisable

« T ∼ Γ(1; 0) » et T|X = x ∼ Γ 1 + n;

n

X

i=1

x_i

!

• correspond à un prior effective sample size de 1

Choix d’une loi a priori non ou peu informative

Deuxième idée

• diminuer le prior effective sample size : α

• Γ(ε, ε) avec ε très petit

• cas limite : Γ(0 ; 0)

• f_T(θ) ∝θ⁻¹ mais

Z +∞

0

f_T(θ)dθ = +∞

• loi a priori impropre mais utilisable

• loi a posteriori : T|X =x ∼Γ n;

n

X

i=1

x_i

!

• Estimation : E(T|X = x) = 1

→ estimateur du maximum de vraisemblancex

(12)

Choix d’une loi a priori non ou peu informative

Troisième idée - à titre indicatif

• Loi a priori non informative de Jeffreys : f_T(θ) ∝ ^qI(θ)

• Pour une loi Exp(θ) : I(θ) = 1 θ² f_T(θ) ∝ 1

θ =⇒ T ∼ Γ (0; 0)

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n −x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α +x ;β + n− x) θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Exp(θ) Γ α+ n ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Γ (a ;θ) Γ α +na ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

P(θ) Γ α+

n

X

i=1

x_i ;β + n

!

(13)

Vraisemblance normale

Vraisemblance

Loi normale : X|T = θ ∼ N(θ;σ) avec σ connu f_X_,θ(x) = 1

√

2πσ²e⁻

1 2

(x−θ)2 σ2

Quelle loi conjuguée ? Loi a priori

Loi normale : T ∼ N(µ₀;σ₀) Loi a posteriori

f_T_|X_=x(t) ∝ e

−¹₂

(x−θ)2

σ2 +^(θ−µ⁰⁾

2 σ2

0

∝ e⁻

1

2(τ+τ₀)

θ−^τx_τ+τ^+τ⁰^µ⁰

0

2

avec τ = 1

σ² et τ₀ = 1 σ₀²

III. Vraisemblance normale

Résumé

• Loi a priori : T ∼ N(µ₀;σ₀)

• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu

• Loi a posteriori : T|X = x ∼ N (µ₁;σ₁) avec

µ₁ = τ₀µ₀ +τx τ₀ + τ =

µ₀

σ₀² + _σ^x₂

1

σ₀² + _σ¹2

et

σ₁ = 1

√τ₀ +τ = 1 q ₁

σ²₀ + _σ¹2

On a τ₁ = τ₀ +τ. Ainsi on a toujours σ₁ < σ₀

(14)

Application

• Loi a priori : T ∼ N(3; 1)

• Vraisemblance : X|T = θ ∼ N(θ; 1)

• Observation : x = 5 Loi a posteriori

Loi a posteriori : T|X = x ∼ N

3 + x 2 ; 1

√2

• Estimation : E(T|X = x) = 3 +x ici E(T|X = 5) = 42

• Intervalle de crédibilité pour θ à 95% :

4± 1.96× 1

√2

' [2.614; 5.386]

0 1 2 3 4 5 6 7

0.0 0.2 0.4 0.6 0.8

Mise à jour de la loi du paramètre θ

(15)

• Loi a priori : T ∼ N(µ₀;σ₀)

• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu Une observation

• Loi a posteriori : T|X = x ∼ N

τ₀µ₀ +τx

τ₀ + τ ; 1

√τ₀ +τ

Généralisation à n observations

• X_n = (X₁, . . . ,X_n) et x_n = (x₁, . . . ,x_n).

• Loi a posteriori : T|X_n = x_n ∼ N(µ_n;σ_n) avec

τ_n = τ₀ + nτ et µ_n = τ₀µ₀ + τ ^Pⁿ_i₌₁ x_i τ₀ + nτ

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ (x_i)_i_∈

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

x_i − n

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Exp(θ) Γ α +n ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Γ (a ;θ) Γ α+ na ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

P(θ) Γ α +

n

X

i=1

x_i ;β +n

!

θ (x_i)_i_∈

J1;nK N(µ₀;σ₀) N(θ;σ) N





µ0

σ₀² + n_σ^x2

1

σ₀² + _σⁿ₂ ; 1 q ₁

σ₀² + _σⁿ₂





(16)

Application

• Loi a priori : T ∼ N(3; 1)

• Vraisemblance : X|T = θ ∼ N(θ; 1)

• Observations : n = 15 et x = 5 Loi a posteriori

Loi a posteriori : T|X₁₅ = 5 ∼ N 39

8 ; 1 4

• Estimation :E

T

X₁₅ = 5 = 39

8 ' 4.875

• Intervalle de crédibilité pour θ à 95% : 39

8 ±1.96× 1 4

' [4.385; 5.365]

• Probabilité a posteriori : P_X₌₅ (T 6 4.5)' 0.067

0 1 2 3 4 5 6 7

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Mise à jour de la loi du paramètre θ

(17)

Poids de la loi a priori

µ_n = τ₀µ₀ +τ ^Pⁿ_i₌₁x_i

τ₀ +nτ = τ₀

τ₀ +nτ µ₀ + nτ τ₀ + nτx

=

τ0

τ τ₀

τ + nµ₀ + n

τ₀

τ + nx Prior effective sample size : τ₀

τ = σ² σ₀²

Choix de la loi a priori

A priori informatif

On se base sur les caractéristiques de la loi normale et des intervalles de fluctuation.

A priori non informatif Première idée

• on veut τ₀

τ = σ²

σ₀² très petit, c’est-à-dire σ²₀ très grand

• correspond au cas limite : N(µ₀; +∞)

• Posterior : T|X = x ∼ N

x; σ

√n

• Estimation : E

TX = x = x

Les autres idées classiques reviennent au même dans ce cadre.

• pseudo-loi uniforme sur R : f_T(θ) ∝ 1× 1R(θ)

• loi a priori non informative de Jeffreys

(18)

Loi normale à espérance connue

Vraisemblance

Loi normale : X|T = θ ∼ N µ;θ⁻¹² avec µ connu Loi a priori

Loi Gamma : T ∼ Γ(α;β), f_T(θ) ∝ θ^α−1e^−βθ1R⁺(θ) Loi a posteriori

Loi Gamma :

T|X₁ = x₁, . . . ,X_n = x_n ∼ Γ α+ n

2;β + P_n

i=1(x_i − µ)² 2

!

IV. Vraisemblance : exponentielle tronquée

Estimation du paramètre d’une exponentielle tronquée

X de densité f_X de paramètre θ inconnu

f_X(x) = e^θ−x1[θ;+∞[(x) On a observé 10 valeurs :

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 et on cherche à estimer θ.

(19)

Retour dans le monde fréquentiste

• θb= X − 1 : estimateur sans biais de θ (car E(X) = θ + 1)

• on a obtenu l’intervalle de confiance suivant : [9.40; 10.64]

Rappel des valeurs observées

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 On a forcément θ 6 9.2.

IV. Vraisemblance : exponentielle tronquée

Utilisation de la statistique bayésienne

• Loi a priori : f_T(θ) ∝ 1×1R(θ)

• Vraisemblance : f_X_|T_=θ(x) = e^θ−x1[θ;+∞[(x)

• Loi a posteriori : f_T_|X_=x(θ) ∝ e^θ−x1]−∞;x](θ) On répète n observations.

f_T_|X_n_=x_n(θ) ∝ e^n(θ−x⁾1]−∞;min(xi)](θ) Application

n = 10 et ^Xx_i = 110.2

f_T_|X_n_=x_n(θ) ∝ e^10θ−110.21]−∞;9.2](θ)

(20)

8.4 8.6 8.8 9.0 9.2 9.4 9.6

Intervalle de crédibilité à 95% (le plus court possible) : [8.9,9.2]