Diapos-C4

(1)

C4. T

ESTS D

’

HYPOTHÈSES

,

APPROCHE BAYÉSIENNE

Julie Scholler - Bureau B246

avril 2021

I. Introduction

En statistique bayésienne

Toute procédure de test peut être remplacée par une procédure d’estimation qui sera plus simple et plus informative.

(2)

I. Introduction

Exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibrée PA(F) = 0.5

• Type B : pièce biaisée vers face P^B(F) = 0.6

• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.

1. On choisit une pièce au hasard dans le sac.

Quelle est la probabilité de chaque type ?

2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.

On a obtenu face : quelle est la probabilité de chaque type ?

I. Introduction

Résumé

Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)

A 0.4 0.5 0.2 0.3226

B 0.4 0.6 0.24 0.3871

C 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

P^D(H) = P^H(D)× P(H)

P(D) = 1

P(D) ×P^H(D)× P(H)

loi a priori mise à jour bayésienne

−−−−−−−−−−−−−→

à partir des données loi a posteriori

(3)

I. Introduction

Contrairement aux tests fréquentistes,

• on a PD(H)

• on peut avoir plus de deux hypothèses

• les hypothèses peuvent avoir des rôles similaires

II. Hypothèse(s) composite(s) avec a priori discret

Situation

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• H₁ : la pièce est équilibrée

• H₂ : la pièce est biaisée

On note θ la probabilité que la pièce donne face.

• H₁ : θ = 1 2

• H₂ : θ = 1

3 ou θ = 2 3

On a lancé 6 fois la pièce et obtenu 4 fois face.

(4)

Lois a priori et vraisemblances

Vraisemblances

• X|T = θ ∼ Bin(6, θ) Lois a priori

• Sous H₁, T|H₁(Ω) = {0.5} i.e P^H1(T = 0.5) = 1

• Sous H₂, PH₂(T = θ) =







0.5 si θ = 1 3 0.5 si θ = 2 3

P{X=4}(H₁) et P{X=4}(H₂) ?

P(H₁) et P(H₂) ?

Odds ratio

Odds ratio de E OR(E) = P(E) P(E) Odds ratio a priori de H₁ contre H₂

OR(H₁;H₂) = P(H₁) P(H₂) Odds ratio a posteriori de H₁ contre H₂

OR_{X_=x_}(H₁;H₂) = P{X=x}(H₁)

P{X=x}(H₂) = PH₁(X = x)

P^H2(X = x) × P(H₁) P(H₂)

(5)

Facteur de Bayes

Facteur de Bayes de H₁ contre H₂ Il s’agit du rapport des vraisemblances.

BF(H₁;H₂) = PH₁(X = x) PH₂(X = x)

Mise à jour de l’odds ratio

OR_{X_=x_}(H₁;H₂) = BF(H₁;H₂)× OR(H₁;H₂) Odds ratio a posteriori = facteur de Bayes× Odds ratio a priori

Rapport d’un test bayésien

Conclusion

Si P{X=4}(H₁) > P{X=4}(H₂), on va accepter H₁.

Facteur de Bayes

Souvent on ne reporte pas la décision mais uniquement le facteur de Bayes.

• on peut le combiner à son propre a priori

• il fournit la puissance de la preuve fournie par les données

Probabilité a posteriori selon le facteur de Bayes P{X=x}(H₁) =

1 + P(H₂)

P(H₁) × 1

BF(H₁;H₂) −1

(6)

Échelle de Jeffreys

BF Force de la preuve BF < 1 = 10⁰ en faveur de H₂

10⁰ < BF < 10¹² mérite à peine d’être mentionné 10¹² < BF < 10¹ conséquente

10¹ < BF < 10³² forte 10³² < BF < 10² très forte

BF > 10² décisive

Échelle de Kass et Raftery

2 ln(BF) BF Force de la preuve

entre 0 et 2 1 < BF < 3 mérite à peine d’être mentionné entre 2 et 6 3 < BF < 20 positive

entre 6 et 10 20 < BF < 150 forte supérieur à 10 BF > 150 très forte

(7)

Point de vue : théorie de la décision

H₁ : θ ∈ Θ₁ et H₂ : θ ∈ Θ₂

Décisions







d₁ accepter H₁(θ ∈ Θ₁) d₂ accepter H₂(θ ∈ Θ₂) Fonction de coût ou de perte

L(θ,d_i) =







0 si θ ∈ Θ_i 1 si θ /∈ Θ_i

Décision optimale

minimiser le coût moyen (perte moyenne) : E(L(T,d_i)|X = x)

Point de vue : théorie de la décision

Coût 0-1

E(L(T,d_i)|X = x) = PX=x(T ∈/ Θ_i) On choisit d₁ si

P{X=x}(T ∈/ Θ₁) < PX=x(T ∈/ Θ₂) ⇔ P{X=x}(H₁) P{X=x}(H₂) > 1 Coûts différents selon la décision

L(θ,d_i) =







0 si θ ∈ Θ_i K_i si θ /∈ Θ_i On choisit d₁ si

K₁P{X=x}(T ∈/ Θ₁) < K₂PX=x(T ∈/ Θ₂) ⇔ P{X=x}(H₁)

P{X=x}(H₂) > K₁ K₂

(8)

III. Hypothèse(s) composite(s) avec a priori continu

Situation

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• H₁ : la pièce est équilibrée

• H₂ : la pièce est biaisée

On note θ la probabilité que la pièce donne face.

• H₁ : θ = 1 2

• H₂ : θ 6= 1 2

On a lancé 6 fois la pièce et obtenu 4 fois face.

Lois a priori et vraisemblances

Vraisemblances

• X|T = θ ∼ Bin(6, θ) Lois a priori

• Sous H1, T|H₁(Ω) = {0.5} i.e PH1(T = 0.5) = 1

• Sous H₂, T|H₂ ∼ Beta(α, β) BF(H₁;H₂) ?

P{X=4}(H₁) = ?

(9)

Loi a priori non ou peu informative ?

Lois a priori

• Sous H₁, T|H₁(Ω) = {0.5} i.e PH₁(T = 0.5) = 1

• Sous H₃, T|H₃ ∼ Beta(α, β) Si α = β = 0 ?

Si α et β sont très petits ?

0 25 50 75 100

0.00 0.25 0.50 0.75 1.00

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(10)

0 2 4 6 8

0.00 0.25 0.50 0.75 1.00

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

Contrairement à l’estimation bayésienne

• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif

• on peut à la place utiliser un a priori « neutre » très légèrement informatif

(11)

0 1 2 3

0 10 20 30 40 50

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

0 1 2 3

0.0 2.5 5.0 7.5 10.0

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(12)

IV. Test de comparaison de moyenne à un standard

À variance connue

Hypothèses

• H₁ : µ = 0

• H₂ : µ 6= 0 Vraisemblance

X|T = θ ∼ N(θ;σ) avec σ connu (par exemple σ = 1)

Lois a priori

• sous H₁, PH1(T = 0) = 1

• sous H₂, T|H₂ ∼ N(0;√ 10)

BF(H₁;H₂) ?

À variance connue - Cas général

Hypothèses

H₁ : µ = m₀ contre H₂ : µ 6= m₀

Vraisemblance

X|T = θ ∼ N(θ;σ) avec σ connu Lois a priori

• sous H₁, PH1(T = m₀) = 1

• sous H₂, T|H₂ ∼ N(m₀;σ₀) et on note n₀ = σ²

σ₀² = τ₀

τ (= PESS) Facteur de Bayes

BF(H₁;H₂) =

rn +n₀ n exp

−1

2 × n

n + n₀z²

avec z = x − m₀ σ

(13)

0 25 50 75 100

0e+00 1e-04 2e-04 3e-04 4e-04

PESS

ba yes_facto r z

1.65 1.96 2.81 3.62

Impact du prior effective sample size

0 2 4 6 8

0e+00 1e-04 2e-04 3e-04 4e-04

PESS

ba yes_facto r z

1.65 1.96 2.81 3.62

Impact du prior effective sample size

(14)

V. Conclusion

Tests classiques vus

• comparaison d’une proportion à un standard

• comparaison d’une espérance à un standard à variance connue

Autres tests classiques

• comparaison d’une espérance à un standard à variance inconnue

• comparaison d’espérance entre deux échantillons appariés

• comparaison d’espérance entre deux échantillons indépendants

• Anova

• etc.

V. Conclusion

Contrairement aux tests fréquentistes

• on a PD(H)

• on peut avoir plus de deux hypothèses

• les hypothèses peuvent avoir des rôles similaires

Bonus

• prise en compte aisée de coût de mauvaise décision

• au lieu de reporter la décision, on peut fournir la puissance de la preuve fournie par les données

Contrairement à l’estimation bayésienne

• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif

• on peut à la place utiliser un a priori « neutre » très légèrement informatif