Diapos-C4

(1)

C4. T

ESTS D

’

HYPOTHÈSES

,

APPROCHE BAYÉSIENNE

Julie Scholler - Bureau B246

avril 2020

(2)

En statistique bayésienne

Toute procédure de test peut être remplacée par une procédure d’estimation qui sera plus simple et plus informative.

(3)

I. Introduction

Exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibréePA(F) = 0.5

• Type B : pièce biaisée vers facePB(F) = 0.6

• Type C : pièce biaisée vers facePC(F) = 0.9 Sac avec 2 de typeA, 2 de typeB et 1 de typeC.

1. On choisit une pièce au hasard dans le sac.

Quelle est la probabilité de chaque type ?

2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.

On a obtenu face : quelle est la probabilité de chaque type ?

(4)

Résumé

Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H)×PH(D) PD(H)

A 0.4 0.5 0.2 0.3226

B 0.4 0.6 0.24 0.3871

C 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

PD(H) = PH(D)×P(H) P(D) = 1

P(D) ×PH(D)×P(H)

loi a priori mise à jour bayésienne

−−−−−−−−−−−−−→

à partir des données loi a posteriori

(5)

I. Introduction

Contrairement aux tests fréquentistes,

• on a PD(H)

• on peut avoir plus de deux hypothèses

• les hypothèses peuvent avoir des rôles similaires

(6)

Situation

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• H₁ : la pièce est équilibrée

• H₂ : la pièce est biaisée

On noteθla probabilité que la pièce donne face.

• H1 :θ= 1 2

• H2 :θ= 1

3 ouθ= 2 3

On a lancé 6 fois la pièce et obtenu 4 fois face.

(7)

II. Hypothèse(s) composite(s) avec a priori discret

Lois a priori et vraisemblances

Vraisemblances

• X|T =θ∼ Bin(6, θ) Lois a priori

• Sous H₁,T|H₁(Ω) ={0.5} i.ePH1(T = 0.5) = 1

• Sous H2,PH2(T =θ) =







0.5 si θ= 1 3 0.5 si θ= 2 3

P{X=4}(H₁) etP{X=4}(H₂) ?

P(H1) et P(H2) ?

(8)

Lois a priori et vraisemblances

Vraisemblances

• Sous H₁,T|H₁(Ω) ={0.5} i.ePH1(T = 0.5) = 1

• Sous H2,PH2(T =θ) =







0.5 si θ= 1 3 0.5 si θ= 2 3

P{X=4}(H₁) etP{X=4}(H₂) ?

P(H1) et P(H2) ?

(9)

Odds ratio

Odds ratio de E OR(E) = P(E) P(E) Odds ratio a priori deH1 contre H2

OR(H₁;H₂) = P(H₁) P(H2) Odds ratio a posteriori de H₁ contre H₂

OR{X=x}(H1;H2) = P{X=x}(H₁)

P{X=x}(H2) = PH1(X =x)

PH2(X =x) ×P(H1) P(H2)

(10)

Facteur de Bayes

Facteur de Bayes de H1 contre H2

Il s’agit du rapport des vraisemblances.

BF(H₁;H₂) = PH1(X =x) PH2(X =x)

Mise à jour de l’odds ratio

OR_{X_=x_}(H₁;H₂) = BF(H₁;H₂)× OR(H₁;H₂) Odds ratio a posteriori = facteur de Bayes× Odds ratio a priori

(11)

Rapport d’un test bayésien

Conclusion

SiP{X=4}(H1)>P{X=4}(H2), on va accepterH1. Facteur de Bayes

Souvent on ne reporte pas la décision mais uniquement le facteur de Bayes.

• on peut le combiner à son propre a priori

• il fournit la puissance de la preuve fournie par les données

Probabilité a posteriori selon le facteur de Bayes P{X=x}(H₁) =

1 +P(H2)

P(H₁) × 1 BF(H₁;H₂)

−1

(12)

Échelle de Jeffreys

BF Force de la preuve BF <1 = 10⁰ en faveur deH2

10⁰<BF <10¹² mérite à peine d’être mentionné 10¹² <BF <10¹ conséquente

10¹<BF <10³² forte 10³² <BF <10² très forte

BF >10² décisive

(13)

Échelle de Kass et Raftery

2 ln(BF) BF Force de la preuve

entre 0 et 2 1<BF <3 mérite à peine d’être mentionné entre 2 et 6 3<BF <20 positive

entre 6 et 10 20<BF <150 forte supérieur à 10 BF >150 très forte

(14)

Point de vue : théorie de la décision

H₁ :θ∈Θ₁ etH₂:θ∈Θ₂

Décisions







d₁ accepter H₁(θ∈Θ₁) d₂ accepter H₂(θ∈Θ₂) Fonction de coût ou de perte

L(θ,di) =







0 siθ∈Θ_i 1 siθ /∈Θi

Décision optimale

minimiser le coût moyen (perte moyenne) :E(L(T,d_i)|X =x)

(15)

Point de vue : théorie de la décision

Coût 0-1

E(L(T,d_i)|X =x) =PX=x(T ∈/ Θ_i) On choisitd₁ si

P{X=x}(T ∈/ Θ₁)<PX=x(T ∈/ Θ₂)⇔ P{X=x}(H1) P{X=x}(H₂) >1

Coûts différents selon la décision

L(θ,d_i) =







0 si θ∈Θi

K_i si θ /∈Θ_i On choisitd1 si

P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H₁) P{X=x}(H2) > K1

K2

(16)

Point de vue : théorie de la décision

Coût 0-1

E(L(T,d_i)|X =x) =PX=x(T ∈/ Θ_i) On choisitd₁ si

P{X=x}(T ∈/ Θ₁)<PX=x(T ∈/ Θ₂)⇔ P{X=x}(H1) P{X=x}(H₂) >1 Coûts différents selon la décision

L(θ,d_i) =







0 siθ∈Θi

K_i siθ /∈Θ_i On choisitd1 si

P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H₁) P{X=x}(H2) > K1

K2

(17)

III. Hypothèse(s) composite(s) avec a priori continu

Situation

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• H₁ : la pièce est équilibrée

• H₂ : la pièce est biaisée

On noteθla probabilité que la pièce donne face.

• H1 :θ= 1 2

• H2 :θ6= 1 2

On a lancé 6 fois la pièce et obtenu 4 fois face.

(18)

Lois a priori et vraisemblances

Vraisemblances

• Sous H₁,T|H₁(Ω) ={0.5} i.ePH1(T = 0.5) = 1

• Sous H₂,T|H₂ ∼Beta(α, β) BF(H1;H2) ?

P{X=4}(H1) = ?

(19)

Lois a priori et vraisemblances

Vraisemblances

• Sous H₁,T|H₁(Ω) ={0.5} i.ePH1(T = 0.5) = 1

• Sous H₂,T|H₂ ∼Beta(α, β) BF(H1;H2) ?

P{X=4}(H1) = ?

(20)

Loi a priori non ou peu informative ?

Lois a priori

• Sous H1,T|H₁(Ω) ={0.5} i.ePH1(T = 0.5) = 1

• Sous H₃,T|H₃ ∼Beta(α, β) Siα=β = 0 ?

Siα et β sont très petits ?

(21)

0 25 50 75 100

0.00 0.25 0.50 0.75 1.00

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(22)

0 2 4 6 8

0.00 0.25 0.50 0.75 1.00

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(23)

Contrairement à l’estimation bayésienne

• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif

• on peut à la place utiliser un a priori « neutre » très légèrement informatif

(24)

0 1 2 3

0 10 20 30 40 50

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(25)

0 1 2 3

0.0 2.5 5.0 7.5 10.0

α

ba yes_facto r données

3 4 5 6

Cas d’une loi a priori Beta(α, α)

(26)

À variance connue

Hypothèses

• H₁ :µ= 0

• H₂ :µ6= 0 Vraisemblance

X|T =θ∼ N(θ;σ) avecσ connu (par exemple σ = 1)

Lois a priori

• sous H₁,PH1(T = 0) = 1

• sous H2,T|H₂ ∼ N(0;√ 10)

BF(H₁;H₂) ?

(27)

IV. Test de comparaison de moyenne à un standard

À variance connue - Cas général

Hypothèses

H1 :µ=m0 contreH2 :µ6=m0

Vraisemblance

X|T =θ∼ N(θ;σ) avecσ connu Lois a priori

• sous H₁,PH1(T =m₀) = 1

• sous H₂,T|H₂ ∼ N(m₀;σ₀) et on note n0= σ²

σ²₀ = τ0

τ (=PESS) Facteur de Bayes

BF(H1;H2) =

rn+n0

n exp

−1

2 × n

n+n₀z²

avecz = x−m0

σ

(28)

0 25 50 75 100

0e+00 1e-04 2e-04 3e-04 4e-04

PESS

ba yes_facto r z

1.65 1.96 2.81 3.62

Impact du prior effective sample size

(29)

IV. Test de comparaison de moyenne à un standard

0 2 4 6 8

0e+00 1e-04 2e-04 3e-04 4e-04

PESS

ba yes_facto r z

1.65 1.96 2.81 3.62

Impact du prior effective sample size

(30)

Tests classiques vus

• comparaison d’une proportion à un standard

• comparaison d’une espérance à un standard à variance connue

Autres tests classiques

• comparaison d’une espérance à un standard à variance inconnue

• comparaison d’espérance entre deux échantillons appariés

• comparaison d’espérance entre deux échantillons indépendants

• Anova

• etc.

(31)

V. Conclusion

Contrairement aux tests fréquentistes

• on a PD(H)

• on peut avoir plus de deux hypothèses

• les hypothèses peuvent avoir des rôles similaires

Bonus

• prise en compte aisée de coût de mauvaise décision

• au lieu de reporter la décision, on peut fournir la puissance de la preuve fournie par les données

Contrairement à l’estimation bayésienne

• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif

• on peut à la place utiliser un a priori « neutre » très légèrement informatif