C4. T
ESTS D’
HYPOTHÈSES,
APPROCHE BAYÉSIENNE
Julie Scholler - Bureau B246
avril 2020
En statistique bayésienne
Toute procédure de test peut être remplacée par une procédure d’estimation qui sera plus simple et plus informative.
I. Introduction
Exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibréePA(F) = 0.5
• Type B : pièce biaisée vers facePB(F) = 0.6
• Type C : pièce biaisée vers facePC(F) = 0.9 Sac avec 2 de typeA, 2 de typeB et 1 de typeC.
1. On choisit une pièce au hasard dans le sac.
Quelle est la probabilité de chaque type ?
2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.
On a obtenu face : quelle est la probabilité de chaque type ?
Résumé
Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H)×PH(D) PD(H)
A 0.4 0.5 0.2 0.3226
B 0.4 0.6 0.24 0.3871
C 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
PD(H) = PH(D)×P(H) P(D) = 1
P(D) ×PH(D)×P(H)
loi a priori mise à jour bayésienne
−−−−−−−−−−−−−→
à partir des données loi a posteriori
I. Introduction
Contrairement aux tests fréquentistes,
• on a PD(H)
• on peut avoir plus de deux hypothèses
• les hypothèses peuvent avoir des rôles similaires
Situation
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• H1 : la pièce est équilibrée
• H2 : la pièce est biaisée
On noteθla probabilité que la pièce donne face.
• H1 :θ= 1 2
• H2 :θ= 1
3 ouθ= 2 3
On a lancé 6 fois la pièce et obtenu 4 fois face.
II. Hypothèse(s) composite(s) avec a priori discret
Lois a priori et vraisemblances
Vraisemblances
• X|T =θ∼ Bin(6, θ) Lois a priori
• Sous H1,T|H1(Ω) ={0.5} i.ePH1(T = 0.5) = 1
• Sous H2,PH2(T =θ) =
0.5 si θ= 1 3 0.5 si θ= 2 3
P{X=4}(H1) etP{X=4}(H2) ?
P(H1) et P(H2) ?
Lois a priori et vraisemblances
Vraisemblances
• X|T =θ∼ Bin(6, θ) Lois a priori
• Sous H1,T|H1(Ω) ={0.5} i.ePH1(T = 0.5) = 1
• Sous H2,PH2(T =θ) =
0.5 si θ= 1 3 0.5 si θ= 2 3
P{X=4}(H1) etP{X=4}(H2) ?
P(H1) et P(H2) ?
II. Hypothèse(s) composite(s) avec a priori discret
Odds ratio
Odds ratio de E OR(E) = P(E) P(E) Odds ratio a priori deH1 contre H2
OR(H1;H2) = P(H1) P(H2) Odds ratio a posteriori de H1 contre H2
OR{X=x}(H1;H2) = P{X=x}(H1)
P{X=x}(H2) = PH1(X =x)
PH2(X =x) ×P(H1) P(H2)
Facteur de Bayes
Facteur de Bayes de H1 contre H2
Il s’agit du rapport des vraisemblances.
BF(H1;H2) = PH1(X =x) PH2(X =x)
Mise à jour de l’odds ratio
OR{X=x}(H1;H2) = BF(H1;H2)× OR(H1;H2) Odds ratio a posteriori = facteur de Bayes× Odds ratio a priori
II. Hypothèse(s) composite(s) avec a priori discret
Rapport d’un test bayésien
Conclusion
SiP{X=4}(H1)>P{X=4}(H2), on va accepterH1. Facteur de Bayes
Souvent on ne reporte pas la décision mais uniquement le facteur de Bayes.
• on peut le combiner à son propre a priori
• il fournit la puissance de la preuve fournie par les données
Probabilité a posteriori selon le facteur de Bayes P{X=x}(H1) =
1 +P(H2)
P(H1) × 1 BF(H1;H2)
−1
Échelle de Jeffreys
BF Force de la preuve BF <1 = 100 en faveur deH2
100<BF <1012 mérite à peine d’être mentionné 1012 <BF <101 conséquente
101<BF <1032 forte 1032 <BF <102 très forte
BF >102 décisive
II. Hypothèse(s) composite(s) avec a priori discret
Échelle de Kass et Raftery
2 ln(BF) BF Force de la preuve
entre 0 et 2 1<BF <3 mérite à peine d’être mentionné entre 2 et 6 3<BF <20 positive
entre 6 et 10 20<BF <150 forte supérieur à 10 BF >150 très forte
Point de vue : théorie de la décision
H1 :θ∈Θ1 etH2:θ∈Θ2
Décisions
d1 accepter H1(θ∈Θ1) d2 accepter H2(θ∈Θ2) Fonction de coût ou de perte
L(θ,di) =
0 siθ∈Θi 1 siθ /∈Θi
Décision optimale
minimiser le coût moyen (perte moyenne) :E(L(T,di)|X =x)
II. Hypothèse(s) composite(s) avec a priori discret
Point de vue : théorie de la décision
Coût 0-1
E(L(T,di)|X =x) =PX=x(T ∈/ Θi) On choisitd1 si
P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H1) P{X=x}(H2) >1
Coûts différents selon la décision
L(θ,di) =
0 si θ∈Θi
Ki si θ /∈Θi On choisitd1 si
P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H1) P{X=x}(H2) > K1
K2
Point de vue : théorie de la décision
Coût 0-1
E(L(T,di)|X =x) =PX=x(T ∈/ Θi) On choisitd1 si
P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H1) P{X=x}(H2) >1 Coûts différents selon la décision
L(θ,di) =
0 siθ∈Θi
Ki siθ /∈Θi On choisitd1 si
P{X=x}(T ∈/ Θ1)<PX=x(T ∈/ Θ2)⇔ P{X=x}(H1) P{X=x}(H2) > K1
K2
III. Hypothèse(s) composite(s) avec a priori continu
Situation
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• H1 : la pièce est équilibrée
• H2 : la pièce est biaisée
On noteθla probabilité que la pièce donne face.
• H1 :θ= 1 2
• H2 :θ6= 1 2
On a lancé 6 fois la pièce et obtenu 4 fois face.
III. Hypothèse(s) composite(s) avec a priori continu
Lois a priori et vraisemblances
Vraisemblances
• X|T =θ∼ Bin(6, θ) Lois a priori
• Sous H1,T|H1(Ω) ={0.5} i.ePH1(T = 0.5) = 1
• Sous H2,T|H2 ∼Beta(α, β) BF(H1;H2) ?
P{X=4}(H1) = ?
III. Hypothèse(s) composite(s) avec a priori continu
Lois a priori et vraisemblances
Vraisemblances
• X|T =θ∼ Bin(6, θ) Lois a priori
• Sous H1,T|H1(Ω) ={0.5} i.ePH1(T = 0.5) = 1
• Sous H2,T|H2 ∼Beta(α, β) BF(H1;H2) ?
P{X=4}(H1) = ?
Loi a priori non ou peu informative ?
Lois a priori
• Sous H1,T|H1(Ω) ={0.5} i.ePH1(T = 0.5) = 1
• Sous H3,T|H3 ∼Beta(α, β) Siα=β = 0 ?
Siα et β sont très petits ?
III. Hypothèse(s) composite(s) avec a priori continu
0 25 50 75 100
0.00 0.25 0.50 0.75 1.00
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
0 2 4 6 8
0.00 0.25 0.50 0.75 1.00
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
III. Hypothèse(s) composite(s) avec a priori continu
Contrairement à l’estimation bayésienne
• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif
• on peut à la place utiliser un a priori « neutre » très légèrement informatif
0 1 2 3
0 10 20 30 40 50
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
III. Hypothèse(s) composite(s) avec a priori continu
0 1 2 3
0.0 2.5 5.0 7.5 10.0
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
À variance connue
Hypothèses
• H1 :µ= 0
• H2 :µ6= 0 Vraisemblance
X|T =θ∼ N(θ;σ) avecσ connu (par exemple σ = 1)
Lois a priori
• sous H1,PH1(T = 0) = 1
• sous H2,T|H2 ∼ N(0;√ 10)
BF(H1;H2) ?
IV. Test de comparaison de moyenne à un standard
À variance connue - Cas général
Hypothèses
H1 :µ=m0 contreH2 :µ6=m0
Vraisemblance
X|T =θ∼ N(θ;σ) avecσ connu Lois a priori
• sous H1,PH1(T =m0) = 1
• sous H2,T|H2 ∼ N(m0;σ0) et on note n0= σ2
σ20 = τ0
τ (=PESS) Facteur de Bayes
BF(H1;H2) =
rn+n0
n exp
−1
2 × n
n+n0z2
avecz = x−m0
σ
0 25 50 75 100
0e+00 1e-04 2e-04 3e-04 4e-04
PESS
ba yes_facto r z
1.65 1.96 2.81 3.62
Impact du prior effective sample size
IV. Test de comparaison de moyenne à un standard
0 2 4 6 8
0e+00 1e-04 2e-04 3e-04 4e-04
PESS
ba yes_facto r z
1.65 1.96 2.81 3.62
Impact du prior effective sample size
Tests classiques vus
• comparaison d’une proportion à un standard
• comparaison d’une espérance à un standard à variance connue
Autres tests classiques
• comparaison d’une espérance à un standard à variance inconnue
• comparaison d’espérance entre deux échantillons appariés
• comparaison d’espérance entre deux échantillons indépendants
• Anova
• etc.
V. Conclusion
Contrairement aux tests fréquentistes
• on a PD(H)
• on peut avoir plus de deux hypothèses
• les hypothèses peuvent avoir des rôles similaires
Bonus
• prise en compte aisée de coût de mauvaise décision
• au lieu de reporter la décision, on peut fournir la puissance de la preuve fournie par les données
Contrairement à l’estimation bayésienne
• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif
• on peut à la place utiliser un a priori « neutre » très légèrement informatif