C4. T
ESTS D’
HYPOTHÈSES,
APPROCHE BAYÉSIENNE
Julie Scholler - Bureau B246
avril 2021
I. Introduction
En statistique bayésienne
Toute procédure de test peut être remplacée par une procédure d’estimation qui sera plus simple et plus informative.
I. Introduction
Exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibrée PA(F) = 0.5
• Type B : pièce biaisée vers face PB(F) = 0.6
• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.
1. On choisit une pièce au hasard dans le sac.
Quelle est la probabilité de chaque type ?
2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.
On a obtenu face : quelle est la probabilité de chaque type ?
I. Introduction
Résumé
Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)
A 0.4 0.5 0.2 0.3226
B 0.4 0.6 0.24 0.3871
C 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
PD(H) = PH(D)× P(H)
P(D) = 1
P(D) ×PH(D)× P(H)
loi a priori mise à jour bayésienne
−−−−−−−−−−−−−→
à partir des données loi a posteriori
I. Introduction
Contrairement aux tests fréquentistes,
• on a PD(H)
• on peut avoir plus de deux hypothèses
• les hypothèses peuvent avoir des rôles similaires
II. Hypothèse(s) composite(s) avec a priori discret
Situation
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• H1 : la pièce est équilibrée
• H2 : la pièce est biaisée
On note θ la probabilité que la pièce donne face.
• H1 : θ = 1 2
• H2 : θ = 1
3 ou θ = 2 3
On a lancé 6 fois la pièce et obtenu 4 fois face.
II. Hypothèse(s) composite(s) avec a priori discret
Lois a priori et vraisemblances
Vraisemblances
• X|T = θ ∼ Bin(6, θ) Lois a priori
• Sous H1, T|H1(Ω) = {0.5} i.e PH1(T = 0.5) = 1
• Sous H2, PH2(T = θ) =
0.5 si θ = 1 3 0.5 si θ = 2 3
P{X=4}(H1) et P{X=4}(H2) ?
P(H1) et P(H2) ?
II. Hypothèse(s) composite(s) avec a priori discret
Odds ratio
Odds ratio de E OR(E) = P(E) P(E) Odds ratio a priori de H1 contre H2
OR(H1;H2) = P(H1) P(H2) Odds ratio a posteriori de H1 contre H2
OR{X=x}(H1;H2) = P{X=x}(H1)
P{X=x}(H2) = PH1(X = x)
PH2(X = x) × P(H1) P(H2)
II. Hypothèse(s) composite(s) avec a priori discret
Facteur de Bayes
Facteur de Bayes de H1 contre H2 Il s’agit du rapport des vraisemblances.
BF(H1;H2) = PH1(X = x) PH2(X = x)
Mise à jour de l’odds ratio
OR{X=x}(H1;H2) = BF(H1;H2)× OR(H1;H2) Odds ratio a posteriori = facteur de Bayes× Odds ratio a priori
II. Hypothèse(s) composite(s) avec a priori discret
Rapport d’un test bayésien
Conclusion
Si P{X=4}(H1) > P{X=4}(H2), on va accepter H1.
Facteur de Bayes
Souvent on ne reporte pas la décision mais uniquement le facteur de Bayes.
• on peut le combiner à son propre a priori
• il fournit la puissance de la preuve fournie par les données
Probabilité a posteriori selon le facteur de Bayes P{X=x}(H1) =
1 + P(H2)
P(H1) × 1
BF(H1;H2) −1
II. Hypothèse(s) composite(s) avec a priori discret
Échelle de Jeffreys
BF Force de la preuve BF < 1 = 100 en faveur de H2
100 < BF < 1012 mérite à peine d’être mentionné 1012 < BF < 101 conséquente
101 < BF < 1032 forte 1032 < BF < 102 très forte
BF > 102 décisive
II. Hypothèse(s) composite(s) avec a priori discret
Échelle de Kass et Raftery
2 ln(BF) BF Force de la preuve
entre 0 et 2 1 < BF < 3 mérite à peine d’être mentionné entre 2 et 6 3 < BF < 20 positive
entre 6 et 10 20 < BF < 150 forte supérieur à 10 BF > 150 très forte
II. Hypothèse(s) composite(s) avec a priori discret
Point de vue : théorie de la décision
H1 : θ ∈ Θ1 et H2 : θ ∈ Θ2
Décisions
d1 accepter H1(θ ∈ Θ1) d2 accepter H2(θ ∈ Θ2) Fonction de coût ou de perte
L(θ,di) =
0 si θ ∈ Θi 1 si θ /∈ Θi
Décision optimale
minimiser le coût moyen (perte moyenne) : E(L(T,di)|X = x)
II. Hypothèse(s) composite(s) avec a priori discret
Point de vue : théorie de la décision
Coût 0-1
E(L(T,di)|X = x) = PX=x(T ∈/ Θi) On choisit d1 si
P{X=x}(T ∈/ Θ1) < PX=x(T ∈/ Θ2) ⇔ P{X=x}(H1) P{X=x}(H2) > 1 Coûts différents selon la décision
L(θ,di) =
0 si θ ∈ Θi Ki si θ /∈ Θi On choisit d1 si
K1P{X=x}(T ∈/ Θ1) < K2PX=x(T ∈/ Θ2) ⇔ P{X=x}(H1)
P{X=x}(H2) > K1 K2
III. Hypothèse(s) composite(s) avec a priori continu
Situation
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• H1 : la pièce est équilibrée
• H2 : la pièce est biaisée
On note θ la probabilité que la pièce donne face.
• H1 : θ = 1 2
• H2 : θ 6= 1 2
On a lancé 6 fois la pièce et obtenu 4 fois face.
III. Hypothèse(s) composite(s) avec a priori continu
Lois a priori et vraisemblances
Vraisemblances
• X|T = θ ∼ Bin(6, θ) Lois a priori
• Sous H1, T|H1(Ω) = {0.5} i.e PH1(T = 0.5) = 1
• Sous H2, T|H2 ∼ Beta(α, β) BF(H1;H2) ?
P{X=4}(H1) = ?
III. Hypothèse(s) composite(s) avec a priori continu
Loi a priori non ou peu informative ?
Lois a priori
• Sous H1, T|H1(Ω) = {0.5} i.e PH1(T = 0.5) = 1
• Sous H3, T|H3 ∼ Beta(α, β) Si α = β = 0 ?
Si α et β sont très petits ?
III. Hypothèse(s) composite(s) avec a priori continu
0 25 50 75 100
0.00 0.25 0.50 0.75 1.00
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
III. Hypothèse(s) composite(s) avec a priori continu
0 2 4 6 8
0.00 0.25 0.50 0.75 1.00
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
III. Hypothèse(s) composite(s) avec a priori continu
Contrairement à l’estimation bayésienne
• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif
• on peut à la place utiliser un a priori « neutre » très légèrement informatif
III. Hypothèse(s) composite(s) avec a priori continu
0 1 2 3
0 10 20 30 40 50
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
III. Hypothèse(s) composite(s) avec a priori continu
0 1 2 3
0.0 2.5 5.0 7.5 10.0
α
ba yes_facto r données
3 4 5 6
Cas d’une loi a priori Beta(α, α)
IV. Test de comparaison de moyenne à un standard
À variance connue
Hypothèses
• H1 : µ = 0
• H2 : µ 6= 0 Vraisemblance
X|T = θ ∼ N(θ;σ) avec σ connu (par exemple σ = 1)
Lois a priori
• sous H1, PH1(T = 0) = 1
• sous H2, T|H2 ∼ N(0;√ 10)
BF(H1;H2) ?
IV. Test de comparaison de moyenne à un standard
À variance connue - Cas général
Hypothèses
H1 : µ = m0 contre H2 : µ 6= m0
Vraisemblance
X|T = θ ∼ N(θ;σ) avec σ connu Lois a priori
• sous H1, PH1(T = m0) = 1
• sous H2, T|H2 ∼ N(m0;σ0) et on note n0 = σ2
σ02 = τ0
τ (= PESS) Facteur de Bayes
BF(H1;H2) =
rn +n0 n exp
−1
2 × n
n + n0z2
avec z = x − m0 σ
IV. Test de comparaison de moyenne à un standard
0 25 50 75 100
0e+00 1e-04 2e-04 3e-04 4e-04
PESS
ba yes_facto r z
1.65 1.96 2.81 3.62
Impact du prior effective sample size
IV. Test de comparaison de moyenne à un standard
0 2 4 6 8
0e+00 1e-04 2e-04 3e-04 4e-04
PESS
ba yes_facto r z
1.65 1.96 2.81 3.62
Impact du prior effective sample size
V. Conclusion
Tests classiques vus
• comparaison d’une proportion à un standard
• comparaison d’une espérance à un standard à variance connue
Autres tests classiques
• comparaison d’une espérance à un standard à variance inconnue
• comparaison d’espérance entre deux échantillons appariés
• comparaison d’espérance entre deux échantillons indépendants
• Anova
• etc.
V. Conclusion
Contrairement aux tests fréquentistes
• on a PD(H)
• on peut avoir plus de deux hypothèses
• les hypothèses peuvent avoir des rôles similaires
Bonus
• prise en compte aisée de coût de mauvaise décision
• au lieu de reporter la décision, on peut fournir la puissance de la preuve fournie par les données
Contrairement à l’estimation bayésienne
• on ne peut pas utiliser d’a priori non informatif ou trop peu informatif
• on peut à la place utiliser un a priori « neutre » très légèrement informatif