C2. E
STIMATION BAYÉSIENNE D’
UNE PROPORTIONJulie Scholler - Bureau B246
février 2021
I. Introduction
Philosophie
Statistique Fréquentiste
• paramètre θ inconnu considéré comme déterministe
• estimation menée en considérant que l’on ignore tout de θ à part son support
Statistique Bayésienne
• paramètre θ inconnu considéré comme aléatoire
• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ
• expériences similaires
• avis d’expert du phénomène
I. Introduction
Principe
Paramètre θ inconnu
• considéré comme une variable aléatoire T θ : réalisation de T
• nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))
En réalité, le paramètre n’est pas aléatoire.
Cette méthode est une façon de modéliser nos « croyances » en faisant comme s’il était aléatoire.
I. Introduction
Exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibrée PA(F) = 0.5
• Type B : pièce biaisée vers face PB(F) = 0.6
• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.
1. On choisit une pièce au hasard dans le sac.
Quelle est la probabilité de chaque type ?
2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.
On a obtenu face : quelle est la probabilité de chaque type ?
I. Introduction
Résumé
Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)
A 0.4 0.5 0.2 0.3226
B 0.4 0.6 0.24 0.3871
C 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
PD(H) = PH(D)× P(H)
P(D) = 1
P(D) ×PH(D)× P(H)
loi a priori mise à jour bayésienne
−−−−−−−−−−−−−→
à partir des données loi a posteriori
II. Loi a priori discrète et finie
Paramètre θ inconnu
• on le considère comme une variable aléatoire T θ : réalisation de T
• nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))
Quand la loi de T est à support discret fini, on peut procéder avec un tableau de mise à jour comme précédemment.
II. Loi a priori discrète et finie
Retour sur l’exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibrée PA(F) = 0.5
• Type B : pièce biaisée vers face PB(F) = 0.6
• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C. On choisit une pièce au hasard et on la lance une fois.
On note
• T la variable aléatoire correspondant à la probabilité d’avoir face lors d’un lancer pour la pièce choisie ;
• X la variable aléatoire qui vaut 1 si on obtient face.
Loi de T ? Loi de X ?
II. Loi a priori discrète et finie
P{X=x}(T = θ) = P{T=θ}(X = x)× P(T = θ) P(X = x)
= 1
P(X = x) × P{T=θ}(X = x)× P(T = θ) loi a posteriori ∝ vraisemblance×loi a priori
∝ signifie « proportionnel à » (différent de α et de ∞)
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)
0.5 0.4 0.5 0.2 0.3226
0.6 0.4 0.6 0.24 0.3871
0.9 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
II. Loi a priori discrète et finie
Comparaison loi a priori et loi a posteriori
0.2 0.4
0.5 0.6 0.9 0.3
Valeur de θ P(T = θ)
0.2 0.4
0.5 0.6 0.9 0.3
Valeur de θ P{X=1}(T = θ)
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu pile.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 0) · · · P{X=0}(T = θ)
0.5 0.4 0.5 0.2 0.5263
0.6 0.4 0.4 0.16 0.4211
0.9 0.2 0.1 0.02 0.0526
Total 1 / 0.38 1
II. Loi a priori discrète et finie
Comparaison des lois a posteriori selon la donnée
0.2 0.4 0.5
0.5 0.6 0.9 0.3
Valeur de θ P{X=1}(T = θ)
0.2 0.4 0.5
0.5 0.6 0.9 0.3
Valeur de θ P{X=0}(T = θ)
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
P(X = 1) = P(T = 0.5)P0.5(X = 1)
+P(T = 0.6)P0.6(X = 1) +P(T = 0.9)P0.9(X = 1)
= 0.62
• A posteriori : P{X1=1}(X2 = 1)
P{X1=1} (X2 = 1) = P{X1=1}(T = 0.5)P0.5(X2 = 1) + P{X1=1}(T = 0.6)P0.6(X2 = 1) + P{X1=1}(T = 0.9)P0.9(X2 = 1) ' 0.655
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
• A posteriori : P{X1=1}(X2 = 1) Estimation de θ
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)
0.5 0.4 0.5 0.2 0.3226
0.6 0.4 0.6 0.24 0.3871
0.9 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
• A posteriori : P{X1=1}(X2 = 1) Estimation de θ
Par exemple
θbB = argmax
θ∈{0.5;0.6;0.9}
PD(T = θ)
II. Loi a priori discrète et finie
Plusieurs observations
• si séquentielles, on peut enchaîner les mises à jour une après l’autre
• si les données sont indépendantes, l’ordre n’importe pas et on peut tout faire d’un coup
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu 2 fois face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T =θ) P{T=θ}((X1,X2) = (1,1)) · · · P{(X1,X2)=(1,1)}(T =θ)
0.5 0.4 0.25 0.1 0.2463
0.6 0.4 0.36 0.144 0.3547
0.9 0.2 0.81 0.162 0.3990
Total 1 / 0.406 1
III. Estimation d’une proportion et loi a priori continue
Loi a priori continue
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• X|T = θ ∼ Ber(θ)
• T(Ω) = [0; 1]
Cas où T est continue
• Loi a priori : fT
• Vraisemblances : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ
• Lois a posteriori : fT|X=1 et fT|X=0
fT|X=1(θ) = Pθ(X = 1)×fT(θ) P(X = 1)
loi a posteriori ∝ vraisemblance × loi a priori
III. Estimation d’une proportion et loi a priori continue
Application avec T ∼ U ([0; 1])
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ
• Lois a posteriori
• fT|X=1
(θ)
∝ θ1[0;1](θ)
• fT|X=0
(θ)
∝(1
− θ)1[0;1](θ)
III. Estimation d’une proportion et loi a priori continue
Comparaison lois a posteriori selon la donnée
1 2
1 0
Valeur de θ fT|X=1
1 2
1 0
Valeur de θ fT|X=0
III. Estimation d’une proportion et loi a priori continue
Utilisation de la loi a posteriori
• Calcul de probabilités sur θ : P{X1=1}(T > 0.5)
• Estimation ponctuelle θb
•
valeur la plus probable - mode
•
espérance a posteriori :
E(T
|X= 1)
• Estimation par intervalle
• I
tel que
P{X1=1}(T
∈ I) = 1− α• Prédiction : P{X1=1}(X2 = 1)
III. Estimation d’une proportion et loi a priori continue
On teste plusieurs fois la pièce
Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.
On la teste en la lançant 5 fois.
• X|T = θ ∼ Bin(5;θ)
• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = x) = 5 x
!
θx(1− θ)5−x
• Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)
T|X = x ∼ Beta (x + 1; 5−x + 1)
III. Estimation d’une proportion et loi a priori continue
Famille des lois Beta
• α et β deux réels strictement positifs
• X ∼ Beta(α, β) Alors
• X(Ω) = [0 ; 1]
• fX(t) = c ×tα−1(1− t)β−11[0;1](t) avec c = 1
B(α, β) = Γ(α+ β) Γ(α)Γ(β)
III. Estimation d’une proportion et loi a priori continue
0 1 2 3
0.00 0.25 0.50 0.75 1.00
paramètres
(1,1) (2,2) (4,4) (10,10)
III. Estimation d’une proportion et loi a priori continue
0 1 2 3 4
0.00 0.25 0.50 0.75 1.00
paramètres
(1,1) (1,2) (1,3) (1,4)
III. Estimation d’une proportion et loi a priori continue
0 1 2 3 4
0.00 0.25 0.50 0.75 1.00
paramètres
(1,4) (2,4) (3,4) (4,4)
III. Estimation d’une proportion et loi a priori continue
0 2 4 6
0.00 0.25 0.50 0.75 1.00
paramètres
(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)
III. Estimation d’une proportion et loi a priori continue
• α et β deux réels strictement positifs
• X ∼ Beta(α, β) Alors
• E(X) = α α+ β
• Mode : α− 1
α+ β − 2 si α, β > 1
• V(X) = αβ
(α+ β)2 (α+ β + 1)
III. Estimation d’une proportion et loi a priori continue
0 10 20 30
0.00 0.25 0.50 0.75 1.00
paramètres
(0.1,2) (1,1) (1,20) (5,100)
III. Estimation d’une proportion et loi a priori continue
Retour à notre pièce et nos lancers
Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.
On la teste en la lançant 5 fois.
• X ∼ Bin(5;θ)
• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = x) = 5 x
!
θx(1− θ)5−x
• Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)
T|X = x ∼ Beta (x + 1; 5−x + 1)
III. Estimation d’une proportion et loi a priori continue
0 2 4 6
0.00 0.25 0.50 0.75 1.00
0 : Beta(1,6) 1 : Beta(2,5) 2 : Beta(3,4) 3 : Beta(4,3) 4 : Beta(5,2) 5 : Beta(6,1)
A priori : Beta(1,1)
Loi a posteriori selon le nombres de faces obtenus
III. Estimation d’une proportion et loi a priori continue
a priori uniforme n = 2 et x = 1 n = 6 et x = 3 n = 10 et x = 5 n = 50 et x = 25 n = 100 et x = 50 n = 500 et x = 250
Loi a posteriori selon le nombre d’observations
III. Estimation d’une proportion et loi a priori continue
Utilisation de la loi a posteriori
T|X = x ∼ Beta (x + 1;n − x + 1)
• Calcul de probabilités sur θ : P{X=x}(T > 0.5)
• Estimation ponctuelle θb
•
valeur la plus probable - mode :
x•
médiane
n•
espérance a posteriori :
E(T
|X=
x) =
x+ 1
n+ 2
III. Estimation d’une proportion et loi a priori continue
EQM selon la valeur de θ - EQM
θ(X ) en violet foncé
n = 30 n = 50 n = 100
III. Estimation d’une proportion et loi a priori continue
Utilisation de la loi a posteriori
T|X = x ∼ Beta (x + 1;n − x + 1)
• Calcul de probabilités sur θ : P{X=x}(T > 0.5)
• Estimation ponctuelle θb
•
valeur la plus probable - mode :
x•
médiane
n•
espérance a posteriori :
E(T
|X=
x) =
x+ 1
n+ 2
• Estimation par intervalle
• I
tel que
P{X=x}(T
∈ I) = 1− α• Prédiction : P{X=x}(Y = 1)
III. Estimation d’une proportion et loi a priori continue
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X|T = θ ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Les familles de lois Beta et binomiales sont dites conjuguées.
Hyp. Don. A priori Vraisemb. A posteriori
θ x U([0 ; 1]) Bin(n ;θ) Beta (1 +x ; 1 +n −x) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x)
III. Estimation d’une proportion et loi a priori continue
n=3 n=2 n=1 n=0
0.00 0.25 0.50 0.75 1.00
n=3 n=2 n=1 n=0
0.00 0.25 0.50 0.75 1.00
n=3 n=2 n=1 n=0
0.00 0.25 0.50 0.75 1.00
n=3 n=2 n=1 n=0
0.00 0.25 0.50 0.75 1.00
III. Estimation d’une proportion et loi a priori continue
n=10 n=9 n=8 n=7 n=6 n=5 n=4 n=3 n=2 n=1 n=0
0.00 0.25 0.50 0.75 1.00
Loi a posteriori du taux de succès
A priori Succès Échecs
Évolution de la loi a posteriori - 6 succès, 4 échecs
III. Estimation d’une proportion et loi a priori continue
n=20n=19 n=18n=17 n=16n=15 n=14n=13 n=12n=11n=9n=8n=7n=6n=5n=4n=3n=2n=1n=0
0.00 0.25 0.50 0.75 1.00
Loi a posteriori du taux de succès
A priori Succès Échecs
Évolution de la loi a posteriori - 12 succès, 8 échecs
III. Estimation d’une proportion et loi a priori continue
n=100n=95n=89n=84n=79n=74n=68n=63n=58n=53n=47n=42n=37n=32n=26n=21n=16n=11n=5n=0
0.00 0.25 0.50 0.75 1.00
Loi a posteriori du taux de succès
A priori Succès Échecs
Évolution de la loi a posteriori - 76 succès, 24 échecs
III. Estimation d’une proportion et loi a priori continue
Expériences différentes et même résultat
Vous souhaitez tester une pièce.
Vous êtes d’accord sur une loi a priori Beta(5 ; 5) mais pas sur le protocole.
Protocoles proposés
1. Lancer 6 fois la pièce
2. Lancer jusqu’à obtenir face Résultat : 5 fois pile, puis 1 face Formalisme
• Loi a priori : T ∼ Beta(5 ; 5)
• Vraisemblance : X1|T = θ ∼ Bin(6, θ) et X2|T = θ ∼ G(θ)
• Loi a posteriori ?
III. Estimation d’une proportion et loi a priori continue
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ x Beta (α ;β) G(θ) Beta (α+ 1 ;β + x − 1) θ (xi)i∈
J1;nK Beta (α ;β)
n
Y
i=1
G(θ) Beta α +n ;β +
n
X
i=1
xi − n
!
III. Estimation d’une proportion et loi a priori continue
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Espérance et variance a priori
E(T) = α
α+ β et V(T) = αβ
(α +β)2(α+ β + 1) Espérance et variance a posteriori
E(T|X = x) = α +x α+ β +n V(T|X = x) = (α+ x)(β +n − x)
(α +β + n)2(α+ β + n+ 1)
III. Estimation d’une proportion et loi a priori continue
Influence des hyperparamètres : n = 10 et x = 8
Beta(20,20) Beta(50,50) Beta(100,100)
Beta(1,1) Beta(5,5) Beta(10,10)
III. Estimation d’une proportion et loi a priori continue
Évolution de l’espérance
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x)
Espérance a priori
E(T) = α α+ β Espérance a posteriori
E(T|X = x) = α +x α+ β +n
III. Estimation d’une proportion et loi a priori continue
E(T|X = x)
=
α+ β α+ β +n
| {z }
poids de l’a priori
× α
α +β
| {z }
espérance a priori
+
n
α + β + n
| {z }
poids des données
× x
n
|{z}
moyenne des données
=
Prior effective sample size
z }| { α+ β α+ β + n
| {z }
Posterior effective sample size
× α α + β +
taille des données
z}|{n α +β + n
| {z }
Posterior effective sample size
× x n
III. Estimation d’une proportion et loi a priori continue
Influence des hyperparamètres : n = 10 et x = 8
Beta(20,20) Beta(50,50) Beta(100,100)
Beta(1,1) Beta(5,5) Beta(10,10)
III. Estimation d’une proportion et loi a priori continue
Influence de la loi a priori
après 10 observations après 20 observations après 60 observations loi a priori après 1 observation après 5 observations
III. Estimation d’une proportion et loi a priori continue
Choix de la loi a priori
Règle
Éviter les a priori trop rigides.
Première idée
loi uniforme : T ∼ U([0; 1]) = Beta(1 ; 1) Remarque
• Prior effective sample size : 1 + 1 = 2
• Il s’agit d’un a priori informatif Choix d’une loi a priori informative
On choisit une famille de lois conjuguées flexibles (ici les lois Beta) et on se base sur notre connaissance.
• espérance et variance
• quantiles
• taille effective de l’échantillon a priori
III. Estimation d’une proportion et loi a priori continue
Exemple 1 E(T) = α
α+ β = 0.7 et V(T) = 0.1 A priori T ∼ Beta(0.77,0.33)
Exemple 2 E(T) = α
α+ β = 0.8 et α+ β = 1 =⇒ A priori T ∼ Beta(0.8,0.2) E(T) = α
α+ β = 0.8 et α +β = 10 =⇒ A priori : T ∼ Beta(8,2) Exemple 3
• Médiane : 0.7
• Sûr à 95% inférieure à 0.9
• Sûr à 95% supérieure à 0.3 A priori : T ∼ Beta(3,1.5)
III. Estimation d’une proportion et loi a priori continue
Commentaires
• les lois Beta ne sont pas toujours adaptées comme a priori (les lois Beta avec α > 1 et β > 1 sont toutes unimodales)
• s’enfermer dans une famille de lois peut contraindre à ne pas utiliser toutes les informations disponibles
• que faire pour choisir un a priori non (ou peu) informatif ?
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
• loi uniforme : Beta(1 ; 1) non complètement non informative
• diminution de l’information : Beta(0.8 ; 0.8)
• diminution de l’information : Beta(0.2 ; 0.2)
III. Estimation d’une proportion et loi a priori continue
Différentes lois Beta peu informatives
0 1 2 3
0.00 0.25 0.50 0.75 1.00
paramètres
(0.01,0.01) (0.02,0.02) (0.05,0.05) (0.1,0.1) (0.2,0.2) (0.5,0.5)
III. Estimation d’une proportion et loi a priori continue
Influence des hyperparamètres : n = 10 et x = 8
Beta(20,20) Beta(50,50) Beta(100,100)
Beta(1,1) Beta(5,5) Beta(10,10)
III. Estimation d’une proportion et loi a priori continue
Influence des hyperparamètres : n = 10 et x = 8
Beta(0.25,0.25) Beta(0.1,0.1) Beta(0.01,0.01)
Beta(1,1) Beta(0.8,0.8) Beta(0.5,0.5)
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
Cas limite : Beta(0 ; 0)
fT(θ) ∝ θ−1(1 −θ)−1 mais
Z 1
0
fT(θ)dθ = +∞
Loi a posteriori ?
fT|X=x(θ) ∝ θx−1(1 −θ)n−1 La loi a posteriori est souvent une véritable loi.
• Loi a priori impropre mais utilisable Inférence
• Estimation : E(T|X = x) = x n
• Estimateur : E(T|X) = X : moyenne empirique
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
Loi a priori non informative de Jeffreys basée sur l’information de Fisher
Information de Fischer I(θ) = E
∂lnfX|T=θ(X)
∂θ
!2
= −E
∂2lnfX|T=θ(X)
∂θ2
!
Loi a priori non informative de Jeffreys fT(θ) ∝ qI(θ)
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
X|T = θ ∼ Ber(θ)
I(θ) = 1 θ(1− θ) fT(θ) ∝ 1
pθ(1− θ) =⇒ T ∼ Beta 1
2; 1 2
IV. Applications
Estimation d’une proportion
On cherche à estimer la proportion d’étudiants de L2 préférant le cours de Maths 4 par rapport à au cours de Stat du S3.
• Quelle loi a priori choisir ?
On interroge 10 L2 et 6 préfèrent le cours de Maths.
• Probabilité que la majorité (les trois quarts) des étudiants de L2 préfèrent le cours de Maths 4 à celui de Stat du S3
• Estimation ponctuelle de la proportion
• Estimation par intervalle de la proportion