Diapos-C2

(1)

C2. E

STIMATION BAYÉSIENNE D

’

UNE PROPORTION

Julie Scholler - Bureau B246

février 2021

I. Introduction

Philosophie

Statistique Fréquentiste

• paramètre θ inconnu considéré comme déterministe

• estimation menée en considérant que l’on ignore tout de θ à part son support

Statistique Bayésienne

• paramètre θ inconnu considéré comme aléatoire

• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

• expériences similaires

• avis d’expert du phénomène

(2)

I. Introduction

Principe

Paramètre θ inconnu

• considéré comme une variable aléatoire T θ : réalisation de T

• nos connaissances préalables sont intégrées à la loi a priori de T (f_T(θ))

En réalité, le paramètre n’est pas aléatoire.

Cette méthode est une façon de modéliser nos « croyances » en faisant comme s’il était aléatoire.

I. Introduction

Exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibrée PA(F) = 0.5

• Type B : pièce biaisée vers face P^B(F) = 0.6

• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.

1. On choisit une pièce au hasard dans le sac.

Quelle est la probabilité de chaque type ?

2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.

On a obtenu face : quelle est la probabilité de chaque type ?

(3)

I. Introduction

Résumé

Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) P^H(D) P(H) ×P^H(D) P^D(H)

A 0.4 0.5 0.2 0.3226

B 0.4 0.6 0.24 0.3871

C 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

PD(H) = PH(D)× P(H)

P(D) = 1

P(D) ×PH(D)× P(H)

loi a priori mise à jour bayésienne

−−−−−−−−−−−−−→

à partir des données loi a posteriori

II. Loi a priori discrète et finie

Paramètre θ inconnu

• on le considère comme une variable aléatoire T θ : réalisation de T

• nos connaissances préalables sont intégrées à la loi a priori de T (f_T(θ))

Quand la loi de T est à support discret fini, on peut procéder avec un tableau de mise à jour comme précédemment.

(4)

Retour sur l’exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibrée PA(F) = 0.5

• Type B : pièce biaisée vers face PB(F) = 0.6

• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C. On choisit une pièce au hasard et on la lance une fois.

On note

• T la variable aléatoire correspondant à la probabilité d’avoir face lors d’un lancer pour la pièce choisie ;

• X la variable aléatoire qui vaut 1 si on obtient face.

Loi de T ? Loi de X ?

P{X=x}(T = θ) = P{T=θ}(X = x)× P(T = θ) P(X = x)

= 1

P(X = x) × P{T=θ}(X = x)× P(T = θ) loi a posteriori ∝ vraisemblance×loi a priori

∝ signifie « proportionnel à » (différent de α et de ∞)

(5)

Tableau de mise à jour

On a obtenu face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

Comparaison loi a priori et loi a posteriori

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P(T = θ)

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P{X=1}(T = θ)

(6)

Tableau de mise à jour

On a obtenu pile.

0.5 0.4 0.5 0.2 0.5263

0.6 0.4 0.4 0.16 0.4211

0.9 0.2 0.1 0.02 0.0526

Total 1 / 0.38 1

Comparaison des lois a posteriori selon la donnée

0.2 0.4 0.5

0.5 0.6 0.9 0.3

0.2 0.4 0.5

0.5 0.6 0.9 0.3

(7)

Utilisation de la loi a posteriori

Prédictions

• A priori : P(X = 1)

P(X = 1) = P(T = 0.5)P0.5(X = 1)

+P(T = 0.6)P^0.6(X = 1) +P(T = 0.9)P^0.9(X = 1)

= 0.62

• A posteriori : P{X₁=1}(X₂ = 1)

P{X1=1} (X₂ = 1) = P{X1=1}(T = 0.5)P0.5(X₂ = 1) + P{X₁=1}(T = 0.6)P0.6(X₂ = 1) + P{X1=1}(T = 0.9)P^0.9(X₂ = 1) ' 0.655

Utilisation de la loi a posteriori

Prédictions

• A posteriori : P{X1=1}(X₂ = 1) Estimation de θ

(8)

Tableau de mise à jour

On a obtenu face.

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

Utilisation de la loi a posteriori

Prédictions

• A posteriori : P{X1=1}(X₂ = 1) Estimation de θ

Par exemple

θb^B = argmax

θ∈{0.5;0.6;0.9}

PD(T = θ)

(9)

Plusieurs observations

• si séquentielles, on peut enchaîner les mises à jour une après l’autre

• si les données sont indépendantes, l’ordre n’importe pas et on peut tout faire d’un coup

Tableau de mise à jour

On a obtenu 2 fois face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ _P(T =θ) P^{T^=θ}((X1,X2) = (1,1)) · · · _P{(X₁,X₂)=(1,1)}(T =θ)

0.5 0.4 0.25 0.1 0.2463

0.6 0.4 0.36 0.144 0.3547

0.9 0.2 0.81 0.162 0.3990

Total 1 / 0.406 1

(10)

III. Estimation d’une proportion et loi a priori continue

Loi a priori continue

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• X|T = θ ∼ Ber(θ)

• T(Ω) = [0; 1]

Cas où T est continue

• Loi a priori : f_T

• Vraisemblances : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

• Lois a posteriori : f_T|X₌₁ et f_T_|X₌₀

f_T_|X₌₁(θ) = Pθ(X = 1)×f_T(θ) P(X = 1)

loi a posteriori ∝ vraisemblance × loi a priori

Application avec T ∼ U ([0; 1])

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

• Lois a posteriori

• f_T_|X₌₁

(θ)

∝ θ1^[0;1]

(θ)

• f_T_|X₌₀

(θ)

∝

(1

− θ)1^[0;1]

(θ)

(11)

Comparaison lois a posteriori selon la donnée

1 2

1 0

Valeur de θ f_T_|X₌₁

1 2

1 0

Valeur de θ f_T|X₌₀

Utilisation de la loi a posteriori

• Calcul de probabilités sur θ : P{X₁=1}(T > 0.5)

• Estimation ponctuelle θ^b

•

valeur la plus probable - mode

•

espérance a posteriori :

E

(T

|X

= 1)

• Estimation par intervalle

• I

tel que

P^{X1=1}

(T

∈ I) = 1− α

• Prédiction : P{X1=1}(X₂ = 1)

(12)

On teste plusieurs fois la pièce

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

• X|T = θ ∼ Bin(5;θ)

• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = x) = 5 x

!

θ^x(1− θ)^5−x

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^x(1− θ)^5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

Famille des lois Beta

• α et β deux réels strictement positifs

• X ∼ Beta(α, β) Alors

• X(Ω) = [0 ; 1]

• f_X(t) = c ×t^α−1(1− t)^β⁻¹1[0;1](t) avec c = 1

B(α, β) = Γ(α+ β) Γ(α)Γ(β)

(13)

0 1 2 3

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (2,2) (4,4) (10,10)

0 1 2 3 4

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (1,2) (1,3) (1,4)

(14)

0 1 2 3 4

0.00 0.25 0.50 0.75 1.00

paramètres

(1,4) (2,4) (3,4) (4,4)

0 2 4 6

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(15)

• α et β deux réels strictement positifs

• X ∼ Beta(α, β) Alors

• E(X) = α α+ β

• Mode : α− 1

α+ β − 2 si α, β > 1

• V(X) = αβ

(α+ β)² (α+ β + 1)

0 10 20 30

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,2) (1,1) (1,20) (5,100)

(16)

Retour à notre pièce et nos lancers

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

• X ∼ Bin(5;θ)

• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = x) = 5 x

!

θ^x(1− θ)^5−x

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^x(1− θ)^5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

0 2 4 6

0.00 0.25 0.50 0.75 1.00

0 : Beta(1,6) 1 : Beta(2,5) 2 : Beta(3,4) 3 : Beta(4,3) 4 : Beta(5,2) 5 : Beta(6,1)

A priori : Beta(1,1)

Loi a posteriori selon le nombres de faces obtenus

(17)

a priori uniforme n = 2 et x = 1 n = 6 et x = 3 n = 10 et x = 5 n = 50 et x = 25 n = 100 et x = 50 n = 500 et x = 250

Loi a posteriori selon le nombre d’observations

Utilisation de la loi a posteriori

T|X = x ∼ Beta (x + 1;n − x + 1)

• Calcul de probabilités sur θ : P{X=x}(T > 0.5)

•

valeur la plus probable - mode :

x

•

médiane

n

•

espérance a posteriori :

E

(T

|X

=

x

) =

x

+ 1

n

+ 2

(18)

EQM selon la valeur de θ - EQM

_θ

(X ) en violet foncé

n = 30 n = 50 n = 100

Utilisation de la loi a posteriori

T|X = x ∼ Beta (x + 1;n − x + 1)

• Calcul de probabilités sur θ : P{X=x}(T > 0.5)

•

valeur la plus probable - mode :

x

•

médiane

n

•

espérance a posteriori :

E

(T

|X

=

x

) =

x

+ 1

n

+ 2

• Estimation par intervalle

• I

tel que

P^{X^=x^}

(T

∈ I) = 1− α

• Prédiction : P{X=x}(Y = 1)

(19)

Situation

• Loi a priori : T ∼ Beta (α ;β)

• Vraisemblance : X|T = θ ∼ Bin(n, θ)

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Les familles de lois Beta et binomiales sont dites conjuguées.

Hyp. Don. A priori Vraisemb. A posteriori

θ x U([0 ; 1]) Bin(n ;θ) Beta (1 +x ; 1 +n −x) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x)

n=3 n=2 n=1 n=0

0.00 0.25 0.50 0.75 1.00

n=3 n=2 n=1 n=0

0.00 0.25 0.50 0.75 1.00

n=3 n=2 n=1 n=0

0.00 0.25 0.50 0.75 1.00

n=3 n=2 n=1 n=0

0.00 0.25 0.50 0.75 1.00

(20)

n=10 n=9 n=8 n=7 n=6 n=5 n=4 n=3 n=2 n=1 n=0

0.00 0.25 0.50 0.75 1.00

Loi a posteriori du taux de succès

A priori Succès Échecs

Évolution de la loi a posteriori - 6 succès, 4 échecs

n=20n=19 n=18n=17 n=16n=15 n=14n=13 n=12n=11n=9n=8n=7n=6n=5n=4n=3n=2n=1n=0

0.00 0.25 0.50 0.75 1.00

Loi a posteriori du taux de succès

Évolution de la loi a posteriori - 12 succès, 8 échecs

(21)

n=100n=95n=89n=84n=79n=74n=68n=63n=58n=53n=47n=42n=37n=32n=26n=21n=16n=11n=5n=0

0.00 0.25 0.50 0.75 1.00

Loi a posteriori du taux de succès

Évolution de la loi a posteriori - 76 succès, 24 échecs

Expériences différentes et même résultat

Vous souhaitez tester une pièce.

Vous êtes d’accord sur une loi a priori Beta(5 ; 5) mais pas sur le protocole.

Protocoles proposés

1. Lancer 6 fois la pièce

2. Lancer jusqu’à obtenir face Résultat : 5 fois pile, puis 1 face Formalisme

• Loi a priori : T ∼ Beta(5 ; 5)

• Vraisemblance : X₁|T = θ ∼ Bin(6, θ) et X₂|T = θ ∼ G(θ)

• Loi a posteriori ?

(22)

Hyp. Don. A priori Vraisemb. A posteriori

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ x Beta (α ;β) G(θ) Beta (α+ 1 ;β + x − 1) θ (x_i)_i_∈

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

x_i − n

!

Situation

• Vraisemblance : X ∼ Bin(n, θ)

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Espérance et variance a priori

E(T) = α

α+ β et V(T) = αβ

(α +β)²(α+ β + 1) Espérance et variance a posteriori

E(T|X = x) = α +x α+ β +n V(T|X = x) = (α+ x)(β +n − x)

(α +β + n)²(α+ β + n+ 1)

(23)

Influence des hyperparamètres : n = 10 et x = 8

Beta(20,20) Beta(50,50) Beta(100,100)

Beta(1,1) Beta(5,5) Beta(10,10)

Évolution de l’espérance

Situation

• Vraisemblance : X ∼ Bin(n, θ)

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x)

Espérance a priori

E(T) = α α+ β Espérance a posteriori

E(T|X = x) = α +x α+ β +n

(24)

E(T|X = x)

=

α+ β α+ β +n

| {z }

poids de l’a priori

× α

α +β

| {z }

espérance a priori

+

n

α + β + n

| {z }

poids des données

× x

n

|{z}

moyenne des données

=

Prior effective sample size

z }| { α+ β α+ β + n

| {z }

Posterior effective sample size

× α α + β +

taille des données

z}|{n α +β + n

| {z }

Posterior effective sample size

× x n

Influence des hyperparamètres : n = 10 et x = 8

Beta(20,20) Beta(50,50) Beta(100,100)

Beta(1,1) Beta(5,5) Beta(10,10)

(25)

Influence de la loi a priori

après 10 observations après 20 observations après 60 observations loi a priori après 1 observation après 5 observations

Choix de la loi a priori

Règle

Éviter les a priori trop rigides.

Première idée

loi uniforme : T ∼ U([0; 1]) = Beta(1 ; 1) Remarque

• Prior effective sample size : 1 + 1 = 2

• Il s’agit d’un a priori informatif Choix d’une loi a priori informative

On choisit une famille de lois conjuguées flexibles (ici les lois Beta) et on se base sur notre connaissance.

• espérance et variance

• quantiles

• taille effective de l’échantillon a priori

(26)

Exemple 1 E(T) = α

α+ β = 0.7 et V(T) = 0.1 A priori T ∼ Beta(0.77,0.33)

Exemple 2 E(T) = α

α+ β = 0.8 et α+ β = 1 =⇒ A priori T ∼ Beta(0.8,0.2) E(T) = α

α+ β = 0.8 et α +β = 10 =⇒ A priori : T ∼ Beta(8,2) Exemple 3

• Médiane : 0.7

• Sûr à 95% inférieure à 0.9

• Sûr à 95% supérieure à 0.3 A priori : T ∼ Beta(3,1.5)

Commentaires

• les lois Beta ne sont pas toujours adaptées comme a priori (les lois Beta avec α > 1 et β > 1 sont toutes unimodales)

• s’enfermer dans une famille de lois peut contraindre à ne pas utiliser toutes les informations disponibles

• que faire pour choisir un a priori non (ou peu) informatif ?

(27)

Choix d’une loi a priori non informative

• loi uniforme : Beta(1 ; 1) non complètement non informative

• diminution de l’information : Beta(0.8 ; 0.8)

• diminution de l’information : Beta(0.2 ; 0.2)

Différentes lois Beta peu informatives

0 1 2 3

0.00 0.25 0.50 0.75 1.00

paramètres

(0.01,0.01) (0.02,0.02) (0.05,0.05) (0.1,0.1) (0.2,0.2) (0.5,0.5)

(28)

Influence des hyperparamètres : n = 10 et x = 8

Beta(20,20) Beta(50,50) Beta(100,100)

Beta(1,1) Beta(5,5) Beta(10,10)

Influence des hyperparamètres : n = 10 et x = 8

Beta(0.25,0.25) Beta(0.1,0.1) Beta(0.01,0.01)

Beta(1,1) Beta(0.8,0.8) Beta(0.5,0.5)

(29)

Choix d’une loi a priori non informative

Cas limite : Beta(0 ; 0)

f_T(θ) ∝ θ⁻¹(1 −θ)⁻¹ mais

Z ₁

0

f_T(θ)dθ = +∞

Loi a posteriori ?

f_T_|X_=x(θ) ∝ θ^x⁻¹(1 −θ)ⁿ⁻¹ La loi a posteriori est souvent une véritable loi.

• Loi a priori impropre mais utilisable Inférence

• Estimation : E(T|X = x) = x n

• Estimateur : E(T|X) = X : moyenne empirique

Choix d’une loi a priori non informative

Loi a priori non informative de Jeffreys basée sur l’information de Fisher

Information de Fischer I(θ) = E





∂lnf_X_|T=θ(X)

∂θ

!2

 = −E

∂²lnf_X_|T_=θ(X)

∂θ²

!

Loi a priori non informative de Jeffreys f_T(θ) ∝ ^qI(θ)

(30)

Choix d’une loi a priori non informative

X|T = θ ∼ Ber(θ)

I(θ) = 1 θ(1− θ) f_T(θ) ∝ 1

pθ(1− θ) =⇒ T ∼ Beta 1

2; 1 2

IV. Applications

Estimation d’une proportion

On cherche à estimer la proportion d’étudiants de L2 préférant le cours de Maths 4 par rapport à au cours de Stat du S3.

• Quelle loi a priori choisir ?

On interroge 10 L2 et 6 préfèrent le cours de Maths.

• Probabilité que la majorité (les trois quarts) des étudiants de L2 préfèrent le cours de Maths 4 à celui de Stat du S3

• Estimation ponctuelle de la proportion

• Estimation par intervalle de la proportion