JulieScholler-BureauB246 D 3 A L3É -M 2S

(1)

L3 É

CONOMIE

- M

ODULE

2 S

TATISTIQUES ET

A

NALYSE DE

D

ONNÉES

3

Julie Scholler - Bureau B246

janvier 2019

.

Contenu de l’enseignement

• Discussion autour de l’utilisation de la statistique fréquentiste, principalement lors de tests d’hypothèses

• Estimation bayésienne

• loi a priori et a posteriori discrète

• estimation d’une proportion avec loi a priori continue

• estimation d’une moyenne

• autres exemples d’estimation ponctuelle

• utilisation de la loi a posteriori

• choix de la loi a priori

• Théorie bayésienne des tests

(2)

.

Prérequis

• Probabilités de L1

• Statistique inférentielle de L2

Structure

• 9 séances de cours magistraux de 2h dont deux contrôles continus

• 4 séances de travaux dirigés de 2h

.

Deux paradigmes

Paradigme Fréquentiste

• probabilités dites objectives

• tendance des dispositifs aléatoires à produire certains résultats avec des fréquences stables

• fréquence à long terme

• « théorie de la nature » Paradigme Bayésien

• probabilités dites subjectives

• degré de certitude/croyance/connaissance a priori (éventuellement basé sur des éléments de preuve)

• traduction chiffrée de l’état de la connaissance

• « théorie de la connaissance »

(3)

.

En théorie de l’estimation

Statistique Fréquentiste

• paramètre θ inconnu considéré comme déterministe

• estimation menée en considérant que l’on ignore tout de θ à part son support

• sur le long terme notre estimation tend à être bonne Statistique Bayésienne

• paramètre θ inconnu considéré comme aléatoire

• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

• expériences similaires

• avis d’expert du phénomène

• mise à jour de nos croyances suite à l’observation de données

.

En théorie des tests

Randall Munroe : https: // www. xkcd. com/ 1132/

(4)

C1. D

ISCUSSION AUTOUR DE

L

’

UTILISATION DE TESTS HYPOTHÈSES EN STATISTIQUE FRÉQUENTISTE

janvier 2019

I. Rappels

Test d’hypothèses

Mécanisme permettant de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant le risque associé à la prise de décision

Hypothèses • H₀ (hypothèse de référence, hypothèse nulle)

• H₁ (hypothèse alternative) Décision choix entre H₀ et H₁

Toute décision comporte un risque.

(5)

I. Rappels

Type d’erreurs

Erreur de première espèce décision de rejeter H₀ alors que H₀ est vraie, risque associé : α

Erreur de seconde espèce décision de ne pas rejeter H₀ alors que H₀ est fausse, risque associé : β

H₀ vraie H₁ vraie Ne pas rejeter H₀ 1− α β

Rejeter H₀ α 1−β

I. Rappels

Test en statistique fréquentiste

Approche de Neyman–Pearson

• Statistique de test : T

• Zone de rejet W telle que PH0(T ∈ W) = α

• Règle de décision : si t_obs ∈ W, alors on rejette H₀ Justification

Sur le long terme, on ne rejettera H₀ à tort que dans une proportion α des cas.

P-value

PH₀ (observer des données aussi extrèmes que t_obs) Point de vue de Fisher

• p-value : mesure de crédibilité de H₀, nous dit à quel point nos données sont surprenantes si on suppose que H₀ est vraie

(6)

I. Rappels

Quelques critiques

• Sur beaucoup d’études où H₀ est vraie, environ 5% nous amènent à rejeter H0

• La p-value ne nous donne pas la probabilité que l’on veut P(H₀ soit vraie | les données observées)

• si p < 0.05, on n’a pas 95% de chance que H₁ soit vraie.

• si p > 0.05, les données sont considérées comme non surprenantes. Cela ne signifie pas que H₀ est vraie.

II. Erreurs de première et second espèces

• Taux d’erreur : concept fréquentiste

• Objectif : ne pas se tromper trop souvent sur le long terme

• « Why Most Published Research Findings Are False » John Ioannides (2005)

H₀ vraie H₁ vraie Ne pas rejeter H₀ 1− α β

Rejeter H₀ α 1−β

Proba. condi. H₀ vraie H₁ vraie Ne pas rejeter H₀ 1− α β

Rejeter H₀ α 1− β

Cas où P(H₀ vraie) = 0.5 et P(H₁ vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H₀ vraie H₁ vraie Ne pas rejeter H₀

Rejeter H₀

Probabilités H₀ vraie H₁ vraie Ne pas rejeter H₀ 0.475 0.100

Rejeter H₀ 0.025 0.400

Probabilités H₀ vraie H₁ vraie Ne pas rejeter H₀ 0.475 0.100

Rejeter H₀ 0.025 0.400 P(la conclusion est correcte | on a rejeté H₀) ? Cas où P(H₀ vraie) = 0.5 et P(H₁ vraie) = 0.5

avec α = 0.05 et 1− β = 0.8 Probabilités H₀ vraie H₁ vraie Ne pas rejeter H₀ 0.475 0.100

Rejeter H₀ 0.025 0.400

P(la conclusion est correcte | on a rejeté H0) = 0.4

0.425 ' 0.94

(7)

Applicaton Shiny avec R

• Sur beaucoup d’études où H₀ est vraie, environ 5% nous amènent à rejeter H₀

• « Un résultat sur 20 dans la littérature sont des erreurs de première espèce »

Non car les résultats publiés sont ceux ayant amené à rejeter H₀ et non ceux où H₀ est vraie

• Sur beaucoup d’études où H₀ est vraie, environ 5% nous amènent à rejeter H₀ → p-hacking ou data-dredging

(8)

p-hacking

(9)

p-hacking

III. À quelle p-value s’attendre ?

À quelle p-value s’attendre si H₁ est vraie ?

À quelle p-value s’attendre si H₀ est vraie ?

(10)

Simulation de 100 000 expériences avec H

₁

vraie

Répartition des p-values pour une puissance de 50 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 10000 20000 30000 40000 50000

Simulation de 100 000 expériences avec H

₁

vraie

Répartition des p-values pour une puissance de 74.3 %

P-values

0.0 0.2 0.4 0.6 0.8 1.0

0 20000 40000 60000

(11)

Si H

₁

est vraie

• la proportion de p-value inférieures à α correspond à 1− β

• plus la puissance du test est élevée plus on observe des p-value petites si H1 est vraie

• Application Shiny avec R

Si H

₀

est vraie

(12)

Simulation de 100 000 expériences avec H

₀

vraie

Répartition des p-values

P-values

0.0 0.2 0.4 0.6 0.8 1.0

0 1000 2000 3000 4000 5000 6000

Simulation de 100 000 expériences avec H

₀

vraie

Répartition des p-values

P-values

Fréquencesdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

(13)

• Si H₀ est vraie, les p-value se répartissent uniformément entre 0 et 1.

• Si H₀ est vraie, on a autant de chances d’avoir une p-value entre 0.8 et 0.85 qu’entre 0.1 et 0.15 ou entre 0 et 0.05.

Attention

Si l’échantillon est très grand, la puissance du test est très élevée.

On aura

P(p-value ∈ [0.04; 0.05]|H₀ vraie) > P(p-value ∈ [0.04; 0.05]|H₁ vraie)

(14)

IV. Alternatives

• Intervalles de confiance

• Taille d’effet et analyse de puissance

• Rapport de vraisemblance

• Statistique bayésienne

Intervalle de confiance

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) On sait que E(X) = θ + 1 et V(X) = 1.

On a observé 10 valeurs :

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 On souhaite une estimation par intervalle de confiance du θ.

(15)

Comparaison entre la répartition des simulations de θ^b et la loi normale de même espérance et même variance.

Avec θ^b ∼

approx N

θ; 1

√n

, on a IC_95%^approx =

X ± 1.96× 1

√n

.

On obtient [9.40; 10.64].

Comment interpréter le résultat ?

0.0 0.2 0.4 0.6 0.8 1.0

050100150200

Intervalle de confiance de p à 95%

Fréquence dans l'échantillon

Échantillons

(16)

0.0 0.2 0.4 0.6 0.8 1.0

050100150200

Intervalle de confiance de p à 99%

Fréquence dans l'échantillon

Échantillons

Niveau de confiance 1 − α

Si on réalise plein de sondages notre méthode nous assure qu’une proportion 1−α des intervalles de confiance construits contiendront la vraie valeur à estimer.

Un statisticien fréquentiste doit dire

« il y a 95% de chance que, quand je calcule un intervalle de confiance à partir de données selon cette procédure, l’intervalle

obtenu contienne la vraie valeur de θ » et ne peut rien dire sur l’intervalle numérique obtenu.

(17)

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 10 valeurs :

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 et on a obtenu l’intervalle de confiance suivant :

[9.40; 10.64]

Précision sur la loi de X

f_X(x) = e^θ−x1[θ;+∞[(x)

Commentaires ?

(18)

C2. S

TATISTIQUE

B

AYÉSIENNE

janvier-février 2019

I. Introduction

Philosophie

Statistique Fréquentiste

• paramètre θ inconnu considéré comme déterministe

• estimation menée en considérant que l’on ignore tout de θ à part son support

Statistique Bayésienne

• paramètre θ inconnu considéré comme aléatoire

• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

• expériences similaires

• avis d’expert du phénomène

(19)

I. Introduction

Principe

Paramètre θ inconnu

• considéré comme une variable aléatoire T θ : réalisation de T

• nos connaissances préalables sont intégrées à la loi a priori de T (f_T(θ))

En réalité, le paramètre n’est pas aléatoire.

Cette méthode est une façon de modéliser nos « croyances » en faisant comme s’il était aléatoire.

I. Introduction

Exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibrée PA(F) = 0.5

• Type B : pièce biaisée vers face PB(F) = 0.6

• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.

1. On choisit une pièce au hasard dans le sac.

Quelle est la probabilité de chaque type ?

2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.

On a obtenu face : quelle est la probabilité de chaque type ?

(20)

I. Introduction

Résumé

Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)

A 0.4 0.5 0.2 0.3226

B 0.4 0.6 0.24 0.3871

C 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

PD(H) = PH(D)× P(H)

P(D) = 1

P(D) ×PH(D)× P(H)

loi a priori mise à jour bayésienne

−−−−−−−−−−−−−→

à partir des données loi a posteriori

II. Loi a priori discrète et finie

Paramètre θ inconnu

• on le considère comme une variable aléatoire T θ : réalisation de T

• nos connaissances préalables sont intégrées à la loi a priori de T (f_T(θ))

Quand la loi de T est à support discret fini, on peut procéder avec un tableau de mise à jour comme précédemment.

(21)

Retour sur l’exemple introductif

On possède des pièces de trois types.

• Type A : pièce équilibrée PA(F) = 0.5

• Type B : pièce biaisée vers face PB(F) = 0.6

• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C. On choisit une pièce au hasard et on la lance une fois.

On note

• T la variable aléatoire correspondant à la probabilité d’avoir face lors d’un lancer pour la pièce choisie ;

• X la variable aléatoire qui vaut 1 si on obtient face.

Loi de T ? Loi de X ?

P{X=x}(T = θ) = P{T=θ}(X = x)× P(T = θ) P(X = x)

= 1

P(X = x) × P{T=θ}(X = x)× P(T = θ) loi a posteriori ∝ vraisemblance×loi a priori

∝ signifie « proportionnel à » (différent de α et de ∞)

(22)

Tableau de mise à jour

On a obtenu face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

Comparaison loi a priori et loi a posteriori

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P(T = θ)

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P{X=1}(T = θ)

(23)

Tableau de mise à jour

On a obtenu pile.

0.5 0.4 0.5 0.2 0.5263

0.6 0.4 0.4 0.16 0.4211

0.9 0.2 0.1 0.02 0.0526

Total 1 / 0.38 1

Comparaison des lois a posteriori selon la donnée

0.2 0.4 0.5

0.5 0.6 0.9 0.3

0.2 0.4 0.5

0.5 0.6 0.9 0.3

(24)

Utilisation de la loi a posteriori

Prédictions

• A priori : P(X = 1)

P(X = 1) = P(T = 0.5)P^0.5(X = 1)

+ P(T = 0.6)P^0.6(X = 1) +P(T = 0.9)P^0.9(X = 1)

= 0.62

• A posteriori : P{X₁=1}(X₂ = 1)

P{X1=1}(X2 = 1) = P{X1=1}(T = 0.5)P^0.5(X2 = 1) + P{X₁=1}(T = 0.6)P0.6(X₂ = 1) + P{X₁=1}(T = 0.9)P^0.9(X₂ = 1) ' 0.655

Utilisation de la loi a posteriori

Prédictions

• A posteriori : P{X₁=1}(X₂ = 1) Estimation de θ

(25)

Tableau de mise à jour

On a obtenu face.

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

Utilisation de la loi a posteriori

Prédictions

• A posteriori : P{X₁=1}(X₂ = 1) Estimation de θ

Par exemple

θb^B = argmax

θ∈{0.5;0.6;0.9}PD(T = θ)

(26)

Plusieurs observations

• si séquentielles, on peut enchaîner les mises à jour une après l’autre

• si les données sont indépendantes, l’ordre n’importe pas et on peut tout faire d’un coup

Tableau de mise à jour

On a obtenu 2 fois face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ _P(T =θ) P^{T^=θ}((X1,X2) = (1,1)) · · · _P{(X₁,X₂)=(1,1)}(T =θ)

0.5 0.4 0.25 0.1 0.2463

0.6 0.4 0.36 0.144 0.3547

0.9 0.2 0.81 0.162 0.3990

Total 1 / 0.406 1

(27)

III. Estimation d’une proportion et loi a priori continue

Loi a priori continue

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

• X ∼ Ber(θ)

• T(Ω) = [0; 1]

Cas où T est continue

• Loi a priori : f_T

• Vraisemblances : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

• Lois a posteriori : f_T|X₌₁ et f_T_|X₌₀

f_T_|X₌₁(θ) = Pθ(X = 1)×f_T(θ) P(X = 1)

loi a posteriori ∝ vraisemblance × loi a priori

Application avec T ∼ U ([0; 1])

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

• Lois a posteriori

• f_T_|X₌₁(θ) ∝ θ1^[0;1](θ)

• f_T_|X₌₀(θ) ∝ (1− θ)1^[0;1](θ)

(28)

Comparaison lois a posteriori selon la donnée

1 2

1 0

Valeur de θ f_T_|X₌₁

1 2

1 0

Valeur de θ f_T|X₌₀

Utilisation de la loi a posteriori

• Calcul de probabilités sur θ : P{X₁=1}(T > 0.5)

• Estimation par intervalle

• I tel que P^{X1=1} (T ∈ I) = 1− α

• Estimation ponctuelle θ^b

• valeur la plus probable - mode

• espérance a posteriori : E(T|X = 1)

• Prédiction : P{X₁=1}(X₂ = 1)

(29)

On teste plusieurs fois la pièce

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

• X ∼ Bin(5;θ)

• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = x) = x 5

!

θ^x(1− θ)^5−x

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^x(1− θ)^5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

Famille des lois Beta

• α et β deux réels strictement positifs

• X ∼ Beta(α, β) Alors

• X(Ω) = [0 ; 1]

• f_X(t) = c ×t^α−1(1− t)^β⁻¹1[0;1](t) avec c = 1

B(α, β) = Γ(α+ β) Γ(α)Γ(β)

(30)

0 1 2 3

0.00 0.25 0.50 0.75 1.00

x

paramètres

(1,1) (10,10) (2,2) (4,4)

0 1 2 3 4

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (1,4) (2,4) (3,4) (4,4)

(31)

0.0 2.5 5.0 7.5 10.0

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (1,10) (1,2) (1,4)

0 2 4 6

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(32)

• X ∼ Beta(α, β) Alors

• E(X) = α α+ β

• Mode : α− 1

α+ β − 2 si α, β > 1

• V(X) = αβ

(α+ β)² (α+ β + 1)

0 10 20 30

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,2) (1,1) (1,20) (5,100)

(33)

Retour à notre pièce et nos lancers

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

• X ∼ Bin(5;θ)

• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

• Loi a priori : f_T(θ) = 1 ×1[0;1](θ)

• Vraisemblance : Pθ(X = x) = x 5

!

θ^x(1− θ)^5−x

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^x(1− θ)^5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

0 2 4 6

0.00 0.25 0.50 0.75 1.00

0 : Beta(1,6) 1 : Beta(2,5) 2 : Beta(3,4) 3 : Beta(4,3) 5 : Beta(5,2) 6 : Beta(6,1)

A priori : Beta(1,1)

Loi a posteriori selon le nombres de faces obtenus

(34)

Utilisation de la loi a posteriori

T|X = x ∼ Beta (x + 1;n − x + 1)

• Calcul de probabilités sur θ : P{X=x}(T > 0.5)

• Estimation ponctuelle θ^b

• valeur la plus probable - mode : x

• médiane n

• espérance a posteriori : E(T|X = x) = x + 1 n + 2

• Estimation par intervalle

• I tel que P^{X^=x^} (T ∈ I) = 1− α

• Prédiction : P{X=x}(Y = 1)

EQM selon la valeur de θ - EQM

_θ

(X ) en rouge

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 50

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 100

(35)

Situation

• Loi a priori : T ∼ Beta (α ;β)

• Vraisemblance : X ∼ Bin(n, θ)

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Les familles de lois Beta et binomiales sont dites conjuguées.

Hyp. Don. A priori Vraisemb. A posteriori

θ x U([0 ; 1]) Bin(n ;θ) Beta (1 +x ; 1 +n −x) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x)

Expériences différentes et même résultat

Vous souhaitez tester une pièce.

Vous êtes d’accord sur une loi a priori Beta(5 ; 5) mais pas sur le protocole.

Protocoles proposés

1. Lancer 6 fois la pièce

2. Lancer jusqu’à obtenir face Résultat : 5 fois pile, puis 1 face Formalisme

• Loi a priori : T ∼ Beta(5 ; 5)

• Vraisemblance : X₁ ∼ Bin(6, θ) et X₂ ∼ G(θ)

• Loi a posteriori ?

(36)

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ x Beta (α ;β) G(θ) Beta (α+ 1 ;β + x − 1) θ (x_i)_i_∈

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

x_i − n

!

Situation

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Espérance et variance a priori

E(T) = α

α+ β et V(T) = αβ

(α +β)²(α+ β + 1) Espérance et variance a posteriori

E(T|X = x) = α +x α+ β +n V(T|X = x) = (α+ x)(β +n − x)

(α +β + n)²(α+ β + n+ 1)

(37)

Influence du nombre d’observations sur la variance

0.0 0.2 0.4 0.6 0.8 1.0

051015

Loi a posteriori selon le nombre d’observations avec loi a priori uniforme

1 5 10 50 100 500

Évolution de l’espérance

Situation

• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x)

Espérance a priori

E(T) = α α+ β Espérance a posteriori

E(T|X = x) = α +x α+ β +n

(38)

E(T|X = x)

=

α+ β α+ β +n

| {z }

poids de l’a priori

× α

α +β

| {z }

espérance a priori

+

n

α + β + n

| {z }

poids des données

× x

n

|{z}

moyenne des données

=

Prior effective sample size

z }| { α+ β α+ β + n

| {z }

Posterior effective sample size

× α α + β +

taille des données

z}|{n α +β + n

| {z }

Posterior effective sample size

× x n

Influence des hyperparamètres : n = 10 et x = 8

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(1 ; 1)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(5 ; 5)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(10 ; 10)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(20 ; 20)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(50 ; 50)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(100 ; 100)

(39)

Influence de la loi apriori

0.0 0.2 0.4 0.6 0.8 1.0

02468

Lois a priori

Beta(1,1) Beta(1,3) Beta(3,1)

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 1 observation

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 5 observations

0.0 0.2 0.4 0.6 0.8 1.0

02468

0.0 0.2 0.4 0.6 0.8 1.0

02468

0.0 0.2 0.4 0.6 0.8 1.0

02468

Choix de la loi a priori

Règle

Éviter les a priori trop rigides.

Première idée

loi uniforme : T ∼ U([0; 1]) = Beta(1 ; 1) Remarque

• Prior effective sample size : 1 + 1 = 2

• Il s’agit d’un a priori informatif Choix d’une loi a priori informative

On choisit une famille de lois conjuguées flexibles (ici les lois Beta) et on se base sur notre connaissance.

• espérance et variance

• quantiles

• taille effective de l’échantillon a priori

(40)

Exemple 1 E(T) = α

α+ β = 0.7 et V(T) = 0.1 A priori : T ∼ Beta(0.77,0.33)

Exemple 2 E(T) = α

α+ β = 0.8 et α +β = 1 =⇒ A priori : T ∼ Beta(0.8,0.2)

E(T) = α

α+ β = 0.8 et α +β = 10 =⇒ A priori : T ∼ Beta(8,2) Exemple 3

• Médiane : 0.7

• Sûr à 95% inférieure à 0.9

• Sûr à 95% supérieure à 0.3 A priori : T ∼ Beta(3,1.5)

Commentaires

• les lois Beta ne sont pas toujours adaptées comme a priori elles sont toutes unimodales

• s’enfermer dans une famille de lois peut contraindre à ne pas utiliser toutes les informations disponibles

• que faire pour choisir un a priori non (ou peu) informatif ?

(41)

Choix d’une loi a priori non informative

• loi uniforme : Beta(1 ; 1) non complètement non informative

• diminution de l’information : Beta(0.8 ; 0.8)

• diminution de l’information : Beta(0.2 ; 0.2)

Différentes lois Beta peu informatives

0.0 0.2 0.4 0.6 0.8 1.0

012345

Beta(0.5 ; 0.5) Beta(0.2 ; 0.2) Beta(0.1 ; 0.1) Beta(0.05 ; 0.05) Beta(0.02 ; 0.02) Beta(0.01 ; 0.01)

(42)

Choix d’une loi a priori non informative

Cas limite : Beta(0 ; 0)

f_T(θ) ∝ θ⁻¹(1 −θ)⁻¹ mais

Z 1 0

f_T(θ)dθ = +∞

Loi a posteriori ?

f_T_|X_=x(θ) ∝ θ^x⁻¹(1 −θ)ⁿ⁻¹ La loi a posteriori est souvent une véritable loi.

• Loi a priori impropre mais utilisable Inférence

• Estimation : E(T|X = x) = x n

• Estimateur : E(T|X) = X : moyenne empirique

Choix d’une loi a priori non informative

Loi a priori non informative de Jeffreys basée sur l’information de Fisher

Information de Fischer I(θ) = E





∂lnf_X_|T=θ(X)

∂θ

!2

 = −E

∂²lnf_X_|T_=θ(X)

∂θ²

!

Loi a priori non informative de Jeffreys f_T(θ) ∝ ^qI(θ)

(43)

Choix d’une loi a priori non informative

X|T = θ ∼ Ber(θ)

I(θ) = 1 θ(1− θ) f_T(θ) ∝ 1

pθ(1− θ) =⇒ T ∼ Beta 1

2; 1 2

IV. Applications

Estimation d’une proportion

On cherche à estimer la proportion d’étudiants de L2 préférant le cours de Maths 4 par rapport à au cours de Stat du S3.

• Quelle loi a priori choisir ?

On interroge 10 L2 et 6 préfèrent le cours de Maths.

• Probabilité que la majorité (les trois quarts) des étudiants de L2 préfèrent le cours de Maths 4 à celui de Stat du S3

• Estimation ponctuelle de la proportion

• Estimation par intervalle de la proportion

(44)

IV. Applications

A priori discret

• Nombre de badges vendus en 1h : loi de Poisson de paramètre λ

• Arthur : λ = 10

• Lidia : λ = 15

• Lidia arrive se faire remplacer par Arthur une fois sur 10.

• Badges vendus par heure : 12, 10, 11, 4, 11.

• Qui a tenu le stand ?

(45)

C3. E

STIMATION

B

AYÉSIENNE

C

AS D

’

UNE VRAISEMBLANCE CONTINUE Julie Scholler - Bureau B246

mars 2019

I. Introduction

Loi a priori continue et vraisemblance continue

Formalisme

• Loi a priori : f_T(θ)

• Vraisemblance : f_X_|T_=θ(x)

• Loi a posteriori : f_T_|X_=x(θ)

f_T_|X_=x(θ) = f_X_|T_=θ(x)× f_T(θ) f_X(x)

f_X(x)?

Loi a posteriori ∝ Vraisemblance × Loi a priori

(46)

II. Vraisemblance exponentielle

Cas d’une vraisemblance exponentielle

On souhaite estimer le temps d’attente d’un bus.

• X|T = θ ∼ Exp(θ) Rappels : loi exponentielle

• Y ∼ Exp(θ)

• f_Y(x) = θe^−θx1[0;+∞[(x)

• E(Y) = 1

θ et V(Y) = 1 θ²

Loi a priori

• T(Ω) = R^∗+, loi de T ?

Choix de la loi a priori

• T(Ω) = R^∗+

• loi du χ², loi exponentielle,...

Loi a priori exponentielle

• T(Ω) = R^∗+

• T ∼ Exp(λ)

• f_T(θ) = λe^−λθ1[0;+∞[(x) Loi a posteriori

f_T_|X_=x(θ) ∝ θe^−(λ+x^)θ1[0;+∞[(x)

(47)

Famille de lois Gamma

• Y ∼ Gamma(α, β) Alors

• Y(Ω) = [0 ; +∞[

• f_Y(t) = c ×t^α−1e^−βt1[0;+∞[(t) avec c = β^α

Γ(α)

0.0 0.5 1.0 1.5

0 2 4 6

paramètres

(0.6,2) (1,1) (2,0.6) (2,2)

(48)

0.0 2.5 5.0 7.5 10.0

0 1 2 3

paramètres

(1,1) (1,10) (1,2) (1,4)

0 2 4 6

0.0 0.5 1.0 1.5 2.0

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(49)

• Y ∼ Gamma(α, β) Alors

• E(X) = α β

• Mode : α− 1

β si α > 1

• V(X) = α β²

0.0 0.5 1.0

0 2 4 6

paramètres

(1,1) (10,10) (2,2) (4,4)

(50)

Quelques propriétés de lois Gamma

Stabilité par addition

Soient Y₁ ∼ Γ(α₁, β) et Y₂ ∼ Γ(α₂, β), deux variables aléatoires indépendantes entre elles.

Alors on a

Y₁ +Y₂ ∼ Γ(α₁ + α₂, β) Changement d’échelle

Soient Y ∼ Γ(α, β) et λ ∈ R^∗+. Alors on a

λY ∼ Γ

α, β λ

Application

Soient X_i ∼ Exp(λ), i ∈ J1;nK. On a X ∼ Γ (n;nλ)

Retour au cas d’une vraisemblance exponentielle

Formalisme

• Loi a priori :T ∼ Γ(α, β), f_T(θ) ∝ θ^α−1e^−βθ1R^∗₊(θ)

• Vraisemblance : f_X_|T_=θ(x) = θe^−θx1R^∗₊(x)

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^αe^−β^(θ+x⁾1R^∗+(θ) Mise à jour des paramètres

T|X = x ∼ Γ(α+ 1 ;β +x) Plusieurs observations

T|X₁ = x₁, . . . ,X_n = x_n ∼ Γ α +n;β +

n

X

i=1

x_i

!

(51)

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ (x_i)_i_∈

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

x_i − n

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Exp(θ) Γ α +n ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

Γ (a ;θ) Γ α+ na ;β +

n

X

i=1

x_i

!

θ (x_i)_i_∈

J1;nK Γ (α ;β)

n

Y

i=1

P(θ) Γ α +

n

X

i=1

x_i ;β +n

!

Situation

• Loi a priori :T ∼ Γ(α, β), f_T(θ) ∝ θ^α−1e^−βθ1R^∗₊(θ)

• Vraisemblance : f_X_|T_=θ(x) = θe^−θx1R^∗+(x)

• Loi a posteriori : f_T_|X_=x(θ) ∝ θ^αe^−θ(β+x⁾1R^∗+(θ) Espérances a priori et a posteriori

E(T) = α

β et E(T|X = x) = α+ n β + nx 1

E(T|X = x) = α

α +n × β

α + n

α+ n ×x A priori effective sample size : α

(52)

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

Choix de la loi a priori

• Famille conjuguée : Γ(α, β)

• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

• Poids de la loi a priori : a priori effective sample size : α = 100 Loi a priori : T ∼ Γ(100 ; 1000)

• Écart type : σ_T =

√α

β = 0.01

• P 1

T ∈ [8.55; 11.89]

' 0.95

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

• Loi a priori : T ∼ Γ(100 ; 1000)

• Observation : X = 12

• Loi a posteriori : T|X = 12 ∼ Γ(101 ; 1012) Estimation : E(T|X = 12) = 101

1012 ' 0.0998

(53)

0 10 20 30 40

0.06 0.08 0.10 0.12 0.14

1 : Γ(101,1001) 12 : Γ(101,1012) 60 : Γ(101,1060) A priori : Γ(100,1000)

Loi a posteriori selon le temps d’attente

En fait, on est dans une ville dont on ne connait pas le système de bus.

Choix d’un a priori moins fort

• Famille conjuguée : Γ(α, β)

• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

• Poids de la loi a priori : a priori effective sample size : α = 10 Loi a priori : T ∼ Γ(10 ; 100)

• Écart type : σ_T =

√α

β ' 0.03

• P 1

T ∈ [6.37; 18.43]

' 0.95

(54)

0 5 10 15 20

0.00 0.05 0.10 0.15 0.20 0.25

1 : Γ(11,101) 12 : Γ(11,112) 60 : Γ(11,160) A priori : Γ(10,100)

Loi a posteriori selon le temps d’attente

Choix d’une loi a priori non ou peu informative

Première idée

• charger uniformément toutes les valeurs possibles

• pseudo-loi uniforme sur R^∗+

f_T(θ) ∝ 1× 1R^∗+(θ)

• loi a priori impropre mais utilisable

« T ∼ Γ(1; 0) » et T|X = x ∼ Γ 1 + n;

n

X

i=1

x_i

!

• correspond à un prior effective sample size de 1

(55)

Choix d’une loi a priori non ou peu informative

Deuxième idée

• diminuer le prior effective sample size : α

• Γ(ε, ε) avec ε très petit

• cas limite : Γ(0 ; 0)

• f_T(θ) ∝θ⁻¹ mais

Z +∞

0

f_T(θ)dθ = +∞

• loi a priori impropre mais utilisable

• loi a posteriori : T|X =x ∼Γ n;

n

X

i=1

x_i

!

• Estimation : E(T|X = x) = 1

→ estimateur du maximum de vraisemblancex

Choix d’une loi a priori non ou peu informative

Troisième idée

• Loi a priori non informative de Jeffreys : f_T(θ) ∝ q

I(θ)

• Pour une loi Exp(θ) : I(θ) = 1 θ² f_T(θ) ∝ 1

θ =⇒ T ∼ Γ (0; 0)

(56)

Au passage

χ

²

(ν ) ∼ Γ ν 2 ; ν

2

!

III. Vraisemblance normale

Vraisemblance normale

Vraisemblance

Loi normale : X|T = θ ∼ N(θ;σ) avec σ connu f_X_,θ(x) = 1

√

2πσ²e⁻¹²

(x−θ)2 σ2

Quelle loi conjuguée ? Loi a priori

Loi normale : T ∼ N(µ₀;σ₀) Loi a posteriori

f_T_|X_=x(t) ∝ e

−¹₂

(x−θ)2

σ2 +^(θ−µ⁰⁾

2 σ2

0

∝ e⁻

1

2(τ+τ0)

θ−^τx_τ+τ^+τ⁰^µ⁰

0

²

avec τ = 1

σ² et τ₀ = 1 σ₀²

(57)

Résumé

• Loi a priori : T ∼ N(µ₀;σ₀)

• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu

• Loi a posteriori : T|X = x ∼ N (µ₁;σ₁) avec

µ₁ = τ₀µ₀ +τx τ₀ + τ =

µ0

σ₀² + _σ^x2

1

σ₀² + _σ¹2

et

σ₁ = 1

√τ₀ +τ = 1 q ₁

σ²₀ + _σ¹₂ On a τ₁ = τ₀ +τ. Ainsi on a toujours

σ₁ < σ₀

Application

• Loi a priori : T ∼ N(3; 1)

• Vraisemblance : X|T = θ ∼ N(θ; 1)

• Observation : x = 5 Loi a posteriori

Loi a posteriori : T|X = x ∼ N

3 + x 2 ; 1

√2

• Estimation : E(T|X = x) = 3 +x ici E(T|X = 5) = 42

• Intervalle de crédibilité pour θ à 95% :

4± 1.96× 1

√2

' [2.614; 5.386]