• Aucun résultat trouvé

JulieScholler-BureauB246 D 3 A L3É -M 2S

N/A
N/A
Protected

Academic year: 2022

Partager "JulieScholler-BureauB246 D 3 A L3É -M 2S"

Copied!
76
0
0

Texte intégral

(1)

L3 É

CONOMIE

- M

ODULE

2 S

TATISTIQUES ET

A

NALYSE DE

D

ONNÉES

3

Julie Scholler - Bureau B246

janvier 2019

.

Contenu de l’enseignement

Discussion autour de l’utilisation de la statistique fréquentiste, principalement lors de tests d’hypothèses

Estimation bayésienne

loi a priori et a posteriori discrète

estimation d’une proportion avec loi a priori continue

estimation d’une moyenne

autres exemples d’estimation ponctuelle

utilisation de la loi a posteriori

choix de la loi a priori

Théorie bayésienne des tests

(2)

.

Prérequis

Probabilités de L1

Statistique inférentielle de L2

Structure

9 séances de cours magistraux de 2h dont deux contrôles continus

4 séances de travaux dirigés de 2h

.

Deux paradigmes

Paradigme Fréquentiste

probabilités dites objectives

tendance des dispositifs aléatoires à produire certains résultats avec des fréquences stables

fréquence à long terme

« théorie de la nature » Paradigme Bayésien

probabilités dites subjectives

degré de certitude/croyance/connaissance a priori (éventuellement basé sur des éléments de preuve)

traduction chiffrée de l’état de la connaissance

« théorie de la connaissance »

(3)

.

En théorie de l’estimation

Statistique Fréquentiste

paramètre θ inconnu considéré comme déterministe

estimation menée en considérant que l’on ignore tout de θ à part son support

sur le long terme notre estimation tend à être bonne Statistique Bayésienne

paramètre θ inconnu considéré comme aléatoire

estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

expériences similaires

avis d’expert du phénomène

mise à jour de nos croyances suite à l’observation de données

.

En théorie des tests

Randall Munroe : https: // www. xkcd. com/ 1132/

(4)

C1. D

ISCUSSION AUTOUR DE

L

UTILISATION DE TESTS HYPOTHÈSES EN STATISTIQUE FRÉQUENTISTE

Julie Scholler - Bureau B246

janvier 2019

I. Rappels

Test d’hypothèses

Mécanisme permettant de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant le risque associé à la prise de décision

Hypothèses H0 (hypothèse de référence, hypothèse nulle)

H1 (hypothèse alternative) Décision choix entre H0 et H1

Toute décision comporte un risque.

(5)

I. Rappels

Type d’erreurs

Erreur de première espèce décision de rejeter H0 alors que H0 est vraie, risque associé : α

Erreur de seconde espèce décision de ne pas rejeter H0 alors que H0 est fausse, risque associé : β

H0 vraie H1 vraie Ne pas rejeter H0 1− α β

Rejeter H0 α 1−β

I. Rappels

Test en statistique fréquentiste

Approche de Neyman–Pearson

Statistique de test : T

Zone de rejet W telle que PH0(T ∈ W) = α

Règle de décision : si tobsW, alors on rejette H0 Justification

Sur le long terme, on ne rejettera H0 à tort que dans une proportion α des cas.

P-value

PH0 (observer des données aussi extrèmes que tobs) Point de vue de Fisher

p-value : mesure de crédibilité de H0, nous dit à quel point nos données sont surprenantes si on suppose que H0 est vraie

(6)

I. Rappels

Quelques critiques

Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0

La p-value ne nous donne pas la probabilité que l’on veut P(H0 soit vraie | les données observées)

si p < 0.05, on n’a pas 95% de chance que H1 soit vraie.

si p > 0.05, les données sont considérées comme non surprenantes. Cela ne signifie pas que H0 est vraie.

II. Erreurs de première et second espèces

Taux d’erreur : concept fréquentiste

Objectif : ne pas se tromper trop souvent sur le long terme

« Why Most Published Research Findings Are False » John Ioannides (2005)

H0 vraie H1 vraie Ne pas rejeter H0 1− α β

Rejeter H0 α 1−β

Proba. condi. H0 vraie H1 vraie Ne pas rejeter H0 1− α β

Rejeter H0 α 1− β

Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H0 vraie H1 vraie Ne pas rejeter H0

Rejeter H0

Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100

Rejeter H0 0.025 0.400

Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100

Rejeter H0 0.025 0.400 P(la conclusion est correcte | on a rejeté H0) ? Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5

avec α = 0.05 et 1− β = 0.8 Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100

Rejeter H0 0.025 0.400

P(la conclusion est correcte | on a rejeté H0) = 0.4

0.425 ' 0.94

(7)

II. Erreurs de première et second espèces

Applicaton Shiny avec R

II. Erreurs de première et second espèces

Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0

« Un résultat sur 20 dans la littérature sont des erreurs de première espèce »

Non car les résultats publiés sont ceux ayant amené à rejeter H0 et non ceux où H0 est vraie

Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0p-hacking ou data-dredging

(8)

II. Erreurs de première et second espèces

p-hacking

Randall Munroe : https: // www. xkcd. com/ 882/

II. Erreurs de première et second espèces

(9)

II. Erreurs de première et second espèces

p-hacking

Randall Munroe : https: // www. xkcd. com/ 882/

III. À quelle p-value s’attendre ?

À quelle p-value s’attendre si H1 est vraie ?

À quelle p-value s’attendre si H0 est vraie ?

(10)

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

1

vraie

Répartition des p-values pour une puissance de 50 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 10000 20000 30000 40000 50000

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

1

vraie

Répartition des p-values pour une puissance de 74.3 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 20000 40000 60000

(11)

III. À quelle p-value s’attendre ?

Si H

1

est vraie

la proportion de p-value inférieures à α correspond à 1− β

plus la puissance du test est élevée plus on observe des p-value petites si H1 est vraie

Application Shiny avec R

III. À quelle p-value s’attendre ?

Si H

0

est vraie

(12)

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

0

vraie

Répartition des p-values

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 1000 2000 3000 4000 5000 6000

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

0

vraie

Répartition des p-values

P-values

Fréquencesdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

(13)

III. À quelle p-value s’attendre ?

Si H0 est vraie, les p-value se répartissent uniformément entre 0 et 1.

Si H0 est vraie, on a autant de chances d’avoir une p-value entre 0.8 et 0.85 qu’entre 0.1 et 0.15 ou entre 0 et 0.05.

III. À quelle p-value s’attendre ?

Attention

Si l’échantillon est très grand, la puissance du test est très élevée.

On aura

P(p-value ∈ [0.04; 0.05]|H0 vraie) > P(p-value ∈ [0.04; 0.05]|H1 vraie)

(14)

IV. Alternatives

Intervalles de confiance

Taille d’effet et analyse de puissance

Rapport de vraisemblance

Statistique bayésienne

IV. Alternatives

Intervalle de confiance

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) On sait que E(X) = θ + 1 et V(X) = 1.

On a observé 10 valeurs :

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 On souhaite une estimation par intervalle de confiance du θ.

(15)

IV. Alternatives

Comparaison entre la répartition des simulations de θb et la loi normale de même espérance et même variance.

Avec θb

approx N

θ; 1

n

, on a IC95%approx =

X ± 1.96× 1

n

.

On obtient [9.40; 10.64].

Comment interpréter le résultat ?

IV. Alternatives

0.0 0.2 0.4 0.6 0.8 1.0

050100150200

Intervalle de confiance de p à 95%

Fréquence dans l'échantillon

Échantillons

(16)

IV. Alternatives

0.0 0.2 0.4 0.6 0.8 1.0

050100150200

Intervalle de confiance de p à 99%

Fréquence dans l'échantillon

Échantillons

IV. Alternatives

Niveau de confiance 1 α

Si on réalise plein de sondages notre méthode nous assure qu’une proportion 1−α des intervalles de confiance construits contiendront la vraie valeur à estimer.

Un statisticien fréquentiste doit dire

« il y a 95% de chance que, quand je calcule un intervalle de confiance à partir de données selon cette procédure, l’intervalle

obtenu contienne la vraie valeur de θ » et ne peut rien dire sur l’intervalle numérique obtenu.

(17)

IV. Alternatives

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 10 valeurs :

9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 et on a obtenu l’intervalle de confiance suivant :

[9.40; 10.64]

Précision sur la loi de X

fX(x) = eθ−x1[θ;+∞[(x)

Commentaires ?

(18)

C2. S

TATISTIQUE

B

AYÉSIENNE

Julie Scholler - Bureau B246

janvier-février 2019

I. Introduction

Philosophie

Statistique Fréquentiste

paramètre θ inconnu considéré comme déterministe

estimation menée en considérant que l’on ignore tout de θ à part son support

Statistique Bayésienne

paramètre θ inconnu considéré comme aléatoire

estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

expériences similaires

avis d’expert du phénomène

(19)

I. Introduction

Principe

Paramètre θ inconnu

considéré comme une variable aléatoire T θ : réalisation de T

nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))

En réalité, le paramètre n’est pas aléatoire.

Cette méthode est une façon de modéliser nos « croyances » en faisant comme s’il était aléatoire.

I. Introduction

Exemple introductif

On possède des pièces de trois types.

Type A : pièce équilibrée PA(F) = 0.5

Type B : pièce biaisée vers face PB(F) = 0.6

Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.

1. On choisit une pièce au hasard dans le sac.

Quelle est la probabilité de chaque type ?

2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.

On a obtenu face : quelle est la probabilité de chaque type ?

(20)

I. Introduction

Résumé

Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)

A 0.4 0.5 0.2 0.3226

B 0.4 0.6 0.24 0.3871

C 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

PD(H) = PH(D)× P(H)

P(D) = 1

P(D) ×PH(D)× P(H)

loi a priori mise à jour bayésienne

−−−−−−−−−−−−−→

à partir des données loi a posteriori

II. Loi a priori discrète et finie

Paramètre θ inconnu

on le considère comme une variable aléatoire T θ : réalisation de T

nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))

Quand la loi de T est à support discret fini, on peut procéder avec un tableau de mise à jour comme précédemment.

(21)

II. Loi a priori discrète et finie

Retour sur l’exemple introductif

On possède des pièces de trois types.

Type A : pièce équilibrée PA(F) = 0.5

Type B : pièce biaisée vers face PB(F) = 0.6

Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C. On choisit une pièce au hasard et on la lance une fois.

On note

T la variable aléatoire correspondant à la probabilité d’avoir face lors d’un lancer pour la pièce choisie ;

X la variable aléatoire qui vaut 1 si on obtient face.

Loi de T ? Loi de X ?

II. Loi a priori discrète et finie

P{X=x}(T = θ) = P{T=θ}(X = x)× P(T = θ) P(X = x)

= 1

P(X = x) × P{T=θ}(X = x)× P(T = θ) loi a posteriori ∝ vraisemblance×loi a priori

∝ signifie « proportionnel à » (différent de α et de ∞)

(22)

II. Loi a priori discrète et finie

Tableau de mise à jour

On a obtenu face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

II. Loi a priori discrète et finie

Comparaison loi a priori et loi a posteriori

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P(T = θ)

0.2 0.4

0.5 0.6 0.9 0.3

Valeur de θ P{X=1}(T = θ)

(23)

II. Loi a priori discrète et finie

Tableau de mise à jour

On a obtenu pile.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 0) · · · P{X=0}(T = θ)

0.5 0.4 0.5 0.2 0.5263

0.6 0.4 0.4 0.16 0.4211

0.9 0.2 0.1 0.02 0.0526

Total 1 / 0.38 1

II. Loi a priori discrète et finie

Comparaison des lois a posteriori selon la donnée

0.2 0.4 0.5

0.5 0.6 0.9 0.3

Valeur de θ P{X=1}(T = θ)

0.2 0.4 0.5

0.5 0.6 0.9 0.3

Valeur de θ P{X=0}(T = θ)

(24)

II. Loi a priori discrète et finie

Utilisation de la loi a posteriori

Prédictions

A priori : P(X = 1)

P(X = 1) = P(T = 0.5)P0.5(X = 1)

+ P(T = 0.6)P0.6(X = 1) +P(T = 0.9)P0.9(X = 1)

= 0.62

A posteriori : P{X1=1}(X2 = 1)

P{X1=1}(X2 = 1) = P{X1=1}(T = 0.5)P0.5(X2 = 1) + P{X1=1}(T = 0.6)P0.6(X2 = 1) + P{X1=1}(T = 0.9)P0.9(X2 = 1) ' 0.655

II. Loi a priori discrète et finie

Utilisation de la loi a posteriori

Prédictions

A priori : P(X = 1)

A posteriori : P{X1=1}(X2 = 1) Estimation de θ

(25)

II. Loi a priori discrète et finie

Tableau de mise à jour

On a obtenu face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)

0.5 0.4 0.5 0.2 0.3226

0.6 0.4 0.6 0.24 0.3871

0.9 0.2 0.9 0.18 0.2903

Total 1 / 0.62 1

II. Loi a priori discrète et finie

Utilisation de la loi a posteriori

Prédictions

A priori : P(X = 1)

A posteriori : P{X1=1}(X2 = 1) Estimation de θ

Par exemple

θbB = argmax

θ∈{0.5;0.6;0.9}PD(T = θ)

(26)

II. Loi a priori discrète et finie

Plusieurs observations

si séquentielles, on peut enchaîner les mises à jour une après l’autre

si les données sont indépendantes, l’ordre n’importe pas et on peut tout faire d’un coup

II. Loi a priori discrète et finie

Tableau de mise à jour

On a obtenu 2 fois face.

Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T =θ) P{T=θ}((X1,X2) = (1,1)) · · · P{(X1,X2)=(1,1)}(T =θ)

0.5 0.4 0.25 0.1 0.2463

0.6 0.4 0.36 0.144 0.3547

0.9 0.2 0.81 0.162 0.3990

Total 1 / 0.406 1

(27)

III. Estimation d’une proportion et loi a priori continue

Loi a priori continue

Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.

X ∼ Ber(θ)

T(Ω) = [0; 1]

Cas où T est continue

Loi a priori : fT

Vraisemblances : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

Lois a posteriori : fT|X=1 et fT|X=0

fT|X=1(θ) = Pθ(X = 1)×fT(θ) P(X = 1)

loi a posteriori ∝ vraisemblance × loi a priori

III. Estimation d’une proportion et loi a priori continue

Application avec T ∼ U ([0; 1])

Loi a priori : fT(θ) = 1 ×1[0;1](θ)

Vraisemblance : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ

Lois a posteriori

fT|X=1(θ) ∝ θ1[0;1](θ)

fT|X=0(θ) ∝ (1− θ)1[0;1](θ)

(28)

III. Estimation d’une proportion et loi a priori continue

Comparaison lois a posteriori selon la donnée

1 2

1 0

Valeur de θ fT|X=1

1 2

1 0

Valeur de θ fT|X=0

III. Estimation d’une proportion et loi a priori continue

Utilisation de la loi a posteriori

Calcul de probabilités sur θ : P{X1=1}(T > 0.5)

Estimation par intervalle

I tel que P{X1=1} (T ∈ I) = 1− α

Estimation ponctuelle θb

valeur la plus probable - mode

espérance a posteriori : E(T|X = 1)

Prédiction : P{X1=1}(X2 = 1)

(29)

III. Estimation d’une proportion et loi a priori continue

On teste plusieurs fois la pièce

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

X ∼ Bin(5;θ)

T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

Loi a priori : fT(θ) = 1 ×1[0;1](θ)

Vraisemblance : Pθ(X = x) = x 5

!

θx(1− θ)5−x

Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

III. Estimation d’une proportion et loi a priori continue

Famille des lois Beta

α et β deux réels strictement positifs

X ∼ Beta(α, β) Alors

X(Ω) = [0 ; 1]

fX(t) = c ×tα−1(1− t)β−11[0;1](t) avec c = 1

B(α, β) = Γ(α+ β) Γ(α)Γ(β)

(30)

III. Estimation d’une proportion et loi a priori continue

0 1 2 3

0.00 0.25 0.50 0.75 1.00

x

paramètres

(1,1) (10,10) (2,2) (4,4)

III. Estimation d’une proportion et loi a priori continue

0 1 2 3 4

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (1,4) (2,4) (3,4) (4,4)

(31)

III. Estimation d’une proportion et loi a priori continue

0.0 2.5 5.0 7.5 10.0

0.00 0.25 0.50 0.75 1.00

paramètres

(1,1) (1,10) (1,2) (1,4)

III. Estimation d’une proportion et loi a priori continue

0 2 4 6

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(32)

III. Estimation d’une proportion et loi a priori continue

α et β deux réels strictement positifs

X ∼ Beta(α, β) Alors

E(X) = α α+ β

Mode : α− 1

α+ β − 2 si α, β > 1

V(X) = αβ

(α+ β)2 (α+ β + 1)

III. Estimation d’une proportion et loi a priori continue

0 10 20 30

0.00 0.25 0.50 0.75 1.00

paramètres

(0.1,2) (1,1) (1,20) (5,100)

(33)

III. Estimation d’une proportion et loi a priori continue

Retour à notre pièce et nos lancers

Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.

On la teste en la lançant 5 fois.

X ∼ Bin(5;θ)

T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue

Loi a priori : fT(θ) = 1 ×1[0;1](θ)

Vraisemblance : Pθ(X = x) = x 5

!

θx(1− θ)5−x

Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)

T|X = x ∼ Beta (x + 1; 5−x + 1)

III. Estimation d’une proportion et loi a priori continue

0 2 4 6

0.00 0.25 0.50 0.75 1.00

0 : Beta(1,6) 1 : Beta(2,5) 2 : Beta(3,4) 3 : Beta(4,3) 5 : Beta(5,2) 6 : Beta(6,1)

A priori : Beta(1,1)

Loi a posteriori selon le nombres de faces obtenus

(34)

III. Estimation d’une proportion et loi a priori continue

Utilisation de la loi a posteriori

T|X = x ∼ Beta (x + 1;nx + 1)

Calcul de probabilités sur θ : P{X=x}(T > 0.5)

Estimation ponctuelle θb

valeur la plus probable - mode : x

médiane n

espérance a posteriori : E(T|X = x) = x + 1 n + 2

Estimation par intervalle

I tel que P{X=x} (T ∈ I) = 1− α

Prédiction : P{X=x}(Y = 1)

III. Estimation d’une proportion et loi a priori continue

EQM selon la valeur de θ - EQM

θ

(X ) en rouge

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 50

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 100

(35)

III. Estimation d’une proportion et loi a priori continue

Situation

Loi a priori : T ∼ Beta (α ;β)

Vraisemblance : X ∼ Bin(n, θ)

Loi a posteriori : T|X = x ∼ Beta (α +x ;β + nx) Les familles de lois Beta et binomiales sont dites conjuguées.

Hyp. Don. A priori Vraisemb. A posteriori

θ x U([0 ; 1]) Bin(n ;θ) Beta (1 +x ; 1 +nx) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + nx)

III. Estimation d’une proportion et loi a priori continue

Expériences différentes et même résultat

Vous souhaitez tester une pièce.

Vous êtes d’accord sur une loi a priori Beta(5 ; 5) mais pas sur le protocole.

Protocoles proposés

1. Lancer 6 fois la pièce

2. Lancer jusqu’à obtenir face Résultat : 5 fois pile, puis 1 face Formalisme

Loi a priori : T ∼ Beta(5 ; 5)

Vraisemblance : X1 ∼ Bin(6, θ) et X2 ∼ G(θ)

Loi a posteriori ?

(36)

III. Estimation d’une proportion et loi a priori continue

Hyp. Don. A priori Vraisemb. A posteriori

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;nx + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + nx) θ x Beta (α ;β) G(θ) Beta (α+ 1 ;β + x − 1) θ (xi)i

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

xin

!

III. Estimation d’une proportion et loi a priori continue

Situation

Loi a priori : T ∼ Beta (α ;β)

Vraisemblance : X ∼ Bin(n, θ)

Loi a posteriori : T|X = x ∼ Beta (α +x ;β + nx) Espérance et variance a priori

E(T) = α

α+ β et V(T) = αβ

(α +β)2(α+ β + 1) Espérance et variance a posteriori

E(T|X = x) = α +x α+ β +n V(T|X = x) = (α+ x)(β +nx)

(α +β + n)2(α+ β + n+ 1)

(37)

III. Estimation d’une proportion et loi a priori continue

Influence du nombre d’observations sur la variance

0.0 0.2 0.4 0.6 0.8 1.0

051015

Loi a posteriori selon le nombre d’observations avec loi a priori uniforme

1 5 10 50 100 500

III. Estimation d’une proportion et loi a priori continue

Évolution de l’espérance

Situation

Loi a priori : T ∼ Beta (α ;β)

Vraisemblance : X ∼ Bin(n, θ)

Loi a posteriori : T|X = x ∼ Beta (α +x ;β + nx)

Espérance a priori

E(T) = α α+ β Espérance a posteriori

E(T|X = x) = α +x α+ β +n

(38)

III. Estimation d’une proportion et loi a priori continue

E(T|X = x)

=

α+ β α+ β +n

| {z }

poids de l’a priori

× α

α +β

| {z }

espérance a priori

+

n

α + β + n

| {z }

poids des données

× x

n

|{z}

moyenne des données

=

Prior effective sample size

z }| { α+ β α+ β + n

| {z }

Posterior effective sample size

× α α + β +

taille des données

z}|{n α +β + n

| {z }

Posterior effective sample size

× x n

III. Estimation d’une proportion et loi a priori continue

Influence des hyperparamètres : n = 10 et x = 8

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(1 ; 1)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(5 ; 5)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(10 ; 10)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(20 ; 20)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(50 ; 50)

0.0 0.2 0.4 0.6 0.8 1.0

0246810

Beta(100 ; 100)

(39)

III. Estimation d’une proportion et loi a priori continue

Influence de la loi apriori

0.0 0.2 0.4 0.6 0.8 1.0

02468

Lois a priori

Beta(1,1) Beta(1,3) Beta(3,1)

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 1 observation

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 5 observations

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 10 observations

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 20 observations

0.0 0.2 0.4 0.6 0.8 1.0

02468

Après 50 observations

III. Estimation d’une proportion et loi a priori continue

Choix de la loi a priori

Règle

Éviter les a priori trop rigides.

Première idée

loi uniforme : T ∼ U([0; 1]) = Beta(1 ; 1) Remarque

Prior effective sample size : 1 + 1 = 2

Il s’agit d’un a priori informatif Choix d’une loi a priori informative

On choisit une famille de lois conjuguées flexibles (ici les lois Beta) et on se base sur notre connaissance.

espérance et variance

quantiles

taille effective de l’échantillon a priori

(40)

III. Estimation d’une proportion et loi a priori continue

Exemple 1 E(T) = α

α+ β = 0.7 et V(T) = 0.1 A priori : T ∼ Beta(0.77,0.33)

Exemple 2 E(T) = α

α+ β = 0.8 et α +β = 1 =⇒ A priori : T ∼ Beta(0.8,0.2)

E(T) = α

α+ β = 0.8 et α +β = 10 =⇒ A priori : T ∼ Beta(8,2) Exemple 3

Médiane : 0.7

Sûr à 95% inférieure à 0.9

Sûr à 95% supérieure à 0.3 A priori : T ∼ Beta(3,1.5)

III. Estimation d’une proportion et loi a priori continue

Commentaires

les lois Beta ne sont pas toujours adaptées comme a priori elles sont toutes unimodales

s’enfermer dans une famille de lois peut contraindre à ne pas utiliser toutes les informations disponibles

que faire pour choisir un a priori non (ou peu) informatif ?

(41)

III. Estimation d’une proportion et loi a priori continue

Choix d’une loi a priori non informative

loi uniforme : Beta(1 ; 1) non complètement non informative

diminution de l’information : Beta(0.8 ; 0.8)

diminution de l’information : Beta(0.2 ; 0.2)

III. Estimation d’une proportion et loi a priori continue

Différentes lois Beta peu informatives

0.0 0.2 0.4 0.6 0.8 1.0

012345

Beta(0.5 ; 0.5) Beta(0.2 ; 0.2) Beta(0.1 ; 0.1) Beta(0.05 ; 0.05) Beta(0.02 ; 0.02) Beta(0.01 ; 0.01)

(42)

III. Estimation d’une proportion et loi a priori continue

Choix d’une loi a priori non informative

Cas limite : Beta(0 ; 0)

fT(θ) ∝ θ−1(1 −θ)−1 mais

Z 1 0

fT(θ)dθ = +∞

Loi a posteriori ?

fT|X=x(θ) ∝ θx−1(1 −θ)n−1 La loi a posteriori est souvent une véritable loi.

Loi a priori impropre mais utilisable Inférence

Estimation : E(T|X = x) = x n

Estimateur : E(T|X) = X : moyenne empirique

III. Estimation d’une proportion et loi a priori continue

Choix d’une loi a priori non informative

Loi a priori non informative de Jeffreys basée sur l’information de Fisher

Information de Fischer I(θ) = E

lnfX|T=θ(X)

∂θ

!2

= −E

2lnfX|T(X)

∂θ2

!

Loi a priori non informative de Jeffreys fT(θ) ∝ qI(θ)

(43)

III. Estimation d’une proportion et loi a priori continue

Choix d’une loi a priori non informative

X|T = θ ∼ Ber(θ)

I(θ) = 1 θ(1θ) fT(θ) ∝ 1

pθ(1θ) =⇒ T ∼ Beta 1

2; 1 2

IV. Applications

Estimation d’une proportion

On cherche à estimer la proportion d’étudiants de L2 préférant le cours de Maths 4 par rapport à au cours de Stat du S3.

Quelle loi a priori choisir ?

On interroge 10 L2 et 6 préfèrent le cours de Maths.

Probabilité que la majorité (les trois quarts) des étudiants de L2 préfèrent le cours de Maths 4 à celui de Stat du S3

Estimation ponctuelle de la proportion

Estimation par intervalle de la proportion

(44)

IV. Applications

A priori discret

Nombre de badges vendus en 1h : loi de Poisson de paramètre λ

Arthur : λ = 10

Lidia : λ = 15

Lidia arrive se faire remplacer par Arthur une fois sur 10.

Badges vendus par heure : 12, 10, 11, 4, 11.

Qui a tenu le stand ?

(45)

C3. E

STIMATION

B

AYÉSIENNE

C

AS D

UNE VRAISEMBLANCE CONTINUE Julie Scholler - Bureau B246

mars 2019

I. Introduction

Loi a priori continue et vraisemblance continue

Formalisme

Loi a priori : fT(θ)

Vraisemblance : fX|T(x)

Loi a posteriori : fT|X=x(θ)

fT|X=x(θ) = fX|T(x)× fT(θ) fX(x)

fX(x)?

Loi a posteriori ∝ Vraisemblance × Loi a priori

(46)

II. Vraisemblance exponentielle

Cas d’une vraisemblance exponentielle

On souhaite estimer le temps d’attente d’un bus.

X|T = θ ∼ Exp(θ) Rappels : loi exponentielle

Y ∼ Exp(θ)

fY(x) = θe−θx1[0;+∞[(x)

E(Y) = 1

θ et V(Y) = 1 θ2

Loi a priori

T(Ω) = R+, loi de T ?

II. Vraisemblance exponentielle

Choix de la loi a priori

T(Ω) = R+

loi du χ2, loi exponentielle,...

Loi a priori exponentielle

T(Ω) = R+

T ∼ Exp(λ)

fT(θ) = λe−λθ1[0;+∞[(x) Loi a posteriori

fT|X=x(θ) ∝ θe−(λ+x1[0;+∞[(x)

(47)

II. Vraisemblance exponentielle

Famille de lois Gamma

α et β deux réels strictement positifs

Y ∼ Gamma(α, β) Alors

Y(Ω) = [0 ; +∞[

fY(t) = c ×tα−1e−βt1[0;+∞[(t) avec c = βα

Γ(α)

II. Vraisemblance exponentielle

0.0 0.5 1.0 1.5

0 2 4 6

paramètres

(0.6,2) (1,1) (2,0.6) (2,2)

(48)

II. Vraisemblance exponentielle

0.0 2.5 5.0 7.5 10.0

0 1 2 3

paramètres

(1,1) (1,10) (1,2) (1,4)

II. Vraisemblance exponentielle

0 2 4 6

0.0 0.5 1.0 1.5 2.0

paramètres

(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)

(49)

II. Vraisemblance exponentielle

α et β deux réels strictement positifs

Y ∼ Gamma(α, β) Alors

E(X) = α β

Mode : α− 1

β si α > 1

V(X) = α β2

II. Vraisemblance exponentielle

0.0 0.5 1.0

0 2 4 6

paramètres

(1,1) (10,10) (2,2) (4,4)

(50)

II. Vraisemblance exponentielle

Quelques propriétés de lois Gamma

Stabilité par addition

Soient Y1 ∼ Γ(α1, β) et Y2 ∼ Γ(α2, β), deux variables aléatoires indépendantes entre elles.

Alors on a

Y1 +Y2 ∼ Γ(α1 + α2, β) Changement d’échelle

Soient Y ∼ Γ(α, β) et λ ∈ R+. Alors on a

λY ∼ Γ

α, β λ

Application

Soient Xi ∼ Exp(λ), i ∈ J1;nK. On a X ∼ Γ (n;nλ)

II. Vraisemblance exponentielle

Retour au cas d’une vraisemblance exponentielle

Formalisme

Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R+(θ)

Vraisemblance : fX|T(x) = θe−θx1R+(x)

Loi a posteriori : fT|X=x(θ) ∝ θαe−β(θ+x)1R+(θ) Mise à jour des paramètres

T|X = x ∼ Γ(α+ 1 ;β +x) Plusieurs observations

T|X1 = x1, . . . ,Xn = xn ∼ Γ α +n;β +

n

X

i=1

xi

!

(51)

II. Vraisemblance exponentielle

Hyp. Don. A priori Vraisemb. A posteriori

θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;nx + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + nx) θ (xi)i

J1;nK Beta (α ;β)

n

Y

i=1

G(θ) Beta α +n ;β +

n

X

i=1

xin

!

θ (xi)i

J1;nK Γ (α ;β)

n

Y

i=1

Exp(θ) Γ α +n ;β +

n

X

i=1

xi

!

θ (xi)i

J1;nK Γ (α ;β)

n

Y

i=1

Γ (a ;θ) Γ α+ na ;β +

n

X

i=1

xi

!

θ (xi)i

J1;nK Γ (α ;β)

n

Y

i=1

P(θ) Γ α +

n

X

i=1

xi ;β +n

!

II. Vraisemblance exponentielle

Situation

Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R+(θ)

Vraisemblance : fX|T(x) = θe−θx1R+(x)

Loi a posteriori : fT|X=x(θ) ∝ θαe−θ(β+x)1R+(θ) Espérances a priori et a posteriori

E(T) = α

β et E(T|X = x) = α+ n β + nx 1

E(T|X = x) = α

α +n × β

α + n

α+ n ×x A priori effective sample size : α

(52)

II. Vraisemblance exponentielle

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

Choix de la loi a priori

Famille conjuguée : Γ(α, β)

Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

Poids de la loi a priori : a priori effective sample size : α = 100 Loi a priori : T ∼ Γ(100 ; 1000)

Écart type : σT =

α

β = 0.01

P 1

T ∈ [8.55; 11.89]

' 0.95

II. Vraisemblance exponentielle

Retour à l’arrêt de bus

On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.

Loi a priori : T ∼ Γ(100 ; 1000)

Observation : X = 12

Loi a posteriori : T|X = 12 ∼ Γ(101 ; 1012) Estimation : E(T|X = 12) = 101

1012 ' 0.0998

(53)

II. Vraisemblance exponentielle

0 10 20 30 40

0.06 0.08 0.10 0.12 0.14

1 : Γ(101,1001) 12 : Γ(101,1012) 60 : Γ(101,1060) A priori : Γ(100,1000)

Loi a posteriori selon le temps d’attente

II. Vraisemblance exponentielle

En fait, on est dans une ville dont on ne connait pas le système de bus.

Choix d’un a priori moins fort

Famille conjuguée : Γ(α, β)

Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β

Poids de la loi a priori : a priori effective sample size : α = 10 Loi a priori : T ∼ Γ(10 ; 100)

Écart type : σT =

α

β ' 0.03

P 1

T ∈ [6.37; 18.43]

' 0.95

(54)

II. Vraisemblance exponentielle

0 5 10 15 20

0.00 0.05 0.10 0.15 0.20 0.25

1 : Γ(11,101) 12 : Γ(11,112) 60 : Γ(11,160) A priori : Γ(10,100)

Loi a posteriori selon le temps d’attente

II. Vraisemblance exponentielle

Choix d’une loi a priori non ou peu informative

Première idée

charger uniformément toutes les valeurs possibles

pseudo-loi uniforme sur R+

fT(θ) ∝ 1× 1R+(θ)

loi a priori impropre mais utilisable

« T ∼ Γ(1; 0) » et T|X = x ∼ Γ 1 + n;

n

X

i=1

xi

!

correspond à un prior effective sample size de 1

(55)

II. Vraisemblance exponentielle

Choix d’une loi a priori non ou peu informative

Deuxième idée

diminuer le prior effective sample size : α

Γ(ε, ε) avec ε très petit

cas limite : Γ(0 ; 0)

fT(θ) θ−1 mais

Z +∞

0

fT(θ)dθ = +∞

loi a priori impropre mais utilisable

loi a posteriori : T|X =x Γ n;

n

X

i=1

xi

!

Estimation : E(T|X = x) = 1

estimateur du maximum de vraisemblancex

II. Vraisemblance exponentielle

Choix d’une loi a priori non ou peu informative

Troisième idée

Loi a priori non informative de Jeffreys : fT(θ) ∝ q

I(θ)

Pour une loi Exp(θ) : I(θ) = 1 θ2 fT(θ) ∝ 1

θ =⇒ T ∼ Γ (0; 0)

(56)

II. Vraisemblance exponentielle

Au passage

χ

2

(ν ) ∼ Γ ν 2 ; ν

2

!

III. Vraisemblance normale

Vraisemblance normale

Vraisemblance

Loi normale : X|T = θ ∼ N(θ;σ) avec σ connu fX(x) = 1

2πσ2e12

(x−θ)2 σ2

Quelle loi conjuguée ? Loi a priori

Loi normale : T ∼ N(µ0;σ0) Loi a posteriori

fT|X=x(t) ∝ e

12

(x−θ)2

σ2 +(θ−µ0)

2 σ2

0

e

1

20)

θ−τxτ+τ0µ0

0

2

avec τ = 1

σ2 et τ0 = 1 σ02

(57)

III. Vraisemblance normale

Résumé

Loi a priori : T ∼ N(µ0;σ0)

Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu

Loi a posteriori : T|X = x ∼ N (µ1;σ1) avec

µ1 = τ0µ0 +τx τ0 + τ =

µ0

σ02 + σx2

1

σ02 + σ12

et

σ1 = 1

τ0 +τ = 1 q 1

σ20 + σ12 On a τ1 = τ0 +τ. Ainsi on a toujours

σ1 < σ0

III. Vraisemblance normale

Application

Loi a priori : T ∼ N(3; 1)

Vraisemblance : X|T = θ ∼ N(θ; 1)

Observation : x = 5 Loi a posteriori

Loi a posteriori : T|X = x ∼ N

3 + x 2 ; 1

√2

Estimation : E(T|X = x) = 3 +x ici E(T|X = 5) = 42

Intervalle de crédibilité pour θ à 95% :

4± 1.96× 1

√2

' [2.614; 5.386]

Références

Documents relatifs

Contexte : Dans les probabilités étudiées au Lycée, on considère très souvent l’égale répartition comme donnée. Pour une pièce « équilibrée », la probabilité de tomber

On considère l’expérience aléatoire suivante : on lance une pièce équilibrée et on prend une boule au hasard dans l’urne.. Représenter grâce à un tableau l’ensemble des

corrélation linéaire, moyennes, variance) peuvent correspondre à des situations très différentes :

• 9 séances de cours magistraux de 2h, le lundi matin.. • 6 séances de travaux dirigés

tableaux synthétiques, graphiques, indicateurs de tendance centrale, de dispersion, courbe de concentration, indice de Gini.. • Statistiques

Si elle est allée à la plage dans la journée, la probabilité qu’elle aille en boîte de nuit est de 0,5, tandis que si elle n’est pas allée à la plage, la

[r]

En outre, comme les mannequins sont très minces, en associant leur image à la cigarette, on renforce le message destiné aux femmes (les mannequins fument pour rester minces; fumez