L3 É
CONOMIE- M
ODULE2 S
TATISTIQUES ETA
NALYSE DED
ONNÉES3
Julie Scholler - Bureau B246
janvier 2019
.
Contenu de l’enseignement
• Discussion autour de l’utilisation de la statistique fréquentiste, principalement lors de tests d’hypothèses
• Estimation bayésienne
• loi a priori et a posteriori discrète
• estimation d’une proportion avec loi a priori continue
• estimation d’une moyenne
• autres exemples d’estimation ponctuelle
• utilisation de la loi a posteriori
• choix de la loi a priori
• Théorie bayésienne des tests
.
Prérequis
• Probabilités de L1
• Statistique inférentielle de L2
Structure
• 9 séances de cours magistraux de 2h dont deux contrôles continus
• 4 séances de travaux dirigés de 2h
.
Deux paradigmes
Paradigme Fréquentiste
• probabilités dites objectives
• tendance des dispositifs aléatoires à produire certains résultats avec des fréquences stables
• fréquence à long terme
• « théorie de la nature » Paradigme Bayésien
• probabilités dites subjectives
• degré de certitude/croyance/connaissance a priori (éventuellement basé sur des éléments de preuve)
• traduction chiffrée de l’état de la connaissance
• « théorie de la connaissance »
.
En théorie de l’estimation
Statistique Fréquentiste
• paramètre θ inconnu considéré comme déterministe
• estimation menée en considérant que l’on ignore tout de θ à part son support
• sur le long terme notre estimation tend à être bonne Statistique Bayésienne
• paramètre θ inconnu considéré comme aléatoire
• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ
• expériences similaires
• avis d’expert du phénomène
• mise à jour de nos croyances suite à l’observation de données
.
En théorie des tests
Randall Munroe : https: // www. xkcd. com/ 1132/
C1. D
ISCUSSION AUTOUR DEL
’
UTILISATION DE TESTS HYPOTHÈSES EN STATISTIQUE FRÉQUENTISTEJulie Scholler - Bureau B246
janvier 2019
I. Rappels
Test d’hypothèses
Mécanisme permettant de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant le risque associé à la prise de décision
Hypothèses • H0 (hypothèse de référence, hypothèse nulle)
• H1 (hypothèse alternative) Décision choix entre H0 et H1
Toute décision comporte un risque.
I. Rappels
Type d’erreurs
Erreur de première espèce décision de rejeter H0 alors que H0 est vraie, risque associé : α
Erreur de seconde espèce décision de ne pas rejeter H0 alors que H0 est fausse, risque associé : β
H0 vraie H1 vraie Ne pas rejeter H0 1− α β
Rejeter H0 α 1−β
I. Rappels
Test en statistique fréquentiste
Approche de Neyman–Pearson
• Statistique de test : T
• Zone de rejet W telle que PH0(T ∈ W) = α
• Règle de décision : si tobs ∈ W, alors on rejette H0 Justification
Sur le long terme, on ne rejettera H0 à tort que dans une proportion α des cas.
P-value
PH0 (observer des données aussi extrèmes que tobs) Point de vue de Fisher
• p-value : mesure de crédibilité de H0, nous dit à quel point nos données sont surprenantes si on suppose que H0 est vraie
I. Rappels
Quelques critiques
• Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0
• La p-value ne nous donne pas la probabilité que l’on veut P(H0 soit vraie | les données observées)
• si p < 0.05, on n’a pas 95% de chance que H1 soit vraie.
• si p > 0.05, les données sont considérées comme non surprenantes. Cela ne signifie pas que H0 est vraie.
II. Erreurs de première et second espèces
• Taux d’erreur : concept fréquentiste
• Objectif : ne pas se tromper trop souvent sur le long terme
• « Why Most Published Research Findings Are False » John Ioannides (2005)
H0 vraie H1 vraie Ne pas rejeter H0 1− α β
Rejeter H0 α 1−β
Proba. condi. H0 vraie H1 vraie Ne pas rejeter H0 1− α β
Rejeter H0 α 1− β
Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8
Probabilités H0 vraie H1 vraie Ne pas rejeter H0
Rejeter H0
Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8
Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100
Rejeter H0 0.025 0.400
Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8
Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100
Rejeter H0 0.025 0.400 P(la conclusion est correcte | on a rejeté H0) ? Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5
avec α = 0.05 et 1− β = 0.8 Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100
Rejeter H0 0.025 0.400
P(la conclusion est correcte | on a rejeté H0) = 0.4
0.425 ' 0.94
II. Erreurs de première et second espèces
Applicaton Shiny avec R
II. Erreurs de première et second espèces
• Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0
• « Un résultat sur 20 dans la littérature sont des erreurs de première espèce »
Non car les résultats publiés sont ceux ayant amené à rejeter H0 et non ceux où H0 est vraie
• Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0 → p-hacking ou data-dredging
II. Erreurs de première et second espèces
p-hacking
Randall Munroe : https: // www. xkcd. com/ 882/
II. Erreurs de première et second espèces
II. Erreurs de première et second espèces
p-hacking
Randall Munroe : https: // www. xkcd. com/ 882/
III. À quelle p-value s’attendre ?
À quelle p-value s’attendre si H1 est vraie ?
À quelle p-value s’attendre si H0 est vraie ?
III. À quelle p-value s’attendre ?
Simulation de 100 000 expériences avec H
1vraie
Répartition des p-values pour une puissance de 50 %
P-values
Effectifsdesp-values
0.0 0.2 0.4 0.6 0.8 1.0
0 10000 20000 30000 40000 50000
III. À quelle p-value s’attendre ?
Simulation de 100 000 expériences avec H
1vraie
Répartition des p-values pour une puissance de 74.3 %
P-values
Effectifsdesp-values
0.0 0.2 0.4 0.6 0.8 1.0
0 20000 40000 60000
III. À quelle p-value s’attendre ?
Si H
1est vraie
• la proportion de p-value inférieures à α correspond à 1− β
• plus la puissance du test est élevée plus on observe des p-value petites si H1 est vraie
• Application Shiny avec R
III. À quelle p-value s’attendre ?
Si H
0est vraie
III. À quelle p-value s’attendre ?
Simulation de 100 000 expériences avec H
0vraie
Répartition des p-values
P-values
Effectifsdesp-values
0.0 0.2 0.4 0.6 0.8 1.0
0 1000 2000 3000 4000 5000 6000
III. À quelle p-value s’attendre ?
Simulation de 100 000 expériences avec H
0vraie
Répartition des p-values
P-values
Fréquencesdesp-values
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2
III. À quelle p-value s’attendre ?
• Si H0 est vraie, les p-value se répartissent uniformément entre 0 et 1.
• Si H0 est vraie, on a autant de chances d’avoir une p-value entre 0.8 et 0.85 qu’entre 0.1 et 0.15 ou entre 0 et 0.05.
III. À quelle p-value s’attendre ?
Attention
Si l’échantillon est très grand, la puissance du test est très élevée.
On aura
P(p-value ∈ [0.04; 0.05]|H0 vraie) > P(p-value ∈ [0.04; 0.05]|H1 vraie)
IV. Alternatives
• Intervalles de confiance
• Taille d’effet et analyse de puissance
• Rapport de vraisemblance
• Statistique bayésienne
IV. Alternatives
Intervalle de confiance
Exemple
X suit une loi à densité dépendant d’un paramètre θ (inconnu) On sait que E(X) = θ + 1 et V(X) = 1.
On a observé 10 valeurs :
9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 On souhaite une estimation par intervalle de confiance du θ.
IV. Alternatives
Comparaison entre la répartition des simulations de θb et la loi normale de même espérance et même variance.
Avec θb ∼
approx N
θ; 1
√n
, on a IC95%approx =
X ± 1.96× 1
√n
.
On obtient [9.40; 10.64].
Comment interpréter le résultat ?
IV. Alternatives
0.0 0.2 0.4 0.6 0.8 1.0
050100150200
Intervalle de confiance de p à 95%
Fréquence dans l'échantillon
Échantillons
IV. Alternatives
0.0 0.2 0.4 0.6 0.8 1.0
050100150200
Intervalle de confiance de p à 99%
Fréquence dans l'échantillon
Échantillons
IV. Alternatives
Niveau de confiance 1 − α
Si on réalise plein de sondages notre méthode nous assure qu’une proportion 1−α des intervalles de confiance construits contiendront la vraie valeur à estimer.
Un statisticien fréquentiste doit dire
« il y a 95% de chance que, quand je calcule un intervalle de confiance à partir de données selon cette procédure, l’intervalle
obtenu contienne la vraie valeur de θ » et ne peut rien dire sur l’intervalle numérique obtenu.
IV. Alternatives
Exemple
X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.
On a observé 10 valeurs :
9.2 9.5 9.6 10.7 11.1 11.2 11.3 11.4 12.6 13.6 et on a obtenu l’intervalle de confiance suivant :
[9.40; 10.64]
Précision sur la loi de X
fX(x) = eθ−x1[θ;+∞[(x)
Commentaires ?
C2. S
TATISTIQUEB
AYÉSIENNEJulie Scholler - Bureau B246
janvier-février 2019
I. Introduction
Philosophie
Statistique Fréquentiste
• paramètre θ inconnu considéré comme déterministe
• estimation menée en considérant que l’on ignore tout de θ à part son support
Statistique Bayésienne
• paramètre θ inconnu considéré comme aléatoire
• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ
• expériences similaires
• avis d’expert du phénomène
I. Introduction
Principe
Paramètre θ inconnu
• considéré comme une variable aléatoire T θ : réalisation de T
• nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))
En réalité, le paramètre n’est pas aléatoire.
Cette méthode est une façon de modéliser nos « croyances » en faisant comme s’il était aléatoire.
I. Introduction
Exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibrée PA(F) = 0.5
• Type B : pièce biaisée vers face PB(F) = 0.6
• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C.
1. On choisit une pièce au hasard dans le sac.
Quelle est la probabilité de chaque type ?
2. On choisit une pièce au hasard dans le sac, on la lance et on note le résultat.
On a obtenu face : quelle est la probabilité de chaque type ?
I. Introduction
Résumé
Hyp. A priori Vraisemblance Num. de Bayes A posteriori H P(H) PH(D) P(H) ×PH(D) PD(H)
A 0.4 0.5 0.2 0.3226
B 0.4 0.6 0.24 0.3871
C 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
PD(H) = PH(D)× P(H)
P(D) = 1
P(D) ×PH(D)× P(H)
loi a priori mise à jour bayésienne
−−−−−−−−−−−−−→
à partir des données loi a posteriori
II. Loi a priori discrète et finie
Paramètre θ inconnu
• on le considère comme une variable aléatoire T θ : réalisation de T
• nos connaissances préalables sont intégrées à la loi a priori de T (fT(θ))
Quand la loi de T est à support discret fini, on peut procéder avec un tableau de mise à jour comme précédemment.
II. Loi a priori discrète et finie
Retour sur l’exemple introductif
On possède des pièces de trois types.
• Type A : pièce équilibrée PA(F) = 0.5
• Type B : pièce biaisée vers face PB(F) = 0.6
• Type C : pièce biaisée vers face PC(F) = 0.9 Sac avec 2 de type A, 2 de type B et 1 de type C. On choisit une pièce au hasard et on la lance une fois.
On note
• T la variable aléatoire correspondant à la probabilité d’avoir face lors d’un lancer pour la pièce choisie ;
• X la variable aléatoire qui vaut 1 si on obtient face.
Loi de T ? Loi de X ?
II. Loi a priori discrète et finie
P{X=x}(T = θ) = P{T=θ}(X = x)× P(T = θ) P(X = x)
= 1
P(X = x) × P{T=θ}(X = x)× P(T = θ) loi a posteriori ∝ vraisemblance×loi a priori
∝ signifie « proportionnel à » (différent de α et de ∞)
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)
0.5 0.4 0.5 0.2 0.3226
0.6 0.4 0.6 0.24 0.3871
0.9 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
II. Loi a priori discrète et finie
Comparaison loi a priori et loi a posteriori
0.2 0.4
0.5 0.6 0.9 0.3
Valeur de θ P(T = θ)
0.2 0.4
0.5 0.6 0.9 0.3
Valeur de θ P{X=1}(T = θ)
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu pile.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 0) · · · P{X=0}(T = θ)
0.5 0.4 0.5 0.2 0.5263
0.6 0.4 0.4 0.16 0.4211
0.9 0.2 0.1 0.02 0.0526
Total 1 / 0.38 1
II. Loi a priori discrète et finie
Comparaison des lois a posteriori selon la donnée
0.2 0.4 0.5
0.5 0.6 0.9 0.3
Valeur de θ P{X=1}(T = θ)
0.2 0.4 0.5
0.5 0.6 0.9 0.3
Valeur de θ P{X=0}(T = θ)
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
P(X = 1) = P(T = 0.5)P0.5(X = 1)
+ P(T = 0.6)P0.6(X = 1) +P(T = 0.9)P0.9(X = 1)
= 0.62
• A posteriori : P{X1=1}(X2 = 1)
P{X1=1}(X2 = 1) = P{X1=1}(T = 0.5)P0.5(X2 = 1) + P{X1=1}(T = 0.6)P0.6(X2 = 1) + P{X1=1}(T = 0.9)P0.9(X2 = 1) ' 0.655
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
• A posteriori : P{X1=1}(X2 = 1) Estimation de θ
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T = θ) P{T=θ}(X = 1) · · · P{X=1}(T = θ)
0.5 0.4 0.5 0.2 0.3226
0.6 0.4 0.6 0.24 0.3871
0.9 0.2 0.9 0.18 0.2903
Total 1 / 0.62 1
II. Loi a priori discrète et finie
Utilisation de la loi a posteriori
Prédictions
• A priori : P(X = 1)
• A posteriori : P{X1=1}(X2 = 1) Estimation de θ
Par exemple
θbB = argmax
θ∈{0.5;0.6;0.9}PD(T = θ)
II. Loi a priori discrète et finie
Plusieurs observations
• si séquentielles, on peut enchaîner les mises à jour une après l’autre
• si les données sont indépendantes, l’ordre n’importe pas et on peut tout faire d’un coup
II. Loi a priori discrète et finie
Tableau de mise à jour
On a obtenu 2 fois face.
Hyp. A priori Vraisemblance N. de Bayes A posteriori θ P(T =θ) P{T=θ}((X1,X2) = (1,1)) · · · P{(X1,X2)=(1,1)}(T =θ)
0.5 0.4 0.25 0.1 0.2463
0.6 0.4 0.36 0.144 0.3547
0.9 0.2 0.81 0.162 0.3990
Total 1 / 0.406 1
III. Estimation d’une proportion et loi a priori continue
Loi a priori continue
Un ami tricheur veut utiliser une de ses pièces pour un pile ou face.
• X ∼ Ber(θ)
• T(Ω) = [0; 1]
Cas où T est continue
• Loi a priori : fT
• Vraisemblances : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ
• Lois a posteriori : fT|X=1 et fT|X=0
fT|X=1(θ) = Pθ(X = 1)×fT(θ) P(X = 1)
loi a posteriori ∝ vraisemblance × loi a priori
III. Estimation d’une proportion et loi a priori continue
Application avec T ∼ U ([0; 1])
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = 1) = θ et Pθ(X = 0) = 1 −θ
• Lois a posteriori
• fT|X=1(θ) ∝ θ1[0;1](θ)
• fT|X=0(θ) ∝ (1− θ)1[0;1](θ)
III. Estimation d’une proportion et loi a priori continue
Comparaison lois a posteriori selon la donnée
1 2
1 0
Valeur de θ fT|X=1
1 2
1 0
Valeur de θ fT|X=0
III. Estimation d’une proportion et loi a priori continue
Utilisation de la loi a posteriori
• Calcul de probabilités sur θ : P{X1=1}(T > 0.5)
• Estimation par intervalle
• I tel que P{X1=1} (T ∈ I) = 1− α
• Estimation ponctuelle θb
• valeur la plus probable - mode
• espérance a posteriori : E(T|X = 1)
• Prédiction : P{X1=1}(X2 = 1)
III. Estimation d’une proportion et loi a priori continue
On teste plusieurs fois la pièce
Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.
On la teste en la lançant 5 fois.
• X ∼ Bin(5;θ)
• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = x) = x 5
!
θx(1− θ)5−x
• Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)
T|X = x ∼ Beta (x + 1; 5−x + 1)
III. Estimation d’une proportion et loi a priori continue
Famille des lois Beta
• α et β deux réels strictement positifs
• X ∼ Beta(α, β) Alors
• X(Ω) = [0 ; 1]
• fX(t) = c ×tα−1(1− t)β−11[0;1](t) avec c = 1
B(α, β) = Γ(α+ β) Γ(α)Γ(β)
III. Estimation d’une proportion et loi a priori continue
0 1 2 3
0.00 0.25 0.50 0.75 1.00
x
paramètres
(1,1) (10,10) (2,2) (4,4)
III. Estimation d’une proportion et loi a priori continue
0 1 2 3 4
0.00 0.25 0.50 0.75 1.00
paramètres
(1,1) (1,4) (2,4) (3,4) (4,4)
III. Estimation d’une proportion et loi a priori continue
0.0 2.5 5.0 7.5 10.0
0.00 0.25 0.50 0.75 1.00
paramètres
(1,1) (1,10) (1,2) (1,4)
III. Estimation d’une proportion et loi a priori continue
0 2 4 6
0.00 0.25 0.50 0.75 1.00
paramètres
(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)
III. Estimation d’une proportion et loi a priori continue
• α et β deux réels strictement positifs
• X ∼ Beta(α, β) Alors
• E(X) = α α+ β
• Mode : α− 1
α+ β − 2 si α, β > 1
• V(X) = αβ
(α+ β)2 (α+ β + 1)
III. Estimation d’une proportion et loi a priori continue
0 10 20 30
0.00 0.25 0.50 0.75 1.00
paramètres
(0.1,2) (1,1) (1,20) (5,100)
III. Estimation d’une proportion et loi a priori continue
Retour à notre pièce et nos lancers
Un ami tricheur veux utiliser une de ses pièces pour un pile ou face.
On la teste en la lançant 5 fois.
• X ∼ Bin(5;θ)
• T(Ω) = [0; 1] avec T ∼ U([0; 1]) Cas où T est continue
• Loi a priori : fT(θ) = 1 ×1[0;1](θ)
• Vraisemblance : Pθ(X = x) = x 5
!
θx(1− θ)5−x
• Loi a posteriori : fT|X=x(θ) ∝ θx(1− θ)5−x1[0;1](θ)
T|X = x ∼ Beta (x + 1; 5−x + 1)
III. Estimation d’une proportion et loi a priori continue
0 2 4 6
0.00 0.25 0.50 0.75 1.00
0 : Beta(1,6) 1 : Beta(2,5) 2 : Beta(3,4) 3 : Beta(4,3) 5 : Beta(5,2) 6 : Beta(6,1)
A priori : Beta(1,1)
Loi a posteriori selon le nombres de faces obtenus
III. Estimation d’une proportion et loi a priori continue
Utilisation de la loi a posteriori
T|X = x ∼ Beta (x + 1;n − x + 1)
• Calcul de probabilités sur θ : P{X=x}(T > 0.5)
• Estimation ponctuelle θb
• valeur la plus probable - mode : x
• médiane n
• espérance a posteriori : E(T|X = x) = x + 1 n + 2
• Estimation par intervalle
• I tel que P{X=x} (T ∈ I) = 1− α
• Prédiction : P{X=x}(Y = 1)
III. Estimation d’une proportion et loi a priori continue
EQM selon la valeur de θ - EQM
θ(X ) en rouge
0.0 0.4 0.8
0.0000.0020.0040.0060.008
Pour n= 30
0.0 0.4 0.8
0.0000.0020.0040.0060.008
Pour n= 50
0.0 0.4 0.8
0.0000.0020.0040.0060.008
Pour n= 100
III. Estimation d’une proportion et loi a priori continue
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Les familles de lois Beta et binomiales sont dites conjuguées.
Hyp. Don. A priori Vraisemb. A posteriori
θ x U([0 ; 1]) Bin(n ;θ) Beta (1 +x ; 1 +n −x) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x)
III. Estimation d’une proportion et loi a priori continue
Expériences différentes et même résultat
Vous souhaitez tester une pièce.
Vous êtes d’accord sur une loi a priori Beta(5 ; 5) mais pas sur le protocole.
Protocoles proposés
1. Lancer 6 fois la pièce
2. Lancer jusqu’à obtenir face Résultat : 5 fois pile, puis 1 face Formalisme
• Loi a priori : T ∼ Beta(5 ; 5)
• Vraisemblance : X1 ∼ Bin(6, θ) et X2 ∼ G(θ)
• Loi a posteriori ?
III. Estimation d’une proportion et loi a priori continue
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ x Beta (α ;β) G(θ) Beta (α+ 1 ;β + x − 1) θ (xi)i∈
J1;nK Beta (α ;β)
n
Y
i=1
G(θ) Beta α +n ;β +
n
X
i=1
xi − n
!
III. Estimation d’une proportion et loi a priori continue
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x) Espérance et variance a priori
E(T) = α
α+ β et V(T) = αβ
(α +β)2(α+ β + 1) Espérance et variance a posteriori
E(T|X = x) = α +x α+ β +n V(T|X = x) = (α+ x)(β +n − x)
(α +β + n)2(α+ β + n+ 1)
III. Estimation d’une proportion et loi a priori continue
Influence du nombre d’observations sur la variance
0.0 0.2 0.4 0.6 0.8 1.0
051015
Loi a posteriori selon le nombre d’observations avec loi a priori uniforme
1 5 10 50 100 500
III. Estimation d’une proportion et loi a priori continue
Évolution de l’espérance
Situation
• Loi a priori : T ∼ Beta (α ;β)
• Vraisemblance : X ∼ Bin(n, θ)
• Loi a posteriori : T|X = x ∼ Beta (α +x ;β + n− x)
Espérance a priori
E(T) = α α+ β Espérance a posteriori
E(T|X = x) = α +x α+ β +n
III. Estimation d’une proportion et loi a priori continue
E(T|X = x)
=
α+ β α+ β +n
| {z }
poids de l’a priori
× α
α +β
| {z }
espérance a priori
+
n
α + β + n
| {z }
poids des données
× x
n
|{z}
moyenne des données
=
Prior effective sample size
z }| { α+ β α+ β + n
| {z }
Posterior effective sample size
× α α + β +
taille des données
z}|{n α +β + n
| {z }
Posterior effective sample size
× x n
III. Estimation d’une proportion et loi a priori continue
Influence des hyperparamètres : n = 10 et x = 8
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(1 ; 1)
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(5 ; 5)
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(10 ; 10)
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(20 ; 20)
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(50 ; 50)
0.0 0.2 0.4 0.6 0.8 1.0
0246810
Beta(100 ; 100)
III. Estimation d’une proportion et loi a priori continue
Influence de la loi apriori
0.0 0.2 0.4 0.6 0.8 1.0
02468
Lois a priori
Beta(1,1) Beta(1,3) Beta(3,1)
0.0 0.2 0.4 0.6 0.8 1.0
02468
Après 1 observation
0.0 0.2 0.4 0.6 0.8 1.0
02468
Après 5 observations
0.0 0.2 0.4 0.6 0.8 1.0
02468
Après 10 observations
0.0 0.2 0.4 0.6 0.8 1.0
02468
Après 20 observations
0.0 0.2 0.4 0.6 0.8 1.0
02468
Après 50 observations
III. Estimation d’une proportion et loi a priori continue
Choix de la loi a priori
Règle
Éviter les a priori trop rigides.
Première idée
loi uniforme : T ∼ U([0; 1]) = Beta(1 ; 1) Remarque
• Prior effective sample size : 1 + 1 = 2
• Il s’agit d’un a priori informatif Choix d’une loi a priori informative
On choisit une famille de lois conjuguées flexibles (ici les lois Beta) et on se base sur notre connaissance.
• espérance et variance
• quantiles
• taille effective de l’échantillon a priori
III. Estimation d’une proportion et loi a priori continue
Exemple 1 E(T) = α
α+ β = 0.7 et V(T) = 0.1 A priori : T ∼ Beta(0.77,0.33)
Exemple 2 E(T) = α
α+ β = 0.8 et α +β = 1 =⇒ A priori : T ∼ Beta(0.8,0.2)
E(T) = α
α+ β = 0.8 et α +β = 10 =⇒ A priori : T ∼ Beta(8,2) Exemple 3
• Médiane : 0.7
• Sûr à 95% inférieure à 0.9
• Sûr à 95% supérieure à 0.3 A priori : T ∼ Beta(3,1.5)
III. Estimation d’une proportion et loi a priori continue
Commentaires
• les lois Beta ne sont pas toujours adaptées comme a priori elles sont toutes unimodales
• s’enfermer dans une famille de lois peut contraindre à ne pas utiliser toutes les informations disponibles
• que faire pour choisir un a priori non (ou peu) informatif ?
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
• loi uniforme : Beta(1 ; 1) non complètement non informative
• diminution de l’information : Beta(0.8 ; 0.8)
• diminution de l’information : Beta(0.2 ; 0.2)
III. Estimation d’une proportion et loi a priori continue
Différentes lois Beta peu informatives
0.0 0.2 0.4 0.6 0.8 1.0
012345
Beta(0.5 ; 0.5) Beta(0.2 ; 0.2) Beta(0.1 ; 0.1) Beta(0.05 ; 0.05) Beta(0.02 ; 0.02) Beta(0.01 ; 0.01)
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
Cas limite : Beta(0 ; 0)
fT(θ) ∝ θ−1(1 −θ)−1 mais
Z 1 0
fT(θ)dθ = +∞
Loi a posteriori ?
fT|X=x(θ) ∝ θx−1(1 −θ)n−1 La loi a posteriori est souvent une véritable loi.
• Loi a priori impropre mais utilisable Inférence
• Estimation : E(T|X = x) = x n
• Estimateur : E(T|X) = X : moyenne empirique
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
Loi a priori non informative de Jeffreys basée sur l’information de Fisher
Information de Fischer I(θ) = E
∂lnfX|T=θ(X)
∂θ
!2
= −E
∂2lnfX|T=θ(X)
∂θ2
!
Loi a priori non informative de Jeffreys fT(θ) ∝ qI(θ)
III. Estimation d’une proportion et loi a priori continue
Choix d’une loi a priori non informative
X|T = θ ∼ Ber(θ)
I(θ) = 1 θ(1− θ) fT(θ) ∝ 1
pθ(1− θ) =⇒ T ∼ Beta 1
2; 1 2
IV. Applications
Estimation d’une proportion
On cherche à estimer la proportion d’étudiants de L2 préférant le cours de Maths 4 par rapport à au cours de Stat du S3.
• Quelle loi a priori choisir ?
On interroge 10 L2 et 6 préfèrent le cours de Maths.
• Probabilité que la majorité (les trois quarts) des étudiants de L2 préfèrent le cours de Maths 4 à celui de Stat du S3
• Estimation ponctuelle de la proportion
• Estimation par intervalle de la proportion
IV. Applications
A priori discret
• Nombre de badges vendus en 1h : loi de Poisson de paramètre λ
• Arthur : λ = 10
• Lidia : λ = 15
• Lidia arrive se faire remplacer par Arthur une fois sur 10.
• Badges vendus par heure : 12, 10, 11, 4, 11.
• Qui a tenu le stand ?
C3. E
STIMATIONB
AYÉSIENNEC
AS D’
UNE VRAISEMBLANCE CONTINUE Julie Scholler - Bureau B246mars 2019
I. Introduction
Loi a priori continue et vraisemblance continue
Formalisme
• Loi a priori : fT(θ)
• Vraisemblance : fX|T=θ(x)
• Loi a posteriori : fT|X=x(θ)
fT|X=x(θ) = fX|T=θ(x)× fT(θ) fX(x)
fX(x)?
Loi a posteriori ∝ Vraisemblance × Loi a priori
II. Vraisemblance exponentielle
Cas d’une vraisemblance exponentielle
On souhaite estimer le temps d’attente d’un bus.
• X|T = θ ∼ Exp(θ) Rappels : loi exponentielle
• Y ∼ Exp(θ)
• fY(x) = θe−θx1[0;+∞[(x)
• E(Y) = 1
θ et V(Y) = 1 θ2
Loi a priori
• T(Ω) = R∗+, loi de T ?
II. Vraisemblance exponentielle
Choix de la loi a priori
• T(Ω) = R∗+
• loi du χ2, loi exponentielle,...
Loi a priori exponentielle
• T(Ω) = R∗+
• T ∼ Exp(λ)
• fT(θ) = λe−λθ1[0;+∞[(x) Loi a posteriori
fT|X=x(θ) ∝ θe−(λ+x)θ1[0;+∞[(x)
II. Vraisemblance exponentielle
Famille de lois Gamma
• α et β deux réels strictement positifs
• Y ∼ Gamma(α, β) Alors
• Y(Ω) = [0 ; +∞[
• fY(t) = c ×tα−1e−βt1[0;+∞[(t) avec c = βα
Γ(α)
II. Vraisemblance exponentielle
0.0 0.5 1.0 1.5
0 2 4 6
paramètres
(0.6,2) (1,1) (2,0.6) (2,2)
II. Vraisemblance exponentielle
0.0 2.5 5.0 7.5 10.0
0 1 2 3
paramètres
(1,1) (1,10) (1,2) (1,4)
II. Vraisemblance exponentielle
0 2 4 6
0.0 0.5 1.0 1.5 2.0
paramètres
(0.1,0.1) (0.1,2) (0.5,0.5) (1,1)
II. Vraisemblance exponentielle
• α et β deux réels strictement positifs
• Y ∼ Gamma(α, β) Alors
• E(X) = α β
• Mode : α− 1
β si α > 1
• V(X) = α β2
II. Vraisemblance exponentielle
0.0 0.5 1.0
0 2 4 6
paramètres
(1,1) (10,10) (2,2) (4,4)
II. Vraisemblance exponentielle
Quelques propriétés de lois Gamma
Stabilité par addition
Soient Y1 ∼ Γ(α1, β) et Y2 ∼ Γ(α2, β), deux variables aléatoires indépendantes entre elles.
Alors on a
Y1 +Y2 ∼ Γ(α1 + α2, β) Changement d’échelle
Soient Y ∼ Γ(α, β) et λ ∈ R∗+. Alors on a
λY ∼ Γ
α, β λ
Application
Soient Xi ∼ Exp(λ), i ∈ J1;nK. On a X ∼ Γ (n;nλ)
II. Vraisemblance exponentielle
Retour au cas d’une vraisemblance exponentielle
Formalisme
• Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R∗+(θ)
• Vraisemblance : fX|T=θ(x) = θe−θx1R∗+(x)
• Loi a posteriori : fT|X=x(θ) ∝ θαe−β(θ+x)1R∗+(θ) Mise à jour des paramètres
T|X = x ∼ Γ(α+ 1 ;β +x) Plusieurs observations
T|X1 = x1, . . . ,Xn = xn ∼ Γ α +n;β +
n
X
i=1
xi
!
II. Vraisemblance exponentielle
Hyp. Don. A priori Vraisemb. A posteriori
θ x U(]0 ; 1[) Bin(n ;θ) Beta (x + 1 ;n − x + 1) θ x Beta (α ;β) Bin(n ;θ) Beta (α+ x ;β + n −x) θ (xi)i∈
J1;nK Beta (α ;β)
n
Y
i=1
G(θ) Beta α +n ;β +
n
X
i=1
xi − n
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Exp(θ) Γ α +n ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
Γ (a ;θ) Γ α+ na ;β +
n
X
i=1
xi
!
θ (xi)i∈
J1;nK Γ (α ;β)
n
Y
i=1
P(θ) Γ α +
n
X
i=1
xi ;β +n
!
II. Vraisemblance exponentielle
Situation
• Loi a priori :T ∼ Γ(α, β), fT(θ) ∝ θα−1e−βθ1R∗+(θ)
• Vraisemblance : fX|T=θ(x) = θe−θx1R∗+(x)
• Loi a posteriori : fT|X=x(θ) ∝ θαe−θ(β+x)1R∗+(θ) Espérances a priori et a posteriori
E(T) = α
β et E(T|X = x) = α+ n β + nx 1
E(T|X = x) = α
α +n × β
α + n
α+ n ×x A priori effective sample size : α
II. Vraisemblance exponentielle
Retour à l’arrêt de bus
On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.
Choix de la loi a priori
• Famille conjuguée : Γ(α, β)
• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β
• Poids de la loi a priori : a priori effective sample size : α = 100 Loi a priori : T ∼ Γ(100 ; 1000)
• Écart type : σT =
√α
β = 0.01
• P 1
T ∈ [8.55; 11.89]
' 0.95
II. Vraisemblance exponentielle
Retour à l’arrêt de bus
On souhaite estimer le temps d’attente d’un bus prévu toutes les 10 min. On vient d’en manquer un et on a dû attendre 12 min pour le suivant.
• Loi a priori : T ∼ Γ(100 ; 1000)
• Observation : X = 12
• Loi a posteriori : T|X = 12 ∼ Γ(101 ; 1012) Estimation : E(T|X = 12) = 101
1012 ' 0.0998
II. Vraisemblance exponentielle
0 10 20 30 40
0.06 0.08 0.10 0.12 0.14
1 : Γ(101,1001) 12 : Γ(101,1012) 60 : Γ(101,1060) A priori : Γ(100,1000)
Loi a posteriori selon le temps d’attente
II. Vraisemblance exponentielle
En fait, on est dans une ville dont on ne connait pas le système de bus.
Choix d’un a priori moins fort
• Famille conjuguée : Γ(α, β)
• Temps moyen d’attente : 10 min donc E(T) = 0.1 = α β
• Poids de la loi a priori : a priori effective sample size : α = 10 Loi a priori : T ∼ Γ(10 ; 100)
• Écart type : σT =
√α
β ' 0.03
• P 1
T ∈ [6.37; 18.43]
' 0.95
II. Vraisemblance exponentielle
0 5 10 15 20
0.00 0.05 0.10 0.15 0.20 0.25
1 : Γ(11,101) 12 : Γ(11,112) 60 : Γ(11,160) A priori : Γ(10,100)
Loi a posteriori selon le temps d’attente
II. Vraisemblance exponentielle
Choix d’une loi a priori non ou peu informative
Première idée
• charger uniformément toutes les valeurs possibles
• pseudo-loi uniforme sur R∗+
fT(θ) ∝ 1× 1R∗+(θ)
• loi a priori impropre mais utilisable
« T ∼ Γ(1; 0) » et T|X = x ∼ Γ 1 + n;
n
X
i=1
xi
!
• correspond à un prior effective sample size de 1
II. Vraisemblance exponentielle
Choix d’une loi a priori non ou peu informative
Deuxième idée
• diminuer le prior effective sample size : α
• Γ(ε, ε) avec ε très petit
• cas limite : Γ(0 ; 0)
• fT(θ) ∝θ−1 mais
Z +∞
0
fT(θ)dθ = +∞
• loi a priori impropre mais utilisable
• loi a posteriori : T|X =x ∼Γ n;
n
X
i=1
xi
!
• Estimation : E(T|X = x) = 1
→ estimateur du maximum de vraisemblancex
II. Vraisemblance exponentielle
Choix d’une loi a priori non ou peu informative
Troisième idée
• Loi a priori non informative de Jeffreys : fT(θ) ∝ q
I(θ)
• Pour une loi Exp(θ) : I(θ) = 1 θ2 fT(θ) ∝ 1
θ =⇒ T ∼ Γ (0; 0)
II. Vraisemblance exponentielle
Au passage
χ
2(ν ) ∼ Γ ν 2 ; ν
2
!
III. Vraisemblance normale
Vraisemblance normale
Vraisemblance
Loi normale : X|T = θ ∼ N(θ;σ) avec σ connu fX,θ(x) = 1
√
2πσ2e−12
(x−θ)2 σ2
Quelle loi conjuguée ? Loi a priori
Loi normale : T ∼ N(µ0;σ0) Loi a posteriori
fT|X=x(t) ∝ e
−12
(x−θ)2
σ2 +(θ−µ0)
2 σ2
0
∝ e−
1
2(τ+τ0)
θ−τxτ+τ+τ0µ0
0
2
avec τ = 1
σ2 et τ0 = 1 σ02
III. Vraisemblance normale
Résumé
• Loi a priori : T ∼ N(µ0;σ0)
• Vraisemblance : X|T = θ ∼ N(θ;σ) avec σ connu
• Loi a posteriori : T|X = x ∼ N (µ1;σ1) avec
µ1 = τ0µ0 +τx τ0 + τ =
µ0
σ02 + σx2
1
σ02 + σ12
et
σ1 = 1
√τ0 +τ = 1 q 1
σ20 + σ12 On a τ1 = τ0 +τ. Ainsi on a toujours
σ1 < σ0
III. Vraisemblance normale
Application
• Loi a priori : T ∼ N(3; 1)
• Vraisemblance : X|T = θ ∼ N(θ; 1)
• Observation : x = 5 Loi a posteriori
Loi a posteriori : T|X = x ∼ N
3 + x 2 ; 1
√2
• Estimation : E(T|X = x) = 3 +x ici E(T|X = 5) = 42
• Intervalle de crédibilité pour θ à 95% :
4± 1.96× 1
√2
' [2.614; 5.386]