Diapos-C1

(1)

L3 É

CONOMIE

- M

ODULE

2 S

TATISTIQUES ET

A

NALYSE DE

D

ONNÉES

3

Julie Scholler - Bureau B246

janvier 2021

.

Contenu de l’enseignement

• Discussion autour de l’utilisation de la statistique fréquentiste, principalement lors de tests d’hypothèses

• Estimation bayésienne

• loi a priori et a posteriori discrète

• estimation d’une proportion avec loi a priori continue

• estimation d’une moyenne

• autres exemples d’estimation ponctuelle

• utilisation de la loi a posteriori

• choix de la loi a priori

• Théorie bayésienne des tests

(2)

.

Prérequis

• Probabilités de L1

• Statistique inférentielle de L2

Structure

• 9 séances de cours magistraux de 2h dont deux contrôles continus

• 4 séances de travaux dirigés de 2h

.

Planning prévisionnel

Semaine CM - Thème TD - Thème

25/01 CM1 - C1 Regard critique sur la statistique fréquentiste

01/02 CM2 - Fin C1 + début du C2 Introduction à l’estimation bayésienne

08/02 CM3 - fin C2 + C3 Estimation bayésienne d’une proportion

TD1 G1

15/02 CM4 - C3 suite et fin TD1 G2

22/02 TD2 G1 TD2 G2

01/03 Pause Pause

08/03 CC1 - C1, C2 et C3

15/03 CM5 - C4 Estimation bayésienne : cas d’une vraisemblance continue

22/03 CM6 - C4 TD3 G1

29/03 CM7 - C5 - Tests bayésiens TD3 G2

05/04 TD4 G1 et TD4 G2

12/04 CC2 19/04

Le placement des TD est sujet à modification.

(3)

.

Deux paradigmes

Paradigme Fréquentiste

• probabilités dites objectives

• tendance des dispositifs aléatoires à produire certains résultats avec des fréquences stables

• fréquence à long terme

• « théorie de la nature » Paradigme Bayésien

• probabilités dites subjectives

• degré de certitude/croyance/connaissance a priori (éventuellement basé sur des éléments de preuve)

• traduction chiffrée de l’état de la connaissance

• « théorie de la connaissance »

.

En théorie de l’estimation

Statistique Fréquentiste

• paramètre θ inconnu considéré comme déterministe

• estimation menée en considérant que l’on ignore tout de θ à part son support

• sur le long terme notre estimation tend à être bonne Statistique Bayésienne

• paramètre θ inconnu considéré comme aléatoire

• estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

• expériences similaires

• avis d’expert du phénomène

• mise à jour de nos croyances suite à l’observation de données

(4)

.

En théorie des tests

Randall Munroe : https: // www. xkcd. com/ 1132/

C1. R

EGARD CRITIQUE SUR LA STATISTIQUE FRÉQUENTISTE

Julie Scholler - Bureau B246

janvier 2021

(5)

I. Rappels

Test d’hypothèses

Mécanisme permettant de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant le risque associé à la prise de décision

Hypothèses • H₀ (hypothèse de référence, hypothèse nulle)

• H₁ (hypothèse alternative) Décision choix entre H₀ et H₁

Toute décision comporte un risque.

(6)

I. Rappels

Type d’erreurs

Erreur de première espèce décision de rejeter H₀ alors que H₀ est vraie, risque associé : α

Erreur de seconde espèce décision de ne pas rejeter H₀ alors que H₀ est fausse, risque associé : β

H₀ vraie H₁ vraie Ne pas rejeter H₀ 1− α β

Rejeter H₀ α 1−β

I. Rappels

Types d’erreur

Allison Horst

(7)

I. Rappels

Types d’erreur

Allison Horst

I. Rappels

Test en statistique fréquentiste

Approche de Neyman–Pearson

• Statistique de test : T

• Zone de rejet W telle que PH₀(T ∈ W) = α

• Règle de décision : si t_obs ∈ W, alors on rejette H₀ Justification

Sur le long terme, on ne rejettera H₀ à tort que dans une proportion α des cas.

P-value

PH0 (observer des données aussi extrèmes que t_obs) Point de vue de Fisher

• p-value : mesure de crédibilité de H₀, nous dit à quel point nos données sont surprenantes si on suppose que H0 est vraie

(8)

I. Rappels

Quelques critiques

• La p-value ne nous donne pas la probabilité que l’on veut P(H₀ soit vraie | les données observées)

• si p < 0.05, on n’a pas 95% de chance que H₁ soit vraie.

• si p > 0.05, les données sont considérées comme non surprenantes. Cela ne signifie pas que H0 est vraie.

• Sur beaucoup d’études où H₀ est vraie, dans environ 5%

d’entre elles, les données nous amènent à rejeter H₀

II. Erreurs de première et second espèces

• Taux d’erreur : concept fréquentiste

• Objectif : ne pas se tromper trop souvent sur le long terme

• « Why Most Published Research Findings Are False » John Ioannides (2005)

Proba. condi. H₀ vraie H₁ vraie Ne pas rejeter H₀ 1− α β

Rejeter H₀ α 1− β

(9)

• Taux d’erreur : concept fréquentiste

• Objectif : ne pas se tromper trop souvent sur le long terme

• « Why Most Published Research Findings Are False » John Ioannides (2005)

Cas où P(H₀ vraie) = 0.5 et P(H₁ vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H₀ vraie H₁ vraie Ne pas rejeter H₀ 0.475 0.100

Rejeter H₀ 0.025 0.400

P(la conclusion est correcte | on a rejeté H0) = 0.4

0.425 ' 0.94

Applicaton Shiny avec R

(10)

• Sur beaucoup d’études où H₀ est vraie, environ 5% nous amènent à rejeter H₀

• « Un résultat sur 20 dans la littérature sont des erreurs de première espèce »

Non car les résultats publiés sont ceux ayant amené à rejeter H₀ et non ceux où H₀ est vraie

• Sur beaucoup d’études où H₀ est vraie, environ 5% nous amènent à rejeter H₀ → p-hacking ou data-dredging

p-hacking

(11)

p-hacking

(12)

III. À quelle p-value s’attendre ?

À quelle p-value s’attendre si H₁ est vraie ?

À quelle p-value s’attendre si H₀ est vraie ?

Simulation de 100 000 expériences avec H

₁

vraie

Répartition des p-values pour une puissance de 50 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 10000 20000 30000 40000 50000

(13)

Simulation de 100 000 expériences avec H

₁

vraie

Répartition des p-values pour une puissance de 74.3 %

P-values

0.0 0.2 0.4 0.6 0.8 1.0

0 20000 40000 60000

Si H

₁

est vraie

• la proportion de p-value inférieures à α correspond à 1− β

• plus la puissance du test est élevée plus on observe des p-value petites si H₁ est vraie

(14)

Si H

₀

est vraie

Simulation de 100 000 expériences avec H

₀

vraie

Répartition des p-values

P-values

0.0 0.2 0.4 0.6 0.8 1.0

0 1000 2000 3000 4000 5000 6000

(15)

Simulation de 100 000 expériences avec H

₀

vraie

Répartition des p-values

P-values

Fréquencesdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

• Si H₀ est vraie, les p-value se répartissent uniformément entre 0 et 1.

• Si H₀ est vraie, on a autant de chances d’avoir une p-value entre 0.8 et 0.85 qu’entre 0.1 et 0.15 ou entre 0 et 0.05.

Attention

Si l’échantillon est très grand, la puissance du test est très élevée.

On aura

P(p-value ∈ [0.04; 0.05]|H₀ vraie) > P(p-value ∈ [0.04; 0.05]|H₁ vraie)

(16)

IV. Alternatives

• Intervalles de confiance

• Taille d’effet et analyse de puissance

• Rapport de vraisemblance

• Statistique bayésienne

(17)

Intervalle de confiance - Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 30 valeurs :

9.1 9.2 9.2 9.2 9.2 9.3 9.4 9.4 9.5 9.5 9.6 9.7 9.8 9.9 9.9 10.0 10.1 10.5 10.6 10.6 10.6 10.7 10.9 11.0 11.2 11.2 12.3 13.5 13.7 17.7 On souhaite une estimation par intervalle de confiance du θ.

Avec θ^b ∼

approx N

θ; 1

√n

, on a IC_95%^approx =

X − 1±1.96× 1

√n

. On obtient [9.19 ; 9.91].

Comment interpréter le résultat ?

• Shiny app : Explorer les intervalles de confiance

• Seeing Probability and Statistics

Niveau de confiance 1 − α

Si on réalise plein de sondages notre méthode nous assure qu’une proportion 1−α des intervalles de confiance construits contiendront la vraie valeur à estimer.

Un statisticien fréquentiste doit dire

« il y a 95% de chance que, quand je calcule un intervalle de confiance à partir de données selon cette procédure, l’intervalle

obtenu contienne la vraie valeur de θ » et ne peut rien dire sur l’intervalle numérique obtenu.

(18)

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 30 valeurs :

9.1 9.2 9.2 9.2 9.2 9.3 9.4 9.4 9.5 9.5 9.6 9.7 9.8 9.9 9.9 10.0 10.1 10.5 10.6 10.6 10.6 10.7 10.9 11.0 11.2 11.2 12.3 13.5 13.7 17.7 et on a obtenu l’intervalle de confiance suivant :

[9.19 ; 9.91]

Précision sur la loi de X

f_X(x) = e^θ−x1[θ;+∞[(x) Commentaires ?

Jamais d’inférence sans

• une analyse descriptive des données

• représentation graphique

• cerveau en marche