• Aucun résultat trouvé

Diapos-C1

N/A
N/A
Protected

Academic year: 2022

Partager "Diapos-C1"

Copied!
18
0
0

Texte intégral

(1)

L3 É

CONOMIE

- M

ODULE

2 S

TATISTIQUES ET

A

NALYSE DE

D

ONNÉES

3

Julie Scholler - Bureau B246

janvier 2021

.

Contenu de l’enseignement

Discussion autour de l’utilisation de la statistique fréquentiste, principalement lors de tests d’hypothèses

Estimation bayésienne

loi a priori et a posteriori discrète

estimation d’une proportion avec loi a priori continue

estimation d’une moyenne

autres exemples d’estimation ponctuelle

utilisation de la loi a posteriori

choix de la loi a priori

Théorie bayésienne des tests

(2)

.

Prérequis

Probabilités de L1

Statistique inférentielle de L2

Structure

9 séances de cours magistraux de 2h dont deux contrôles continus

4 séances de travaux dirigés de 2h

.

Planning prévisionnel

Semaine CM - Thème TD - Thème

25/01 CM1 - C1 Regard critique sur la statistique fréquentiste

01/02 CM2 - Fin C1 + début du C2 Introduction à l’estimation bayésienne

08/02 CM3 - fin C2 + C3 Estimation bayésienne d’une proportion

TD1 G1

15/02 CM4 - C3 suite et fin TD1 G2

22/02 TD2 G1 TD2 G2

01/03 Pause Pause

08/03 CC1 - C1, C2 et C3

15/03 CM5 - C4 Estimation bayésienne : cas d’une vraisemblance continue

22/03 CM6 - C4 TD3 G1

29/03 CM7 - C5 - Tests bayésiens TD3 G2

05/04 TD4 G1 et TD4 G2

12/04 CC2 19/04

Le placement des TD est sujet à modification.

(3)

.

Deux paradigmes

Paradigme Fréquentiste

probabilités dites objectives

tendance des dispositifs aléatoires à produire certains résultats avec des fréquences stables

fréquence à long terme

« théorie de la nature » Paradigme Bayésien

probabilités dites subjectives

degré de certitude/croyance/connaissance a priori (éventuellement basé sur des éléments de preuve)

traduction chiffrée de l’état de la connaissance

« théorie de la connaissance »

.

En théorie de l’estimation

Statistique Fréquentiste

paramètre θ inconnu considéré comme déterministe

estimation menée en considérant que l’on ignore tout de θ à part son support

sur le long terme notre estimation tend à être bonne Statistique Bayésienne

paramètre θ inconnu considéré comme aléatoire

estimation menée en prenant en compte toutes les informations que l’on a au préalable sur θ

expériences similaires

avis d’expert du phénomène

mise à jour de nos croyances suite à l’observation de données

(4)

.

En théorie des tests

Randall Munroe : https: // www. xkcd. com/ 1132/

C1. R

EGARD CRITIQUE SUR LA STATISTIQUE FRÉQUENTISTE

Julie Scholler - Bureau B246

janvier 2021

(5)

I. Rappels

I. Rappels

Test d’hypothèses

Mécanisme permettant de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant le risque associé à la prise de décision

Hypothèses H0 (hypothèse de référence, hypothèse nulle)

H1 (hypothèse alternative) Décision choix entre H0 et H1

Toute décision comporte un risque.

(6)

I. Rappels

Type d’erreurs

Erreur de première espèce décision de rejeter H0 alors que H0 est vraie, risque associé : α

Erreur de seconde espèce décision de ne pas rejeter H0 alors que H0 est fausse, risque associé : β

H0 vraie H1 vraie Ne pas rejeter H0 1− α β

Rejeter H0 α 1−β

I. Rappels

Types d’erreur

Allison Horst

(7)

I. Rappels

Types d’erreur

Allison Horst

I. Rappels

Test en statistique fréquentiste

Approche de Neyman–Pearson

Statistique de test : T

Zone de rejet W telle que PH0(T ∈ W) = α

Règle de décision : si tobsW, alors on rejette H0 Justification

Sur le long terme, on ne rejettera H0 à tort que dans une proportion α des cas.

P-value

PH0 (observer des données aussi extrèmes que tobs) Point de vue de Fisher

p-value : mesure de crédibilité de H0, nous dit à quel point nos données sont surprenantes si on suppose que H0 est vraie

(8)

I. Rappels

Quelques critiques

La p-value ne nous donne pas la probabilité que l’on veut P(H0 soit vraie | les données observées)

si p < 0.05, on n’a pas 95% de chance que H1 soit vraie.

si p > 0.05, les données sont considérées comme non surprenantes. Cela ne signifie pas que H0 est vraie.

Sur beaucoup d’études où H0 est vraie, dans environ 5%

d’entre elles, les données nous amènent à rejeter H0

II. Erreurs de première et second espèces

Taux d’erreur : concept fréquentiste

Objectif : ne pas se tromper trop souvent sur le long terme

« Why Most Published Research Findings Are False » John Ioannides (2005)

Proba. condi. H0 vraie H1 vraie Ne pas rejeter H0 1− α β

Rejeter H0 α 1− β

(9)

II. Erreurs de première et second espèces

Taux d’erreur : concept fréquentiste

Objectif : ne pas se tromper trop souvent sur le long terme

« Why Most Published Research Findings Are False » John Ioannides (2005)

Cas où P(H0 vraie) = 0.5 et P(H1 vraie) = 0.5 avec α = 0.05 et 1− β = 0.8

Probabilités H0 vraie H1 vraie Ne pas rejeter H0 0.475 0.100

Rejeter H0 0.025 0.400

P(la conclusion est correcte | on a rejeté H0) = 0.4

0.425 ' 0.94

II. Erreurs de première et second espèces

Applicaton Shiny avec R

(10)

II. Erreurs de première et second espèces

Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0

« Un résultat sur 20 dans la littérature sont des erreurs de première espèce »

Non car les résultats publiés sont ceux ayant amené à rejeter H0 et non ceux où H0 est vraie

Sur beaucoup d’études où H0 est vraie, environ 5% nous amènent à rejeter H0p-hacking ou data-dredging

II. Erreurs de première et second espèces

p-hacking

Randall Munroe : https: // www. xkcd. com/ 882/

(11)

II. Erreurs de première et second espèces

II. Erreurs de première et second espèces

p-hacking

Randall Munroe : https: // www. xkcd. com/ 882/

(12)

III. À quelle p-value s’attendre ?

À quelle p-value s’attendre si H1 est vraie ?

À quelle p-value s’attendre si H0 est vraie ?

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

1

vraie

Répartition des p-values pour une puissance de 50 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 10000 20000 30000 40000 50000

(13)

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

1

vraie

Répartition des p-values pour une puissance de 74.3 %

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 20000 40000 60000

III. À quelle p-value s’attendre ?

Si H

1

est vraie

la proportion de p-value inférieures à α correspond à 1− β

plus la puissance du test est élevée plus on observe des p-value petites si H1 est vraie

(14)

III. À quelle p-value s’attendre ?

Si H

0

est vraie

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

0

vraie

Répartition des p-values

P-values

Effectifsdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0 1000 2000 3000 4000 5000 6000

(15)

III. À quelle p-value s’attendre ?

Simulation de 100 000 expériences avec H

0

vraie

Répartition des p-values

P-values

Fréquencesdesp-values

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

III. À quelle p-value s’attendre ?

Si H0 est vraie, les p-value se répartissent uniformément entre 0 et 1.

Si H0 est vraie, on a autant de chances d’avoir une p-value entre 0.8 et 0.85 qu’entre 0.1 et 0.15 ou entre 0 et 0.05.

Attention

Si l’échantillon est très grand, la puissance du test est très élevée.

On aura

P(p-value ∈ [0.04; 0.05]|H0 vraie) > P(p-value ∈ [0.04; 0.05]|H1 vraie)

(16)

III. À quelle p-value s’attendre ?

IV. Alternatives

Intervalles de confiance

Taille d’effet et analyse de puissance

Rapport de vraisemblance

Statistique bayésienne

(17)

IV. Alternatives

Intervalle de confiance - Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 30 valeurs :

9.1 9.2 9.2 9.2 9.2 9.3 9.4 9.4 9.5 9.5 9.6 9.7 9.8 9.9 9.9 10.0 10.1 10.5 10.6 10.6 10.6 10.7 10.9 11.0 11.2 11.2 12.3 13.5 13.7 17.7 On souhaite une estimation par intervalle de confiance du θ.

Avec θb

approx N

θ; 1

n

, on a IC95%approx =

X − 1±1.96× 1

n

. On obtient [9.19 ; 9.91].

Comment interpréter le résultat ?

Shiny app : Explorer les intervalles de confiance

Seeing Probability and Statistics

IV. Alternatives

Niveau de confiance 1 α

Si on réalise plein de sondages notre méthode nous assure qu’une proportion 1−α des intervalles de confiance construits contiendront la vraie valeur à estimer.

Un statisticien fréquentiste doit dire

« il y a 95% de chance que, quand je calcule un intervalle de confiance à partir de données selon cette procédure, l’intervalle

obtenu contienne la vraie valeur de θ » et ne peut rien dire sur l’intervalle numérique obtenu.

(18)

IV. Alternatives

Exemple

X suit une loi à densité dépendant d’un paramètre θ (inconnu) vérifiant E(X) = θ + 1 et V(X) = 1.

On a observé 30 valeurs :

9.1 9.2 9.2 9.2 9.2 9.3 9.4 9.4 9.5 9.5 9.6 9.7 9.8 9.9 9.9 10.0 10.1 10.5 10.6 10.6 10.6 10.7 10.9 11.0 11.2 11.2 12.3 13.5 13.7 17.7 et on a obtenu l’intervalle de confiance suivant :

[9.19 ; 9.91]

Précision sur la loi de X

fX(x) = eθ−x1[θ;+∞[(x) Commentaires ?

IV. Alternatives

Jamais d’inférence sans

une analyse descriptive des données

représentation graphique

cerveau en marche

Références

Documents relatifs

(Enquˆete) On effeue une enquˆete, durant une ´epid´emie de grippe, dans le but de connaˆıtre la proportion p de personnes pr´esentant ensuite des complications graves.. On observe

Sa diffusion, duplication, mise à disposition du public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont strictement réservées à

L’article présente une application de la méthode du Bootstrap à la détermination des intervalles de confiance des paramètres et de la loi de survie d’un matériel

Le tableau de BURT a autant de lignes et de colonnes qu'il y a de modalités de réponse sur l'ensemble des questions : donc avec 3 0 questions admettant chacune 5 modalités de

L’accès aux archives de la revue « Journal de la société statistique de Paris » ( http://publications-sfds.math.cnrs.fr/index.php/J-SFdS ) implique l’accord avec les

Avant une élection opposant deux candidats A et B, on effectue un sondage en interro- geant un n-échantillon d’électeurs sur leur intention de vote, pour estimer la proportion p

Finalement sur le stand je décide de mettre 2 Master et 2 Licence et n’importe quels étudiants à l’accueil. • Combien j’ai de façon de choisir les étudiants qui vont

S’il existe des critères pour juger des qualités d’un estimateur ponctuel T n de g (θ ) (biais, risque, convergence), aucune certitude ne peut jamais être apportée quant au fait