C
HAPITRE2 - I
NTRODUCTION À L’
ESTIMATIONJulie Scholler - Bureau B246
octobre 2020
I. Cadre
Estimateur et estimation
• X1,X2, . . . ,Xn : un n-échantillon
• X : variable aléatoire de même loi que la loi mère (a priori inconnue, supposée caractérisée par une expression analytique dépendant d’un ou plusieurs paramètres)
• c ou θ : caractéristique ou paramètre de la loi mère Définition informelle d’un estimateur
• Estimateur de c ou de θ : toute statistique dont la
réalisation après expérience est envisagée comme estimation de c ou de θ
• Un estimateur se définit donc dans l’intention de fournir une estimation.
I. Cadre
Notations/natures différentes
• X1,X2, . . . ,Xn : échantillon aléatoire (variables aléatoires)
• x1, . . . ,xn : réalisation de l’échantillon (valeurs numériques)
• θ : paramètre inconnu (valeur numérique)
• θˆ= h(X1,X2, . . . ,Xn) : estimateur (variable aléatoire)
• θˆobs = h(x1, . . . ,xn) : estimation (valeur numérique)
• µ : espérance de la loi mère
• X : moyenne empirique (variable aléatoire)
• x : moyenne d’une série de données (valeur numérique)
I. Cadre
Objectifs de l’estimation
• Déterminer des estimateurs ˆθ proche de θ
• Évaluer la qualité d’un estimateur
• Mesurer l’écart entre θ et ˆθ
• Donner des intervalles de valeurs plausibles pour θ
II. Qualité d’un estimateur
Première qualité
Tn un estimateur d’un paramètre θ Biais de l’estimateur Tn pour θ
biaisθ(Tn) := Eθ(Tn) −θ
II. Qualité d’un estimateur
Estimateur sans biais
Tn est un estimateur sans biais de θ si ∀ θ ∈ Θ, biaisθ(Tn) = 0 Exemple X est sans biais pour µ et Scor2 est sans biais pour σ2. Estimateur asymptotiquement sans biais
Tn est asymptotiquement sans biais si lim
n→+∞biaisθ(Tn) = 0 Exemple S2 est asymptotiquement sans biais pour σ2.
II. Qualité d’un estimateur
Mesure de l’écart entre T
net θ
• Tn − θ : E(Tn − θ) = biaisθ(Tn)
• |Tn − θ| : P(|Tn − θ| > ε) ?
• (Tn −θ)2 : P((Tn −θ)2 > ε) ?
II. Qualité d’un estimateur
Écart absolu
(Tn)n∈
N : suite d’estimateurs de θ Estimateur convergent
∀ε > 0, lim
n→+∞P(|Tn − θ| > ε) = 0 On dit que (Tn)n∈
N converge en probabilité vers θ.
Question
Conditions suffisantes de convergence ?
II. Qualité d’un estimateur
Conditions suffisantes de convergence 1
Inégalité de Bienaymé–Tchebytchev
∀ε > 0, P(|X − E(X)| > ε) 6 V(X) ε2 Conditions suffisantes de convergence
• Si Tn est sans biais et lim
n→+∞V (Tn) = 0, alors Tn est convergent.
II. Qualité d’un estimateur
Conditions suffisantes de convergence 2
Inégalité de Markov
Soit X telle que P(X > 0) = 1. Alors
∀ε > 0, P(X > ε) 6 E(X) ε
Conséquence
∀ε > 0, P
(Tn − θ)2 > ε2 6 E h
(Tn − θ)2i ε2
Conditions suffisantes de convergence
• Si lim
n→+∞E h
(Tn −θ)2i = 0, alors Tn est convergent.
II. Qualité d’un estimateur
E
(T
n− θ)
2
Conditions suffisantes de convergence
• Si Tn est asymptotiquement sans biais et que
n→+∞lim V(Tn) = 0, alors (Tn)n est convergent.
II. Qualité d’un estimateur
Écart au carré
Tn un estimateur d’un paramètre θ
Risque quadratique ou erreur quadratique moyenne de Tn par rapport à θ
EQMθ(Tn) := Eθ
h
(Tn − θ)2i On a
EQMθ(Tn) = (biaisθ(Tn))2 + Vθ(Tn)
II. Qualité d’un estimateur
II. Qualité d’un estimateur
II. Qualité d’un estimateur
III. Estimation par intervalle de confiance
Prendre en compte l’erreur d’estimation, la précision de l’estimateur Définition
Une procédure d’intervalle de confiance ou un intervalle de confiance au niveau 1− α pour θ est un intervalle aléatoire de la forme [T1;T2] où T1 et T2 sont deux statistiques tel que
∀θ ∈ Θ, Pθ(T1 6 θ 6 T2) > 1− α.
α est appelé le risque d’erreur.
Exemple
X ∼ N(µ;σ) avec µ inconnu et σ connu
Intervalle de confiance de niveau 0.95 pour µ?
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
IC d’une espérance : cas d’une loi mère normale
Soit X1,X2, . . . ,Xn un n-échantillon de loi mère N(µ ; σ) avec σ connu.
Intervalle de confiance d’une espérance L’intervalle
Xn − z1−α
2
√σ
n ; Xn + z1−α
2
√σ n
, noté aussi
Xn ± z1−α
2
√σ n
est un intervalle de confiance de µ au seuil de confiance 1 −α ou au risque α.
zβ signifie le quantile de la loi de la loi normale centrée réduite en β.
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
Remarques
Où est l’aléa ?
• L’intervalle de confiance aléatoire a une certaine probabilité de contenir la valeur de µ.
• L’intervalle de confiance observé contient µ ou ne contient pas µ (on ne sait pas).
Largeur d’un intervalle de confiance
dépend de plusieurs paramètres interviennent : α, n et σ.
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
III. Estimation par intervalle de confiance
Remarques
Forme des intervalles de confiance
• On pourrait faire des intervalles de confiance non bilatéraux.
• Si la loi est unimodale, un intervalle symétrique est la forme la plus étroite d’intervalle de confiance.
III. Estimation par intervalle de confiance
Attention : alerte risque de confusion
Intervalle de fluctuation 6= intervalle de confiance
Le contexte d’utilisation et la conclusion (et le sens a fortiori) ne sont pas les mêmes.
Intervalle de fluctuation Intervalle de confiance Contexte On connaît la loi de X et
donc ses caractéristiques.
On ne connaît pas cer- taines caractéristiques de la loi de X.
Résultat P
X ∈ IF = 1− α P(µ ∈ IC) = 1 − α Nature L’intervalle IF a ses
bornes numériques
L’intervalle IC a ses bornes aléatoires
III. Estimation par intervalle de confiance
Méthode exacte
X1,X2, . . . ,Xn : un n-échantillon, x1,x2, . . . ,xn : une réalisation Méthode par fonction pivot
Une fonction g(X1,X2, . . . ,Xn;θ) est appelée fonction pivot ou fonction pivotale si :
1. la loi de g(X1,X2, . . . ,Xn;θ) est connue et ne dépend pas de θ 2. pour tous réels u1 et u2 tels que u1 6 u2 et tout
(x1, . . . ,xn) ∈ Rn, la double inégalité
u1 6 g(x1, . . . ,xn;θ) 6 u2 peut se résoudre (ou pivoter) en θ selon :
t1(x1, . . . ,xn) 6 θ 6 t2(x1, . . . ,xn)
III. Estimation par intervalle de confiance
IC d’une espérance : cas d’une loi mère normale
• X ∼ N(µ ; σ) avec σ inconnu
• X1,X2, . . . ,Xn un n-échantillon Fonction pivotale
T := X − µ qScor2
n
∼ t(n −1)
Intervalle de confiance de µ quand σ est inconnu au seuil de confiance 1 − α
Xn −t1−(n−1)α
2
Scor
√n ; Xn + t1−(n−1)α
2
Scor
√n
où tβ(n−1) est le quantile de la loi de Student à n−1 degré de liberté en β.
III. Estimation par intervalle de confiance
IC d’une variance avec une loi mère normale
• X ∼ N(µ ; σ) avec µ inconnue
• X1,X2, . . . ,Xn un n-échantillon Fonction pivotale
T := (n −1)Scor2
σ2 ∼ χ2(n −1)
Intervalle de confiance de σ2 au seuil de confiance 1 − α
(n −1)Scor2 c1−n−1α
2
; (n − 1)Scor2 cn−1α
2
ou
"
0 ; (n − 1)Scor2 cαn−1
#
où cβn est le quantile de la loi du χ2 à n −1 degrés de liberté en β.
III. Estimation par intervalle de confiance
Méthode asymptotique
Principe
On suppose qu’il existe un estimateur Tn de θ tel que : Tn − θ
sn(θ)
−−−−→loi
n→+∞ N(0; 1) Si la fonction Tn − θ
sn(θ) pivote pour isoler θ, on obtient un intervalle de confiance approché.
Applications
• Intervalle de confiance d’une espérance à variance connue et loi mère non normale (si n > 30)
• Intervalle de confiance d’une proportion ( ?)
III. Estimation par intervalle de confiance
Intervalle de confiance d’une proportion
• X ∼ Ber(p)
• X1,X2, . . . ,Xn un n-échantillon Fonction pivotale
T := X − p qp(1−p)
n
approx∼ N (0 ; 1)
Fonction difficile à pivoter (mais possible) Méthode de Wilson (à titre culturel)
IC1−αW (p) :
2np + z1−α
2
2n+ z1−2 α
2
±
z1−α
2
qz1−2 α 2
+ 4np(1− p) 2n +z1−2 α
2
III. Estimation par intervalle de confiance
Méthode asymptotique bis
On suppose qu’il existe un estimateur Tn de θ tel que : Tn − θ
sn(θ)
−−−−→loi
n→+∞ N(0; 1) Quand la fonction Tn −θ
sn(θ) ne pivote pas, si la fonction sn est continue et que (Tn)n est un estimateur convergent, on a
Tn − θ sn(Tn)
−−−−→loi
n→+∞ N(0; 1) Application
• Intervalle de confiance d’une proportion
• Intervalle de confiance d’une espérance à variance inconnue et loi mère non normale
III. Estimation par intervalle de confiance
Intervalle de confiance d’une proportion
• X ∼ Ber(p)
• X1,X2, . . . ,Xn un n-échantillon Fonction pivotale
T := X − p qX(1−X)
n
approx∼ N (0 ; 1)
Intervalle de confiance approché d’une proportion IC1−α(p) :
X ±z1−α
2
s
X(1− X) n
Conditions d’utilisation : n > 100, np > 5 et n(1−p) > 5
III. Estimation par intervalle de confiance
Côte de popularité d’Emmanuel Macron
Source : Journal du Dimanche
III. Estimation par intervalle de confiance
Intervalle de confiance d’une proportion
• X ∼ Ber(p)
• X1,X2, . . . ,Xn un n-échantillon
Conditions d’utilisation : n > 30, np > 5 et n(1− p) > 5 Intervalle de confiance approché d’une proportion
IC1−α(p) :
X ± z1−α
2
1 2√
n
Remarque : il existe aussi un intervalle de confiance exacte basé sur la loi binomiale.
III. Estimation par intervalle de confiance
Sondages
Source : Ifop