CM-Thème 2

(1)

C

HAPITRE

2 - I

NTRODUCTION À L

’

ESTIMATION

Julie Scholler - Bureau B246

octobre 2020

I. Cadre

Estimateur et estimation

• X₁,X₂, . . . ,X_n : un n-échantillon

• X : variable aléatoire de même loi que la loi mère (a priori inconnue, supposée caractérisée par une expression analytique dépendant d’un ou plusieurs paramètres)

• c ou θ : caractéristique ou paramètre de la loi mère Définition informelle d’un estimateur

• Estimateur de c ou de θ : toute statistique dont la

réalisation après expérience est envisagée comme estimation de c ou de θ

• Un estimateur se définit donc dans l’intention de fournir une estimation.

(2)

I. Cadre

Notations/natures différentes

• X₁,X₂, . . . ,X_n : échantillon aléatoire (variables aléatoires)

• x₁, . . . ,x_n : réalisation de l’échantillon (valeurs numériques)

• θ : paramètre inconnu (valeur numérique)

• θˆ= h(X₁,X₂, . . . ,X_n) : estimateur (variable aléatoire)

• θˆ_obs = h(x₁, . . . ,x_n) : estimation (valeur numérique)

• µ : espérance de la loi mère

• X : moyenne empirique (variable aléatoire)

• x : moyenne d’une série de données (valeur numérique)

I. Cadre

Objectifs de l’estimation

• Déterminer des estimateurs ˆθ proche de θ

• Évaluer la qualité d’un estimateur

• Mesurer l’écart entre θ et ˆθ

• Donner des intervalles de valeurs plausibles pour θ

(3)

II. Qualité d’un estimateur

Première qualité

T_n un estimateur d’un paramètre θ Biais de l’estimateur T_n pour θ

biais_θ(T_n) := Eθ(T_n) −θ

Estimateur sans biais

Tn est un estimateur sans biais de θ si ∀ θ ∈ Θ, biais_θ(Tn) = 0 Exemple X est sans biais pour µ et S_cor² est sans biais pour σ². Estimateur asymptotiquement sans biais

T_n est asymptotiquement sans biais si lim

n→+∞biais_θ(T_n) = 0 Exemple S² est asymptotiquement sans biais pour σ².

(4)

Mesure de l’écart entre T

_n

et θ

• T_n − θ : E(T_n − θ) = biais_θ(T_n)

• |T_n − θ| : P(|T_n − θ| > ε) ?

• (T_n −θ)² : P((T_n −θ)² > ε) ?

Écart absolu

(T_n)_n∈

N : suite d’estimateurs de θ Estimateur convergent

∀ε > 0, lim

n→+∞P(|T_n − θ| > ε) = 0 On dit que (T_n)_n∈

N converge en probabilité vers θ.

Question

Conditions suffisantes de convergence ?

(5)

Conditions suffisantes de convergence 1

Inégalité de Bienaymé–Tchebytchev

∀ε > 0, P(|X − E(X)| > ε) 6 V(X) ε² Conditions suffisantes de convergence

• Si T_n est sans biais et lim

n→+∞V (T_n) = 0, alors T_n est convergent.

Conditions suffisantes de convergence 2

Inégalité de Markov

Soit X telle que P(X > 0) = 1. Alors

∀ε > 0, P(X > ε) 6 E(X) ε

Conséquence

∀ε > 0, P

(T_n − θ)² > ε² 6 E h

(T_n − θ)²ⁱ ε²

Conditions suffisantes de convergence

• Si lim

n→+∞E h

(T_n −θ)²ⁱ = 0, alors T_n est convergent.

(6)

E

(T

_n

− θ)

²

Conditions suffisantes de convergence

• Si Tn est asymptotiquement sans biais et que

n→+∞lim V(T_n) = 0, alors (T_n)_n est convergent.

Écart au carré

T_n un estimateur d’un paramètre θ

Risque quadratique ou erreur quadratique moyenne de T_n par rapport à θ

EQM_θ(T_n) := Eθ

h

(T_n − θ)²ⁱ On a

EQM_θ(T_n) = (biais_θ(T_n))² + V_θ(T_n)

(7)

(8)

III. Estimation par intervalle de confiance

Prendre en compte l’erreur d’estimation, la précision de l’estimateur Définition

Une procédure d’intervalle de confiance ou un intervalle de confiance au niveau 1− α pour θ est un intervalle aléatoire de la forme [T₁;T₂] où T₁ et T₂ sont deux statistiques tel que

∀θ ∈ Θ, Pθ(T₁ 6 θ 6 T₂) > 1− α.

α est appelé le risque d’erreur.

Exemple

X ∼ N(µ;σ) avec µ inconnu et σ connu

Intervalle de confiance de niveau 0.95 pour µ?

(9)

(10)

IC d’une espérance : cas d’une loi mère normale

Soit X₁,X₂, . . . ,X_n un n-échantillon de loi mère N(µ ; σ) avec σ connu.

Intervalle de confiance d’une espérance L’intervalle

X_n − z₁₋^α

2

√σ

n ; X_n + z₁₋^α

2

√σ n

, noté aussi

X_n ± z₁₋^α

2

√σ n

est un intervalle de confiance de µ au seuil de confiance 1 −α ou au risque α.

z_β signifie le quantile de la loi de la loi normale centrée réduite en β.

(11)

Remarques

Où est l’aléa ?

• L’intervalle de confiance aléatoire a une certaine probabilité de contenir la valeur de µ.

• L’intervalle de confiance observé contient µ ou ne contient pas µ (on ne sait pas).

Largeur d’un intervalle de confiance

dépend de plusieurs paramètres interviennent : α, n et σ.

(12)

(13)

Remarques

Forme des intervalles de confiance

• On pourrait faire des intervalles de confiance non bilatéraux.

• Si la loi est unimodale, un intervalle symétrique est la forme la plus étroite d’intervalle de confiance.

(14)

Attention : alerte risque de confusion

Intervalle de fluctuation 6= intervalle de confiance

Le contexte d’utilisation et la conclusion (et le sens a fortiori) ne sont pas les mêmes.

Intervalle de fluctuation Intervalle de confiance Contexte On connaît la loi de X et

donc ses caractéristiques.

On ne connaît pas cer- taines caractéristiques de la loi de X.

Résultat P

X ∈ IF = 1− α P(µ ∈ IC) = 1 − α Nature L’intervalle IF a ses

bornes numériques

L’intervalle IC a ses bornes aléatoires

Méthode exacte

X₁,X₂, . . . ,X_n : un n-échantillon, x₁,x₂, . . . ,x_n : une réalisation Méthode par fonction pivot

Une fonction g(X₁,X₂, . . . ,X_n;θ) est appelée fonction pivot ou fonction pivotale si :

1. la loi de g(X₁,X₂, . . . ,X_n;θ) est connue et ne dépend pas de θ 2. pour tous réels u₁ et u₂ tels que u₁ 6 u₂ et tout

(x₁, . . . ,x_n) ∈ Rⁿ, la double inégalité

u₁ 6 g(x₁, . . . ,x_n;θ) 6 u₂ peut se résoudre (ou pivoter) en θ selon :

t₁(x₁, . . . ,x_n) 6 θ 6 t₂(x₁, . . . ,x_n)

(15)

IC d’une espérance : cas d’une loi mère normale

• X ∼ N(µ ; σ) avec σ inconnu

• X₁,X₂, . . . ,X_n un n-échantillon Fonction pivotale

T := X − µ qS_cor²

n

∼ t(n −1)

Intervalle de confiance de µ quand σ est inconnu au seuil de confiance 1 − α

X_n −t₁₋⁽ⁿ⁻¹⁾^α

2

S_cor

√n ; X_n + t₁₋⁽ⁿ⁻¹⁾^α

2

S_cor

√n

où t_β⁽ⁿ⁻¹⁾ est le quantile de la loi de Student à n−1 degré de liberté en β.

IC d’une variance avec une loi mère normale

• X ∼ N(µ ; σ) avec µ inconnue

T := (n −1)S_cor²

σ² ∼ χ²(n −1)

Intervalle de confiance de σ² au seuil de confiance 1 − α





(n −1)S_cor² c₁₋ⁿ⁻¹^α

2

; (n − 1)S_cor² cⁿ⁻¹^α

2



 ou

"

0 ; (n − 1)S_cor² cαⁿ⁻¹

#

où c_βⁿ est le quantile de la loi du χ² à n −1 degrés de liberté en β.

(16)

Méthode asymptotique

Principe

On suppose qu’il existe un estimateur T_n de θ tel que : T_n − θ

s_n(θ)

−−−−→loi

n→+∞ N(0; 1) Si la fonction T_n − θ

s_n(θ) pivote pour isoler θ, on obtient un intervalle de confiance approché.

Applications

• Intervalle de confiance d’une espérance à variance connue et loi mère non normale (si n > 30)

• Intervalle de confiance d’une proportion ( ?)

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

T := X − p qp(1−p)

n

approx∼ N (0 ; 1)

Fonction difficile à pivoter (mais possible) Méthode de Wilson (à titre culturel)

IC_1−α^W (p) :





2np + z₁₋^α

2

2n+ z₁₋² ^α

2

±

z₁₋^α

2

qz₁₋² α 2

+ 4np(1− p) 2n +z₁₋² ^α

2





(17)

Méthode asymptotique bis

On suppose qu’il existe un estimateur T_n de θ tel que : T_n − θ

s_n(θ)

−−−−→loi

n→+∞ N(0; 1) Quand la fonction T_n −θ

s_n(θ) ne pivote pas, si la fonction s_n est continue et que (T_n)_n est un estimateur convergent, on a

T_n − θ sn(Tn)

−−−−→loi

n→+∞ N(0; 1) Application

• Intervalle de confiance d’une proportion

• Intervalle de confiance d’une espérance à variance inconnue et loi mère non normale

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

T := X − p qX(1−X)

n

approx∼ N (0 ; 1)

Intervalle de confiance approché d’une proportion IC_1−α(p) :



X ±z₁₋^α

2

s

X(1− X) n





Conditions d’utilisation : n > 100, np > 5 et n(1−p) > 5

(18)

Côte de popularité d’Emmanuel Macron

Source : Journal du Dimanche

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

• X₁,X₂, . . . ,X_n un n-échantillon

Conditions d’utilisation : n > 30, np > 5 et n(1− p) > 5 Intervalle de confiance approché d’une proportion

IC_1−α(p) :

X ± z₁₋^α

2

1 2√

n

Remarque : il existe aussi un intervalle de confiance exacte basé sur la loi binomiale.

(19)

Sondages

Source : Ifop