CM-Thème 3

(1)

.

Chapitre 2 - Introduction à l’estimation

• Définition d’estimateur et d’estimation

• Qualités d’un estimateur : biais, convergence, EQM

• Estimation par intervalle de confiance

• Loi mère normale

• IC exact pour µ à σ connu

• IC exact pour µ à σ inconnu

• IC exact pour σ² à µ inconnu

• Loi mère quelconque

• IC approché pour µ à σ connu (n > 30, grâce au TCL)

• IC approché pour µ à σ inconnu (n > 100, grâce au TCL et à Slutsky)

• Loi mère de Bernoulli ...

.

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

• X₁,X₂, . . . ,X_n un n-échantillon Fonction pivotale

T := X − p qX(1−X)

n

approx∼ N (0 ; 1)

Intervalle de confiance approché d’une proportion IC_1−α(p) :



X ±z₁₋^α

2

s

X(1− X) n





Conditions d’utilisation : n > 100, nx > 5 et n(1− x) > 5 Et si n < 100, mais n > 30 ?

(2)

.

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

• X₁,X₂, . . . ,X_n un n-échantillon, 30 6 n < 100 Fonction pivotale

T := X − p qp(1−p)

n

approx∼ N (0 ; 1)

Intervalle de confiance approché INUTILISABLE d’une proportion

IC_1−α(p) :



X ±z₁₋^α

2

s

p(1− p) n





Conditions d’utilisation : n > 30, nx > 5 et n(1− x) > 5

.

IC_1−α(p) :



X ± z₁₋^α

2

s

p(1 −p) n



 ⊂

(3)

.

Intervalle de confiance d’une proportion

• X ∼ Ber(p)

• X₁,X₂, . . . ,X_n un n-échantillon

Conditions d’utilisation : 30 6 n (< 100), nx > 5 et n(1− x) > 5 Intervalle de confiance approché d’une proportion

IC_1−α(p) :

X ± z₁₋^α

2

1 2√

n

Remarque : il existe aussi un intervalle de confiance exacte basé sur la loi binomiale.

C

HAPITRE

3 - C

HOIX ET CONSTRUCTION D

’

ESTIMATEURS

Julie Scholler - Bureau B246

novembre 2020

(4)

.

Objectifs de l’estimation

• Déterminer des estimateurs ˆθ proche de θ

• Évaluer la qualité d’un estimateur

• Mesurer l’écart entre θ et ˆθ

• Donner des intervalles de valeurs plausibles pour θ

I. Méthode des moments

Une approche intuitive

Cas courant :

l’espérance (ou la variance) s’exprime en fonction du paramètre E(X) = f (θ)

Estimateur par la méthode des moments θ^b^M Si f est inversible

θb^M = f⁻¹X

(5)

I. Méthode des moments

Exemples

II. Choix d’un estimateur

Écart au carré

T_n un estimateur d’un paramètre θ

Risque quadratique ou erreur quadratique moyenne de T_n par rapport à θ

EQM_θ(T_n) := Eθ

h

(T_n − θ)²ⁱ On a

EQM_θ(T_n) = (biais_θ(T_n))² + V_θ(T_n)

Estimateur de σ²

• S_cor² est sans bais pour σ², S² est baisé pour σ².

• Dans le cas d’une loi mère normale, on a montré que : EQM_σ²S_cor² > EQM_σ² S²

(6)

Choisir selon EQM

Domination

L’estimateur T_n¹ domine l’estimateur T_n² si

∀θ ∈ Θ, EQM_θT_n¹ 6 EQM_θT_n², l’inégalité étant stricte pour au moins une valeur de θ.

→ S² domine S_cor² en tant qu’estimateur de σ². Estimateur admissible

Un estimateur est admissible s’il existe aucun estimateur le dominant.

Choix entre deux estimateurs d’une proportion

Loi mère : Ber(p) Estimateurs : p_b1 = X et p_b2 = P_n

i=1 X_i + 1 n + 2 Représentations graphiques des erreurs quadratiques moyennes selon le valeur de p pour p_b₁ en rouge et pour p_b₂ en noir

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0010.0020.0030.0040.005

Pour n= 50

0.0 0.4 0.8

0.00000.00040.00080.0012

Pour n= 100

(7)

Choix entre deux estimateurs d’une proportion

Loi mère : Ber(p) Estimateurs : p_b₁ = X et p_b₂ = P_n

i=1 X_i + 1 n + 2 Représentations graphiques des erreurs quadratiques moyennes selon le valeur de p pour p_b₁ en rouge et pour p_b₂ en noir

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 50

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 100

Choix parmi les estimateurs sans biais

Estimateur UMVUE

L’estimateur T_n^∗ est un estimateur non biaisé de variance uniformément minimale ou UMVUE (uniformly minimum variance unbiaised estimator) si

• il est sans biais

• pour tout autre estimateur T_n sans biais, on a : V_θ (T_n^∗) 6 V_θ(T_n), ∀θ ∈ Θ

(8)

Choix parmi les estimateurs sans biais

Soit T un estimateur sans biais pour θ, avec θ de dimension 1.

Inégalité de Cramer–Rao ou de Fréchet

Sous certaines conditions, on a, pour tout θ ∈ Θ : V_θ(T) > 1

nI(θ) avec I(θ) = Eθ

"

∂

∂θ ln (f(X;θ)) 2#

I(θ) est appelé information de Fisher Estimateur efficace

estimateur sans biais pour θ dont la variance est égale à la borne de Cramer–Rao

ICR : V_θ(T) > 1

nI(θ) avec I(θ) = Eθ

"

∂

∂θ ln (f(X;θ)) 2#

• Loi mère normale : X ∼ N(µ;σ), f(x) = 1

√

2πσ²e⁻

1

2×^(x^−µ)2

σ2

• Peut-on faire mieux que X comme estimateur sans biais de µ?

• Peut-on faire mieux que S_cor² comme estimateur sans biais de σ²?

(9)

Propriété de l’information de Fisher

Sous certaines conditions de régularité et d’intégrabilité des fonctions mises en jeu, on a, pour tout θ ∈ Θ :

I(θ) = −Eθ

"

∂²

∂θ² ln (f_θ(X))

#

Début du chapitre 3

• Retour sur les qualités d’un estimateur + domination, admissibilité

• Cas sans biais

• UMVUE

• Inégalité de Crame–Rao et information de Fisher

• Estimateur efficace

• Obtention d’estimateur

→ méthode des moments

mais aucune garantie sur la qualité de ces estimateurs

• Cas de la loi mère normale

• X est efficace pour µ

• S_cor² n’est pas pour σ²

(10)

Trouver de bons estimateurs

• Méthode des moments

• M-estimateurs dont estimateurs des moindres carrés

• Méthode du maximum de vraisemblance (maximum likelihood)

• simplicité de son approche

• faculté d’adaptation à une multitude de paramètres inconnus

• aspect numérique grâce à l’application de méthodes d’optimisation

• estimateur fourni de très bonne qualité

• initialement appelée « critère absolu » (1912)

III. Méthode du maximum de vraisemblance

Introduction

• Dé ordinaire

P(X = k) = 1

6, ∀k ∈ J1; 6K

• Dé pipé

P(Y = 1) = 1

2 et P(Y = k) = 1

10, ∀k ∈ J2; 6K

(11)

On choisit un dé au hasard et on lance 3 fois ce dé.

On obtient : 4 - 1 - 1

Quel dé a-t-on lancé : ou ?

(12)

Principe

Objectif

estimer θ à partir des observations x₁, . . . ,x_n d’un échantillon X1,X2, . . . ,Xn.

Idée de la méthode

• « le fait d’avoir observé les valeurs x₁, . . . ,x_n n’est pas surprenant »

• « l’hypothèse d’observer les valeurs x₁, . . . ,x_n plutôt que d’autres était vraisemblable »

On cherche les valeurs de θ qui

• « rendent l’observation des valeurs x₁, . . . ,x_n la plus vraisemblable possible »

• « maximisent les chances de réalisation de l’événement {(X₁,X₂, . . . ,X_n) = (x₁, . . . ,x_n)} »

Cas discret

On cherche les valeurs de θ qui

« maximisent la probabilité Pθ((X₁,X₂, . . . ,X_n) = (x₁, . . . ,x_n)) » Problème d’optimisation : maximisation d’une fonction de θ caractérisant la vraisemblance d’avoir obtenu x₁, . . . ,x_n Vraisemblance des données

L_n(θ;x₁, . . . ,x_n) = Pθ((X₁,X₂, . . . ,X_n) = (x₁, . . . ,x_n))

= Pθ n

\

i=1

{X_i = xi}

!

=

n

Y

i=1

Pθ (X_i = x_i)

=

n

Y

i=1

P^θ (X = x_i)

(13)

Cadre et notations

• X₁,X₂, . . . ,X_n : un n-échantillon

• X : variable aléatoire de même loi que la loi mère

• la loi mère appartient à une famille paramétrique de densité ou de fonction de probabilité {f_θ(x) ; θ ∈ Θ} avec Θ ⊂ R^k

Fonction de vraisemblance

Fonction de vraisemblance de θ pour une réalisation donnée (x₁, . . . ,x_n) de l’échantillon :

L_n : Θ× Rⁿ −→ R⁺

(θ;x₁, . . . ,x_n) 7−→ L(θ;x₁, . . . ,x_n) = f_θ(x₁, . . . ,x_n) =

n

Y

i=1

f_θ(x_i)

Obtention de l’estimateur MV

Estimation du maximum de vraisemblance une valeur θ^b_obs^MV, si elle existe, telle que :

Lθ^b_obs^MV;x₁, . . . ,x_n = sup

θ∈Θ

L(θ;x₁, . . . ,x_n), c’est-à-dire θ^b_obs^MV ∈ argmax

θ∈Θ

L(θ;x₁, . . . ,x_n)

Une telle solution est fonction de x₁, . . . ,x_n : θ^b_obs^MV = h(x₁, . . . ,x_n).

Estimateur du maximum de vraisemblance θb^MV = h(X₁,X₂, . . . ,X_n)

(14)

Premier exemple

• Cadre : X ∼ U ([0;θ])

• Estimateur de θ par la méthode du maximum de vraisemblance

Deuxième exemple

• Cadre : X ∼ P(θ)

(15)

Fonction de log-vraisemblance

Fonction de log-vraisemblance de θ pour une réalisation donnée (x₁, . . . ,x_n) de l’échantillon, la fonction de θ :

`_n : Θ× Rⁿ −→ R⁺

(θ;x₁, . . . ,x_n) 7−→ ln (L(θ;x₁, . . . ,x_n)) La fonction de log-vraisemblance n’a de sens que si θ vérifie L(θ;x₁, . . . ,x_n) > 0.

La fonction logarithme étant croissante, on a argmax

θ∈Θ

`(θ;x₁, . . . ,x_n) = argmax

θ∈Θ

L(θ;x₁, . . . ,x_n)

Programme de maximisation argmax

θ∈Θ

`(θ;x1, . . . ,xn) = argmax

θ∈Θ

L(θ;x1, . . . ,xn)

Condition nécessaire (ordre 1)

∂`_n

∂θ

θb_obs^MV;x₁, . . . ,x_n = 0 ou ∂L_n

∂θ

x₁, . . . ,x_n;θ^b^MV_obs = 0

Condition suffisante (ordre 2)

∂²`_n

∂θ²

θb_obs^MV;x₁, . . . ,x_n < 0 ou ∂²L_n

∂θ²

θb_obs^MV;x₁, . . . ,x_n < 0

(16)

Deuxième exemple

• Cadre : X ∼ P(θ)

Propriétés de l’estimateur MV

Estimateur efficace

estimateur sans biais dont la variance est égale à la borne de Cramer–Rao

Efficacité de l’estimateur MV

Sous certaines conditions de régularité et d’intégralité, s’il existe un estimateur sans biais efficace pour θ, alors l’estimateur du maximum de vraisemblance existe et est efficace.

(17)

Troisième exemple

• Cadre : X ∼ N(µ, σ)

• Estimateurs de µ et de σ² par la méthode du maximum de vraisemblance

Propriétés

Soit le n-échantillon X₁,X₂, . . . ,X_n issu de la densité (ou de la fonction de probabilité) f(x;θ) avec θ ∈ Θ ⊂ R répondant à certaines conditions de régularité qui garantissent notamment l’existence d’un estimateur du maximum de vraisemblance θ^b_n^MV pour tout n.

On a les résultats suivants.

• θb_n^MV est asymptotiquement sans biais pour $.

• θb_n^MV est asymptotiquement efficace pour θ.

• θb_n^MV est asymptotiquement normal.

Comportement asymptotique

θb^MV_n −θ q 1

nI(θ)

−−−−→loi

n→+∞ N (0 ; 1)

(18)

IC à partir d’un estimateur du MV

Fonction pivotale 1

T₁ = θ^b^MV_n −θ q 1

nI(θ)

−−−−→loi

n→+∞ N (0 ; 1)

Si T₁ n’est pas pivotable (facilement), on substitue.

Méthode par substitution

Sous certaines conditions de régularité, l’estimateur θ^b^MV_n est

convergent et l’information de Fisher I est continue par rapport à θ, alors on a

T₂ = θ^b^MV_n −θ r 1

nI b^θ^MVn

−−−−→loi

n→+∞ N (0 ; 1)

IC à partir d’un estimateur du MV

Application

IC_1−α(θ) '







θb_n^MV ± z₁₋^α

2

1 r

nIθ^b_n^MV







Exemple

X ∼ Exp(θ) de densité f(x) = θe^−θ1[0;+∞[(x) avec θ ∈ R^∗+

(19)

Information de Fisher

Sous certaines conditions de régularité et d’intégrabilité des fonctions mises en jeu, on a, pour tout θ ∈ Θ :

I(θ) = Eθ

"

∂

∂θ ln (f(X;θ)) 2#

= −Eθ

"

∂²

∂θ² ln (f_θ(X))

#

IV. Application

Régression linéaire simple

Y₁,Y₂, . . . ,Y_n : indépendantes non de même loi telles que Y_i = α+ βx_i +ε_i

avec ε_i ∼ N(0;σ) i.i.d.

On cherche à estimer α et β.

`(α, β;x₁, . . . ,x_n;y₁, . . . ,y_n) = −n

2 ln(2πσ²)− 1 2σ²

n

X

i=1

(y_i−α−βx_i)²