CM-Thème 3

(1)

C

HAPITRE

3 - C

HOIX ET CONSTRUCTION D

’

ESTIMATEURS

Julie Scholler - Bureau B246

novembre 2019

.

Objectifs de l’estimation

• Déterminer des estimateurs ˆθ proche de θ

• Évaluer la qualité d’un estimateur

• Mesurer l’écart entre θ et ˆθ

• Donner des intervalles de valeurs plausibles pour θ

(2)

I. Méthode des moments

Une approche intuitive

Cas courant :

l’espérance (ou la variance) s’exprime en fonction du paramètre E(X) = f (θ)

Estimateur par la méthode des moments θ^b^M Si f est inversible

θb^M = f⁻¹X

II. Choix d’un estimateur

Écart au carré

T_n un estimateur d’un paramètre θ

Risque quadratique ou erreur quadratique moyenne de T_n par rapport à θ

EQM_θ(T_n) := Eθ

h

(T_n − θ)²ⁱ On a

EQM_θ(T_n) = (biais_θ(T_n))² + V_θ(T_n)

(3)

Choisir selon EQM

Domination

L’estimateur T_n¹ domine l’estimateur T_n² si

∀θ ∈ Θ, EQM_θT_n¹ 6 EQM_θT_n², l’inégalité étant stricte pour au moins une valeur de θ.

Estimateur admissible

Un estimateur est admissible s’il existe aucun estimateur le dominant.

(4)

Choix entre deux estimateurs d’une proportion

Loi mère : Ber(p) Estimateurs : p_b₁ = X et p_b₂ = P_n

i=1 X_i + 1 n + 2 Représentations graphiques des erreurs quadratiques moyennes selon le valeur de p pour p_b₁ en rouge et pour p_b₂ en noir

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0010.0020.0030.0040.005

Pour n= 50

0.0 0.4 0.8

0.00000.00040.00080.0012

Pour n= 100

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 30

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 50

0.0 0.4 0.8

0.0000.0020.0040.0060.008

Pour n= 100

Choix parmi les estimateurs sans biais

Estimateur UMVUE

L’estimateur T_n^∗ est un estimateur non biaisé de variance uniformément minimale ou UMVUE (uniformly minimum variance unbiaised estimator) si

• il est sans biais

• pour tout autre estimateur T_n sans biais, on a : V_θ (T_n^∗) 6 V_θ(T_n), ∀θ ∈ Θ

(5)

Choix parmi les estimateurs sans biais

Soit T un estimateur sans biais pour θ, avec θ de dimension 1.

Inégalité de Cramer–Rao ou de Fréchet

Sous certaines conditions, on a, pour tout θ ∈ Θ :

V_θ(T) > 1

nI(θ) avec I(θ) = Eθ

"

∂

∂θ ln (f(X;θ)) 2#

I(θ) est appelé information de Fisher

Estimateur efficace

estimateur sans biais pour θ dont la variance est égale à la borne de Cramer–Rao

Trouver de bons estimateurs

• Méthode des moments

• M-estimateurs dont estimateurs des moindres carrés

• Méthode du maximum de vraisemblance (maximum likelihood)

• simplicité de son approche

• faculté d’adaptation à une multitude de paramètres inconnus

• aspect numérique grâce à l’application de méthodes d’optimisation

• estimateur fourni de très bonne qualité

• initialement appelée « critère absolu » (1912)

(6)

III. Méthode du maximum de vraisemblance

Introduction

• Dé ordinaire

P(X = k) = 1

6, ∀k ∈ J1; 6K

• Dé pipé

P(Y = 1) = 1

2 et P(Y = k) = 1

10, ∀k ∈ J2; 6K

On choisit un dé au hasard et on lance 3 fois ce dé.

On obtient :

4 - 1 - 1

Quel dé a-t-on lancé ?

ou ?

(7)

Principe

Objectif

estimer θ à partir des observations x1, . . . ,xn d’un échantillon X₁,X₂, . . . ,X_n.

Idée de la méthode

• « le fait d’avoir observé les valeurs x₁, . . . ,x_n n’est pas surprenant »

• « l’hypothèse d’observer les valeurs x₁, . . . ,x_n plutôt que d’autres était vraisemblable »

On cherche les valeurs de θ qui

• « rendent l’observation des valeurs x₁, . . . ,x_n la plus vraisemblable possible »

• « maximisent les chances de réalisation de l’événement {(X₁,X2, . . . ,Xn) = (x1, . . . ,xn)} »

Cas discret

On cherche les valeurs de θ qui

« maximisent la probabilité Pθ((X₁,X₂, . . . ,X_n) = (x₁, . . . ,x_n)) » Problème d’optimisation : maximisation d’une fonction de θ caractérisant la vraisemblance d’avoir obtenu x₁, . . . ,x_n

Vraisemblance des données

L_n(θ;x₁, . . . ,x_n) = Pθ((X₁,X₂, . . . ,X_n) = (x₁, . . . ,x_n))

= Pθ n

\

i=1

{X_i = xi}

!

=

n

Y

i=1

Pθ(X_i = x_i)

=

n

Y

i=1

P^θ(X = x_i)

(8)

Cadre et notations

• X₁,X₂, . . . ,X_n : un n-échantillon

• X : variable aléatoire de même loi que la loi mère

• la loi mère appartient à une famille paramétrique de densité ou de fonction de probabilité {f_θ(x) ; θ ∈ Θ} avec Θ ⊂ R^k

Fonction de vraisemblance

Fonction de vraisemblance de θ pour une réalisation donnée (x₁, . . . ,x_n) de l’échantillon :

L_n : Θ× Rⁿ −→ R⁺

(θ;x₁, . . . ,x_n) 7−→ L(θ;x₁, . . . ,x_n) = f_θ(x₁, . . . ,x_n) =

n

Y

i=1

f_θ(x_i)

(9)

Obtention de l’estimateur MV

Estimation du maximum de vraisemblance une valeur θ^b_obs^MV, si elle existe, telle que :

Lθ^b_obs^MV;x₁, . . . ,x_n = sup

θ∈Θ

L(θ;x₁, . . . ,x_n),

c’est-à-dire θ^b_obs^MV ∈ argmax

θ∈Θ

L(θ;x₁, . . . ,x_n)

Une telle solution est fonction de x₁, . . . ,x_n : θ^b_obs^MV = h(x₁, . . . ,x_n).

Estimateur du maximum de vraisemblance θb^MV = h(X₁,X₂, . . . ,X_n)

Exemples

Estimateur de θ

1. X ∼ U[0;θ] θ^b_n = X_(n)

2. X ∼ P(θ)

(10)

Fonction de log-vraisemblance

Fonction de log-vraisemblance de θ pour une réalisation donnée (x₁, . . . ,x_n) de l’échantillon, la fonction de θ :

`_n : Θ× Rⁿ −→ R⁺

(θ;x₁, . . . ,x_n) 7−→ ln (L(θ;x₁, . . . ,x_n))

La fonction de log-vraisemblance n’a de sens que si θ vérifie L(θ;x₁, . . . ,x_n) > 0.

La fonction logarithme étant croissante, on a argmax

θ∈Θ

`(θ;x₁, . . . ,x_n) = argmax

θ∈Θ

L(θ;x₁, . . . ,x_n)

Programme de maximisation argmax

θ∈Θ

`(θ;x1, . . . ,xn) = argmax

θ∈Θ

L(θ;x1, . . . ,xn)

Condition nécessaire (ordre 1)

∂`_n

∂θ

θb_obs^MV;x₁, . . . ,x_n = 0 ou ∂L_n

∂θ

x₁, . . . ,x_n;θ^b^MV_obs = 0

Condition suffisante (ordre 2)

∂²`_n

∂θ²

θb_obs^MV;x₁, . . . ,x_n < 0 ou ∂²L_n

∂θ²

θb_obs^MV;x₁, . . . ,x_n < 0

(11)

Exemples

1. X ∼ U[0;θ] θ^b_n = X_(n)

2. X ∼ P(θ) θ^b_n = X_(n)

3. X ∼ N(µ, σ), µ_b? σ^c²?

Propriétés de l’estimateur MV

Estimateur efficace

estimateur sans biais dont la variance est égale à la borne de Cramer–Rao

Efficacité de l’estimateur MV

Sous certaines conditions de régularité et d’intégralité, s’il existe un estimateur sans biais efficace pour θ, alors l’estimateur du maximum de vraisemblance existe et est efficace.

(12)

Propriétés

Soit le n-échantillon X₁,X₂, . . . ,X_n issu de la densité (ou de la fonction de probabilité) f(x;θ) avec θ ∈ Θ ⊂ R répondant à certaines conditions de régularité qui garantissent notamment l’existence d’un estimateur du maximum de vraisemblance θ^b_n^MV pour tout n.

On a les résultats suivants.

• θb_n^MV est asymptotiquement sans biais.

• θb_n^MV est asymptotiquement efficace.

Comportement asymptotique

θb^MV_n −θ q 1

nI(θ)

−−−−→loi

n→+∞ N (0 ; 1)

IC à partir d’un estimateur du MV

Fonction pivotale 1

T₁ = θ^b^MV_n −θ q 1

nI(θ)

−−−−→loi

n→+∞ N (0 ; 1)

Si T₁ n’est pas pivotable (facilement), on substitue.

Méthode par substitution

Sous certaines conditions de régularité, l’estimateur θ^b^MV_n est

convergent et l’information de Fisher I est continue par rapport à θ, alors on a

T₂ = θ^b^MV_n −θ r 1

nI b^θ^MVn

−−−−→loi

n→+∞ N (0 ; 1)

(13)

IC à partir d’un estimateur du MV

Application

IC_1−α(θ) '







θb_n^MV − z₁₋^α

2

r

nI θ^b_n^MV

; θ^b_n^MV + z₁₋^α

2

r

nIθ^b_n^MV







Exemple

X de densité f(x) = θx^−(θ+1)1]1;+∞[(x) avec θ ∈ R^∗+

Information de Fisher

Sous certaines conditions de régularité et d’intégrabilité des fonctions mises en jeu, on a, pour tout θ ∈ Θ :

I(θ) = −Eθ

"

∂²

∂θ² ln (f_θ(X))

#

(14)

IV. Application

Régression linéaire simple

Y₁,Y₂, . . . ,Y_n : indépendantes non de même loi telles que Y_i = α+ βx_i +ε_i

avec ε_i ∼ N(0;σ) i.i.d.

On cherche à estimer α et β.

`(α, β;x₁, . . . ,x_n;y₁, . . . ,y_n) = −n

2 ln(2πσ²)− 1 2σ²

n

X

i=1

(y_i−α−βx_i)²