Statistiques math´ematiques : cours 5

(1)

Statistiques math´ ematiques : cours 5

Guillaume Lecu´e

3 septembre 2018

1/26

(2)

Aujourd’hui

Comparaison d’estimateurs

Optimalit´e de l’EMV

Borne de Cramer-Rao

Approche non-asymptotique de comparaison d’estimateurs

(3)

Comparaison d’estimateurs dans les mod` eles param´ etriques domin´ es

Modèle d’échantillonnage dominé paramétrique: on observe X1, . . . ,Xn

i.i.d.

∼ Pθ, θ∈Θ⊂R^d o`uPθ=f(θ, .).µ

Plusieurs estimateurs :moments,Z- etM-estimateurs,EMV

Question : Quel estimateur choisir ? comment comparer des estimateurs ?

3/26

(4)

Vitesse de convergence et r´ egions de confiance

bθn estimateur deθ. Il y a deux types de r´esultats :

I vitesse de convergencenon-asymptotique: `anfix´e E

kθb_n−θk²

≤c_n(θ)², (o`uc_n(θ)↓0)

I vitesse de convergenceasymptotiques: quandn−→+∞, vn(bθn−θ)−→^d Zθ, (o`uv_n⁻¹↓0)

Ces deux r´esultats permettent de construire des intervalles / r´egions de confiance (non-asymptotique / asymptotique).

Idée :La taille de ces régions de confiance caractérise la qualité

(5)

R´ egions de confiance : d´ efinition formelle

D´ efinition

Dans le modèle d’échantillonnage {P^⊗nθ :θ∈Θ}pour Θ⊂R^d. Soit α∈(0,1). Pour tout n≥1, on considère un sous-ensemble observable Cn,α =Cn,α(X₁, . . . ,X_n)deR^d. Cn,α est appelé :

1. r´egion de confiance de niveau1−αquand

∀θ∈Θ :Pθ

θ∈ C_n,α

≥1−α 2. r´egion de confiance de niveau asymptotique1−αquand

∀θ∈Θ : lim inf

n→∞ Pθ

θ∈ C_n,α

≥1−α.

5/26

(6)

Comparaison d’estimateurs

Dans le mod`ele d’´echantillonnage, commentconstruirele meilleur estimateur ? Dans quel sens ?

I Intuitivement :θbn fournit une précision d’estimation deθoptimale si on peut lui associer une région de confiance de longueur / volume minimale(à un niveau 1−αdonné).

I Diff´erence entre point de vueasymptotique etnon-asymptotique.

Dans ce cours, nous ´etudions le point de vue asymptotique :

I vitesse de convergence asymptotique

I variance asymptotique

et on donne une brève initiation à la notion d’optimalité en non-asymptotique.

(7)

Approche asymptotique

Hypoth`ese :θ∈Θ⊂Ret on se restreint auxestimateursθbn

asymptotiquement normaux:

√n θb_n−θ d

−→ N 0,v(θ)

(th´eor`emes limites pour lesZ-,M-estimateurs, EMV, plug-in)

Intuitivement : on a

θbn≈θ+ rv(θ)

n N(0,1) Donc la variance asymptotique mesure :

1. l’”incertitude” de l’estimation deθ parθbn

2. la taille des r´egions de confiance asymptotiques

7/26

(8)

efficacit´ e asymptotique

D´ efinition

Soitθbn,1etbθn,2deux estimateurs asymptotiquement normaux de variance asymptotique respectives v1(θ)et v2(θ). On dit queθbn,1 estplus efficace quebθn,2quand :

v1(θ)≤v2(θ)pour toutθ∈Θ

Un estimateur estasymptotiquement efficaces’il n’éxiste pas d’autre estimateur (dans la classe considérée) plus efficace que lui.

I on ne compare que les estimateurs asymptotiquement normaux (de vitesse de convergence en 1/√

n)

I cela exclut les estimateurs pathologique commeθb_n =θ₀

(9)

Efficacit´ e asymptotique de l’EMV

(10)

Rappels : régularité d’un modèle statistique et information

I Cadre : modèle d’échantillonnage dominé paramétrique X₁, . . . ,X_nî.i.d.∼ Pθ=f(θ, .).µpourθ∈Θ⊂R

I Hypoth`ese: la quantit´e I(θ) =Eθ

∂θlogf(θ,X1)2

est bien d´efinie. C’estl’information de Fisherdu mod`ele Pθ, θ∈Θ en θ.

(11)

Rappels : régularité d’un modèle statistique et information

D´ efinition

La famille de densités{f(θ,·), θ∈Θ}, par rapport à la mesure dominanteµ, etΘ⊂Rouvert, estrégulière si

I {f(θ,·)>0}={f(θ⁰,·)>0},µ-p.p.∀θ, θ⁰ ∈Θ

I µ-p.p.θ7→f(θ,·), θ7→logf(θ,·)sontC²

I ∀θ∈Θ,∃Vθ⊂Θt.q. pour tout a∈ Vθ

|∂_a²logf(a,x)|+|∂_alogf(a,x)|+ ∂_alogf(a,x)²

≤g(x) o`u

Z

X

g(x) sup

a∈V(θ)

f(a,x)µ(dx)<+∞

I L’information de Fisher est non-dégénérée :

∀θ∈Θ, I(θ)>0.

11/26

(12)

R´ esultat principal

Theorem

Dans le modèle d’échantillonnage dominé (pourΘ⊂R) tel que {P^θ, θ∈Θ}estrégulieron a :

I l’EMV est asymptotiquement normal :

√n θb_n^mv−θ d

−→ N 0, 1

I(θ)

I Siθbn est un Z -estimateur associé àφ”régulière”, càd tel queθbn est a.n. de variance asymptotique

v(θ) = E^θ[φ(θ,X)²]

Eθ[∂_θφ(θ,X)]2 alors ∀θ∈Θ, v(θ)≥ 1 I(θ)

(13)

Preuve de l’´ efficacit´ e asymptotique de l’EMV parmi les Z -estimateurs r´ eguliers

Soitθbn un Z-estimateur régulier associé à la fonction φ, alors, sa variance asymptotique vaut

vφ(θ) = Eθ

φ(θ,X)² Eθ

∂_θφ(θ,X)² A montrer : pour toute fonctionφ(reguli`ere) :

Eθ

φ(θ,X)² Eθ

∂_θφ(θ,X)2 ≥ 1 I(θ)

13/26

(14)

Preuve de l’in´ egalit´ e (1/2)

I Par construction deφ, on a ∀θ∈Θ,Eθφ(θ,X) = 0 alors H⁰(θ) = 0 o`uH(θ) =Eθ

φ(θ,X)

= 0

I c`ad 0 =

Z

R

∂_θφ(θ,x)f(θ,x) +φ(θ,x)∂_θf(θ,x) µ(dx)

= Z

R

∂_θφ(θ,x)f(θ,x) +φ(θ,x)∂_θlogf(θ,x)f(θ,x) µ(dx)

I Conclusion Eθ

∂θφ(θ,X)

=−Eθ

φ(θ,X)∂θlogf(θ,X)

(15)

Preuve de l’in´ egalit´ e (2/2)

I On a

E^θ

∂θφ(θ,X)

=−E^θ

φ(θ,X)∂θlogf(θ,X)

I Cauchy-Schwarz : Eθ

∂_θφ(θ,X)²

≤Eθ

φ(θ,X)² Eθ

∂_θlogf(θ,X)² , c’est-`a-dire

v_φ(θ) = Eθ

φ(θ,X)² Eθ

∂θφ(θ,X)2 ≥ 1 I(θ)

15/26

(16)

Information de Fisher et r´ esultats

non-asymptotiques : borne de Cramer-Rao

(17)

Borne de Cramer-Rao

SoitZ une observation de l’exp´erience (Z,Z,{Pθ:θ∈Θ}) o`u 1. Θ est un ouvert de R

2. Pθ=f(θ,·).µ(mod`ele domin´e par µ)

3. le mod`ele{P^θ:θ∈Θ} est r´egulier et on note l’information de Fisher par :

I(θ) =Eθ

(∂1logf(θ,Z))² Alors pour tout estimateur ˆθ, on a

Eθ θˆ−θ2

≥ (1 +b⁰(θ))²

I(θ) +b(θ)² o`ub(θ) =Eθθ(Zˆ )−θ est le bias de ˆθ.

En particulier, si l’estimateur ˆθ est sans biais alors son risque quadratique est plus grand queI(θ)⁻¹.

17/26

(18)

Mise en perspective de Cramer-Rao

Le résultat de l’efficacité asymptotique de l’EMV parmi lesZ-estimateurs réguliers dit que siθbn est unZ-estimateur régulier alors

θbn≈θ+

rvφ(θ)

n N(0,1) o`uvφ(θ)≥ 1 I(θ) alors, intuitivement,

Eθ θbn−θ²

≈ vφ(θ)

n ≥ 1

nI(θ) = 1 I(θ|Eⁿ)

On retrouve donc la version ”asymptotique” de Cramer-Rao pour les Z-estimateurs r´eguliers (qui sont ”asymptotiquement sans biais” car consistant).

(19)

Preuve de Cramer-Rao

On note :

I R_θ(ˆθ) =Eθ θˆ−θ²

: le risque quadratique de ˆθ

I b(θ) =Eθθ(Zˆ )−θ: le biais de ˆθ

I `(θ,z) = logf(θ,z) : le score deθ enz Montrer que :

1. Rθ(ˆθ) =b(θ)²+varθ(ˆθ) (d´ecomposition bias/variance) 2. Eθ∂_θ`(θ,Z) = 0

3. b⁰(θ) =Eθ[ˆθ(Z)∂θ`(θ,Z)]−1 4. 1 +b⁰(θ) =E^θ

(ˆθ−E^θθ)∂ˆ θ`(θ,Z) 5. en d´eduire la borne de Cramer-Rao

19/26

(20)

Approche non-asymptotique de comparaison

d’estimateurs

(21)

Risque quadratique

D´ efinition

Soit Z une observation de l’exp´erience Z,Z,{P^θ:θ∈Θ}

pourΘ⊂R. 1. Soitθˆ= ˆθ(Z)un estimateur. On appellerisque quadratique deθˆau

point θ∈Θ:

R(bθn, θ) =Eθ

θˆ−θ2

2. Soientθˆ₁,θˆ₂ deux estimateurs. On dit queθˆ₁ estpréférable au sens du risque quadratiqueàθˆ₂quand

∀θ∈Θ, R θb₁, θ

≤ R θb₂, θ

21/26

(22)

Absence d’optimalit´ e (1/3)

Question : Existe-t-il un estimateuroptimalθ^? au sens o`u

∀θ∈Θ, R θ^?, θ

≤inf

θˆ

R θb_n, θ

?

Proposition

SiΘ ={θ1, θ₂}ets’il n’existe pas d’événementobservable A∈ Z tel que,simultanément :

Pθ1

A

= 0 et Pθ2

A

= 1,

(on dit queP^θ1 etP^θ2 ne sontpas ´etrang`eres), alorsil n’existe pas d’estimateur optimal

(23)

Absence d’optimalit´ e (2/3)

I Preuve : Pour tout estimateur θ^?, on a max

R(θ^?, θ1),R(θ^?, θ2) >0 (?)

I Supposonsθ^? estimateur optimal etR(θ^?, θ1)>0. Alors θˆ^trivial:=θ1v´erifie

0 =R θˆ^trivial, θ1

<R θ^?, θ1

contradiction ! ceci contredit l’optimalit´e deθ^?

23/26

(24)

Absence d’optimalit´ e (3/3)

Preuve de (?) : siR θ^?, θ₁

=R θ^?, θ₂

= 0, alors θ^?=θ₁ Pθ1−p.s. et θ^?=θ₂ Pθ2−p.s..

Soient

A={z∈Z:θ^?(z) =θ1}et B={z ∈Z:θ^?(z) =θ2}

AlorsPθ₁[A] = 1 et doncPθ₂[A]>0. Aussi, Pθ₂[B] = 1. Donc A∩B6=∅.

Alors il existez0∈Ztel queθ1=θ^?(z0) =θ2:contradiction !

(25)

Notions d’optimalit´ e non-asymptotique

I Diff´erentes notions existent. Deux exemples extrˆemes :

D´ efinition (Admissibilit´ e et crit` ere minimax)

I Un estimateurθ^?estadmissibles’iln’existe pasd’estimateurθˆ préférableàθ^?càd tel que, pourtoutθ∈Θ,

R(ˆθ, θ)<R(θ^?, θ).

I Un estimateurθ^?estminimaxsi

sup

θ∈Θ

R(θ^?, θ) = inf

θˆ

sup

θ∈Θ

R(ˆθ, θ)

I Admissibilit´e: permet d’´eliminer des estimateurs absurdes (mais pas tous : θbn=θ0)

I Minimaxit´e: notion tr`esrobuste mais conservatrice

25/26

(26)

exemple : propri´et´e minimax de la moyenne empirique cadre :X1, . . . ,Xn

i.i.d.

∼ N(θ,1) pourθ∈R

1. la moyenne empirique ¯X_nest sans biais et v´erifie : R( ¯Xn, θ) = 1

n

2. soit bθn un estimateur sans biais ; par Cramer-Rao, on a : R(bθ_n, θ)≥ 1

n

La moyenne empirique est doncminimax parmi les estimateurs sans biais dans le mod`ele{N(θ,1) :θ∈R}