Statistiques math´ ematiques : cours 5
Guillaume Lecu´e
3 septembre 2018
1/26
Aujourd’hui
Comparaison d’estimateurs
Optimalit´e de l’EMV
Borne de Cramer-Rao
Approche non-asymptotique de comparaison d’estimateurs
Comparaison d’estimateurs dans les mod` eles param´ etriques domin´ es
Mod`ele d’´echantillonnage domin´e param´etrique: on observe X1, . . . ,Xn
i.i.d.
∼ Pθ, θ∈Θ⊂Rd o`uPθ=f(θ, .).µ
Plusieurs estimateurs :moments,Z- etM-estimateurs,EMV
Question : Quel estimateur choisir ? comment comparer des estimateurs ?
3/26
Vitesse de convergence et r´ egions de confiance
bθn estimateur deθ. Il y a deux types de r´esultats :
I vitesse de convergencenon-asymptotique: `anfix´e E
kθbn−θk2
≤cn(θ)2, (o`ucn(θ)↓0)
I vitesse de convergenceasymptotiques: quandn−→+∞, vn(bθn−θ)−→d Zθ, (o`uvn−1↓0)
Ces deux r´esultats permettent de construire des intervalles / r´egions de confiance (non-asymptotique / asymptotique).
Id´ee :La taille de ces r´egions de confiance caract´erise la qualit´e
R´ egions de confiance : d´ efinition formelle
D´ efinition
Dans le mod`ele d’´echantillonnage {P⊗nθ :θ∈Θ}pour Θ⊂Rd. Soit α∈(0,1). Pour tout n≥1, on consid`ere un sous-ensemble observable Cn,α =Cn,α(X1, . . . ,Xn)deRd. Cn,α est appel´e :
1. r´egion de confiance de niveau1−αquand
∀θ∈Θ :Pθ
θ∈ Cn,α
≥1−α 2. r´egion de confiance de niveau asymptotique1−αquand
∀θ∈Θ : lim inf
n→∞ Pθ
θ∈ Cn,α
≥1−α.
5/26
Comparaison d’estimateurs
Dans le mod`ele d’´echantillonnage, commentconstruirele meilleur estimateur ? Dans quel sens ?
I Intuitivement :θbn fournit une pr´ecision d’estimation deθoptimale si on peut lui associer une r´egion de confiance de longueur / volume minimale(`a un niveau 1−αdonn´e).
I Diff´erence entre point de vueasymptotique etnon-asymptotique.
Dans ce cours, nous ´etudions le point de vue asymptotique :
I vitesse de convergence asymptotique
I variance asymptotique
et on donne une br`eve initiation `a la notion d’optimalit´e en non-asymptotique.
Approche asymptotique
Hypoth`ese :θ∈Θ⊂Ret on se restreint auxestimateursθbn
asymptotiquement normaux:
√n θbn−θ d
−→ N 0,v(θ)
(th´eor`emes limites pour lesZ-,M-estimateurs, EMV, plug-in)
Intuitivement : on a
θbn≈θ+ rv(θ)
n N(0,1) Donc la variance asymptotique mesure :
1. l’”incertitude” de l’estimation deθ parθbn
2. la taille des r´egions de confiance asymptotiques
7/26
efficacit´ e asymptotique
D´ efinition
Soitθbn,1etbθn,2deux estimateurs asymptotiquement normaux de variance asymptotique respectives v1(θ)et v2(θ). On dit queθbn,1 estplus efficace quebθn,2quand :
v1(θ)≤v2(θ)pour toutθ∈Θ
Un estimateur estasymptotiquement efficaces’il n’´existe pas d’autre estimateur (dans la classe consid´er´ee) plus efficace que lui.
I on ne compare que les estimateurs asymptotiquement normaux (de vitesse de convergence en 1/√
n)
I cela exclut les estimateurs pathologique commeθbn =θ0
Efficacit´ e asymptotique de l’EMV
Rappels : r´egularit´e d’un mod`ele statistique et information
I Cadre : mod`ele d’´echantillonnage domin´e param´etrique X1, . . . ,Xni.i.d.∼ Pθ=f(θ, .).µpourθ∈Θ⊂R
I Hypoth`ese: la quantit´e I(θ) =Eθ
∂θlogf(θ,X1)2
est bien d´efinie. C’estl’information de Fisherdu mod`ele Pθ, θ∈Θ en θ.
Rappels : r´egularit´e d’un mod`ele statistique et information
D´ efinition
La famille de densit´es{f(θ,·), θ∈Θ}, par rapport `a la mesure dominanteµ, etΘ⊂Rouvert, estr´eguli`ere si
I {f(θ,·)>0}={f(θ0,·)>0},µ-p.p.∀θ, θ0 ∈Θ
I µ-p.p.θ7→f(θ,·), θ7→logf(θ,·)sontC2
I ∀θ∈Θ,∃Vθ⊂Θt.q. pour tout a∈ Vθ
|∂a2logf(a,x)|+|∂alogf(a,x)|+ ∂alogf(a,x)2
≤g(x) o`u
Z
X
g(x) sup
a∈V(θ)
f(a,x)µ(dx)<+∞
I L’information de Fisher est non-d´eg´en´er´ee :
∀θ∈Θ, I(θ)>0.
11/26
R´ esultat principal
Theorem
Dans le mod`ele d’´echantillonnage domin´e (pourΘ⊂R) tel que {Pθ, θ∈Θ}estr´egulieron a :
I l’EMV est asymptotiquement normal :
√n θbnmv−θ d
−→ N 0, 1
I(θ)
I Siθbn est un Z -estimateur associ´e `aφ”r´eguli`ere”, c`ad tel queθbn est a.n. de variance asymptotique
v(θ) = Eθ[φ(θ,X)2]
Eθ[∂θφ(θ,X)]2 alors ∀θ∈Θ, v(θ)≥ 1 I(θ)
Preuve de l’´ efficacit´ e asymptotique de l’EMV parmi les Z -estimateurs r´ eguliers
Soitθbn un Z-estimateur r´egulier associ´e `a la fonction φ, alors, sa variance asymptotique vaut
vφ(θ) = Eθ
φ(θ,X)2 Eθ
∂θφ(θ,X)2 A montrer : pour toute fonctionφ(reguli`ere) :
Eθ
φ(θ,X)2 Eθ
∂θφ(θ,X)2 ≥ 1 I(θ)
13/26
Preuve de l’in´ egalit´ e (1/2)
I Par construction deφ, on a ∀θ∈Θ,Eθφ(θ,X) = 0 alors H0(θ) = 0 o`uH(θ) =Eθ
φ(θ,X)
= 0
I c`ad 0 =
Z
R
∂θφ(θ,x)f(θ,x) +φ(θ,x)∂θf(θ,x) µ(dx)
= Z
R
∂θφ(θ,x)f(θ,x) +φ(θ,x)∂θlogf(θ,x)f(θ,x) µ(dx)
I Conclusion Eθ
∂θφ(θ,X)
=−Eθ
φ(θ,X)∂θlogf(θ,X)
Preuve de l’in´ egalit´ e (2/2)
I On a
Eθ
∂θφ(θ,X)
=−Eθ
φ(θ,X)∂θlogf(θ,X)
I Cauchy-Schwarz : Eθ
∂θφ(θ,X)2
≤Eθ
φ(θ,X)2 Eθ
∂θlogf(θ,X)2 , c’est-`a-dire
vφ(θ) = Eθ
φ(θ,X)2 Eθ
∂θφ(θ,X)2 ≥ 1 I(θ)
15/26
Information de Fisher et r´ esultats
non-asymptotiques : borne de Cramer-Rao
Borne de Cramer-Rao
SoitZ une observation de l’exp´erience (Z,Z,{Pθ:θ∈Θ}) o`u 1. Θ est un ouvert de R
2. Pθ=f(θ,·).µ(mod`ele domin´e par µ)
3. le mod`ele{Pθ:θ∈Θ} est r´egulier et on note l’information de Fisher par :
I(θ) =Eθ
(∂1logf(θ,Z))2 Alors pour tout estimateur ˆθ, on a
Eθ θˆ−θ2
≥ (1 +b0(θ))2
I(θ) +b(θ)2 o`ub(θ) =Eθθ(Zˆ )−θ est le bias de ˆθ.
En particulier, si l’estimateur ˆθ est sans biais alors son risque quadratique est plus grand queI(θ)−1.
17/26
Mise en perspective de Cramer-Rao
Le r´esultat de l’efficacit´e asymptotique de l’EMV parmi lesZ-estimateurs r´eguliers dit que siθbn est unZ-estimateur r´egulier alors
θbn≈θ+
rvφ(θ)
n N(0,1) o`uvφ(θ)≥ 1 I(θ) alors, intuitivement,
Eθ θbn−θ2
≈ vφ(θ)
n ≥ 1
nI(θ) = 1 I(θ|En)
On retrouve donc la version ”asymptotique” de Cramer-Rao pour les Z-estimateurs r´eguliers (qui sont ”asymptotiquement sans biais” car consistant).
Preuve de Cramer-Rao
On note :
I Rθ(ˆθ) =Eθ θˆ−θ2
: le risque quadratique de ˆθ
I b(θ) =Eθθ(Zˆ )−θ: le biais de ˆθ
I `(θ,z) = logf(θ,z) : le score deθ enz Montrer que :
1. Rθ(ˆθ) =b(θ)2+varθ(ˆθ) (d´ecomposition bias/variance) 2. Eθ∂θ`(θ,Z) = 0
3. b0(θ) =Eθ[ˆθ(Z)∂θ`(θ,Z)]−1 4. 1 +b0(θ) =Eθ
(ˆθ−Eθθ)∂ˆ θ`(θ,Z) 5. en d´eduire la borne de Cramer-Rao
19/26
Approche non-asymptotique de comparaison
d’estimateurs
Risque quadratique
D´ efinition
Soit Z une observation de l’exp´erience Z,Z,{Pθ:θ∈Θ}
pourΘ⊂R. 1. Soitθˆ= ˆθ(Z)un estimateur. On appellerisque quadratique deθˆau
point θ∈Θ:
R(bθn, θ) =Eθ
θˆ−θ2
2. Soientθˆ1,θˆ2 deux estimateurs. On dit queθˆ1 estpr´ef´erable au sens du risque quadratique`aθˆ2quand
∀θ∈Θ, R θb1, θ
≤ R θb2, θ
21/26
Absence d’optimalit´ e (1/3)
Question : Existe-t-il un estimateuroptimalθ? au sens o`u
∀θ∈Θ, R θ?, θ
≤inf
θˆ
R θbn, θ
?
Proposition
SiΘ ={θ1, θ2}ets’il n’existe pas d’´ev´enementobservable A∈ Z tel que,simultan´ement :
Pθ1
A
= 0 et Pθ2
A
= 1,
(on dit quePθ1 etPθ2 ne sontpas ´etrang`eres), alorsil n’existe pas d’estimateur optimal
Absence d’optimalit´ e (2/3)
I Preuve : Pour tout estimateur θ?, on a max
R(θ?, θ1),R(θ?, θ2) >0 (?)
I Supposonsθ? estimateur optimal etR(θ?, θ1)>0. Alors θˆtrivial:=θ1v´erifie
0 =R θˆtrivial, θ1
<R θ?, θ1
contradiction ! ceci contredit l’optimalit´e deθ?
23/26
Absence d’optimalit´ e (3/3)
Preuve de (?) : siR θ?, θ1
=R θ?, θ2
= 0, alors θ?=θ1 Pθ1−p.s. et θ?=θ2 Pθ2−p.s..
Soient
A={z∈Z:θ?(z) =θ1}et B={z ∈Z:θ?(z) =θ2}
AlorsPθ1[A] = 1 et doncPθ2[A]>0. Aussi, Pθ2[B] = 1. Donc A∩B6=∅.
Alors il existez0∈Ztel queθ1=θ?(z0) =θ2:contradiction !
Notions d’optimalit´ e non-asymptotique
I Diff´erentes notions existent. Deux exemples extrˆemes :
D´ efinition (Admissibilit´ e et crit` ere minimax)
I Un estimateurθ?estadmissibles’iln’existe pasd’estimateurθˆ pr´ef´erable`aθ?c`ad tel que, pourtoutθ∈Θ,
R(ˆθ, θ)<R(θ?, θ).
I Un estimateurθ?estminimaxsi
sup
θ∈Θ
R(θ?, θ) = inf
θˆ
sup
θ∈Θ
R(ˆθ, θ)
I Admissibilit´e: permet d’´eliminer des estimateurs absurdes (mais pas tous : θbn=θ0)
I Minimaxit´e: notion tr`esrobuste mais conservatrice
25/26
exemple : propri´et´e minimax de la moyenne empirique cadre :X1, . . . ,Xn
i.i.d.
∼ N(θ,1) pourθ∈R
1. la moyenne empirique ¯Xnest sans biais et v´erifie : R( ¯Xn, θ) = 1
n
2. soit bθn un estimateur sans biais ; par Cramer-Rao, on a : R(bθn, θ)≥ 1
n
La moyenne empirique est doncminimax parmi les estimateurs sans biais dans le mod`ele{N(θ,1) :θ∈R}