Statistiques math´ ematiques : cours 4
Guillaume Lecu´e
30 aoˆut 2018
1/42
Rappels du cours 3 : Z et M -estimation, EMV
2/42
Z -estimation
I Situation : on observeX1, . . . ,Xn i.i.d.
∼ Pθ surRetθ∈Θ
I Principe : Trouver une applicationφ: Θ×R→R+ telle que, pour toutθ∈Θ⊂Rd,
a7→Eθ
φ(a,X)
= Z
φ(a,x)Pθ(dx) admetun z´ero ena=θ
D´ efinition
On appelleZ -estimateurassoci´e `aφtout estimateurθbn ∈Θsatisfaisant
n
X
i=1
φ(bθn,Xi) = 0
3/42
M -estimation
I Situation : on observeX1, . . . ,Xni.i.d.∼ Pθ surRetθ∈Θ.
I Principe : Trouver une applicationψ: Θ×R→R+telle que, pour toutθ∈Θ⊂Rd,
a7→Eθ
ψ(a,X)
= Z
ψ(a,x)Pθ(dx) admetun maximum ena=θ
D´ efinition
On appelleM-estimateurassoci´e `aψtout estimateurθbn∈Θsatisfaisant
n
X
i=1
ψ(bθn,Xi) = max
a∈Θ n
X
i=1
ψ(a,Xi)
4/42
Fonction de vraisemblance
I La famille {Pθ, θ∈Θ}est domin´ee par une mesureσ-finieµ. On se donne, pourθ∈Θ,
f(θ,x) =dPθ
dµ (x), x ∈ X
D´ efinition
Lafonction de vraisemblancedu n-´echantillon (X1, . . . ,Xn)associ´ee `a la famille de densit´e{f(θ,·) :θ∈Θ} est
θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =
n
Y
i=1
f(θ,Xi)
5/42
Estimateur du maximum de vraisemblance
Situation :
I X1, . . . ,Xn i.i.d.
∼ Pθ, {Pθ, θ∈Θ}domin´ee, Θ⊂Rd
I θ7→ Ln(θ,X1, . . . ,Xn) vraisemblance associ´ee
D´ efinition
On appelleestimateur du maximum de vraisemblancetout estimateur bθnmv satisfaisant
Ln(bθnmv,X1, . . . ,Xn) = max
θ∈ΘLn(θ,X1, . . . ,Xn)
6/42
Aujourd’hui
l’EMV est unM-estimateur
Asymptotique desZ- etM- estimateurs et de l’EMV
Mod`eles r´eguliers et information de Fisher Construction de l’information de Fisher Cadre g´en´eral et interpr´etation g´eom´etrique Exemples, applications
7/42
l’EMV est un M -estimateur
I Une in´egalit´e de convexit´e :µmesureσ-finie surR;f,g deux densit´es de probabilit´es par rapport `aµ. Alors
Z
R
f(x) logf(x)µ(dx)≥ Z
R
f(x) logg(x)µ(dx) (si les int´egrales sont finies) avec ´egalit´essif =g µ-pp.
I Preuve : `a montrer Z
R
f(x) logg(x)
f(x)µ(dx)≤0 (convention log(0) =−∞)
8/42
Une in´ egalit´ e de convexit´ e
I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.
I Donc
logg(x)
f(x) = log
1 + g(x) f(x) −1
≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).
I Finalement Z
R
f(x) logg(x)
f(x)µ(dx)≤ Z
R
f(x)g(x) f(x)−1
µ(dx)
= Z
R
g(x)µ(dx)− Z
R
f(x)µ(dx)
= 0
9/42
Cons´ equence pour l’EMV
I On pose
ψ(a,x) := logf(a,x), a∈Θ, x ∈R (conventionψ(a,x) =−∞quandf(a,x) = 0)
I La fonction
a∈Θ7→Eθ
ψ(a,X)
= Z
R
logf(a,x)f(θ,x)µ(dx) a un maximum ena=θd’apr`es l’in´egalit´e de convexit´e
10/42
I LeM-estimateur associ´e `aψmaximise la fonction a7→
n
X
i=1
logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance, donc
l’estimateur du maximum de vraisemblance est un M-estimateur
I Si la fonction θ7→logf(θ,·) est r´eguli`ere, l’EMV est aussi un Z-estimateur associ´e `a la fonction
φ(θ,x) =∂θlogf(θ,x) =∂θf(θ,x)
f(θ,x) , θ∈Θ,x ∈R
`
a condition que le maximum de la log-vraisemblance n’est pas atteint sur la fronti`ere de Θ.
Asymptotique des Z et M -estimateurs et de l’EMV
12/42
Propri´et´es statistiques asymptotiques des estimateurs : d´efinitions
Mod`ele d’´echantillonage : (Xn)nsuitei.i.d.∼ Pθ∈ {Pθ:θ∈Θ}. Soit (ˆθn)n
un estimateur. On dit que :
1. θbn estconsistantquand pour toutθ∈Θ, sousPθ, bθn Pθ
−→θ
(bθn estfortement consistant quand la cv est p.s.)
2. θbn estasymptotiquement normalquand, pour toutθ∈Θ, sousPθ, il existe une suite croissante de r´eels positifs (an)↑ ∞etVθ une variable al´eatoire Gaussienne centr´ee telles que :
an θbn−θ d
−→Vθ
Quand Vθ∼ N(0,v(θ)),v(θ) est appel´ee lavariance asymptotique; 1/anest la vitesse de convergence asymptotique(g´en´eralement, an=√
n)
13/42
Asymptotique des Z - et M -estimateurs
I Probl`eme g´en´eral d´elicat. Dans ce cours :conditions suffisantes
I r´esultats ´etablis pour Θ⊂Rmais g´en´eralisable `a Rd
I application directe `a l’EMV (vu comme unM-estimateur)
14/42
Consistance des Z -estimateurs
I Situation : on observeX1, . . . ,Xn i.i.d.
∼ Pθ, θ∈Θ.
I φ: Θ×R→R
I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, Zn(a) = 1
n
n
X
i=1
φ(a,Xi)−→Pθ Z(a, θ) =Eθ
φ(a,X)
qui s’annule ena=θ
I `a montrer : pour toutθ∈Θ, sousPθ,
θbn (z´ero deZn(·))−→Pθ θ(z´ero deZ(·, θ))
15/42
Consistance des Z -estimateurs
Proposition
On suppose que pour toutθ∈Θ: a) supa∈Θ|Zn(a)−Z(a, θ)|−→Pθ 0, b) ∀ε >0, inf|a−θ|≥ε|Z(a, θ)|>0
alors tout Z -estimateurθbn (c`ad tq Zn(bθn) = 0) est consistant.
1. ”a)” se montre grˆace aux techniques de processus empiriques 2. ”b)” est une condition (d´eterministe) sur le z´eroθde Z(·, θ)
16/42
Consistance des M -estimateurs
I Situation : on observeX1, . . . ,Xni.i.d.∼ Pθ, θ∈Θ
I ψ: Θ×R→Rfonction de contraste
I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, Mn(a) = 1
n
n
X
i=1
ψ(a,Xi)−→Pθ M(a, θ) =Eθ
ψ(a,X)
qui atteint son maximum en a=θ
I `a montrer : pour toutθ∈Θ, θbn=arg max
a∈ΘMn(a)−→Pθ arg max
a∈ΘEθ
ψ(a,X)
=θ
17/42
Consistance des M -estimateurs
Proposition
On suppose que pour toutθ∈Θ: a) supa∈Θ|Mn(a)−M(a, θ)|−→Pθ 0, b) ∀ε >0, sup|a−θ|≥εM(a, θ)<M(θ, θ)
alors tout M-estimateurbθn∈arg maxa∈ΘMn(a)est consistant.
1. ”a)” se montre grˆace aux techniques de processus empiriques 2. ”b)” est une condition sur le maximum de la fonction de contraste
18/42
Normalit´e asymptotique desZ-estimateurs : principe
I Situation : X1, . . . ,Xni.i.d.∼ Pθ pourθ∈Θ⊂R
I θbn :Z-estimateurassoci´e `aφ: Θ×R→Rc`ad
n
X
i=1
φ(bθn,Xi) = 0
I Sous certaines conditionsθbn est consistant. Maintenant : est-il asymptotiquement normal ?:
1. Pour quelle vitesse de convergence ? 2. Pour quelle variance asymptotique ?
19/42
Normalit´e asymptotique desZ-estimateurs : principe
I Principe. D´eveloppement de Taylor autour deθ :
0 =Zn(bθn) =Zn(θ) + (bθn−θ)Zn0(θ) +12(bθn−θ)2Z00(eθn)
I On a approximativement (en ”n´egligeant” le reste) :
√n(bθn−θ)≈ −√ nZn(θ) Zn0(θ)
20/42
Normalit´e asymptotique desZ-estimateurs : principe
I Convergence dunum´erateur: par le TCL (sous Pθ)
√nZn(θ) = 1
√n
n
X
i=1
φ(θ,Xi)−→ Nd 0,Eθ
φ(θ,X)2
si Eθ
φ(θ,X)
= 0etEθ
φ(θ,X)2
<+∞.
I Convergence dud´enominateur(sousPθ) Zn0(θ) =1
n
n
X
i=1
∂1φ(θ,Xi)−→Pθ Eθ
∂1φ(θ,X)
6= 0 (`a supposer).
I + hypoth`eses techniques pourcontrˆoler le reste (besoin de la consistance deθbn).
21/42
Normalit´ e asymptotique des Z -estimateurs
Theorem
SoitΘun ouvert deR. On suppose que :
I le Z -estimateur θbn associ´e `aφest consistant
I pour tout θ∈Θ,Eθ
φ(θ,X)
= 0, Eθ
φ(θ,X)2
<+∞et Eθ
∂1φ(θ,X) 6= 0
I (Contrˆole reste)pour tout θ∈Θ, pour tout adans un voisinage de θ,
|∂12φ(a,x)| ≤g(x)o`u Eθ g(X)
<+∞.
Alors, pour toutθ∈Θ, sousPθ,
√n(bθn−θ)−→ Nd 0, Eθ[φ(θ,X)2] Eθ[∂1φ(θ,X)]2
!
22/42
Normalit´e asymptotique desM-estimateurs : principe
I Situation : X1, . . . ,Xn i.i.d.
∼ Pθ pourθ∈Θ⊂R
I θbn :M-estimateurassoci´e `aψ: Θ×R→Rc`ad
θbn∈arg max
a∈Θ n
X
i=1
ψ(a,Xi)
I Sous certaines conditions, lesM-estimateurs sont desZ-estimateurs associ´es `a
φ(a,x) =∂1ψ(a,x)
On applique le th´eor`eme de la normalit´e asymptotique des Z-estimateurs auxM-estimateurs.
23/42
Normalit´ e asymptotique des M -estimateurs
Theorem
SoitΘun ouvert deR. On suppose que :
I le M-estimateurθbn associ´e `aψest consistant
I pour tout θ∈Θ,Eθ
∂1ψ(θ,X)
= 0, Eθ
∂1ψ(θ,X)2
<+∞et Eθ
∂12ψ(θ,X) 6= 0
I pour tout θ∈Θ, pour tout a dans un voisinage deθ,
|∂31ψ(a,x)| ≤g(x)o`u Eθ g(X)
<+∞.
Alors, pour toutθ∈Θ, sousPθ,
√n(bθn−θ)−→ Nd 0, Eθ[∂1ψ(θ,X)2] Eθ[∂12ψ(θ,X)]2
!
24/42
Normalit´e asymptotique de l’EMV : principe
I Situation : X1, . . . ,Xn i.i.d.
∼ Pθ pourθ∈Θ⊂R
I {Pθ:θ∈Θ}est domin´e parµet la vraisemblance associ´ee est θ7→ Ln(θ,X1, . . . ,Xn) =
n
Y
i=1
f(θ,Xi)
I l’EMV est
bθnmv∈arg max
θ∈ΘLn(θ,X1, . . . ,Xn)
25/42
Normalit´e asymptotique de l’EMV : principe
I On pose
ψ(a,x) := logf(a,x), a∈Θ, x ∈R (convention log 0 =−∞)
I La fonction a7→Eθ
ψ(a,X)
= Z
R
logf(a,x)f(θ,x)µ(dx) a un maximum ena=θ.
Donc l’EMV est unM-estimateur. On peut alors appliquer le th´eor`eme de normalit´e asymptotique desM-estimateurs.
26/42
Normalit´e asymptotique de l’EMV : principe
Sous certaine conditions, on a
√n θbnmv−θ d
−→ N 0,v(θ) o`u la variance asymptotique est
v(θ) = Eθ[∂1ψ(θ,X)2] Eθ[∂12ψ(θ,X)]2 qui se simplifie quandψ(a,x) = logf(a,x) en
v(θ) = 1
I(θ) o`uI(θ) =Eθ
(∂1logf(θ,X))2 car
Eθ
(∂12f(θ,X))/f(θ,X)
= 0
Normalit´e asymptotique de l’EMV : principe
Dans un mod´ele d’´echantilllonage{Pθ:θ∈Θ}domin´e parµ, de densit´es dPθ
dµ (x) =f(θ,x) on d´efinit
`(θ,x) = logf(θ,x)
avec la convention (log 0 =−∞) et quand`(·,x) est d´erivable pour µ-p.t.x, on appelle :
1. fonction de score : `ax∈Rfix´e,
θ7→∂1`(θ,x)
2. on appelleinformation de Fisherenθ∈Θ, I(θ) =Eθ
(∂1`(θ,X))2
28/42
Normalit´e asymptotique de l’EMV : principe
On a donc ”sous certaines hypoth`eses” que :
√n bθnmv−θ d
−→ N 0, 1
I(θ)
Les hypoth`eses suffisantes pour assurer lanormalit´e asymptotique de l’EMV de variance asymptotiqueI(θ)−1sont `a l’origine de la d´efinition d’unmod´ele r´egulier.
Conclusion : L’´etude de la normalit´e asymptotique des EMV nous am´ene
`a introduire les notions suivantes : 1. le score
2. l’information de Fisher 3. un mod´ele r´egulier
29/42
R´ egularit´ e d’un mod` ele statistique et information
I Cadre simplificateur : mod`ele domin´e (parµ) X1, . . . ,Xn
i.i.d.
∼ Pθ
dans la famille
Pθ, θ∈Θ avec Θ⊂R(pour simplifier).
I Notation :
f(θ,x) = dPθ
dµ (x), x ∈R, θ∈Θ.
I Hypoth`ese: la quantit´e I(θ) =Eθ
∂1logf(θ,X)2
est bien d´efiniePθ-p.s..
30/42
Information de Fisher
D´ efinition
I(θ) =Eθ
∂1logf(θ,X)2
s’appelle l’information de Fisherde la famille{Pθ, θ∈Θ}au pointθ.
I L’information de Fisher ne d´epend pas de la mesure dominanteµ
I Le cadre d’int´erˆet est celui o`u
0<I(θ)<+∞.
I I(θ) quantifiel’informationqu’apporte chaque observation Xi
sur le param`etreθ.
I on a Pθ
f(θ,X)>0
= 1, donc la quantit´e logf(θ,X) est bien d´efinie.
31/42
Mod` ele r´ egulier
D´ efinition
La famille de densit´es{f(θ,·), θ∈Θ}, par rapport `a la mesure dominanteµ,Θ⊂Rouvert, estr´eguli`ere si
I {f(θ,·)>0}={f(θ0,·)>0},µ-p.p.∀θ, θ0 ∈Θ
I µ-p.p.θ7→f(θ,·), θ7→logf(θ,·)sontC2
I ∀θ∈Θ,∃Vθ⊂Θt.q. pour a∈ Vθ
|∂a2logf(a,x)|+|∂alogf(a,x)|+ ∂alogf(a,x)2
≤g(x) o`u
Z
R
g(x) sup
a∈V(θ)
f(a,x)µ(dx)<+∞
I L’information de Fisher est non-d´eg´en´er´ee :
∀θ∈Θ, I(θ)>0
32/42
R´ esultat principal
Theorem
Dans le mod`ele d’´echantillonnage associ´e `a un mod`ele r´egulier on a : pour toutθ∈Θ,
√n bθnmv−θ d
−→ N 0, 1
I(θ)
33/42
Information de Fisher dans le mod`ele d’´echantillonnage
Dans le mod`ele d’´echantillonnage (surR) domin´e (parµ), on observe X1, . . . ,Xni.i.d.∼ Pθ, θ∈Θ⊂R
et on note les densit´es (pour toutθ∈Θ,x∈R) dPθ
dµ (x) =f(θ,x) L’exp´erience statistique associ´ee est
En= Rn,B(Rn),{P⊗nθ , θ∈Θ}
qui est domin´ee parµ⊗n, de densit´e :∀z = (x1, . . . ,xn)∈Rn,
fn(θ,z) = dPZ dµ⊗n(z) =
n
Y
i=1
f(θ,xi)
o`uZ = (X1, . . . ,Xn) est une observation de l’exp´erienceEn.
34/42
Information de Fisher dans le mod`ele d’´echantillonnage
L’information de Fisher contenue dans une observationZ = (X1, . . . ,Xn) deEn enθest
In(θ) =I(θ|En) =Eθ
(∂1logfn(θ,Z))2 Par ailleurs, pour une seule observationX1 de l’exp´erience
E= R,B(R),{Pθ, θ∈Θ}
,
l’information de Fisher est
I(θ) =I(θ|E) =Eθ
(∂1logf(θ,X1))2
Theorem
I(θ| En) =nI(θ| E)
Le cas multidimensionnel
D´ efinition
Soit Z∼Pθ avecθ∈Θ⊂Rd de densit´e f(θ,·). La matrice d’information de Fisheren θest
I(θ) =Eθ
∇θlogf(θ,Z)∇θlogf(θ,Z)T
I I(θ) est unematriced×d sym´etrique positive
I Dans le mod`ele d’´echantillonage domin´e, on noteI(θ) l’information de Fisher pour une observationX1, sous des hypoth`eses de r´egularit´e du mod`ele, on a
√n θbnmv−θ d
−→ N
0,I(θ)−1
36/42
R´egion de confiance asymptotique pour l’EMV (1/2)
Dans le mod`ele d’´echantillonnage domin´e r´egulier tel que l’information de Fisher (pour une observationX1)
θ∈Θ⊂Rd 7→I(θ)∈Rd×d est continue, on peut appliquer le lemme de Slutsky :
√nI(bθnmv)1/2 θbnmv−θ d
−→ N 0,Id o`uId est la matrice identit´e deRd×d.
Ainsi, pour toutE⊂Rn (mesurable), quandn→ ∞, P
h√nI(bθnmv)1/2 θbnmv−θ
∈Ei
−→P[G ∈E] o`uG ∼ N(0,Id).
37/42
R´egion de confiance asymptotique pour l’EMV (2/2)
PourB2d ={x∈Rd :kxk2≤1},G ∼ N(0,Id) etc>0, on a : P
h√
nI(bθnmv)1/2 θbnmv−θ
∈cB2di
−→P[kGk2≤c]
CommekGk22suit une loi duχ2(d) (”khi2 `ad degr´es de libert´e”), on a pour toutα∈(0,1), quandn→ ∞,
P h
θ∈ In,α
i−→1−α o`u
In,α=θbnmv+q1−αχ2(d)
√n I(bθnmv)−1/2B2d C’est une ellipse centr´ee enbθnmv.
38/42
Formules de calcul de l’information de Fisher
Proposition
Dans un mod`ele r´egulier : I(θ) =Eθ
(∂θlogf(θ,X))2
=−Eθ∂θ2logf(θ,X)
=−∂a2D(a, θ) a=θ
o`uD(a, θ) =Eθ
logf(a,X) .
39/42
Interpr´ etation g´ eom´ etrique
I On poseD(a, θ) =Eθ
logf(a,X)
. On a (par l’in´egalit´e d’entropie) que
D(a, θ) = Z
R
logf(a,x)f(θ,x)µ(dx)
≤ Z
R
logf(θ,x)f(θ,x)µ(dx) =D(θ, θ).
I On a
I(θ) =−∂a2D(a, θ) a=θ
I I(θ) est petite : lerayon de courbure dea7→D(a, θ) est granddans un voisinage deθ: la stabilisation d’un maximum empirique (l’EMV) est plus difficile, rendant moins pr´ecis l’estimation.
I I(θ) est grande : lerayon de courbure est petitet le maximum de l’EMV est mieux localis´e.
40/42
Exercices classiques
Savoir calculer : 1) la vraisemblance, 2) l’EMV, 3) l’information de Fisher, 4) le comportement asymptotique de l’EMV, 5) un intervalle de confiance pourθ; pour le mod`ele d’´echantillonnage de loi :
I Bernoulli B(θ)
I Normal N(m,v)
I UniformeU([a,b])
I PoissonP(θ)
I L’estimation du param`etre d’une loi exponentielle avec ou sans censure.
I mod`ele de r´egression
41/42
application : efficacit´ e ` a un pas
I Dans un mod`ele r´egulier, lecalcul num´erique de l’EMV peut ˆetre difficile `a r´ealiser.
I Si l’on dispose d’un estimateurθbn asymptotiquement normalet si les
´
evaluations
`0n(θ) = 1 n
n
X
i=1
∂1logf(θ,Xi), `00n(θ) = 1 n
n
X
i=1
∂21logf(θ,Xi)
sont faciles, alors on peutcorrigerθbn de sorte d’avoir le mˆeme comportement asymptotique que l’EMV :
eθn=θbn−`0n(bθn)
`00n(bθn) (algorithme de Newton) satisfait
√n θen−θ d
−→ N 0, 1
I(θ)
42/42