Statistiques math´ ematiques : cours 3
Guillaume Lecu´e
29 aoˆut 2018
Rappel des cours pr´ ec´ edents
I outils : LFGN, TCL multi-dimensionnel, Lemme de Slutsky, m´ethode Delta
I estimateurs : fonction de r´epartition empirique, quantile empirique, estimateur plug-in,
I R´esultats consistance et normalit´e asymptotique de ces estimateurs :
Fbn, bqn,p, T(bFn) =h 1 n
n
X
i=1
g(Xi)
!
BJusqu’`a maintenant, on n’a pas utilis´e la notion de mod`ele statistique pour construire et ´etudier des m´ethodes d’estimation
Aujourd’hui
mod`ele domin´e
M´ethodes d’estimation dans les mod`eles M´ethode des moments
Z-estimation M-estimation
Principe de maximum de vraisemblance
Rappels : exp´ eriences et mod` ele statistique (1/2)
D´ efinition
Une exp´erience statistiqueE est un triplet E= Z,Z,
Pθ, θ∈Θ , avec
I Z,Z
espace mesurable (souvent(Rn,B(Rn))),
I {Pθ, θ∈Θ} famille de mesures de probabilit´es d´efinies sur Z,Z appel´eemod`ele
Question : Un mod`ele est une connaissance/intuition a priori sur les donn´ees. Comment tirer profit du mod`ele pour construire et ´etudier des estimateurs ”plus efficaces” que les estimateurs sans mod`eleFbn,bqn,p
Exemple : exp´ erience et mod` eles statistique (2/2)
Probl´eme : un physicien observe la dur´ee de vie d’atomes radioactifs qu’il d´ecide de mod´eliser par des variables al´eatoiresX1, . . . ,Xn i.i.d.. Il souhaite utiliser ces donn´ees pour estimer leur loi sous-jacente. Il peut choisir entre deux approches :
I ”sans mod`ele” : en estimant la fonction de r´epartition desXi parFbn I ”avec mod`ele” : il sait que les dur´ees de vie suivent une loi
exponentielle∈ {Exp(θ) :θ >0}. Dans ce cas, il suffit d’estimerθ par un estimateurθbn et d’approcher la fonction de r´epartition desXi parF
θbn o`u
Fθ(x) =P[Exp(θ)≤x] =
0 six ≤0 1−exp(−θx) sinon.
http://localhost:8888/notebooks/cdf_empirique.ipynbcdf - model
Exp´ eriences domin´ ees
I On fait une hypoth`ese minimale de “structure” sur le mod`ele statistique. But: ramener l’´etude de la famille
{Pθ, θ∈Θ}
`
a l’´etude d’une famille de fonctions
{z ∈Z7→f(θ,z)∈R+, θ∈Θ}.
I Via la notion de domination: si µ, ν sont deux mesures (positives) σ-finies sur Z, alorsµdomineν (not´eeν µ) quand
∀A∈ Z, µ A
= 0⇒ν A
= 0
Th´ eor` eme de Radon-Nikodym
Th´ eor` eme
Soientν etµdeux mesuresσ-finies sur (Z,Z).
Siν µalors il existe une fonction positive (µ-p.p.), appel´ee densit´e de ν par rapport `aµ, not´ee
z 7→ dν dµ(z),
d´efinieµ−p.p.,µ−int´egrable, telle que, pour tout A∈ Z, ν
A
= Z
A dν
dµ(z)µ(dz)
Exp´ erience domin´ ee
D´ efinition
Une exp´erience statistiqueE = Z,Z,
Pθ, θ∈Θ estdomin´ee par la mesureσ-finieµd´efinie sur(Z,Z)si
∀θ∈Θ :Pθµ
On appelledensit´es de la famille{Pθ, θ∈Θ} par rapport `a la mesure dominanteµ, la famille de fonctions (d´efiniesµ−p.p.)
z 7→ dPθ
dµ (z), z ∈Z, θ∈Θ.
Dans un mod`ele domin´e, on est ramen´e `aestimer une densit´eplutˆot qu’une mesure de probabilit´e. De plus l’estimation de la densit´e peut se r´eduire `al’estimation du param´etreθ.
mod` ele d’´ echantillonnage domin´ e (sur R )
I On observe un n-´echantillonde v.a.r.X1, . . . ,Xn.
I La loi desXi appartient au mod`ele{Pθ, θ∈Θ}(famille de probabilit´es surR),domin´epar une mesure (σ-finie)µsurR. On note les densit´es : ∀θ∈Θ,x∈R,
f(θ,x) =dPθ
dµ (x)
I La loi du n-uplet (X1, . . . ,Xn) s’´ecrit
P(X1,...,Xn)=Pnθ=P⊗nθ µ⊗n elle admet alors une densit´e :∀x1, . . . ,xn∈R,
⊗n n
Exemple 1 : mod` ele de densit´ e gaussienne univari´ ee
Xi ∼ N(m, σ2), avec θ= (m, σ2)∈Θ =R×R+\{0}.
I la mesure dominante est λ:Pθ=f.λo`u f(θ,x) = 1
√
2πσ2exp
−(x−m)2 2σ2
I la densit´e d’unn-uplet est : pour toutx1, . . . ,xn∈R, dPnθ
dµ⊗n(x1, . . . ,xn) =
n
Y
i=1
f(θ,xi)
= 1
(2πσ2)n/2exp
− 1 2σ2
n
X
i=1
(xi−m)2
Exemple 2 : mod` ele de Bernoulli
Xi ∼Bernoulli(θ), avec θ∈Θ = [0,1]
I la mesure dominante est ici µ=δ0+δ1, la mesure de comptage sur {0,1} :
Pθ= (1−θ)δ0+θδ1µ et pour tout x∈ {0,1}
dPθ
dµ (x) =f(θ,x) = (1−θ)I(x= 0) +θI(x= 1) =θx(1−θ)1−x
I la loi des observations a pour densit´e par rapport `aµ⊗n, dPnθ
dµ⊗n(x1· · ·xn) =
n
Yθxi(1−θ)1−xi,
Exemple 3 : temps de panne
arrˆ et´ es
(1/3)
I On observeX1, . . . ,Xn, o`uXi=Yi∧T, avec Yi lois exponentielles de param`etreθ etT temps fixe(censure).
I Cas 1 :T =∞(pas de censure). Alors θ∈Θ =R+\{0} et Pθ=f.λo`uf(θ,x) =θexp(−θx)I(x≥0) et
dPnθ
dµ⊗n(x1, . . . ,xn) =θnexp
−θ
n
X
i=1
xi
, pour tout xi∈R+ et 0 sinon.
I Cas 2 :Comment s’´ecrit le mod`eledans le cas o`uT <∞(pr´esence de censure) ? Comment choisir µ?
Exemple 3 : temps de panne
arrˆ et´ es
(2/3)
I Loi Pθde X =Y∧T :Y ∼ Exp(θ) :
X =Y1{Y<T}+T1{Y≥T}
d’o`u, pourg(θ,x) =θe−θxI(0≤x<T), Pθ=g.λ+P[Y ≥T]δT
=g.λ+e−θTδT
µ=λ+δT (par exemple).
Exemple 3 : temps de panne
arrˆ et´ es
(3/3)
I Alors, pour ce choix de mesure dominante dPθ
dµ (x) =θe−θxI(0≤x <T) +e−θTI(x =T)
I Finalement,
Pnθ=P⊗nθ µ⊗n=
n
O
i=1
λ+δT
et, pourNn(T) =Pn
i=1I(xi<T), dPnθ
dµ⊗n(x1, . . . ,xn) =
n
Y
i=1
θe−θxiI(0≤xi<T) +e−θTI(xi=T)
=θNn(T)e−θPni=1xiI(xi<T)e−θT n−Nn(T)
, quand0≤xi≤T et 0 sinon.
M´ethodes d’estimation dans les mod`ele d’´echantillonnage domin´es
I M´ethode de substitution (ou des moments)
I Z-estimation
I M-estimation
I Le principe dumaximum de vraisemblance
La notation E
θSoit un mod`ele statistique{Pθ:θ∈Θ} pour une observationZ. Soit θ∈Θ, on noteEθ l’esp´erancesousPθ: c`ad pour toute fonction mesurablef,
Eθf(Z) = Z
Z
f(z)Pθ(dz)
C’est l’esp´erance def(Z) quandZ est suppos´ee ˆetre de loiPθ.
Remarque : ´etant donn´eθ∈Θ, on ne sait pas si la loi de l’observationZ est bienPθ (on sait seulement qu’elle appartient `a{Pθ:θ∈Θ}), quand on ´ecritEθ, on fait doncl’hypoth`ese queZ a pour loiPθet on en d´eduit des cons´equences (par exemple des constructions d’estimateurs ou des r´esultats statistiques). Si ce r´esultat est vrai pour tout lesθ∈Θ alors il est en particulier vrai pour le “vraiθ” : celui pour lequelZ est vraiment distribu´ee selonPθ.
M´ ethode des moments en dimension 1
I X1, . . . ,Xn i.i.d.
∼ Pθ, avec θ∈Θ⊂R
I pour tout θ∈Θ, on calcul le moment d’ordre 1 deX (sous Pθ) : m1(θ) =EθX
I la m´ethode des moments en dimension 1 consiste `a ”estimer” la quantit´e inconnueEθX par la moyenne empirique ¯Xn=n1PXi et
` a :
trouver ˆθn∈Θ tel quem1(ˆθn) = ¯Xn
I (quand il y a une solution) c’est un estimateur plug-in pour g(x) =x eth(x) =m1−1:
θ=m−11 EθX
et bθn=m−11 X¯n
M´ ethode des moments en dimension 1
I Qualit´e d’estimation via la m´ethode Delta : pourh(x) =m−11 (x) (et si hestC1),
√n θbn−θ d
→ N 0,h0(EθX)2Varθ(X)
en loi sousPθ. (La variance asymptotique d´epend en g´en´eral deθ id´ee : remplacerθparbθnvia le lemme de Slutsky)
I Exemple : X1, . . . ,Xn i.i.d.
∼ Exp(θ) pourθ >0. On a pour toutθ >0, m1(θ) =Eθ
X
= 1 θ,
l’estimateur par moment associ´e est solution dem1(bθn) = ¯Xn, c`ad θbn = 1
Xn
M´ ethode des moments en dimension d
I X1, . . . ,Xn i.i.d.
∼ Pθ, avec θ∈Θ⊂Rd
I pour tout θ∈Θ, on calcul les d premiers moments deX (sous Pθ) : m1(θ) =EθX,m2(θ) =EθX2, . . . ,md(θ) =EθXd
I la m´ethode des moments consiste `a ”estimer” les quantit´es
inconnuesEθXk par leurs moyennes empiriquesXnk =1nPXik et `a : trouver ˆθn∈Θ solution demk(ˆθn) =Xnk pour tout k= 1, . . . ,d
Exemple en dimension d > 1
I X1, . . . ,Xn i.i.d.
∼ B´eta(α, β), de densit´e x7→ Γ(α+β)
Γ(α)Γ(β)xα−1(1−x)β−11{0<x<1},
I Le param`etre estθ= (α, β)∈Θ=R+\{0} ×R+\{0}.
I On a Eθ
X
= α
α+β, Eθ
X2
= α(α+ 1)
(α+β+ 1)(α+β)
Exemple en dimension d > 1
I L’estimateur par momentθbn = (bθn(1),θbn(2)) associ´e est d´efini par
Xn = bθ(1)n
θbn(1)+θb(2)n
Xn2 = θb(1)n (bθ(1)n + 1) (bθn(1)+θb(2)n + 1)(bθ(1)n +θbn(2))
I Etude asymptotiquevia le TCL multidimensionnel et la m´ethode Delta multidimensionnelle.
Limites de la m´ ethode des moments
I M´ethodenon syst´ematique(pb d’existence)
I Repr´esentation pas toujours explicite
I Choix “optimal” des moments ? (notion d’optimalit´e parmi une classe d’estimateurs)
I G´en´eralisation:Z-estimation (ou estimation par m´ethode des moments g´en´eralis´es, GMM=generalized method of moments).
Z -estimation
I La m´ethode des moments (en dimension 1) est bas´ee sur
”l’inversibilit´e” des fonctions
mk(θ) =EθXk
i.e. pour toutθ∈Θ, on voitθ comme solution de l’´equation Eθ
mk(θ)−Xk
= 0
I Principe de construction d’un Z-estimateur : remplacerles
mk(θ)−xk par une fonctionφ(θ,x) : Θ×R→Rarbitrairetelle que
∀θ∈Θ,Eθ
φ(θ,X)
= 0
Z -estimation
I R´esoudre l’´equationempiriqueassoci´ee : Trouvera∈Θ tel que 1
n
n
X
i=1
φ(a,Xi) = 0
D´ efinition
On appelleZ -estimateur(Z : “z´ero”) associ´e `aφtout estimateurθbn
satisfaisant
n
X
i=1
φ(bθn,Xi) = 0 quandφest telle que
∀θ∈Θ,Eθ
φ(θ,X)
= 0
Z -estimation : programme
Etablir des conditionssurφet sur le mod`ele{Pθ, θ∈Θ}pour :
I obtenirl’existence et l’unicit´edeθbn
I obtenir la consistance de bθn : pour toutθ∈Θ, bθn Pθ
−→θ
I obtenir la normalit´e asymptotiquedeθbn : pour toutθ∈Θ,
√n θbn−θ d
−→ N(0,v(θ)) sousPθ.
Z -estimation :
exemple du mod`ele de localisation ”shift model”Θ =R, (dPθ/dλ)(x) =f(x−θ) o`uf est sym´etrique :f(−x) =f(x),
∀x∈R.
I Il n’y a pas d’hypoth`ese d’existence de moments !
I On pose
φ(a,x) =Arctg(x−a)
I La fonction a7→Eθ
φ(a,X)
= Z
R
Arctg(x−a)f(x−θ)dx est strictement d´ecroissante et s’annule seulement ena=θ.
I Z-estimateur associ´e : uniquesolutionθbn de
n
X
i=1
Arctg(Xi−θbn) = 0
Le cas multidimensionnel
SiΘ⊂Rd avec d>1, la fonctionφest remplac´ee par Φ = (φ1, . . . , φd) : Θ×R→Rd.
Definition
On appelleZ-estimateurassoci´e `a Φ tout estimateurθbn satisfaisant
n
X
i=1
Φ(bθn,Xi) = 0
c’est-`a-direPn
i=1φ`(bθn,Xi) = 0, `= 1, . . . ,d quand Φ est telle que
∀θ∈Θ,Eθ
Φ(θ,X)
= 0
Z -estimation → M -estimation
I En dimension 1 : si
φ(θ,x) =∂θψ(θ,x) pour une certaine fonctionψ, r´esoudrePn
i=1φ(θ,Xi) = 0 revient `a chercher un point critique (max ou min local) de
θ7→
n
X
i=1
ψ(θ,Xi)
I En dimensiond≥1, il fautφ(θ,x) =∇θψ(θ,x).
I Invite `a g´en´eraliserla recherche d’estimateurs via la maximisation d’un crit`ere →M-estimation (M : “maximum”).
M -estimation
I Principe : Trouverψ: Θ×R→R+telle que, pour toutθ∈Θ⊂Rd, a7→Eθ
ψ(a,X)
= Z
ψ(a,x)Pθ(dx) admetun maximum ena=θ.
D´ efinition
On appelle M-estimateur (M = maximum) associ´e `aψ, tout estimateur bθn satisfaisant
n
X
i=1
ψ(bθn,Xi) = max
a∈Θ n
X
i=1
ψ(a,Xi) quandψest telle que pour toutθ∈Θ, a7→Eθ
ψ(a,X)
est maximum
M-estimation :
exemple du mod`ele de localisation ”shift model”I Θ =R,dPθ/dλ(x) =f(x−θ), etR
Rxf(x)dx= 0, R
Rx2Pθ(dx)<+∞pour tout θ∈R. On pose ψ(a,x) =−(a−x)2
I La fonction a7→Eθ
ψ(a,X)
=− Z
R
(a−x)2f(x−θ)dx admet un maximumena=Eθ
X
=R
Rxf(x−θ)dx=θ.
I M-estimateur associ´e :θbn tel que
n
X
i=1
(Xi−θbn)2= min
a∈R n
X
i=1
(Xi−a)2.
Param` etre de localisation
I C’est aussiunZ-estimateur associ´e `aφ(a,x) = 2(x−a) : on r´esout
n
X
i=1
(a−Xi) = 0 d’o`u bθn=Xn.
I Dans cetexemple tr`es simple, tous les points de vue co¨ıncident.
I Si, dans le mˆeme contexte,R
Rx2Pθ(dx) = +∞etf(x) =f(−x), on peut utiliser Z-estimateur avecφ(a,x) =Arctg(x−a).
Lien entre Z - et M - estimateurs
I Pas d’inclusionentre ces deux classes d’estimateursen g´en´eral:
I Siψnon-r´eguli`ere,M-estimateur; Z-estimateur
I Si une ´equation deZ-estimation admet plusieurs solutions distinctes, Z-estimateur;M-estimateur (cas d’un extremum local).
I Toutefois, siψ est r´eguli`ere, lesM-estimateurssontdes Z-estimateurs : si Θ⊂R(d= 1), en posant
φ(a,x) =∂aψ(a,x), on a
n
X
i=1
∂aψ(θ,Xi) a=bθ
n=
n
X
i=1
φ(bθn,Xi) = 0
Maximum de vraisemblance
I Principefondamentaletincontournableen statistique. Cas particuliers connus depuis le XVIII`eme si`ecle. D´efinition g´en´erale : Fisher (1922).
I Fournit une premi`erem´ethode syst´ematiquede construction d’un M-estimateur (souvent unZ-estimateur, souvent aussia posteriori un estimateur par plug-in simple).
I Proc´edureoptimale (dans quel sens ?) sous des hypoth`eses de r´egularit´ede la famille{Pθ, θ∈Θ}(Cours 6).
I Parfois difficile `a mettre en oeuvre en pratique→probl`eme d’optimisation.
Fonction de vraisemblance
D´ efinition
Dans le mod`ele d’´echantillonnage (surR) domin´e de densit´es f(θ,x) =dPθ
dµ (x), x ∈R
lafonction de vraisemblance du n-´echantillon(X1, . . . ,Xn)associ´ee `a la famille{f(θ,·), θ∈Θ}est :
θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =
n
Y
i=1
f(θ,Xi)
I C’est une fonction al´eatoire (d´efinieµ-presque partout)
I c’est la densit´e des observations ´evalu´ee en les donn´ees
Exemples
I Exemple 1 :mod`ele de Poisson. On observe X1, . . . ,Xni.i.d.∼ Poisson(θ), θ∈Θ =R+\{0}et prenonsµ=P
k∈Nδk.
I La densit´e dePθpar rapport `aµest f(θ,x) = θx
x!e−θ, x = 0,1,2, . . . .
I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X1, . . . ,Xn) =
n
Y
i=1
e−θθXi Xi!
Exemples
I Exemple 2Mod`ele de Cauchy. On observe X1, . . . ,Xn
i.i.d.
∼ Cauchy centr´ee enθ, θ∈Θ =Ret la mesure dominante est λ.
I On a alors
dPθ
dλ (x) =f(θ,x) = 1 π 1 + (x−θ)2
I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X1, . . . ,Xn) = 1
πn
n
Y
i=1
1 1 + (Xi−θ)2
Principe de maximum de vraisemblance (1/3)
I Cas d’un mod`ele `a deux lois :{Pθ1,Pθ1}, Θ ={θ1, θ2}avecPθi
discr`ete surNetµla mesure de comptage surN.
I Pour tout (x1, . . . ,xn)∈Nn, et pourθ∈ {θ1, θ2}, Pθ
X1=x1, . . . ,Xn=xn
=
n
Y
i=1
Pθ
Xi=xi
=
n
Y
i=1
f(θ,xi).
C’est la probabilit´e sousPθd’observer (x1, . . . ,xn).
Principe de maximum de vraisemblance (2/3)
Pour les observationsX1, . . . ,Xn, la vraisemblance θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =
n
Y
i=1
f(θ,Xi) est doncla probabilit´e sousPθd’avoir observ´eX1, . . . ,Xn.
L’EMV choisit donc leθle plus vraisemblable: c`ad le param´etreθ∈Θ quimaximise la probabilit´e (sousPθ) d’avoir observ´eX1, . . . ,Xn
Principe de maximum de vraisemblance (3/3)
1. Cas 1 : “θ1est plus vraisemblable queθ2” quand
n
Y
i=1
f(θ1,Xi)≥
n
Y
i=1
f(θ2,Xi) 2. Cas 2 : “θ2est plus vraisemblable queθ1” quand
n
Y
i=1
f(θ2,Xi)>
n
Y
i=1
f(θ1,Xi) Principe de maximum de vraisemblance :
θmv=
θ1 quandθ1est le plus vraisemblable
Estimateur du maximum de vraisemblance
I On g´en´eralise le principe pr´ec´edent pour une famille de lois et un ensemble de param`etresquelconque.
I Situation : X1, . . . ,Xni.i.d.∼ Pθ,{Pθ, θ∈Θ} domin´e, Θ⊂Rd, θ7→ Ln(θ,X1, . . . ,Xn) vraisemblance associ´ee.
D´ efinition
On appelleestimateur du maximum de vraisemblancetout estimateur bθnmv satisfaisant
Ln(bθnmv,X1, . . . ,Xn) = max
θ∈ΘLn(θ,X1, . . . ,Xn).
I Programme : Existence, unicit´e, propri´et´es statistiques
Remarques
I Log-vraisemblance :
θ7→`n(θ,X1, . . . ,Xn) = logLn(θ,X1, . . . ,Xn)
=
n
X
i=1
logf(θ,Xi).
Bien d´efinisif(θ,·)>0µ-pp.
Max. vraisemblance = max. log-vraisemblance.
(log-vraisemblance est parfois plus facile `a maximiser)
I L’estimateur du maximum de vraisemblancene d´epend pas du choix de la mesure dominanteµ.
I Equation de vraisemblance:
Exemple : mod` ele normal
L’exp´erience statistique est engendr´ee par unn-´echantillon de loi N(µ, σ2), le param`etre estθ= (µ, σ2)∈Θ =R×R+\{0}.
I Vraisemblance
Ln((µ, σ2),X1, . . . ,Xn) = 1
(2πσ2)n/2exp −2σ12
n
X
i=1
(Xi−µ)2 .
I Log-vraisemblance
`n (µ, σ2),X1, . . . ,Xn
=−n
2log(2πσ2)− 1 2σ2
n
X
i=1
(Xi−µ)2.
Exemple : mod` ele normal
Equation(s) de vraisemblance:∇θ`n(θ,X1, . . . ,Xn) = 0,
∂µ`n (µ, σ2),X1, . . . ,Xn
= 1 σ2
n
X
i=1
(Xi−µ)
∂σ2`n (µ, σ2),X1, . . . ,Xn
= − n
2σ2+ 1 2σ4
n
X
i=1
(Xi−µ)2 Solution de ces ´equations (pourn≥2) :
Xn,1 n
n
X
i=1
(Xi−Xn)2
!
= ( ¯Xn,σˆn)
Exemple : mod` ele de Poisson
I Vraisemblance
Ln(θ,X1, . . . ,Xn) = 1 Qn
i=1Xi!e−nθθPni=1Xi
I Log-vraisemblance
`n(θ,X1, . . . ,Xn) =c(X1, . . . ,Xn)−nθ+
n
X
i=1
Xilogθ
I Equation de vraisemblance
−n+
n
X
i=1
Xi
1
θ = 0, soit θbnmv =1 n
n
X
i=1
Xi =Xn
Exemple : mod` ele de Laplace
X1, . . . ,Xn i.i.d.
∼ Laplace de param`etreθ∈Θ =R: densit´e par rapport `a la mesure de Lebesgue :
f(θ,x) = 1
2σexp −|x−θ|
σ ,
o`uσ >0 estconnu.
I Vraisemblance
Ln(θ,X1, . . . ,Xn) = (2σ)−nexp − 1 σ
n
X
i=1
Xi−θ
I Log-vraisemblance
1 n
Exemple : mod` ele de Laplace
MaximiserLn(θ,X1, . . . ,Xn) revient `a minimiser la fonction θ7→Pn
i=1
Xi−θ
, d´erivable presque partout de d´eriv´ee constante par morceaux.Equation de vraisemblance :
0∈
n
X
i=1
sign(Xi−θ)
o`u sign(0) = [−1,1]. SoitX(1)≤. . .≤X(n) les statistiques d’ordre.
I npair :θbnmvn’est pas unique; tout point de l’intervalle X n
2
,X n 2+1
est un EMV.
I nimpair : bθnmv=X n+1 2
, l’EMV est unique.
I pour tout n, la m´ediane empirique est un EMV.
Exemple : mod` ele de Cauchy
I Vraisemblance
Ln(θ,X1, . . . ,Xn) =π−n
n
Y
i=1
1 1 + (Xi−θ)2
I Log-vraisemblance
`n(θ,X1, . . . ,Xn) =−nlogπ−
n
X
i=1
log 1 + (Xi−θ)2
I Equation de vraisemblance
n
X Xi−θ
1 + (X −θ)2 = 0
Choix de mod` ele statistique
I Le statisticien a le choix de la famille{Pθ, θ∈Θ}. L’EMV d´epend de ce choix.
I Exemple : on a l’´echantillon (n= 10) :
0.92,−0.20,−1.80,0.02,0.49,1.41,−1.59,−1.29,0.34,100 On choisit un mod`ele de localisationPθ(dx) =f(x−θ)dx pour deux f diff´erents :
1. f densit´e de la loi normale⇒θbnmv=Xn=9.83.
2. f densit´e de loi de Laplace⇒tout point de l’intervalle [0.02,0.34]
est unθbnmv, en particulier, la m´ediane :
θbnmv=Med( ˆFn) =bqn,1/2=0.02
I Autre choix de mod`ele...
Maximum de vraisemblance = M -estimateur
I Une in´egalit´e de convexit´e :µmesureσ-finie surR;f,g deux densit´es de probabilit´es par rapport `aµ. Alors
Z
R
f(x) logf(x)µ(dx)≥ Z
R
f(x) logg(x)µ(dx) (si les int´egrales sont finies) avec ´egalit´essif =g µ-pp.
I Preuve : `a montrer Z
R
f(x) logg(x)
f(x)µ(dx)≤0.
(avec une convention de notation appropri´ee)
Une in´ egalit´ e de convexit´ e
I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.
I Donc
logg(x)
f(x) = log
1 + g(x) f(x) −1
≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).
I Finalement Z
R
f(x) logg(x)
f(x)µ(dx)≤ Z
R
f(x)g(x) f(x)−1
µ(dx)
= Z
R
g(x)µ(dx)− Z
R
f(x)µ(dx)
= 0.
Cons´ equence pour l’EMV
I On pose
ψ(a,x) := logf(a,x), a∈Θ, x ∈R (avec une convention pour le cas o`u on n’a pasf(a,·)>0.)
I La fonction
a7→Eθ
ψ(a,X)
= Z
R
logf(a,x)f(θ,x)µ(dx) est maximale ena=θd’apr`es l’in´egalit´e de convexit´e.
I LeM-estimateur associ´e `aψmaximise la fonction a7→
n
X
i=1
logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance.
l’estimateur du maximum de vraisemblance est unM-estimateur
I C’est aussi unZ-estimateur si la fonctionθ7→logf(θ,·) est r´eguli`ere, associ´e `a la fonction
φ(θ,x) =∂θlogf(θ,x) =∂θf(θ,x)
f(θ,x) , θ∈Θ,x ∈R lorsque Θ⊂R, `a condition que le maximum de log-vraisemblance n’est pas atteint sur la fronti`ere de Θ. (Se g´en´eralise en dimension d.)
Un M -estimateur qui n’est pas un Z -estimateur
I On observeX1, . . . ,Xn∼i.i.d. uniformes sur [0, θ],θ∈Θ =R+\{0}.
I On a
Pθ(dx) =θ−11[0,θ](x)dx et
Ln(θ,X1, . . . ,Xn) =θ−n
n
Y
i=1
1[0,θ](Xi)
=θ−n1{max1≤i≤nXi≤θ}
I La fonction de vraisemblancen’est pas r´eguli`ere.
I L’estimateur du maximum de vraisemblance est θbnmv= max1≤i≤nXi.