• Aucun résultat trouvé

Statistiques math´ematiques : cours 3

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : cours 3"

Copied!
53
0
0

Texte intégral

(1)

Statistiques math´ ematiques : cours 3

Guillaume Lecu´e

29 aoˆut 2018

(2)

Rappel des cours pr´ ec´ edents

I outils : LFGN, TCL multi-dimensionnel, Lemme de Slutsky, m´ethode Delta

I estimateurs : fonction de r´epartition empirique, quantile empirique, estimateur plug-in,

I R´esultats consistance et normalit´e asymptotique de ces estimateurs :

Fbn, bqn,p, T(bFn) =h 1 n

n

X

i=1

g(Xi)

!

BJusqu’`a maintenant, on n’a pas utilis´e la notion de mod`ele statistique pour construire et ´etudier des m´ethodes d’estimation

(3)

Aujourd’hui

mod`ele domin´e

M´ethodes d’estimation dans les mod`eles M´ethode des moments

Z-estimation M-estimation

Principe de maximum de vraisemblance

(4)

Rappels : exp´ eriences et mod` ele statistique (1/2)

D´ efinition

Une exp´erience statistiqueE est un triplet E= Z,Z,

Pθ, θ∈Θ , avec

I Z,Z

espace mesurable (souvent(Rn,B(Rn))),

I {Pθ, θ∈Θ} famille de mesures de probabilit´es d´efinies sur Z,Z appel´eemod`ele

Question : Un mod`ele est une connaissance/intuition a priori sur les donn´ees. Comment tirer profit du mod`ele pour construire et ´etudier des estimateurs ”plus efficaces” que les estimateurs sans mod`eleFbn,bqn,p

(5)

Exemple : exp´ erience et mod` eles statistique (2/2)

Probl´eme : un physicien observe la dur´ee de vie d’atomes radioactifs qu’il d´ecide de mod´eliser par des variables al´eatoiresX1, . . . ,Xn i.i.d.. Il souhaite utiliser ces donn´ees pour estimer leur loi sous-jacente. Il peut choisir entre deux approches :

I ”sans mod`ele” : en estimant la fonction de r´epartition desXi parFbn I ”avec mod`ele” : il sait que les dur´ees de vie suivent une loi

exponentielle∈ {Exp(θ) :θ >0}. Dans ce cas, il suffit d’estimerθ par un estimateurθbn et d’approcher la fonction de r´epartition desXi parF

θbn o`u

Fθ(x) =P[Exp(θ)≤x] =

0 six ≤0 1−exp(−θx) sinon.

http://localhost:8888/notebooks/cdf_empirique.ipynbcdf - model

(6)

Exp´ eriences domin´ ees

I On fait une hypoth`ese minimale de “structure” sur le mod`ele statistique. But: ramener l’´etude de la famille

{Pθ, θ∈Θ}

`

a l’´etude d’une famille de fonctions

{z ∈Z7→f(θ,z)∈R+, θ∈Θ}.

I Via la notion de domination: si µ, ν sont deux mesures (positives) σ-finies sur Z, alorsµdomineν (not´eeν µ) quand

∀A∈ Z, µ A

= 0⇒ν A

= 0

(7)

Th´ eor` eme de Radon-Nikodym

Th´ eor` eme

Soientν etµdeux mesuresσ-finies sur (Z,Z).

Siν µalors il existe une fonction positive (µ-p.p.), appel´ee densit´e de ν par rapport `aµ, not´ee

z 7→ dν dµ(z),

d´efinieµ−p.p.,µ−int´egrable, telle que, pour tout A∈ Z, ν

A

= Z

A

(z)µ(dz)

(8)

Exp´ erience domin´ ee

D´ efinition

Une exp´erience statistiqueE = Z,Z,

Pθ, θ∈Θ estdomin´ee par la mesureσ-finieµd´efinie sur(Z,Z)si

∀θ∈Θ :Pθµ

On appelledensit´es de la famille{Pθ, θ∈Θ} par rapport `a la mesure dominanteµ, la famille de fonctions (d´efiniesµ−p.p.)

z 7→ dPθ

dµ (z), z ∈Z, θ∈Θ.

Dans un mod`ele domin´e, on est ramen´e `aestimer une densit´eplutˆot qu’une mesure de probabilit´e. De plus l’estimation de la densit´e peut se r´eduire `al’estimation du param´etreθ.

(9)

mod` ele d’´ echantillonnage domin´ e (sur R )

I On observe un n-´echantillonde v.a.r.X1, . . . ,Xn.

I La loi desXi appartient au mod`ele{Pθ, θ∈Θ}(famille de probabilit´es surR),domin´epar une mesure (σ-finie)µsurR. On note les densit´es : ∀θ∈Θ,x∈R,

f(θ,x) =dPθ

dµ (x)

I La loi du n-uplet (X1, . . . ,Xn) s’´ecrit

P(X1,...,Xn)=Pnθ=P⊗nθ µ⊗n elle admet alors une densit´e :∀x1, . . . ,xn∈R,

⊗n n

(10)

Exemple 1 : mod` ele de densit´ e gaussienne univari´ ee

Xi ∼ N(m, σ2), avec θ= (m, σ2)∈Θ =R×R+\{0}.

I la mesure dominante est λ:Pθ=f.λo`u f(θ,x) = 1

2πσ2exp

−(x−m)22

I la densit´e d’unn-uplet est : pour toutx1, . . . ,xn∈R, dPnθ

⊗n(x1, . . . ,xn) =

n

Y

i=1

f(θ,xi)

= 1

(2πσ2)n/2exp

− 1 2σ2

n

X

i=1

(xi−m)2

(11)

Exemple 2 : mod` ele de Bernoulli

Xi ∼Bernoulli(θ), avec θ∈Θ = [0,1]

I la mesure dominante est ici µ=δ01, la mesure de comptage sur {0,1} :

Pθ= (1−θ)δ0+θδ1µ et pour tout x∈ {0,1}

dPθ

dµ (x) =f(θ,x) = (1−θ)I(x= 0) +θI(x= 1) =θx(1−θ)1−x

I la loi des observations a pour densit´e par rapport `aµ⊗n, dPnθ

⊗n(x1· · ·xn) =

n

xi(1−θ)1−xi,

(12)

Exemple 3 : temps de panne

arrˆ et´ es

(1/3)

I On observeX1, . . . ,Xn, o`uXi=Yi∧T, avec Yi lois exponentielles de param`etreθ etT temps fixe(censure).

I Cas 1 :T =∞(pas de censure). Alors θ∈Θ =R+\{0} et Pθ=f.λo`uf(θ,x) =θexp(−θx)I(x≥0) et

dPnθ

⊗n(x1, . . . ,xn) =θnexp

−θ

n

X

i=1

xi

, pour tout xi∈R+ et 0 sinon.

I Cas 2 :Comment s’´ecrit le mod`eledans le cas o`uT <∞(pr´esence de censure) ? Comment choisir µ?

(13)

Exemple 3 : temps de panne

arrˆ et´ es

(2/3)

I Loi Pθde X =Y∧T :Y ∼ Exp(θ) :

X =Y1{Y<T}+T1{Y≥T}

d’o`u, pourg(θ,x) =θe−θxI(0≤x<T), Pθ=g.λ+P[Y ≥T]δT

=g.λ+e−θTδT

µ=λ+δT (par exemple).

(14)

Exemple 3 : temps de panne

arrˆ et´ es

(3/3)

I Alors, pour ce choix de mesure dominante dPθ

dµ (x) =θe−θxI(0≤x <T) +e−θTI(x =T)

I Finalement,

Pnθ=P⊗nθ µ⊗n=

n

O

i=1

λ+δT

et, pourNn(T) =Pn

i=1I(xi<T), dPnθ

⊗n(x1, . . . ,xn) =

n

Y

i=1

θe−θxiI(0≤xi<T) +e−θTI(xi=T)

Nn(T)e−θPni=1xiI(xi<T)e−θT n−Nn(T)

, quand0≤xi≤T et 0 sinon.

(15)

M´ethodes d’estimation dans les mod`ele d’´echantillonnage domin´es

I M´ethode de substitution (ou des moments)

I Z-estimation

I M-estimation

I Le principe dumaximum de vraisemblance

(16)

La notation E

θ

Soit un mod`ele statistique{Pθ:θ∈Θ} pour une observationZ. Soit θ∈Θ, on noteEθ l’esp´erancesousPθ: c`ad pour toute fonction mesurablef,

Eθf(Z) = Z

Z

f(z)Pθ(dz)

C’est l’esp´erance def(Z) quandZ est suppos´ee ˆetre de loiPθ.

Remarque : ´etant donn´eθ∈Θ, on ne sait pas si la loi de l’observationZ est bienPθ (on sait seulement qu’elle appartient `a{Pθ:θ∈Θ}), quand on ´ecritEθ, on fait doncl’hypoth`ese queZ a pour loiPθet on en d´eduit des cons´equences (par exemple des constructions d’estimateurs ou des r´esultats statistiques). Si ce r´esultat est vrai pour tout lesθ∈Θ alors il est en particulier vrai pour le “vraiθ” : celui pour lequelZ est vraiment distribu´ee selonPθ.

(17)

M´ ethode des moments en dimension 1

I X1, . . . ,Xn i.i.d.

∼ Pθ, avec θ∈Θ⊂R

I pour tout θ∈Θ, on calcul le moment d’ordre 1 deX (sous Pθ) : m1(θ) =EθX

I la m´ethode des moments en dimension 1 consiste `a ”estimer” la quantit´e inconnueEθX par la moyenne empirique ¯Xn=n1PXi et

` a :

trouver ˆθn∈Θ tel quem1(ˆθn) = ¯Xn

I (quand il y a une solution) c’est un estimateur plug-in pour g(x) =x eth(x) =m1−1:

θ=m−11 EθX

et bθn=m−11n

(18)

M´ ethode des moments en dimension 1

I Qualit´e d’estimation via la m´ethode Delta : pourh(x) =m−11 (x) (et si hestC1),

√n θbn−θ d

→ N 0,h0(EθX)2Varθ(X)

en loi sousPθ. (La variance asymptotique d´epend en g´en´eral deθ id´ee : remplacerθparbθnvia le lemme de Slutsky)

I Exemple : X1, . . . ,Xn i.i.d.

∼ Exp(θ) pourθ >0. On a pour toutθ >0, m1(θ) =Eθ

X

= 1 θ,

l’estimateur par moment associ´e est solution dem1(bθn) = ¯Xn, c`ad θbn = 1

Xn

(19)

M´ ethode des moments en dimension d

I X1, . . . ,Xn i.i.d.

∼ Pθ, avec θ∈Θ⊂Rd

I pour tout θ∈Θ, on calcul les d premiers moments deX (sous Pθ) : m1(θ) =EθX,m2(θ) =EθX2, . . . ,md(θ) =EθXd

I la m´ethode des moments consiste `a ”estimer” les quantit´es

inconnuesEθXk par leurs moyennes empiriquesXnk =1nPXik et `a : trouver ˆθn∈Θ solution demk(ˆθn) =Xnk pour tout k= 1, . . . ,d

(20)

Exemple en dimension d > 1

I X1, . . . ,Xn i.i.d.

∼ B´eta(α, β), de densit´e x7→ Γ(α+β)

Γ(α)Γ(β)xα−1(1−x)β−11{0<x<1},

I Le param`etre estθ= (α, β)∈Θ=R+\{0} ×R+\{0}.

I On a Eθ

X

= α

α+β, Eθ

X2

= α(α+ 1)

(α+β+ 1)(α+β)

(21)

Exemple en dimension d > 1

I L’estimateur par momentθbn = (bθn(1),θbn(2)) associ´e est d´efini par









Xn = bθ(1)n

θbn(1)+θb(2)n

Xn2 = θb(1)n (bθ(1)n + 1) (bθn(1)+θb(2)n + 1)(bθ(1)n +θbn(2))

I Etude asymptotiquevia le TCL multidimensionnel et la m´ethode Delta multidimensionnelle.

(22)

Limites de la m´ ethode des moments

I M´ethodenon syst´ematique(pb d’existence)

I Repr´esentation pas toujours explicite

I Choix “optimal” des moments ? (notion d’optimalit´e parmi une classe d’estimateurs)

I G´en´eralisation:Z-estimation (ou estimation par m´ethode des moments g´en´eralis´es, GMM=generalized method of moments).

(23)

Z -estimation

I La m´ethode des moments (en dimension 1) est bas´ee sur

”l’inversibilit´e” des fonctions

mk(θ) =EθXk

i.e. pour toutθ∈Θ, on voitθ comme solution de l’´equation Eθ

mk(θ)−Xk

= 0

I Principe de construction d’un Z-estimateur : remplacerles

mk(θ)−xk par une fonctionφ(θ,x) : Θ×R→Rarbitrairetelle que

∀θ∈Θ,Eθ

φ(θ,X)

= 0

(24)

Z -estimation

I R´esoudre l’´equationempiriqueassoci´ee : Trouvera∈Θ tel que 1

n

n

X

i=1

φ(a,Xi) = 0

D´ efinition

On appelleZ -estimateur(Z : “z´ero”) associ´e `aφtout estimateurθbn

satisfaisant

n

X

i=1

φ(bθn,Xi) = 0 quandφest telle que

∀θ∈Θ,Eθ

φ(θ,X)

= 0

(25)

Z -estimation : programme

Etablir des conditionssurφet sur le mod`ele{Pθ, θ∈Θ}pour :

I obtenirl’existence et l’unicit´edeθbn

I obtenir la consistance de bθn : pour toutθ∈Θ, bθn Pθ

−→θ

I obtenir la normalit´e asymptotiquedeθbn : pour toutθ∈Θ,

√n θbn−θ d

−→ N(0,v(θ)) sousPθ.

(26)

Z -estimation :

exemple du mod`ele de localisation ”shift model”

Θ =R, (dPθ/dλ)(x) =f(x−θ) o`uf est sym´etrique :f(−x) =f(x),

∀x∈R.

I Il n’y a pas d’hypoth`ese d’existence de moments !

I On pose

φ(a,x) =Arctg(x−a)

I La fonction a7→Eθ

φ(a,X)

= Z

R

Arctg(x−a)f(x−θ)dx est strictement d´ecroissante et s’annule seulement ena=θ.

I Z-estimateur associ´e : uniquesolutionθbn de

n

X

i=1

Arctg(Xi−θbn) = 0

(27)

Le cas multidimensionnel

SiΘ⊂Rd avec d>1, la fonctionφest remplac´ee par Φ = (φ1, . . . , φd) : Θ×R→Rd.

Definition

On appelleZ-estimateurassoci´e `a Φ tout estimateurθbn satisfaisant

n

X

i=1

Φ(bθn,Xi) = 0

c’est-`a-direPn

i=1φ`(bθn,Xi) = 0, `= 1, . . . ,d quand Φ est telle que

∀θ∈Θ,Eθ

Φ(θ,X)

= 0

(28)

Z -estimation → M -estimation

I En dimension 1 : si

φ(θ,x) =∂θψ(θ,x) pour une certaine fonctionψ, r´esoudrePn

i=1φ(θ,Xi) = 0 revient `a chercher un point critique (max ou min local) de

θ7→

n

X

i=1

ψ(θ,Xi)

I En dimensiond≥1, il fautφ(θ,x) =∇θψ(θ,x).

I Invite `a g´en´eraliserla recherche d’estimateurs via la maximisation d’un crit`ere →M-estimation (M : “maximum”).

(29)

M -estimation

I Principe : Trouverψ: Θ×R→R+telle que, pour toutθ∈Θ⊂Rd, a7→Eθ

ψ(a,X)

= Z

ψ(a,x)Pθ(dx) admetun maximum ena=θ.

D´ efinition

On appelle M-estimateur (M = maximum) associ´e `aψ, tout estimateur bθn satisfaisant

n

X

i=1

ψ(bθn,Xi) = max

a∈Θ n

X

i=1

ψ(a,Xi) quandψest telle que pour toutθ∈Θ, a7→Eθ

ψ(a,X)

est maximum

(30)

M-estimation :

exemple du mod`ele de localisation ”shift model”

I Θ =R,dPθ/dλ(x) =f(x−θ), etR

Rxf(x)dx= 0, R

Rx2Pθ(dx)<+∞pour tout θ∈R. On pose ψ(a,x) =−(a−x)2

I La fonction a7→Eθ

ψ(a,X)

=− Z

R

(a−x)2f(x−θ)dx admet un maximumena=Eθ

X

=R

Rxf(x−θ)dx=θ.

I M-estimateur associ´e :θbn tel que

n

X

i=1

(Xi−θbn)2= min

a∈R n

X

i=1

(Xi−a)2.

(31)

Param` etre de localisation

I C’est aussiunZ-estimateur associ´e `aφ(a,x) = 2(x−a) : on r´esout

n

X

i=1

(a−Xi) = 0 d’o`u bθn=Xn.

I Dans cetexemple tr`es simple, tous les points de vue co¨ıncident.

I Si, dans le mˆeme contexte,R

Rx2Pθ(dx) = +∞etf(x) =f(−x), on peut utiliser Z-estimateur avecφ(a,x) =Arctg(x−a).

(32)

Lien entre Z - et M - estimateurs

I Pas d’inclusionentre ces deux classes d’estimateursen g´en´eral:

I Siψnon-r´eguli`ere,M-estimateur; Z-estimateur

I Si une ´equation deZ-estimation admet plusieurs solutions distinctes, Z-estimateur;M-estimateur (cas d’un extremum local).

I Toutefois, siψ est r´eguli`ere, lesM-estimateurssontdes Z-estimateurs : si Θ⊂R(d= 1), en posant

φ(a,x) =∂aψ(a,x), on a

n

X

i=1

aψ(θ,Xi) a=bθ

n=

n

X

i=1

φ(bθn,Xi) = 0

(33)

Maximum de vraisemblance

I Principefondamentaletincontournableen statistique. Cas particuliers connus depuis le XVIII`eme si`ecle. D´efinition g´en´erale : Fisher (1922).

I Fournit une premi`erem´ethode syst´ematiquede construction d’un M-estimateur (souvent unZ-estimateur, souvent aussia posteriori un estimateur par plug-in simple).

I Proc´edureoptimale (dans quel sens ?) sous des hypoth`eses de r´egularit´ede la famille{Pθ, θ∈Θ}(Cours 6).

I Parfois difficile `a mettre en oeuvre en pratique→probl`eme d’optimisation.

(34)

Fonction de vraisemblance

D´ efinition

Dans le mod`ele d’´echantillonnage (surR) domin´e de densit´es f(θ,x) =dPθ

dµ (x), x ∈R

lafonction de vraisemblance du n-´echantillon(X1, . . . ,Xn)associ´ee `a la famille{f(θ,·), θ∈Θ}est :

θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi)

I C’est une fonction al´eatoire (d´efinieµ-presque partout)

I c’est la densit´e des observations ´evalu´ee en les donn´ees

(35)

Exemples

I Exemple 1 :mod`ele de Poisson. On observe X1, . . . ,Xni.i.d.∼ Poisson(θ), θ∈Θ =R+\{0}et prenonsµ=P

k∈Nδk.

I La densit´e dePθpar rapport `aµest f(θ,x) = θx

x!e−θ, x = 0,1,2, . . . .

I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

e−θθXi Xi!

(36)

Exemples

I Exemple 2Mod`ele de Cauchy. On observe X1, . . . ,Xn

i.i.d.

∼ Cauchy centr´ee enθ, θ∈Θ =Ret la mesure dominante est λ.

I On a alors

dPθ

dλ (x) =f(θ,x) = 1 π 1 + (x−θ)2

I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X1, . . . ,Xn) = 1

πn

n

Y

i=1

1 1 + (Xi−θ)2

(37)

Principe de maximum de vraisemblance (1/3)

I Cas d’un mod`ele `a deux lois :{Pθ1,Pθ1}, Θ ={θ1, θ2}avecPθi

discr`ete surNetµla mesure de comptage surN.

I Pour tout (x1, . . . ,xn)∈Nn, et pourθ∈ {θ1, θ2}, Pθ

X1=x1, . . . ,Xn=xn

=

n

Y

i=1

Pθ

Xi=xi

=

n

Y

i=1

f(θ,xi).

C’est la probabilit´e sousPθd’observer (x1, . . . ,xn).

(38)

Principe de maximum de vraisemblance (2/3)

Pour les observationsX1, . . . ,Xn, la vraisemblance θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi) est doncla probabilit´e sousPθd’avoir observ´eX1, . . . ,Xn.

L’EMV choisit donc leθle plus vraisemblable: c`ad le param´etreθ∈Θ quimaximise la probabilit´e (sousPθ) d’avoir observ´eX1, . . . ,Xn

(39)

Principe de maximum de vraisemblance (3/3)

1. Cas 1 : “θ1est plus vraisemblable queθ2” quand

n

Y

i=1

f(θ1,Xi)≥

n

Y

i=1

f(θ2,Xi) 2. Cas 2 : “θ2est plus vraisemblable queθ1” quand

n

Y

i=1

f(θ2,Xi)>

n

Y

i=1

f(θ1,Xi) Principe de maximum de vraisemblance :

θmv=

θ1 quandθ1est le plus vraisemblable

(40)

Estimateur du maximum de vraisemblance

I On g´en´eralise le principe pr´ec´edent pour une famille de lois et un ensemble de param`etresquelconque.

I Situation : X1, . . . ,Xni.i.d.∼ Pθ,{Pθ, θ∈Θ} domin´e, Θ⊂Rd, θ7→ Ln(θ,X1, . . . ,Xn) vraisemblance associ´ee.

D´ efinition

On appelleestimateur du maximum de vraisemblancetout estimateur bθnmv satisfaisant

Ln(bθnmv,X1, . . . ,Xn) = max

θ∈ΘLn(θ,X1, . . . ,Xn).

I Programme : Existence, unicit´e, propri´et´es statistiques

(41)

Remarques

I Log-vraisemblance :

θ7→`n(θ,X1, . . . ,Xn) = logLn(θ,X1, . . . ,Xn)

=

n

X

i=1

logf(θ,Xi).

Bien d´efinisif(θ,·)>0µ-pp.

Max. vraisemblance = max. log-vraisemblance.

(log-vraisemblance est parfois plus facile `a maximiser)

I L’estimateur du maximum de vraisemblancene d´epend pas du choix de la mesure dominanteµ.

I Equation de vraisemblance:

(42)

Exemple : mod` ele normal

L’exp´erience statistique est engendr´ee par unn-´echantillon de loi N(µ, σ2), le param`etre estθ= (µ, σ2)∈Θ =R×R+\{0}.

I Vraisemblance

Ln((µ, σ2),X1, . . . ,Xn) = 1

(2πσ2)n/2exp −12

n

X

i=1

(Xi−µ)2 .

I Log-vraisemblance

`n (µ, σ2),X1, . . . ,Xn

=−n

2log(2πσ2)− 1 2σ2

n

X

i=1

(Xi−µ)2.

(43)

Exemple : mod` ele normal

Equation(s) de vraisemblance:∇θ`n(θ,X1, . . . ,Xn) = 0,













µ`n (µ, σ2),X1, . . . ,Xn

= 1 σ2

n

X

i=1

(Xi−µ)

σ2`n (µ, σ2),X1, . . . ,Xn

= − n

2+ 1 2σ4

n

X

i=1

(Xi−µ)2 Solution de ces ´equations (pourn≥2) :

Xn,1 n

n

X

i=1

(Xi−Xn)2

!

= ( ¯Xn,σˆn)

(44)

Exemple : mod` ele de Poisson

I Vraisemblance

Ln(θ,X1, . . . ,Xn) = 1 Qn

i=1Xi!e−nθθPni=1Xi

I Log-vraisemblance

`n(θ,X1, . . . ,Xn) =c(X1, . . . ,Xn)−nθ+

n

X

i=1

Xilogθ

I Equation de vraisemblance

−n+

n

X

i=1

Xi

1

θ = 0, soit θbnmv =1 n

n

X

i=1

Xi =Xn

(45)

Exemple : mod` ele de Laplace

X1, . . . ,Xn i.i.d.

∼ Laplace de param`etreθ∈Θ =R: densit´e par rapport `a la mesure de Lebesgue :

f(θ,x) = 1

2σexp −|x−θ|

σ ,

o`uσ >0 estconnu.

I Vraisemblance

Ln(θ,X1, . . . ,Xn) = (2σ)−nexp − 1 σ

n

X

i=1

Xi−θ

I Log-vraisemblance

1 n

(46)

Exemple : mod` ele de Laplace

MaximiserLn(θ,X1, . . . ,Xn) revient `a minimiser la fonction θ7→Pn

i=1

Xi−θ

, d´erivable presque partout de d´eriv´ee constante par morceaux.Equation de vraisemblance :

0∈

n

X

i=1

sign(Xi−θ)

o`u sign(0) = [−1,1]. SoitX(1)≤. . .≤X(n) les statistiques d’ordre.

I npair :θbnmvn’est pas unique; tout point de l’intervalle X n

2

,X n 2+1

est un EMV.

I nimpair : bθnmv=X n+1 2

, l’EMV est unique.

I pour tout n, la m´ediane empirique est un EMV.

(47)

Exemple : mod` ele de Cauchy

I Vraisemblance

Ln(θ,X1, . . . ,Xn) =π−n

n

Y

i=1

1 1 + (Xi−θ)2

I Log-vraisemblance

`n(θ,X1, . . . ,Xn) =−nlogπ−

n

X

i=1

log 1 + (Xi−θ)2

I Equation de vraisemblance

n

X Xi−θ

1 + (X −θ)2 = 0

(48)

Choix de mod` ele statistique

I Le statisticien a le choix de la famille{Pθ, θ∈Θ}. L’EMV d´epend de ce choix.

I Exemple : on a l’´echantillon (n= 10) :

0.92,−0.20,−1.80,0.02,0.49,1.41,−1.59,−1.29,0.34,100 On choisit un mod`ele de localisationPθ(dx) =f(x−θ)dx pour deux f diff´erents :

1. f densit´e de la loi normale⇒θbnmv=Xn=9.83.

2. f densit´e de loi de Laplace⇒tout point de l’intervalle [0.02,0.34]

est unθbnmv, en particulier, la m´ediane :

θbnmv=Med( ˆFn) =bqn,1/2=0.02

I Autre choix de mod`ele...

(49)

Maximum de vraisemblance = M -estimateur

I Une in´egalit´e de convexit´e :µmesureσ-finie surR;f,g deux densit´es de probabilit´es par rapport `aµ. Alors

Z

R

f(x) logf(x)µ(dx)≥ Z

R

f(x) logg(x)µ(dx) (si les int´egrales sont finies) avec ´egalit´essif =g µ-pp.

I Preuve : `a montrer Z

R

f(x) logg(x)

f(x)µ(dx)≤0.

(avec une convention de notation appropri´ee)

(50)

Une in´ egalit´ e de convexit´ e

I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.

I Donc

logg(x)

f(x) = log

1 + g(x) f(x) −1

≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).

I Finalement Z

R

f(x) logg(x)

f(x)µ(dx)≤ Z

R

f(x)g(x) f(x)−1

µ(dx)

= Z

R

g(x)µ(dx)− Z

R

f(x)µ(dx)

= 0.

(51)

Cons´ equence pour l’EMV

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (avec une convention pour le cas o`u on n’a pasf(a,·)>0.)

I La fonction

a7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) est maximale ena=θd’apr`es l’in´egalit´e de convexit´e.

(52)

I LeM-estimateur associ´e `aψmaximise la fonction a7→

n

X

i=1

logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance.

l’estimateur du maximum de vraisemblance est unM-estimateur

I C’est aussi unZ-estimateur si la fonctionθ7→logf(θ,·) est r´eguli`ere, associ´e `a la fonction

φ(θ,x) =∂θlogf(θ,x) =∂θf(θ,x)

f(θ,x) , θ∈Θ,x ∈R lorsque Θ⊂R, `a condition que le maximum de log-vraisemblance n’est pas atteint sur la fronti`ere de Θ. (Se g´en´eralise en dimension d.)

(53)

Un M -estimateur qui n’est pas un Z -estimateur

I On observeX1, . . . ,Xni.i.d. uniformes sur [0, θ],θ∈Θ =R+\{0}.

I On a

Pθ(dx) =θ−11[0,θ](x)dx et

Ln(θ,X1, . . . ,Xn) =θ−n

n

Y

i=1

1[0,θ](Xi)

−n1{max1≤i≤nXi≤θ}

I La fonction de vraisemblancen’est pas r´eguli`ere.

I L’estimateur du maximum de vraisemblance est θbnmv= max1≤i≤nXi.

Références

Documents relatifs

[r]

1. Construire des mod` eles statistiques pour des donn´ ees classiques 2. Connaˆıtre leurs propri´ et´ es statistiques et les outils math´ ematiques qui permettent de les

si les points sont “approximativement” align´ es avec une droite affine alors l’hypoth` ese est vraie ` a une transformation de centrage et.1. convergence des

la maˆıtrise du raisonnement math´ ematique : la plupart des candidats sont incapables d’ˆ etre pr´ ecis pour ´ enoncer une condition n´ ecessaire et suffisante (cas d’´

Dans l’´ ecriture du d´ eveloppement limit´ e ` a l’ordre deux d’une fonction de deux va- riables, peu de candidats parviennent ` a donner une d´ efinition correcte et compl` ete

a l’ordre 2 pour une fonction num´ erique de classe C 2 sur un ouvert de R 2 , le th´ eor` eme des accroissements finis, la caract´ erisation d’un endomorphisme diagonalisable `

Dans le mˆ eme ordre d’id´ ees, l’´ enonc´ e du th´ eor` eme de transfert a pr´ esent´ e pour la plupart des candidats des difficult´ es ´ enormes, alors que son usage dans

Parmi les questions pos´ees cette ann´ee - entre autres, et toujours tr`es, tr`es classiquement : l’in´egalit´e de Cauchy-Schwarz, la d´efinition d’un produit scalaire, la formule