Statistiques math´ematiques : cours 3

(1)

Statistiques math´ ematiques : cours 3

Guillaume Lecu´e

29 aoˆut 2018

(2)

Rappel des cours pr´ ec´ edents

I outils : LFGN, TCL multi-dimensionnel, Lemme de Slutsky, m´ethode Delta

I estimateurs : fonction de r´epartition empirique, quantile empirique, estimateur plug-in,

I R´esultats consistance et normalit´e asymptotique de ces estimateurs :

Fbn, bqn,p, T(bFn) =h 1 n

n

X

i=1

g(Xi)

!

BJusqu’à maintenant, on n’a pas utilisé la notion de modèle statistique pour construire et étudier des méthodes d’estimation

(3)

Aujourd’hui

mod`ele domin´e

Méthodes d’estimation dans les modèles Méthode des moments

Z-estimation M-estimation

Principe de maximum de vraisemblance

(4)

Rappels : exp´ eriences et mod` ele statistique (1/2)

D´ efinition

Une exp´erience statistiqueE est un triplet E= Z,Z,

Pθ, θ∈Θ , avec

I Z,Z

espace mesurable (souvent(Rⁿ,B(Rⁿ))),

I {Pθ, θ∈Θ} famille de mesures de probabilités définies sur Z,Z appeléemodèle

Question : Un modèle est une connaissance/intuition a priori sur les données. Comment tirer profit du modèle pour construire et étudier des estimateurs ”plus efficaces” que les estimateurs sans modèleFb_n,bq_n,p

(5)

Exemple : exp´ erience et mod` eles statistique (2/2)

Probléme : un physicien observe la durée de vie d’atomes radioactifs qu’il décide de modéliser par des variables aléatoiresX1, . . . ,Xn i.i.d.. Il souhaite utiliser ces données pour estimer leur loi sous-jacente. Il peut choisir entre deux approches :

I ”sans modèle” : en estimant la fonction de répartition desXi parFbn I ”avec modèle” : il sait que les durées de vie suivent une loi

exponentielle∈ {Exp(θ) :θ >0}. Dans ce cas, il suffit d’estimerθ par un estimateurθb_n et d’approcher la fonction de r´epartition desX_i parF

θbn o`u

Fθ(x) =P[Exp(θ)≤x] =

0 six ≤0 1−exp(−θx) sinon.

http://localhost:8888/notebooks/cdf_empirique.ipynbcdf - model

(6)

Exp´ eriences domin´ ees

I On fait une hypothèse minimale de “structure” sur le modèle statistique. But: ramener l’étude de la famille

{Pθ, θ∈Θ}

`

a l’´etude d’une famille de fonctions

{z ∈Z7→f(θ,z)∈R+, θ∈Θ}.

I Via la notion de domination: si µ, ν sont deux mesures (positives) σ-finies sur Z, alorsµdomineν (not´eeν µ) quand

∀A∈ Z, µ A

= 0⇒ν A

= 0

(7)

Th´ eor` eme de Radon-Nikodym

Th´ eor` eme

Soientν etµdeux mesuresσ-finies sur (Z,Z).

Siν µalors il existe une fonction positive (µ-p.p.), appelée densité de ν par rapport àµ, notée

z 7→ dν dµ(z),

d´efinieµ−p.p.,µ−int´egrable, telle que, pour tout A∈ Z, ν

A

= Z

A dν

dµ(z)µ(dz)

(8)

Exp´ erience domin´ ee

D´ efinition

Une exp´erience statistiqueE = Z,Z,

P^θ, θ∈Θ estdomin´ee par la mesureσ-finieµd´efinie sur(Z,Z)si

∀θ∈Θ :Pθµ

On appelledensités de la famille{Pθ, θ∈Θ} par rapport à la mesure dominanteµ, la famille de fonctions (définiesµ−p.p.)

z 7→ dPθ

dµ (z), z ∈Z, θ∈Θ.

Dans un modèle dominé, on est ramené àestimer une densitéplutôt qu’une mesure de probabilité. De plus l’estimation de la densité peut se réduire àl’estimation du paramétreθ.

(9)

mod` ele d’´ echantillonnage domin´ e (sur R )

I On observe un n-´echantillonde v.a.r.X1, . . . ,Xn.

I La loi desX_i appartient au modèle{Pθ, θ∈Θ}(famille de probabilités surR),dominépar une mesure (σ-finie)µsurR. On note les densités : ∀θ∈Θ,x∈R,

f(θ,x) =dPθ

dµ (x)

I La loi du n-uplet (X1, . . . ,Xn) s’´ecrit

P^(X¹^,...,Xⁿ⁾=Pⁿθ=P^⊗nθ µ^⊗n elle admet alors une densit´e :∀x1, . . . ,x_n∈R,

⊗n n

(10)

Exemple 1 : mod` ele de densit´ e gaussienne univari´ ee

X_i ∼ N(m, σ²), avec θ= (m, σ²)∈Θ =R×R+\{0}.

I la mesure dominante est λ:Pθ=f.λo`u f(θ,x) = 1

√

2πσ²exp

−(x−m)² 2σ²

I la densit´e d’unn-uplet est : pour toutx1, . . . ,xn∈R, dPⁿθ

dµ^⊗n(x1, . . . ,xn) =

n

Y

i=1

f(θ,xi)

= 1

(2πσ²)^n/2exp

− 1 2σ²

n

X

i=1

(xi−m)²

(11)

Exemple 2 : mod` ele de Bernoulli

Xi ∼Bernoulli(θ), avec θ∈Θ = [0,1]

I la mesure dominante est ici µ=δ₀+δ₁, la mesure de comptage sur {0,1} :

P^θ= (1−θ)δ0+θδ1µ et pour tout x∈ {0,1}

dPθ

dµ (x) =f(θ,x) = (1−θ)I(x= 0) +θI(x= 1) =θ^x(1−θ)^1−x

I la loi des observations a pour densit´e par rapport `aµ^⊗n, dPⁿθ

dµ^⊗n(x₁· · ·x_n) =

n

Yθ^xⁱ(1−θ)^1−xⁱ,

(12)

Exemple 3 : temps de panne

arrˆ et´ es

(1/3)

I On observeX₁, . . . ,X_n, o`uX_i=Y_i∧T, avec Y_i lois exponentielles de param`etreθ etT temps fixe(censure).

I Cas 1 :T =∞(pas de censure). Alors θ∈Θ =R+\{0} et Pθ=f.λo`uf(θ,x) =θexp(−θx)I(x≥0) et

dPⁿθ

dµ^⊗n(x1, . . . ,xn) =θⁿexp

−θ

n

X

i=1

xi

, pour tout xi∈R+ et 0 sinon.

I Cas 2 :Comment s’écrit le modèledans le cas oùT <∞(présence de censure) ? Comment choisir µ?

(13)

Exemple 3 : temps de panne

arrˆ et´ es

(2/3)

I Loi Pθde X =Y∧T :Y ∼ Exp(θ) :

X =Y1_{Y_<T}+T1_{Y_≥T}

d’o`u, pourg(θ,x) =θe^−θxI(0≤x<T), Pθ=g.λ+P[Y ≥T]δT

=g.λ+e^−θTδT

µ=λ+δT (par exemple).

(14)

Exemple 3 : temps de panne

arrˆ et´ es

(3/3)

I Alors, pour ce choix de mesure dominante dPθ

dµ (x) =θe^−θxI(0≤x <T) +e^−θTI(x =T)

I Finalement,

Pⁿθ=P^⊗nθ µ^⊗n=

n

O

i=1

λ+δT

et, pourNn(T) =Pn

i=1I(xi<T), dPⁿθ

dµ^⊗n(x₁, . . . ,x_n) =

n

Y

i=1

θe^−θxⁱI(0≤x_i<T) +e^−θTI(x_i=T)

=θ^Nⁿ^(T)e^−θ^Pⁿⁱ⁼¹^xⁱ^I^(xⁱ^<T)e^{−θT n−N}ⁿ^(T)

, quand0≤xi≤T et 0 sinon.

(15)

Méthodes d’estimation dans les modèle d’échantillonnage dominés

I M´ethode de substitution (ou des moments)

I Z-estimation

I M-estimation

I Le principe dumaximum de vraisemblance

(16)

La notation E

^θ

Soit un modèle statistique{Pθ:θ∈Θ} pour une observationZ. Soit θ∈Θ, on noteEθ l’espérancesousPθ: càd pour toute fonction mesurablef,

Eθf(Z) = Z

Z

f(z)Pθ(dz)

C’est l’espérance def(Z) quandZ est supposée être de loiPθ.

Remarque : étant donnéθ∈Θ, on ne sait pas si la loi de l’observationZ est bienP^θ (on sait seulement qu’elle appartient à{P^θ:θ∈Θ}), quand on écritE^θ, on fait doncl’hypothèse queZ a pour loiP^θet on en déduit des conséquences (par exemple des constructions d’estimateurs ou des résultats statistiques). Si ce résultat est vrai pour tout lesθ∈Θ alors il est en particulier vrai pour le “vraiθ” : celui pour lequelZ est vraiment distribuée selonPθ.

(17)

M´ ethode des moments en dimension 1

I X1, . . . ,Xn i.i.d.

∼ Pθ, avec θ∈Θ⊂R

I pour tout θ∈Θ, on calcul le moment d’ordre 1 deX (sous Pθ) : m₁(θ) =EθX

I la méthode des moments en dimension 1 consiste à ”estimer” la quantité inconnueEθX par la moyenne empirique ¯Xn=_n¹PXi et

` a :

trouver ˆθ_n∈Θ tel quem₁(ˆθ_n) = ¯X_n

I (quand il y a une solution) c’est un estimateur plug-in pour g(x) =x eth(x) =m₁⁻¹:

θ=m⁻¹₁ EθX

et bθn=m⁻¹₁ X¯n

(18)

M´ ethode des moments en dimension 1

I Qualit´e d’estimation via la m´ethode Delta : pourh(x) =m⁻¹₁ (x) (et si hestC¹),

√n θb_n−θ d

→ N 0,h⁰(EθX)²Var_θ(X)

en loi sousPθ. (La variance asymptotique dépend en général deθ idée : remplacerθparbθnvia le lemme de Slutsky)

I Exemple : X1, . . . ,Xn i.i.d.

∼ Exp(θ) pourθ >0. On a pour toutθ >0, m₁(θ) =Eθ

X

= 1 θ,

l’estimateur par moment associ´e est solution dem1(bθn) = ¯Xn, c`ad θbn = 1

Xn

(19)

M´ ethode des moments en dimension d

I X1, . . . ,Xn i.i.d.

∼ Pθ, avec θ∈Θ⊂R^d

I pour tout θ∈Θ, on calcul les d premiers moments deX (sous Pθ) : m₁(θ) =EθX,m₂(θ) =EθX², . . . ,m_d(θ) =EθX^d

I la méthode des moments consiste à ”estimer” les quantités

inconnuesEθX^k par leurs moyennes empiriquesX_n^k =¹_nPX_i^k et `a : trouver ˆθn∈Θ solution demk(ˆθn) =X_n^k pour tout k= 1, . . . ,d

(20)

Exemple en dimension d > 1

I X1, . . . ,Xn i.i.d.

∼ B´eta(α, β), de densit´e x7→ Γ(α+β)

Γ(α)Γ(β)x^α−1(1−x)^β−11{0<x<1},

I Le param`etre estθ= (α, β)∈Θ=R+\{0} ×R+\{0}.

I On a Eθ

X

= α

α+β, Eθ

X²

= α(α+ 1)

(α+β+ 1)(α+β)

(21)

Exemple en dimension d > 1

I L’estimateur par momentθbn = (bθn⁽¹⁾,θbn⁽²⁾) associ´e est d´efini par











Xn = bθ⁽¹⁾n

θbn⁽¹⁾+θb⁽²⁾n

X_n² = θb⁽¹⁾n (bθ⁽¹⁾n + 1) (bθn⁽¹⁾+θb⁽²⁾n + 1)(bθ⁽¹⁾n +θbn⁽²⁾)

I Etude asymptotiquevia le TCL multidimensionnel et la m´ethode Delta multidimensionnelle.

(22)

Limites de la m´ ethode des moments

I M´ethodenon syst´ematique(pb d’existence)

I Repr´esentation pas toujours explicite

I Choix “optimal” des moments ? (notion d’optimalit´e parmi une classe d’estimateurs)

I Généralisation:Z-estimation (ou estimation par méthode des moments généralisés, GMM=generalized method of moments).

(23)

Z -estimation

I La m´ethode des moments (en dimension 1) est bas´ee sur

”l’inversibilit´e” des fonctions

mk(θ) =EθX^k

i.e. pour toutθ∈Θ, on voitθ comme solution de l’´equation Eθ

mk(θ)−X^k

= 0

I Principe de construction d’un Z-estimateur : remplacerles

m_k(θ)−x^k par une fonctionφ(θ,x) : Θ×R→Rarbitrairetelle que

∀θ∈Θ,Eθ

φ(θ,X)

= 0

(24)

Z -estimation

I Résoudre l’équationempiriqueassociée : Trouvera∈Θ tel que 1

n

X

i=1

φ(a,Xi) = 0

D´ efinition

On appelleZ -estimateur(Z : “zéro”) associé àφtout estimateurθbn

satisfaisant

n

X

i=1

φ(bθn,Xi) = 0 quandφest telle que

∀θ∈Θ,Eθ

φ(θ,X)

= 0

(25)

Z -estimation : programme

Etablir des conditionssurφet sur le mod`ele{Pθ, θ∈Θ}pour :

I obtenirl’existence et l’unicit´edeθbn

I obtenir la consistance de bθ_n : pour toutθ∈Θ, bθn Pθ

−→θ

I obtenir la normalit´e asymptotiquedeθbn : pour toutθ∈Θ,

√n θbn−θ d

−→ N(0,v(θ)) sousPθ.

(26)

Z -estimation :

exemple du mod`ele de localisation ”shift model”

Θ =R, (dPθ/dλ)(x) =f(x−θ) o`uf est sym´etrique :f(−x) =f(x),

∀x∈R.

I Il n’y a pas d’hypoth`ese d’existence de moments !

I On pose

φ(a,x) =Arctg(x−a)

I La fonction a7→Eθ

φ(a,X)

= Z

R

Arctg(x−a)f(x−θ)dx est strictement d´ecroissante et s’annule seulement ena=θ.

I Z-estimateur associ´e : uniquesolutionθbn de

n

X

i=1

Arctg(X_i−θb_n) = 0

(27)

Le cas multidimensionnel

SiΘ⊂R^d avec d>1, la fonctionφest remplac´ee par Φ = (φ1, . . . , φd) : Θ×R→R^d.

Definition

On appelleZ-estimateurassoci´e `a Φ tout estimateurθb_n satisfaisant

n

X

i=1

Φ(bθ_n,X_i) = 0

c’est-`a-direPn

i=1φ`(bθn,Xi) = 0, `= 1, . . . ,d quand Φ est telle que

∀θ∈Θ,Eθ

Φ(θ,X)

= 0

(28)

Z -estimation → M -estimation

I En dimension 1 : si

φ(θ,x) =∂θψ(θ,x) pour une certaine fonctionψ, r´esoudrePn

i=1φ(θ,X_i) = 0 revient `a chercher un point critique (max ou min local) de

θ7→

n

X

i=1

ψ(θ,X_i)

I En dimensiond≥1, il fautφ(θ,x) =∇_θψ(θ,x).

I Invite à généraliserla recherche d’estimateurs via la maximisation d’un critère →M-estimation (M : “maximum”).

(29)

M -estimation

I Principe : Trouverψ: Θ×R→R+telle que, pour toutθ∈Θ⊂R^d, a7→Eθ

ψ(a,X)

= Z

ψ(a,x)Pθ(dx) admetun maximum ena=θ.

D´ efinition

On appelle M-estimateur (M = maximum) associ´e `aψ, tout estimateur bθn satisfaisant

n

X

i=1

ψ(bθ_n,X_i) = max

a∈Θ n

X

i=1

ψ(a,X_i) quandψest telle que pour toutθ∈Θ, a7→Eθ

ψ(a,X)

est maximum

(30)

M-estimation :

exemple du mod`ele de localisation ”shift model”

I Θ =R,dP^θ/dλ(x) =f(x−θ), etR

Rxf(x)dx= 0, R

Rx²Pθ(dx)<+∞pour tout θ∈R. On pose ψ(a,x) =−(a−x)²

I La fonction a7→Eθ

ψ(a,X)

=− Z

R

(a−x)²f(x−θ)dx admet un maximumena=Eθ

X

=R

Rxf(x−θ)dx=θ.

I M-estimateur associ´e :θbn tel que

n

X

i=1

(X_i−θb_n)²= min

a∈R n

X

i=1

(X_i−a)².

(31)

Param` etre de localisation

I C’est aussiunZ-estimateur associé àφ(a,x) = 2(x−a) : on résout

n

X

i=1

(a−Xi) = 0 d’o`u bθn=Xn.

I Dans cetexemple tr`es simple, tous les points de vue co¨ıncident.

I Si, dans le mˆeme contexte,R

Rx²Pθ(dx) = +∞etf(x) =f(−x), on peut utiliser Z-estimateur avecφ(a,x) =Arctg(x−a).

(32)

Lien entre Z - et M - estimateurs

I Pas d’inclusionentre ces deux classes d’estimateursen g´en´eral:

I Siψnon-r´eguli`ere,M-estimateur; Z-estimateur

I Si une ´equation deZ-estimation admet plusieurs solutions distinctes, Z-estimateur;M-estimateur (cas d’un extremum local).

I Toutefois, siψ est r´eguli`ere, lesM-estimateurssontdes Z-estimateurs : si Θ⊂R(d= 1), en posant

φ(a,x) =∂_aψ(a,x), on a

n

X

i=1

∂aψ(θ,Xi) _a=b_θ

n=

n

X

i=1

φ(bθn,Xi) = 0

(33)

Maximum de vraisemblance

I Principefondamentaletincontournableen statistique. Cas particuliers connus depuis le XVIIIème siècle. Définition générale : Fisher (1922).

I Fournit une premièreméthode systématiquede construction d’un M-estimateur (souvent unZ-estimateur, souvent aussia posteriori un estimateur par plug-in simple).

I Procédureoptimale (dans quel sens ?) sous des hypothèses de régularitéde la famille{Pθ, θ∈Θ}(Cours 6).

I Parfois difficile `a mettre en oeuvre en pratique→probl`eme d’optimisation.

(34)

Fonction de vraisemblance

D´ efinition

Dans le modèle d’échantillonnage (surR) dominé de densités f(θ,x) =dPθ

dµ (x), x ∈R

lafonction de vraisemblance du n-échantillon(X1, . . . ,Xn)associée à la famille{f(θ,·), θ∈Θ}est :

θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi)

I C’est une fonction al´eatoire (d´efinieµ-presque partout)

I c’est la densité des observations évaluée en les données

(35)

Exemples

I Exemple 1 :mod`ele de Poisson. On observe X₁, . . . ,X_n^i.i.d.∼ Poisson(θ), θ∈Θ =R+\{0}et prenonsµ=P

k∈Nδ_k.

I La densit´e dePθpar rapport `aµest f(θ,x) = θ^x

x!e^−θ, x = 0,1,2, . . . .

I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

e^−θθ^Xⁱ Xi!

(36)

Exemples

I Exemple 2Mod`ele de Cauchy. On observe X1, . . . ,Xn

i.i.d.

∼ Cauchy centr´ee enθ, θ∈Θ =Ret la mesure dominante est λ.

I On a alors

dPθ

dλ (x) =f(θ,x) = 1 π 1 + (x−θ)²

I La fonction de vraisemblanceassoci´ee s’´ecrit θ7→ Ln(θ,X₁, . . . ,X_n) = 1

πⁿ

n

Y

i=1

1 1 + (Xi−θ)²

(37)

Principe de maximum de vraisemblance (1/3)

I Cas d’un mod`ele `a deux lois :{Pθ₁,Pθ₁}, Θ ={θ1, θ2}avecPθ_i

discr`ete surNetµla mesure de comptage surN.

I Pour tout (x1, . . . ,xn)∈Nⁿ, et pourθ∈ {θ1, θ2}, Pθ

X1=x1, . . . ,Xn=xn

=

n

Y

i=1

Pθ

Xi=xi

=

n

Y

i=1

f(θ,xi).

C’est la probabilit´e sousPθd’observer (x1, . . . ,xn).

(38)

Principe de maximum de vraisemblance (2/3)

Pour les observationsX1, . . . ,Xn, la vraisemblance θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi) est doncla probabilit´e sousPθd’avoir observ´eX₁, . . . ,X_n.

L’EMV choisit donc leθle plus vraisemblable: càd le paramétreθ∈Θ quimaximise la probabilité (sousPθ) d’avoir observéX1, . . . ,Xn

(39)

Principe de maximum de vraisemblance (3/3)

1. Cas 1 : “θ1est plus vraisemblable queθ2” quand

n

Y

i=1

f(θ1,Xi)≥

n

Y

i=1

f(θ2,Xi) 2. Cas 2 : “θ2est plus vraisemblable queθ1” quand

n

Y

i=1

f(θ₂,X_i)>

n

Y

i=1

f(θ₁,X_i) Principe de maximum de vraisemblance :

θ^mv=

θ₁ quandθ₁est le plus vraisemblable

(40)

Estimateur du maximum de vraisemblance

I On généralise le principe précédent pour une famille de lois et un ensemble de paramètresquelconque.

I Situation : X₁, . . . ,X_nî.i.d.∼ Pθ,{Pθ, θ∈Θ} dominé, Θ⊂R^d, θ7→ L_n(θ,X₁, . . . ,X_n) vraisemblance associée.

D´ efinition

On appelleestimateur du maximum de vraisemblancetout estimateur bθ_n^mv satisfaisant

Ln(bθ_n^mv,X1, . . . ,Xn) = max

θ∈ΘLn(θ,X1, . . . ,Xn).

I Programme : Existence, unicité, propriétés statistiques

(41)

Remarques

I Log-vraisemblance :

θ7→`n(θ,X1, . . . ,Xn) = logLn(θ,X1, . . . ,Xn)

=

n

X

i=1

logf(θ,X_i).

Bien d´efinisif(θ,·)>0µ-pp.

Max. vraisemblance = max. log-vraisemblance.

(log-vraisemblance est parfois plus facile `a maximiser)

I L’estimateur du maximum de vraisemblancene d´epend pas du choix de la mesure dominanteµ.

I Equation de vraisemblance:

(42)

Exemple : mod` ele normal

L’expérience statistique est engendrée par unn-échantillon de loi N(µ, σ²), le paramètre estθ= (µ, σ²)∈Θ =R×R+\{0}.

I Vraisemblance

Ln((µ, σ²),X1, . . . ,Xn) = 1

(2πσ²)^n/2exp −_2σ¹2

n

X

i=1

(Xi−µ)² .

I Log-vraisemblance

`n (µ, σ²),X1, . . . ,Xn

=−n

2log(2πσ²)− 1 2σ²

n

X

i=1

(Xi−µ)².

(43)

Exemple : mod` ele normal

Equation(s) de vraisemblance:∇θ`n(θ,X1, . . . ,Xn) = 0,











∂µ`n (µ, σ²),X1, . . . ,Xn

= 1 σ²

n

X

i=1

(Xi−µ)

∂_σ2`n (µ, σ²),X1, . . . ,Xn

= − n

2σ²+ 1 2σ⁴

n

X

i=1

(Xi−µ)² Solution de ces ´equations (pourn≥2) :

Xn,1 n

n

X

i=1

(Xi−Xn)²

!

= ( ¯Xn,σˆn)

(44)

Exemple : mod` ele de Poisson

I Vraisemblance

Ln(θ,X1, . . . ,Xn) = 1 Qn

i=1Xi!e^−nθθ^Pⁿⁱ⁼¹^Xⁱ

I Log-vraisemblance

`n(θ,X1, . . . ,Xn) =c(X1, . . . ,Xn)−nθ+

n

X

i=1

Xilogθ

I Equation de vraisemblance

−n+

n

X

i=1

Xi

1

θ = 0, soit θb_n^mv =1 n

n

X

i=1

Xi =Xn

(45)

Exemple : mod` ele de Laplace

X1, . . . ,Xn i.i.d.

∼ Laplace de paramètreθ∈Θ =R: densité par rapport à la mesure de Lebesgue :

f(θ,x) = 1

2σexp −|x−θ|

σ ,

o`uσ >0 estconnu.

I Vraisemblance

L_n(θ,X₁, . . . ,X_n) = (2σ)⁻ⁿexp − 1 σ

n

X

i=1

X_i−θ

I Log-vraisemblance

1 ⁿ

(46)

Exemple : mod` ele de Laplace

MaximiserLn(θ,X1, . . . ,Xn) revient `a minimiser la fonction θ7→Pn

i=1

Xi−θ

, dérivable presque partout de dérivée constante par morceaux.Equation de vraisemblance :

0∈

n

X

i=1

sign(X_i−θ)

o`u sign(0) = [−1,1]. SoitX₍₁₎≤. . .≤X_(n) les statistiques d’ordre.

I npair :θb_n^mvn’est pas unique; tout point de l’intervalle X n

2

,X n 2+1

est un EMV.

I nimpair : bθ_n^mv=X n+1 2

, l’EMV est unique.

I pour tout n, la m´ediane empirique est un EMV.

(47)

Exemple : mod` ele de Cauchy

I Vraisemblance

Ln(θ,X1, . . . ,Xn) =π⁻ⁿ

n

Y

i=1

1 1 + (Xi−θ)²

I Log-vraisemblance

`_n(θ,X₁, . . . ,X_n) =−nlogπ−

n

X

i=1

log 1 + (X_i−θ)²

I Equation de vraisemblance

n

X Xi−θ

1 + (X −θ)² = 0

(48)

Choix de mod` ele statistique

I Le statisticien a le choix de la famille{Pθ, θ∈Θ}. L’EMV d´epend de ce choix.

I Exemple : on a l’´echantillon (n= 10) :

0.92,−0.20,−1.80,0.02,0.49,1.41,−1.59,−1.29,0.34,100 On choisit un mod`ele de localisationPθ(dx) =f(x−θ)dx pour deux f diff´erents :

1. f densit´e de la loi normale⇒θbn^mv=Xn=9.83.

2. f densit´e de loi de Laplace⇒tout point de l’intervalle [0.02,0.34]

est unθb_n^mv, en particulier, la m´ediane :

θb_n^mv=Med( ˆFn) =bq_n,1/2=0.02

I Autre choix de mod`ele...

(49)

Maximum de vraisemblance = M -estimateur

I Une inégalité de convexité :µmesureσ-finie surR;f,g deux densités de probabilités par rapport àµ. Alors

Z

R

f(x) logf(x)µ(dx)≥ Z

R

f(x) logg(x)µ(dx) (si les intégrales sont finies) avec égalitéssif =g µ-pp.

I Preuve : `a montrer Z

R

f(x) logg(x)

f(x)µ(dx)≤0.

(avec une convention de notation appropri´ee)

(50)

Une in´ egalit´ e de convexit´ e

I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.

I Donc

logg(x)

f(x) = log

1 + g(x) f(x) −1

≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).

I Finalement Z

R

f(x) logg(x)

f(x)µ(dx)≤ Z

R

f(x)g(x) f(x)−1

µ(dx)

= Z

R

g(x)µ(dx)− Z

R

f(x)µ(dx)

= 0.

(51)

Cons´ equence pour l’EMV

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (avec une convention pour le cas o`u on n’a pasf(a,·)>0.)

I La fonction

a7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) est maximale ena=θd’après l’inégalité de convexité.

(52)

I LeM-estimateur associ´e `aψmaximise la fonction a7→

n

X

i=1

logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance.

l’estimateur du maximum de vraisemblance est unM-estimateur

I C’est aussi unZ-estimateur si la fonctionθ7→logf(θ,·) est régulière, associé à la fonction

φ(θ,x) =∂θlogf(θ,x) =∂θf(θ,x)

f(θ,x) , θ∈Θ,x ∈R lorsque Θ⊂R, à condition que le maximum de log-vraisemblance n’est pas atteint sur la frontière de Θ. (Se généralise en dimension d.)

(53)

Un M -estimateur qui n’est pas un Z -estimateur

I On observeX1, . . . ,Xn∼i.i.d. uniformes sur [0, θ],θ∈Θ =R+\{0}.

I On a

Pθ(dx) =θ⁻¹1_[0,θ](x)dx et

L_n(θ,X₁, . . . ,X_n) =θ⁻ⁿ

n

Y

i=1

1_[0,θ](X_i)

=θ⁻ⁿ1_{max_1≤i≤n_X_i_≤θ}

I La fonction de vraisemblancen’est pas r´eguli`ere.

I L’estimateur du maximum de vraisemblance est θb_n^mv= max_1≤i≤nX_i.