Statistiques math´ematiques : cours 4

(1)

Statistiques math´ ematiques : cours 4

Guillaume Lecu´e

30 aoˆut 2018

1/42

(2)

Rappels du cours 3 : Z et M -estimation, EMV

2/42

(3)

Z -estimation

I Situation : on observeX1, . . . ,Xn i.i.d.

∼ Pθ surRetθ∈Θ

I Principe : Trouver une applicationφ: Θ×R→R+ telle que, pour toutθ∈Θ⊂R^d,

a7→Eθ

φ(a,X)

= Z

φ(a,x)Pθ(dx) admetun z´ero ena=θ

D´ efinition

On appelleZ -estimateurassoci´e `aφtout estimateurθbn ∈Θsatisfaisant

n

X

i=1

φ(bθn,Xi) = 0

3/42

(4)

M -estimation

I Situation : on observeX₁, . . . ,X_n^i.i.d.∼ Pθ surRetθ∈Θ.

I Principe : Trouver une applicationψ: Θ×R→R+telle que, pour toutθ∈Θ⊂R^d,

a7→Eθ

ψ(a,X)

= Z

ψ(a,x)Pθ(dx) admetun maximum ena=θ

D´ efinition

On appelleM-estimateurassoci´e `aψtout estimateurθb_n∈Θsatisfaisant

n

X

i=1

ψ(bθn,Xi) = max

a∈Θ n

X

i=1

ψ(a,Xi)

4/42

(5)

Fonction de vraisemblance

I La famille {Pθ, θ∈Θ}est domin´ee par une mesureσ-finieµ. On se donne, pourθ∈Θ,

f(θ,x) =dPθ

dµ (x), x ∈ X

D´ efinition

Lafonction de vraisemblancedu n-échantillon (X₁, . . . ,X_n)associée à la famille de densité{f(θ,·) :θ∈Θ} est

θ∈Θ7→ L_n(θ,X₁, . . . ,X_n) =

n

Y

i=1

f(θ,X_i)

5/42

(6)

Estimateur du maximum de vraisemblance

Situation :

I X1, . . . ,Xn i.i.d.

∼ Pθ, {Pθ, θ∈Θ}domin´ee, Θ⊂R^d

I θ7→ Ln(θ,X₁, . . . ,X_n) vraisemblance associ´ee

D´ efinition

On appelleestimateur du maximum de vraisemblancetout estimateur bθ_n^mv satisfaisant

L_n(bθ_n^mv,X₁, . . . ,X_n) = max

θ∈ΘL_n(θ,X₁, . . . ,X_n)

6/42

(7)

Aujourd’hui

l’EMV est unM-estimateur

Asymptotique desZ- etM- estimateurs et de l’EMV

Modèles réguliers et information de Fisher Construction de l’information de Fisher Cadre général et interprétation géométrique Exemples, applications

7/42

(8)

l’EMV est un M -estimateur

I Une inégalité de convexité :µmesureσ-finie surR;f,g deux densités de probabilités par rapport àµ. Alors

Z

R

f(x) logf(x)µ(dx)≥ Z

R

f(x) logg(x)µ(dx) (si les intégrales sont finies) avec égalitéssif =g µ-pp.

I Preuve : `a montrer Z

R

f(x) logg(x)

f(x)µ(dx)≤0 (convention log(0) =−∞)

8/42

(9)

Une in´ egalit´ e de convexit´ e

I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.

I Donc

logg(x)

f(x) = log

1 + g(x) f(x) −1

≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).

I Finalement Z

R

f(x) logg(x)

f(x)µ(dx)≤ Z

R

f(x)g(x) f(x)−1

µ(dx)

= Z

R

g(x)µ(dx)− Z

R

f(x)µ(dx)

= 0

9/42

(10)

Cons´ equence pour l’EMV

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (conventionψ(a,x) =−∞quandf(a,x) = 0)

I La fonction

a∈Θ7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) a un maximum ena=θd’après l’inégalité de convexité

10/42

(11)

I LeM-estimateur associ´e `aψmaximise la fonction a7→

n

X

i=1

logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance, donc

l’estimateur du maximum de vraisemblance est un M-estimateur

I Si la fonction θ7→logf(θ,·) est régulière, l’EMV est aussi un Z-estimateur associé à la fonction

φ(θ,x) =∂_θlogf(θ,x) =∂_θf(θ,x)

f(θ,x) , θ∈Θ,x ∈R

`

a condition que le maximum de la log-vraisemblance n’est pas atteint sur la fronti`ere de Θ.

(12)

Asymptotique des Z et M -estimateurs et de l’EMV

12/42

(13)

Propriétés statistiques asymptotiques des estimateurs : définitions

Modèle d’échantillonage : (Xn)nsuiteî.i.d.∼ Pθ∈ {Pθ:θ∈Θ}. Soit (ˆθn)n

un estimateur. On dit que :

1. θb_n estconsistantquand pour toutθ∈Θ, sousPθ, bθn Pθ

−→θ

(bθn estfortement consistant quand la cv est p.s.)

2. θbn estasymptotiquement normalquand, pour toutθ∈Θ, sousPθ, il existe une suite croissante de réels positifs (an)↑ ∞etVθ une variable aléatoire Gaussienne centrée telles que :

an θbn−θ d

−→Vθ

Quand Vθ∼ N(0,v(θ)),v(θ) est appelée lavariance asymptotique; 1/a_nest la vitesse de convergence asymptotique(généralement, a_n=√

n)

13/42

(14)

Asymptotique des Z - et M -estimateurs

I Problème général délicat. Dans ce cours :conditions suffisantes

I résultats établis pour Θ⊂Rmais généralisable à R^d

I application directe `a l’EMV (vu comme unM-estimateur)

14/42

(15)

Consistance des Z -estimateurs

I Situation : on observeX1, . . . ,Xn i.i.d.

∼ Pθ, θ∈Θ.

I φ: Θ×R→R

I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, Zn(a) = 1

n

X

i=1

φ(a,Xi)−→^P^θ Z(a, θ) =Eθ

φ(a,X)

qui s’annule ena=θ

I `a montrer : pour toutθ∈Θ, sousPθ,

θb_n (z´ero deZ_n(·))−→^P^θ θ(z´ero deZ(·, θ))

15/42

(16)

Consistance des Z -estimateurs

Proposition

On suppose que pour toutθ∈Θ: a) sup_a∈Θ|Zn(a)−Z(a, θ)|−→^P^θ 0, b) ∀ε >0, inf_{|a−θ|≥ε}|Z(a, θ)|>0

alors tout Z -estimateurθb_n (c`ad tq Z_n(bθ_n) = 0) est consistant.

1. ”a)” se montre grâce aux techniques de processus empiriques 2. ”b)” est une condition (déterministe) sur le zéroθde Z(·, θ)

16/42

(17)

Consistance des M -estimateurs

I Situation : on observeX₁, . . . ,X_n^i.i.d.∼ Pθ, θ∈Θ

I ψ: Θ×R→Rfonction de contraste

I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, M_n(a) = 1

n

X

i=1

ψ(a,X_i)−→^P^θ M(a, θ) =Eθ

ψ(a,X)

qui atteint son maximum en a=θ

I `a montrer : pour toutθ∈Θ, θbn=arg max

a∈ΘMn(a)−→^P^θ arg max

a∈ΘEθ

ψ(a,X)

=θ

17/42

(18)

Consistance des M -estimateurs

Proposition

On suppose que pour toutθ∈Θ: a) sup_a∈Θ|Mn(a)−M(a, θ)|−→^P^θ 0, b) ∀ε >0, sup_{|a−θ|≥ε}M(a, θ)<M(θ, θ)

alors tout M-estimateurbθn∈arg max_a∈ΘMn(a)est consistant.

1. ”a)” se montre grˆace aux techniques de processus empiriques 2. ”b)” est une condition sur le maximum de la fonction de contraste

18/42

(19)

Normalit´e asymptotique desZ-estimateurs : principe

I Situation : X₁, . . . ,X_n^i.i.d.∼ Pθ pourθ∈Θ⊂R

I θbn :Z-estimateurassocié àφ: Θ×R→Rcàd

n

X

i=1

φ(bθn,Xi) = 0

I Sous certaines conditionsθb_n est consistant. Maintenant : est-il asymptotiquement normal ?:

1. Pour quelle vitesse de convergence ? 2. Pour quelle variance asymptotique ?

19/42

(20)

I Principe. D´eveloppement de Taylor autour deθ :

0 =Zn(bθn) =Zn(θ) + (bθn−θ)Z_n⁰(θ) +¹₂(bθn−θ)²Z⁰⁰(eθn)

I On a approximativement (en ”n´egligeant” le reste) :

√n(bθn−θ)≈ −√ nZn(θ) Z_n⁰(θ)

20/42

(21)

I Convergence dunum´erateur: par le TCL (sous Pθ)

√nZ_n(θ) = 1

√n

n

X

i=1

φ(θ,X_i)−→ N^d 0,Eθ

φ(θ,X)²

si Eθ

φ(θ,X)

= 0etEθ

φ(θ,X)²

<+∞.

I Convergence dud´enominateur(sousPθ) Z_n⁰(θ) =1

n

X

i=1

∂₁φ(θ,X_i)−→^P^θ Eθ

∂₁φ(θ,X)

6= 0 (`a supposer).

I + hypoth`eses techniques pourcontrˆoler le reste (besoin de la consistance deθbn).

21/42

(22)

Normalit´ e asymptotique des Z -estimateurs

Theorem

SoitΘun ouvert deR. On suppose que :

I le Z -estimateur θb_n associ´e `aφest consistant

I pour tout θ∈Θ,Eθ

φ(θ,X)

= 0, Eθ

φ(θ,X)²

<+∞et Eθ

∂₁φ(θ,X) 6= 0

I (Contrˆole reste)pour tout θ∈Θ, pour tout adans un voisinage de θ,

|∂₁²φ(a,x)| ≤g(x)o`u E^θ g(X)

<+∞.

Alors, pour toutθ∈Θ, sousPθ,

√n(bθ_n−θ)−→ N^d 0, Eθ[φ(θ,X)²] Eθ[∂1φ(θ,X)]2

!

22/42

(23)

Normalit´e asymptotique desM-estimateurs : principe

I Situation : X1, . . . ,Xn i.i.d.

∼ Pθ pourθ∈Θ⊂R

I θbn :M-estimateurassocié àψ: Θ×R→Rcàd

θb_n∈arg max

a∈Θ n

X

i=1

ψ(a,X_i)

I Sous certaines conditions, lesM-estimateurs sont desZ-estimateurs associ´es `a

φ(a,x) =∂₁ψ(a,x)

On applique le théorème de la normalité asymptotique des Z-estimateurs auxM-estimateurs.

23/42

(24)

Normalit´ e asymptotique des M -estimateurs

Theorem

SoitΘun ouvert deR. On suppose que :

I le M-estimateurθbn associ´e `aψest consistant

I pour tout θ∈Θ,Eθ

∂₁ψ(θ,X)

= 0, E^θ

∂1ψ(θ,X)²

<+∞et E^θ

∂₁²ψ(θ,X) 6= 0

I pour tout θ∈Θ, pour tout a dans un voisinage deθ,

|∂³₁ψ(a,x)| ≤g(x)o`u Eθ g(X)

<+∞.

Alors, pour toutθ∈Θ, sousPθ,

√n(bθ_n−θ)−→ N^d 0, Eθ[∂₁ψ(θ,X)²] Eθ[∂₁²ψ(θ,X)]2

!

24/42

(25)

Normalit´e asymptotique de l’EMV : principe

I Situation : X1, . . . ,Xn i.i.d.

∼ Pθ pourθ∈Θ⊂R

I {Pθ:θ∈Θ}est domin´e parµet la vraisemblance associ´ee est θ7→ Ln(θ,X₁, . . . ,X_n) =

n

Y

i=1

f(θ,X_i)

I l’EMV est

bθ_n^mv∈arg max

θ∈ΘLn(θ,X1, . . . ,Xn)

25/42

(26)

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (convention log 0 =−∞)

I La fonction a7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) a un maximum ena=θ.

Donc l’EMV est unM-estimateur. On peut alors appliquer le théorème de normalité asymptotique desM-estimateurs.

26/42

(27)

Sous certaine conditions, on a

√n θb_n^mv−θ d

−→ N 0,v(θ) o`u la variance asymptotique est

v(θ) = Eθ[∂1ψ(θ,X)²] E^θ[∂₁²ψ(θ,X)]² qui se simplifie quandψ(a,x) = logf(a,x) en

v(θ) = 1

I(θ) o`uI(θ) =Eθ

(∂₁logf(θ,X))² car

Eθ

(∂₁²f(θ,X))/f(θ,X)

= 0

(28)

Dans un modéle d’échantilllonage{Pθ:θ∈Θ}dominé parµ, de densités dPθ

dµ (x) =f(θ,x) on d´efinit

`(θ,x) = logf(θ,x)

avec la convention (log 0 =−∞) et quand`(·,x) est d´erivable pour µ-p.t.x, on appelle :

1. fonction de score : `ax∈Rfix´e,

θ7→∂1`(θ,x)

2. on appelleinformation de Fisherenθ∈Θ, I(θ) =Eθ

(∂₁`(θ,X))²

28/42

(29)

On a donc ”sous certaines hypoth`eses” que :

√n bθ_n^mv−θ d

−→ N 0, 1

I(θ)

Les hypothèses suffisantes pour assurer lanormalité asymptotique de l’EMV de variance asymptotiqueI(θ)⁻¹sont à l’origine de la définition d’unmodéle régulier.

Conclusion : L’étude de la normalité asymptotique des EMV nous améne

`a introduire les notions suivantes : 1. le score

2. l’information de Fisher 3. un mod´ele r´egulier

29/42

(30)

R´ egularit´ e d’un mod` ele statistique et information

I Cadre simplificateur : mod`ele domin´e (parµ) X1, . . . ,Xn

i.i.d.

∼ Pθ

dans la famille

Pθ, θ∈Θ avec Θ⊂R(pour simplifier).

I Notation :

f(θ,x) = dPθ

dµ (x), x ∈R, θ∈Θ.

I Hypoth`ese: la quantit´e I(θ) =Eθ

∂₁logf(θ,X)²

est bien d´efiniePθ-p.s..

30/42

(31)

Information de Fisher

D´ efinition

I(θ) =Eθ

∂1logf(θ,X)²

s’appelle l’information de Fisherde la famille{Pθ, θ∈Θ}au pointθ.

I L’information de Fisher ne d´epend pas de la mesure dominanteµ

I Le cadre d’intérêt est celui où

0<I(θ)<+∞.

I I(θ) quantifiel’informationqu’apporte chaque observation Xi

sur le param`etreθ.

I on a Pθ

f(θ,X)>0

= 1, donc la quantit´e logf(θ,X) est bien d´efinie.

31/42

(32)

Mod` ele r´ egulier

D´ efinition

La famille de densités{f(θ,·), θ∈Θ}, par rapport à la mesure dominanteµ,Θ⊂Rouvert, estrégulière si

I {f(θ,·)>0}={f(θ⁰,·)>0},µ-p.p.∀θ, θ⁰ ∈Θ

I µ-p.p.θ7→f(θ,·), θ7→logf(θ,·)sontC²

I ∀θ∈Θ,∃Vθ⊂Θt.q. pour a∈ Vθ

|∂_a²logf(a,x)|+|∂_alogf(a,x)|+ ∂_alogf(a,x)²

≤g(x) o`u

Z

R

g(x) sup

a∈V(θ)

f(a,x)µ(dx)<+∞

I L’information de Fisher est non-dégénérée :

∀θ∈Θ, I(θ)>0

32/42

(33)

R´ esultat principal

Theorem

Dans le modèle d’échantillonnage associé à un modèle régulier on a : pour toutθ∈Θ,

√n bθ_n^mv−θ d

−→ N 0, 1

I(θ)

33/42

(34)

Information de Fisher dans le mod`ele d’´echantillonnage

Dans le modèle d’échantillonnage (surR) dominé (parµ), on observe X₁, . . . ,X_nî.i.d.∼ Pθ, θ∈Θ⊂R

et on note les densit´es (pour toutθ∈Θ,x∈R) dPθ

dµ (x) =f(θ,x) L’exp´erience statistique associ´ee est

Eⁿ= Rⁿ,B(Rⁿ),{P^⊗nθ , θ∈Θ}

qui est domin´ee parµ^⊗n, de densit´e :∀z = (x1, . . . ,xn)∈Rⁿ,

fn(θ,z) = dP^Z dµ^⊗n(z) =

n

Y

i=1

f(θ,xi)

o`uZ = (X1, . . . ,Xn) est une observation de l’exp´erienceEⁿ.

34/42

(35)

Information de Fisher dans le mod`ele d’´echantillonnage

L’information de Fisher contenue dans une observationZ = (X1, . . . ,Xn) deEⁿ enθest

In(θ) =I(θ|Eⁿ) =Eθ

(∂₁logf_n(θ,Z))² Par ailleurs, pour une seule observationX₁ de l’exp´erience

E= R,B(R),{Pθ, θ∈Θ}

,

l’information de Fisher est

I(θ) =I(θ|E) =Eθ

(∂1logf(θ,X1))²

Theorem

I(θ| Eⁿ) =nI(θ| E)

(36)

Le cas multidimensionnel

D´ efinition

Soit Z∼Pθ avecθ∈Θ⊂R^d de densit´e f(θ,·). La matrice d’information de Fisheren θest

I(θ) =Eθ

∇θlogf(θ,Z)∇θlogf(θ,Z)^T

I I(θ) est unematriced×d sym´etrique positive

I Dans le modèle d’échantillonage dominé, on noteI(θ) l’information de Fisher pour une observationX1, sous des hypothèses de régularité du modèle, on a

√n θb_n^mv−θ d

−→ N

0,I(θ)⁻¹

36/42

(37)

R´egion de confiance asymptotique pour l’EMV (1/2)

Dans le modèle d’échantillonnage dominé régulier tel que l’information de Fisher (pour une observationX1)

θ∈Θ⊂R^d 7→I(θ)∈R^d×d est continue, on peut appliquer le lemme de Slutsky :

√nI(bθ_n^mv)^1/2 θb_n^mv−θ d

−→ N 0,I_d o`uI_d est la matrice identit´e deR^d×d.

Ainsi, pour toutE⊂Rⁿ (mesurable), quandn→ ∞, P

h√nI(bθ_n^mv)^1/2 θb_n^mv−θ

∈Ei

−→P[G ∈E] o`uG ∼ N(0,Id).

37/42

(38)

R´egion de confiance asymptotique pour l’EMV (2/2)

PourB₂^d ={x∈R^d :kxk₂≤1},G ∼ N(0,Id) etc>0, on a : P

h√

nI(bθ_n^mv)^1/2 θb_n^mv−θ

∈cB₂^di

−→P[kGk₂≤c]

CommekGk²₂suit une loi duχ²(d) (”khi2 àd degrés de liberté”), on a pour toutα∈(0,1), quandn→ ∞,

P h

θ∈ In,α

i−→1−α o`u

I_n,α=θb_n^mv+q_1−α^χ²^(d)

√n I(bθ_n^mv)^−1/2B₂^d C’est une ellipse centr´ee enbθ_n^mv.

38/42

(39)

Formules de calcul de l’information de Fisher

Proposition

Dans un mod`ele r´egulier : I(θ) =Eθ

(∂θlogf(θ,X))²

=−Eθ∂_θ²logf(θ,X)

=−∂_a²D(a, θ) a=θ

o`uD(a, θ) =Eθ

logf(a,X) .

39/42

(40)

Interpr´ etation g´ eom´ etrique

I On poseD(a, θ) =Eθ

logf(a,X)

. On a (par l’in´egalit´e d’entropie) que

D(a, θ) = Z

R

logf(a,x)f(θ,x)µ(dx)

≤ Z

R

logf(θ,x)f(θ,x)µ(dx) =D(θ, θ).

I On a

I(θ) =−∂_a²D(a, θ) a=θ

I I(θ) est petite : lerayon de courbure dea7→D(a, θ) est granddans un voisinage deθ: la stabilisation d’un maximum empirique (l’EMV) est plus difficile, rendant moins pr´ecis l’estimation.

I I(θ) est grande : lerayon de courbure est petitet le maximum de l’EMV est mieux localis´e.

40/42

(41)

Exercices classiques

Savoir calculer : 1) la vraisemblance, 2) l’EMV, 3) l’information de Fisher, 4) le comportement asymptotique de l’EMV, 5) un intervalle de confiance pourθ; pour le mod`ele d’´echantillonnage de loi :

I Bernoulli B(θ)

I Normal N(m,v)

I UniformeU([a,b])

I PoissonP(θ)

I L’estimation du param`etre d’une loi exponentielle avec ou sans censure.

I mod`ele de r´egression

41/42

(42)

application : efficacit´ e ` a un pas

I Dans un modèle régulier, lecalcul numérique de l’EMV peut être difficile à réaliser.

I Si l’on dispose d’un estimateurθb_n asymptotiquement normalet si les

´

evaluations

`⁰_n(θ) = 1 n

n

X

i=1

∂₁logf(θ,X_i), `⁰⁰_n(θ) = 1 n

n

X

i=1

∂²₁logf(θ,X_i)

sont faciles, alors on peutcorrigerθbn de sorte d’avoir le mˆeme comportement asymptotique que l’EMV :

eθn=θbn−`⁰_n(bθn)

`⁰⁰_n(bθ_n) (algorithme de Newton) satisfait

√n θe_n−θ d

−→ N 0, 1

I(θ)

42/42