• Aucun résultat trouvé

Statistiques math´ematiques : cours 4

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : cours 4"

Copied!
42
0
0

Texte intégral

(1)

Statistiques math´ ematiques : cours 4

Guillaume Lecu´e

30 aoˆut 2018

1/42

(2)

Rappels du cours 3 : Z et M -estimation, EMV

2/42

(3)

Z -estimation

I Situation : on observeX1, . . . ,Xn i.i.d.

∼ Pθ surRetθ∈Θ

I Principe : Trouver une applicationφ: Θ×R→R+ telle que, pour toutθ∈Θ⊂Rd,

a7→Eθ

φ(a,X)

= Z

φ(a,x)Pθ(dx) admetun z´ero ena=θ

D´ efinition

On appelleZ -estimateurassoci´e `aφtout estimateurθbn ∈Θsatisfaisant

n

X

i=1

φ(bθn,Xi) = 0

3/42

(4)

M -estimation

I Situation : on observeX1, . . . ,Xni.i.d.∼ Pθ surRetθ∈Θ.

I Principe : Trouver une applicationψ: Θ×R→R+telle que, pour toutθ∈Θ⊂Rd,

a7→Eθ

ψ(a,X)

= Z

ψ(a,x)Pθ(dx) admetun maximum ena=θ

D´ efinition

On appelleM-estimateurassoci´e `aψtout estimateurθbn∈Θsatisfaisant

n

X

i=1

ψ(bθn,Xi) = max

a∈Θ n

X

i=1

ψ(a,Xi)

4/42

(5)

Fonction de vraisemblance

I La famille {Pθ, θ∈Θ}est domin´ee par une mesureσ-finieµ. On se donne, pourθ∈Θ,

f(θ,x) =dPθ

dµ (x), x ∈ X

D´ efinition

Lafonction de vraisemblancedu n-´echantillon (X1, . . . ,Xn)associ´ee `a la famille de densit´e{f(θ,·) :θ∈Θ} est

θ∈Θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi)

5/42

(6)

Estimateur du maximum de vraisemblance

Situation :

I X1, . . . ,Xn i.i.d.

∼ Pθ, {Pθ, θ∈Θ}domin´ee, Θ⊂Rd

I θ7→ Ln(θ,X1, . . . ,Xn) vraisemblance associ´ee

D´ efinition

On appelleestimateur du maximum de vraisemblancetout estimateur bθnmv satisfaisant

Ln(bθnmv,X1, . . . ,Xn) = max

θ∈ΘLn(θ,X1, . . . ,Xn)

6/42

(7)

Aujourd’hui

l’EMV est unM-estimateur

Asymptotique desZ- etM- estimateurs et de l’EMV

Mod`eles r´eguliers et information de Fisher Construction de l’information de Fisher Cadre g´en´eral et interpr´etation g´eom´etrique Exemples, applications

7/42

(8)

l’EMV est un M -estimateur

I Une in´egalit´e de convexit´e :µmesureσ-finie surR;f,g deux densit´es de probabilit´es par rapport `aµ. Alors

Z

R

f(x) logf(x)µ(dx)≥ Z

R

f(x) logg(x)µ(dx) (si les int´egrales sont finies) avec ´egalit´essif =g µ-pp.

I Preuve : `a montrer Z

R

f(x) logg(x)

f(x)µ(dx)≤0 (convention log(0) =−∞)

8/42

(9)

Une in´ egalit´ e de convexit´ e

I On a log(1 +x)≤x pourx ≥ −1 avec ´egalit´e ssix = 0.

I Donc

logg(x)

f(x) = log

1 + g(x) f(x) −1

≤ g(x) f(x) −1 (avec ´egalit´e ssif(x) =g(x)).

I Finalement Z

R

f(x) logg(x)

f(x)µ(dx)≤ Z

R

f(x)g(x) f(x)−1

µ(dx)

= Z

R

g(x)µ(dx)− Z

R

f(x)µ(dx)

= 0

9/42

(10)

Cons´ equence pour l’EMV

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (conventionψ(a,x) =−∞quandf(a,x) = 0)

I La fonction

a∈Θ7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) a un maximum ena=θd’apr`es l’in´egalit´e de convexit´e

10/42

(11)

I LeM-estimateur associ´e `aψmaximise la fonction a7→

n

X

i=1

logf(a,Xi) =`n(a,X1, . . . ,Xn) c’est-`a-dire lalog-vraisemblance, donc

l’estimateur du maximum de vraisemblance est un M-estimateur

I Si la fonction θ7→logf(θ,·) est r´eguli`ere, l’EMV est aussi un Z-estimateur associ´e `a la fonction

φ(θ,x) =∂θlogf(θ,x) =∂θf(θ,x)

f(θ,x) , θ∈Θ,x ∈R

`

a condition que le maximum de la log-vraisemblance n’est pas atteint sur la fronti`ere de Θ.

(12)

Asymptotique des Z et M -estimateurs et de l’EMV

12/42

(13)

Propri´et´es statistiques asymptotiques des estimateurs : d´efinitions

Mod`ele d’´echantillonage : (Xn)nsuitei.i.d.∼ Pθ∈ {Pθ:θ∈Θ}. Soit (ˆθn)n

un estimateur. On dit que :

1. θbn estconsistantquand pour toutθ∈Θ, sousPθ, bθn Pθ

−→θ

(bθn estfortement consistant quand la cv est p.s.)

2. θbn estasymptotiquement normalquand, pour toutθ∈Θ, sousPθ, il existe une suite croissante de r´eels positifs (an)↑ ∞etVθ une variable al´eatoire Gaussienne centr´ee telles que :

an θbn−θ d

−→Vθ

Quand Vθ∼ N(0,v(θ)),v(θ) est appel´ee lavariance asymptotique; 1/anest la vitesse de convergence asymptotique(g´en´eralement, an=√

n)

13/42

(14)

Asymptotique des Z - et M -estimateurs

I Probl`eme g´en´eral d´elicat. Dans ce cours :conditions suffisantes

I r´esultats ´etablis pour Θ⊂Rmais g´en´eralisable `a Rd

I application directe `a l’EMV (vu comme unM-estimateur)

14/42

(15)

Consistance des Z -estimateurs

I Situation : on observeX1, . . . ,Xn i.i.d.

∼ Pθ, θ∈Θ.

I φ: Θ×R→R

I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, Zn(a) = 1

n

n

X

i=1

φ(a,Xi)−→Pθ Z(a, θ) =Eθ

φ(a,X)

qui s’annule ena=θ

I `a montrer : pour toutθ∈Θ, sousPθ,

θbn (z´ero deZn(·))−→Pθ θ(z´ero deZ(·, θ))

15/42

(16)

Consistance des Z -estimateurs

Proposition

On suppose que pour toutθ∈Θ: a) supa∈Θ|Zn(a)−Z(a, θ)|−→Pθ 0, b) ∀ε >0, inf|a−θ|≥ε|Z(a, θ)|>0

alors tout Z -estimateurθbn (c`ad tq Zn(bθn) = 0) est consistant.

1. ”a)” se montre grˆace aux techniques de processus empiriques 2. ”b)” est une condition (d´eterministe) sur le z´eroθde Z(·, θ)

16/42

(17)

Consistance des M -estimateurs

I Situation : on observeX1, . . . ,Xni.i.d.∼ Pθ, θ∈Θ

I ψ: Θ×R→Rfonction de contraste

I Loi des grands nombres :pour tout θ,a∈Θ, sousPθ, Mn(a) = 1

n

n

X

i=1

ψ(a,Xi)−→Pθ M(a, θ) =Eθ

ψ(a,X)

qui atteint son maximum en a=θ

I `a montrer : pour toutθ∈Θ, θbn=arg max

a∈ΘMn(a)−→Pθ arg max

a∈ΘEθ

ψ(a,X)

17/42

(18)

Consistance des M -estimateurs

Proposition

On suppose que pour toutθ∈Θ: a) supa∈Θ|Mn(a)−M(a, θ)|−→Pθ 0, b) ∀ε >0, sup|a−θ|≥εM(a, θ)<M(θ, θ)

alors tout M-estimateurbθn∈arg maxa∈ΘMn(a)est consistant.

1. ”a)” se montre grˆace aux techniques de processus empiriques 2. ”b)” est une condition sur le maximum de la fonction de contraste

18/42

(19)

Normalit´e asymptotique desZ-estimateurs : principe

I Situation : X1, . . . ,Xni.i.d.∼ Pθ pourθ∈Θ⊂R

I θbn :Z-estimateurassoci´e `aφ: Θ×R→Rc`ad

n

X

i=1

φ(bθn,Xi) = 0

I Sous certaines conditionsθbn est consistant. Maintenant : est-il asymptotiquement normal ?:

1. Pour quelle vitesse de convergence ? 2. Pour quelle variance asymptotique ?

19/42

(20)

Normalit´e asymptotique desZ-estimateurs : principe

I Principe. D´eveloppement de Taylor autour deθ :

0 =Zn(bθn) =Zn(θ) + (bθn−θ)Zn0(θ) +12(bθn−θ)2Z00(eθn)

I On a approximativement (en ”n´egligeant” le reste) :

√n(bθn−θ)≈ −√ nZn(θ) Zn0(θ)

20/42

(21)

Normalit´e asymptotique desZ-estimateurs : principe

I Convergence dunum´erateur: par le TCL (sous Pθ)

√nZn(θ) = 1

√n

n

X

i=1

φ(θ,Xi)−→ Nd 0,Eθ

φ(θ,X)2

si Eθ

φ(θ,X)

= 0etEθ

φ(θ,X)2

<+∞.

I Convergence dud´enominateur(sousPθ) Zn0(θ) =1

n

n

X

i=1

1φ(θ,Xi)−→Pθ Eθ

1φ(θ,X)

6= 0 (`a supposer).

I + hypoth`eses techniques pourcontrˆoler le reste (besoin de la consistance deθbn).

21/42

(22)

Normalit´ e asymptotique des Z -estimateurs

Theorem

SoitΘun ouvert deR. On suppose que :

I le Z -estimateur θbn associ´e `aφest consistant

I pour tout θ∈Θ,Eθ

φ(θ,X)

= 0, Eθ

φ(θ,X)2

<+∞et Eθ

1φ(θ,X) 6= 0

I (Contrˆole reste)pour tout θ∈Θ, pour tout adans un voisinage de θ,

|∂12φ(a,x)| ≤g(x)o`u Eθ g(X)

<+∞.

Alors, pour toutθ∈Θ, sousPθ,

√n(bθn−θ)−→ Nd 0, Eθ[φ(θ,X)2] Eθ[∂1φ(θ,X)]2

!

22/42

(23)

Normalit´e asymptotique desM-estimateurs : principe

I Situation : X1, . . . ,Xn i.i.d.

∼ Pθ pourθ∈Θ⊂R

I θbn :M-estimateurassoci´e `aψ: Θ×R→Rc`ad

θbn∈arg max

a∈Θ n

X

i=1

ψ(a,Xi)

I Sous certaines conditions, lesM-estimateurs sont desZ-estimateurs associ´es `a

φ(a,x) =∂1ψ(a,x)

On applique le th´eor`eme de la normalit´e asymptotique des Z-estimateurs auxM-estimateurs.

23/42

(24)

Normalit´ e asymptotique des M -estimateurs

Theorem

SoitΘun ouvert deR. On suppose que :

I le M-estimateurθbn associ´e `aψest consistant

I pour tout θ∈Θ,Eθ

1ψ(θ,X)

= 0, Eθ

1ψ(θ,X)2

<+∞et Eθ

12ψ(θ,X) 6= 0

I pour tout θ∈Θ, pour tout a dans un voisinage deθ,

|∂31ψ(a,x)| ≤g(x)o`u Eθ g(X)

<+∞.

Alors, pour toutθ∈Θ, sousPθ,

√n(bθn−θ)−→ Nd 0, Eθ[∂1ψ(θ,X)2] Eθ[∂12ψ(θ,X)]2

!

24/42

(25)

Normalit´e asymptotique de l’EMV : principe

I Situation : X1, . . . ,Xn i.i.d.

∼ Pθ pourθ∈Θ⊂R

I {Pθ:θ∈Θ}est domin´e parµet la vraisemblance associ´ee est θ7→ Ln(θ,X1, . . . ,Xn) =

n

Y

i=1

f(θ,Xi)

I l’EMV est

nmv∈arg max

θ∈ΘLn(θ,X1, . . . ,Xn)

25/42

(26)

Normalit´e asymptotique de l’EMV : principe

I On pose

ψ(a,x) := logf(a,x), a∈Θ, x ∈R (convention log 0 =−∞)

I La fonction a7→Eθ

ψ(a,X)

= Z

R

logf(a,x)f(θ,x)µ(dx) a un maximum ena=θ.

Donc l’EMV est unM-estimateur. On peut alors appliquer le th´eor`eme de normalit´e asymptotique desM-estimateurs.

26/42

(27)

Normalit´e asymptotique de l’EMV : principe

Sous certaine conditions, on a

√n θbnmv−θ d

−→ N 0,v(θ) o`u la variance asymptotique est

v(θ) = Eθ[∂1ψ(θ,X)2] Eθ[∂12ψ(θ,X)]2 qui se simplifie quandψ(a,x) = logf(a,x) en

v(θ) = 1

I(θ) o`uI(θ) =Eθ

(∂1logf(θ,X))2 car

Eθ

(∂12f(θ,X))/f(θ,X)

= 0

(28)

Normalit´e asymptotique de l’EMV : principe

Dans un mod´ele d’´echantilllonage{Pθ:θ∈Θ}domin´e parµ, de densit´es dPθ

dµ (x) =f(θ,x) on d´efinit

`(θ,x) = logf(θ,x)

avec la convention (log 0 =−∞) et quand`(·,x) est d´erivable pour µ-p.t.x, on appelle :

1. fonction de score : `ax∈Rfix´e,

θ7→∂1`(θ,x)

2. on appelleinformation de Fisherenθ∈Θ, I(θ) =Eθ

(∂1`(θ,X))2

28/42

(29)

Normalit´e asymptotique de l’EMV : principe

On a donc ”sous certaines hypoth`eses” que :

√n bθnmv−θ d

−→ N 0, 1

I(θ)

Les hypoth`eses suffisantes pour assurer lanormalit´e asymptotique de l’EMV de variance asymptotiqueI(θ)−1sont `a l’origine de la d´efinition d’unmod´ele r´egulier.

Conclusion : L’´etude de la normalit´e asymptotique des EMV nous am´ene

`a introduire les notions suivantes : 1. le score

2. l’information de Fisher 3. un mod´ele r´egulier

29/42

(30)

R´ egularit´ e d’un mod` ele statistique et information

I Cadre simplificateur : mod`ele domin´e (parµ) X1, . . . ,Xn

i.i.d.

∼ Pθ

dans la famille

Pθ, θ∈Θ avec Θ⊂R(pour simplifier).

I Notation :

f(θ,x) = dPθ

dµ (x), x ∈R, θ∈Θ.

I Hypoth`ese: la quantit´e I(θ) =Eθ

1logf(θ,X)2

est bien d´efiniePθ-p.s..

30/42

(31)

Information de Fisher

D´ efinition

I(θ) =Eθ

1logf(θ,X)2

s’appelle l’information de Fisherde la famille{Pθ, θ∈Θ}au pointθ.

I L’information de Fisher ne d´epend pas de la mesure dominanteµ

I Le cadre d’int´erˆet est celui o`u

0<I(θ)<+∞.

I I(θ) quantifiel’informationqu’apporte chaque observation Xi

sur le param`etreθ.

I on a Pθ

f(θ,X)>0

= 1, donc la quantit´e logf(θ,X) est bien d´efinie.

31/42

(32)

Mod` ele r´ egulier

D´ efinition

La famille de densit´es{f(θ,·), θ∈Θ}, par rapport `a la mesure dominanteµ,Θ⊂Rouvert, estr´eguli`ere si

I {f(θ,·)>0}={f(θ0,·)>0},µ-p.p.∀θ, θ0 ∈Θ

I µ-p.p.θ7→f(θ,·), θ7→logf(θ,·)sontC2

I ∀θ∈Θ,∃Vθ⊂Θt.q. pour a∈ Vθ

|∂a2logf(a,x)|+|∂alogf(a,x)|+ ∂alogf(a,x)2

≤g(x) o`u

Z

R

g(x) sup

a∈V(θ)

f(a,x)µ(dx)<+∞

I L’information de Fisher est non-d´eg´en´er´ee :

∀θ∈Θ, I(θ)>0

32/42

(33)

R´ esultat principal

Theorem

Dans le mod`ele d’´echantillonnage associ´e `a un mod`ele r´egulier on a : pour toutθ∈Θ,

√n bθnmv−θ d

−→ N 0, 1

I(θ)

33/42

(34)

Information de Fisher dans le mod`ele d’´echantillonnage

Dans le mod`ele d’´echantillonnage (surR) domin´e (parµ), on observe X1, . . . ,Xni.i.d.∼ Pθ, θ∈Θ⊂R

et on note les densit´es (pour toutθ∈Θ,x∈R) dPθ

dµ (x) =f(θ,x) L’exp´erience statistique associ´ee est

En= Rn,B(Rn),{P⊗nθ , θ∈Θ}

qui est domin´ee parµ⊗n, de densit´e :∀z = (x1, . . . ,xn)∈Rn,

fn(θ,z) = dPZ⊗n(z) =

n

Y

i=1

f(θ,xi)

o`uZ = (X1, . . . ,Xn) est une observation de l’exp´erienceEn.

34/42

(35)

Information de Fisher dans le mod`ele d’´echantillonnage

L’information de Fisher contenue dans une observationZ = (X1, . . . ,Xn) deEn enθest

In(θ) =I(θ|En) =Eθ

(∂1logfn(θ,Z))2 Par ailleurs, pour une seule observationX1 de l’exp´erience

E= R,B(R),{Pθ, θ∈Θ}

,

l’information de Fisher est

I(θ) =I(θ|E) =Eθ

(∂1logf(θ,X1))2

Theorem

I(θ| En) =nI(θ| E)

(36)

Le cas multidimensionnel

D´ efinition

Soit Z∼Pθ avecθ∈Θ⊂Rd de densit´e f(θ,·). La matrice d’information de Fisheren θest

I(θ) =Eθ

θlogf(θ,Z)∇θlogf(θ,Z)T

I I(θ) est unematriced×d sym´etrique positive

I Dans le mod`ele d’´echantillonage domin´e, on noteI(θ) l’information de Fisher pour une observationX1, sous des hypoth`eses de r´egularit´e du mod`ele, on a

√n θbnmv−θ d

−→ N

0,I(θ)−1

36/42

(37)

R´egion de confiance asymptotique pour l’EMV (1/2)

Dans le mod`ele d’´echantillonnage domin´e r´egulier tel que l’information de Fisher (pour une observationX1)

θ∈Θ⊂Rd 7→I(θ)∈Rd×d est continue, on peut appliquer le lemme de Slutsky :

√nI(bθnmv)1/2 θbnmv−θ d

−→ N 0,Id o`uId est la matrice identit´e deRd×d.

Ainsi, pour toutE⊂Rn (mesurable), quandn→ ∞, P

h√nI(bθnmv)1/2 θbnmv−θ

∈Ei

−→P[G ∈E] o`uG ∼ N(0,Id).

37/42

(38)

R´egion de confiance asymptotique pour l’EMV (2/2)

PourB2d ={x∈Rd :kxk2≤1},G ∼ N(0,Id) etc>0, on a : P

h√

nI(bθnmv)1/2 θbnmv−θ

∈cB2di

−→P[kGk2≤c]

CommekGk22suit une loi duχ2(d) (”khi2 `ad degr´es de libert´e”), on a pour toutα∈(0,1), quandn→ ∞,

P h

θ∈ In,α

i−→1−α o`u

In,α=θbnmv+q1−αχ2(d)

√n I(bθnmv)−1/2B2d C’est une ellipse centr´ee enbθnmv.

38/42

(39)

Formules de calcul de l’information de Fisher

Proposition

Dans un mod`ele r´egulier : I(θ) =Eθ

(∂θlogf(θ,X))2

=−Eθθ2logf(θ,X)

=−∂a2D(a, θ) a=θ

o`uD(a, θ) =Eθ

logf(a,X) .

39/42

(40)

Interpr´ etation g´ eom´ etrique

I On poseD(a, θ) =Eθ

logf(a,X)

. On a (par l’in´egalit´e d’entropie) que

D(a, θ) = Z

R

logf(a,x)f(θ,x)µ(dx)

≤ Z

R

logf(θ,x)f(θ,x)µ(dx) =D(θ, θ).

I On a

I(θ) =−∂a2D(a, θ) a=θ

I I(θ) est petite : lerayon de courbure dea7→D(a, θ) est granddans un voisinage deθ: la stabilisation d’un maximum empirique (l’EMV) est plus difficile, rendant moins pr´ecis l’estimation.

I I(θ) est grande : lerayon de courbure est petitet le maximum de l’EMV est mieux localis´e.

40/42

(41)

Exercices classiques

Savoir calculer : 1) la vraisemblance, 2) l’EMV, 3) l’information de Fisher, 4) le comportement asymptotique de l’EMV, 5) un intervalle de confiance pourθ; pour le mod`ele d’´echantillonnage de loi :

I Bernoulli B(θ)

I Normal N(m,v)

I UniformeU([a,b])

I PoissonP(θ)

I L’estimation du param`etre d’une loi exponentielle avec ou sans censure.

I mod`ele de r´egression

41/42

(42)

application : efficacit´ e ` a un pas

I Dans un mod`ele r´egulier, lecalcul num´erique de l’EMV peut ˆetre difficile `a r´ealiser.

I Si l’on dispose d’un estimateurθbn asymptotiquement normalet si les

´

evaluations

`0n(θ) = 1 n

n

X

i=1

1logf(θ,Xi), `00n(θ) = 1 n

n

X

i=1

21logf(θ,Xi)

sont faciles, alors on peutcorrigerθbn de sorte d’avoir le mˆeme comportement asymptotique que l’EMV :

n=θbn−`0n(bθn)

`00n(bθn) (algorithme de Newton) satisfait

√n θen−θ d

−→ N 0, 1

I(θ)

42/42

Références

Documents relatifs

a La question pr´ ec´ edente justifie la non nullit´ e des d´

R´epondre exactement aux pr´edicats mais pas forc´ement du calcul exact.. Algorithmes

Syst`eme de coordonn´ee pour un nuage de points Dessin de graphes et similarit´es mol´eculaires.. 1998

Autres probl`emes en g´eom´etrie algorithmique G´en´eralisations (puissance, contraint. ) Enveloppes convexes...

D´eterminer les ´equations r´eduites des droites (AB) et

Il sera tenu compte de la qualit´ e de la r´ edaction pour l’attribution d’une note..

Trouver des relations de d´ependance lin´eaire entre des vecteurs donn´es g´eom´etriquement. Voir que l’image d’une base d´etermine

Ce th´ eor` eme est un outil tr` es utile pour ´ etudier une int´ egrale g´ en´ eralis´ ee d’une fonction positive, lorsque l’on ne peut pas calculer l’int´ egrale de la