• Aucun résultat trouvé

2 Estimation par la méthode des moments

N/A
N/A
Protected

Academic year: 2022

Partager "2 Estimation par la méthode des moments"

Copied!
5
0
0

Texte intégral

(1)

Estimation paramétrique

Retour auplan du cours

Soit (Ω,A,P)un espace probabilisé et X une v.a. de (Ω,A) dans (E,E).

La donnée d’un modèle statistique c’est la donnée d’une famille de proba- bilités sur (E,E), {Pθ, θ∈Θ}. Le modèle étant donné, on suppose alors que la loi de X appartient au modèle {Pθ, θ∈Θ}. Par exemple dans le modèle de Bernoulli, X = (X1, . . . , Xn) où les Xi sont i.i.d. de loi de Bernoulli de paramètreθ ∈]0,1[.E = {0,1}n,E = P(E), Θ =]0,1[ et Pθ= ((1−θ)δ0+θδ1)⊗n.

1 Premières définitions

DÉFINITION1. — On dit que le modèle{Pθ, θ∈Θ}est identifiable si l’ap- plication

Θ → {Pθ, θ∈Θ}

θ 7→ Pθ

est injective.

DÉFINITION2. — Soitg: Θ 7→ Rk. On appelle estimateur deg(θ)au vu de l’observationX, toute applicationT : Ω 7→ Rkde la formeT =h(X)où h: E 7→ Rkmesurable.

Un estimateur ne doit pas dépendre de la quantitég(θ) que l’on cherche à estimer. On introduit les propriètes suivantes d’un estimateur :

DÉFINITION3. —T est un estimateur sans biais deg(θ)si pour toutθ∈Θ, Eθ[T] =g(θ). Dans le cas contraire, on dit que l’estimateurTest biaisé et on appelle biais la quantitéEθ(T)−g(θ).

Généralement X est un vecteur(X1, . . . , Xn) d’observations (n étant le nombre d’entre elles). Un exemple important est le cas oùX1, . . . , Xnforme unn-échantillonc’est à dire lorsque queX1, . . . , Xnsont i.i.d. On peut alors regarder des propriétés asymptotiques de l’estimateur, c’est à dire en faisant

tendre le nombre d’observations nvers +∞. Dans ce cas, il est naturel de noterT =Tncomme dépendant den. On a alors la définition suivante : DÉFINITION4. — Tnest un estimateur consistant deg(θ)si pour toutθ∈Θ, Tnconverge en probabilité versg(θ)sousPθlorsquen→ ∞.

On définit le risque quadratique de l’estimateur dans le cas oùg(θ)∈R. DÉFINITION5. — SoitTnest un estimateur deg(θ). Le risque quadratique de Tnest défini par

R(Tn, g(θ)) =Eθ[(Tn−g(θ))2].

Remarque. — Le risque quadratique est la somme de la variance et du carré du biais de l’estimateur.

L’inégalité de Cramer-Rao et la définition de l’information de Fisher ont été vues en année 3 et ne sont pas rappelées ici.

2 Estimation par la méthode des moments

Dans cette section,Xest le vecteur formé par unn-échantillonX1, . . . , Xn. LesXisont à valeurs dans un ensembleX.

Soitf = (f1, . . . , fk)une application deXdansRktelle que l’application Θ → Rk

Φ : θ 7→ Eθ[f(X1)]

soitinjective. On définit l’estimateurθˆncomme la solution dansΘ(quand elle existe) de l’équation

Φ(θ) = 1 n

n

X

i=1

f(Xi). (1)

Souvent, lorsqueX ⊂ R, la fonction on prendfi(x) =xietΦcorrespond donc auième moment de la variables X1 sousPθ. Ce choix justifie le nom donné à la méthode. Voici quelques exemples d’estimateurs bâtis sur par cette méthode.

(2)

2.1 Loi exponentielle

Icik = 1,Qθ = E(θ)pour θ ∈ R+. Comme pour toutθ,Eθ[X1] = 1/θ on prendΦ(θ) = 1/θ etf = Id : R+ → R+. L’estimateur obtenu par la méthode des moments est

θˆn = 1 Xn

où Xn= 1 n

n

X

i=1

Xi.

Par continuité de l’applicationx→1/x,θˆnest un estimateur consistant deθ.

Remarquons queXn>0p.s. ce qui justifie l’égalité ci-dessus.

2.2 Loi uniforme

Ici k = 1, Qθ est la loi uniforme sur[0, θ] avecθ > 0. On a que pour tout θ, Eθ[X1] = θ/2, on peut donc prendre par exemple Φ(θ) = θ/2 et f =Id: R→R. L’estimateur obtenu par la méthode des moments est alors θˆn= 2Xn. Cet estimateur est sans bias et consistant.

2.3 Loi gaussienne

Icik = 2, on prendθ = (m, τ) ∈ R×R+,Qθ = N(m, τ). Pour tout θ = (m, τ),Eθ[X1] = metEθ[X12] = m2+τ. On peut donc prendre, par exemple,f1(x) = xetf2(x) = x2ce qui donneΦ(m, τ) = (m, m2+τ).

L’estimateur obtenus par la méthode des moments vérifie ˆ

mn=Xn et ˆm2n+ ˆτn= 1 n

n

X

i=1

Xi2.

c’est a dire

θˆn = Xn,1 n

n

X

i=1

Xi−Xn2

! .

L’estimateur est consistant mais l’estimateur de la variance est biaisé.

2.4 Propriétés asymptotiques

NotonsΦ(θ) =Eθ(n1Pn

i=1f(Xi)). Supposons queX1, . . . , Xnsont i.i.d.

de loiPθ0. Les résultats de consistance précédents étaient obtenus grâce au fait

que d’une part,

1 n

n

X

i=1

f(Xi)−−→p.s. Φ(θ0),

et donc, commeΦ−1existe et est continue au voisinage deΦ(θ0), on en déduit queθˆnexiste et vérifie

θˆn p.s.

−−→Φ−1◦Φ(θ0) =θ0.

Mais que peut-on dire de la distance de θˆn à θ0? Sous l’hypothèse que Eθ0[kfk2]<+∞on a grâce au théorème central limite que

√n 1 n

n

X

i=1

f(Xi)−Φ(θ0)

!

−−→ NLoi k(0,Γ(θ0)),

oùΓ(θ0)la matrice covariance def(X1)sousPθ0. Elle est définie pouri, j∈ {1, . . . , k}

Γi,j0) =Covθ0[fi(X1)fj(X1)].

La Delta méthode (cf Proposition16) va nous permettre de déduire un résultat similaire pourθˆn:

THÉORÈME6. — Supposons que Φsoit de classe C1 de

Θ dansRk et que θ0 ∈ Θ, et que Dθ0Φ : Rk → Rk soit inversible. Supposons de plus que Eθ0[kf(X1)k2]<+∞et notonsΓ(θ0)la matrice covariance def(X1)sous Pθ0. Alors sousPθ0:

– θˆnexiste avec une probabilité tendant vers 1 – on a la convergence en loi

√n θˆn−θ0

Loi

−−→ N

0,(Dθ0Φ)−1Γ(θ0)

(Dθ0Φ)−10 .

Démonstration. — CommeDθ0Φest inversible,DθΦreste inversible dans un voisinage deθ0et donc, d’après le théorème de l’inversion locale,Φréalise un difféomorphisme d’un voisinageUdeθ0dansV un voisinage deΦ(θ0). Par la

(3)

loi des grands nombres,Yˆn =n−1Pn

i=1f(Xi)converge en probabilité (car p.s.) versΦ(θ0)et doncYˆnappartient àV avec une probabilité tendant vers 1 quandntend vers+∞. Sur cet événement, l’équation (1) admet une unique solutionθˆn dansΘ(par injectivité deΦ) et cette solution vérifieθˆn ∈ U et θˆn= Φ−1( ˆYn)oùΦ−1est définie deV dansU. On a par ailleurs,

√n

θˆn−θ0

= √

nθˆn1Yˆn∈V/ +√ n

θˆn1Yˆn∈V −θ0

= √

nθˆn1Yˆn∈V/ +√

n[ ˜Φ−1n

−Φ˜−1(Φ(θ0))] (2) oùΦ˜−1(y) = Φ−1(y)1y∈V. Or√

nθˆn1Yˆn∈V/ converge vers 0 en probabilité car pour toutε >0,

Pθ0[a√

nθˆn1Yˆn∈V/ > ε]≤Pθ0[ ˆYn6∈V]−−→

n→+∞0.

D’après le lemme de Slutsky, il suffit donc de montrer que le second terme du membre de droite de (2) converge en loi vers la limite annoncée. Or par théoreme centrale limite vectoriel

√n

n−Φ(θ0) Loi

−−→ N(0,Γ(θ0)), et on conclut en utilisant la Proposition16.

3 Estimation par maximum de vraisem- blance

Soit{E,E,{Pθ, θ∈Θ}}un modèle statistique, oùΘ⊂Rk(nous sommes dans un cadre paramétrique). On suppose qu’il existe une mesureσ-finieµqui domine le modèle, c’est à dire que∀θ ∈Θ,Pθadmet une densitép(θ, .)par rapport àµ.

DÉFINITION7. — SoitX une observation. On appelle vraisemblance deX l’application

Θ −−→ R+

θ 7→ p(θ, X).

On appelle estimateur du maximum de vraisemblance deθ, tout élémentθˆ deΘmaximisant la vraisemblance , c’est à dire vérifiant

θˆ= arg max

θ∈Θp(θ, X).

Remarque. — L’estimateur de maximum de vraisemblance n’existe pas tou- jours et n’est pas toujours unique.

Considérons le cas typique oùX = (X1, . . . , Xn)0, les Xi formant un n- échantillon de loiQθ0oùQθ0est une loi surXde paramètre inconnuθ0∈Θ⊂ Rk. On suppose en outre que pour toutθ∈Θ,Qθest absolument continue par rapport à une mesureνsurX. Dans ce cas, en notant

q(θ, x) =dQθ dν (x), et en prenantµ=ν⊗non a que la vraisemblance s’écrit

p(θ, X) =

n

Y

i=1

q(θ, Xi)

et donc

θˆn= arg max

θ∈Θ

1 n

n

X

i=1

log[q(θ, Xi)],

avec la conventionlog(0) =−∞. Voyons quelques exemples.

3.1 Modèle de Bernoulli

SoitQθ0 =B(θ)avecθ ∈ [0,1] = Θ, etνla mesure de comptage surN. Pour toutθ∈]0,1[etx∈ {0,1}

q(θ, x) =θx(1−θ)1−x= (1−θ) exp[xlog θ

1−θ

]

et donc l’estimateur du maximum de vraisemblance doit maximiser dans[0,1]

log θSn(1−θ)n−Sn

=Snlog θ

1−θ

+nlog(1−θ),

ce qui conduit àθˆn = ¯X.

(4)

3.2 Lois exponentielles

SoitQθ=E(θ)avecθ∈θ=]0,+∞[,ν=1R+dx. On a pour toutx >0, q(θ, x) =θexp−θx,

et le maximum de vraisemblanceθˆnmaximisant nlog(θ)−θSn, est donné parθˆ= X¯−1

.

3.3 Lois de Poisson

SoitQθ=P(θ)avecθ ∈Θ =]0,+∞[etν la mesure de comptage surN. On a pour toutx∈N,

q(θ, x) = θx

x!e−θ=e−θexp[xlog(θ)−ln(x!)].

L’estimateur du maximum de vraisemblance maximisant Snlog(θ)−nθ,

est donné parθˆn= ¯X.

4 Estimateurs exhaustifs complets

DÉFINITION8. — On dit qu’un estimateur T est exhaustif (ou suffisant) si pour tout ensembleB ∈ E, il existe une version de l’espérance conditionnelle Eθ[1X∈B|T]qui ne dépend pas deθ.

Exemple. — SoitX1, . . . , Xn i.i.d. de loi de Bernoulli de paramètreθ.S = X1+. . .+Xn est une statistique exhaustive. La loi de(X1, . . . , Xn)/S=s ne dépend pas deθ.

THÉORÈME9. — Théorème de factorisation

Si la vraisemblance de l’observationXs’écrit sous la forme f(X, θ) =h(X)gθ(T(X)), alorsT(X)est une statistique exhaustive.

Exemples

X1, . . . , Xni.i.d. de loi de Bernoulli de paramètreθ, X1, . . . , Xni.i.d. de loi de normaleN(θ,1).

PROPOSITION10. — SoitT une statistique exhaustif etV un estimateur de g(θ)tel queEθ(V2)<+∞ ∀θ∈Θ. SoitT=Eθ(V /T).Test indépendant deθet pour toutθ∈Θ,

Eθ((T−g(θ))2)≤Eθ((V −g(θ))2),

ce qui signifie que le risque quadratique deTpour estimerg(θ)est inférieur ou égal à celui deV.

DÉFINITION11. — SoitT est un estimateur sans biais deg(θ). On dit que T est uniformément de variance minimale parmi les estimateurs sans biais (UMVB) si, pour tout estimateur sans biaisU deg(θ), on a

∀θ∈Θ, R(T, g(θ))≤R(U, g(θ)), oùRdésigne le risque quadratique.

SoitT un estimateur exhaustif deg(θ). On désire introduire une notion qui garantisse l’unicité d’un estimateurψ(T)qui a les deux propriétés suivantes : 1)ψ(T)est sans biais.

2) Parmi les les estimateurs sans biais, il est de variance minimale.

S’il existe un unique estimateur sans biais deg(θ)fonction deTalors Eθ1(T)) =Eθ2(T)) =g(θ) ∀θ∈Θ

=⇒ ψ1(T) =ψ2(T) Pθp.s.∀θ.

DÉFINITION12. — Une statistiqueT est complète si pour toute fonctionψ telle que

Eθ(|ψ(T)|)<+∞ ∀θ∈Θ, on a

Eθ(ψ(T)) = 0 ∀θ∈Θ =⇒ ψ(T) = 0 Pθp.s.∀θ.

(5)

SiT est une statistique complète et siψ1(T)etψ2(T)sont deux estimateurs sans biais deg(θ), alorsψ1(T) =ψ2(T)p.s.

Exemple des modèles exponentiels:

DÉFINITION13. — S’il existe une mesure de référenceµtelle que la loiPθ

admette une densité par rapport àµde la forme f(θ, x) =C(θ) exp(hT(x), Q(θ)i, le modèle est dit exponentiel.

PROPOSITION14. — Dans un modèle exponentiel,T(X)est une statistique exhaustive. De plus, siQ(Θ)contient un ouvert non vide deRk, alorsT(X) est complète.

PROPOSITION15. — Supposons qu’il existe au moins un estimateur sans biais deg(θ)et queT soit exhaustive complète. Alors il existe un unique estimateur sans biais deg(θ)fonction deT, et cet estimateur est UMVB.

Remarque. — Si l’objectif est de minimiser le risque quadratique, on a parfois intérêt à considérer des estimateurs qui sont biaisés.

5 Annexe : rappels sur les convergences

PROPOSITION16. — (Delta-Méthode) SoitXnune suite de v.a. à valeurs dans Rketθ∈Rk tels que

rn(Xn−θ)−−→Loi Y,

oùrnest une suite de réels positifs tendant vers+∞. Soitf une application deRkdansRmdifferentiable enθ. On a alors que

f(Xn)−−→Prob f(θ) et rn(f(Xn)−f(θ))−−→Loi Dθf[Y].

Remarque. — Ce résultat permet d’étendre à d’autres v.a. le théorème central limite. Classiquement,Y suit une loi gaussienneN(0,Γ)et dans ce cas

Dθf[Y]∼ N 0,(Dθf) Γ (Dθf)0 .

Remarquons que l’on ne suppose rien sur la régularité def ailleurs qu’enθ.

Notons aussi que l’on ne suppose pasDθf 6= 0et donc la limite peut-etre nulle éventuellement.

Références

Documents relatifs

[r]

Par ailleurs, nous avons pu constater que la notion de gravité était malheureusement rarement abordée dans la littérature (nous n’avons pu identifier que deux études traitant de

1- Le pascal est une unité peu pratique car très petite, on lui préfère donc bien souvent le bar. 3- La pression atmosphérique diminue avec l’altitude mais pas de façon

Dans ce travail, la m´ ethode des moments pond´ er´ es (PWM) est utilis´ ee pour estimer les param` etres de second ordre qui permettent d’affiner cette approximation : en

Exercice 2 Une marche aléatoire consiste en l'expérience probabiliste suivante : on se place à la position origine d'un axe, puis à chaque étape on fait un pas de longueur 1 vers

L’incorporation du travail posté semble plus intéressante : l’élasticité du travail posté est significative pour l’ensemble des estimateurs excepté l’estimateur MMGD ; dans

Comme les estimateurs sont des estimateurs linéaires des Y t [les Y t dépendent des ε t qui sont aléatoires et obéissent à des lois normales], alors les

Etape 3 : Déterminer les débits moyens maximaux de temps de retour 20 et 100 ans en appliquant la méthode du GRADEX et en utilisant le débit décennal comme point pivot. ƒ