• Aucun résultat trouvé

L’Estimateur du Maximum de Vraisemblance

Dans le document Probabilités et statistiques - Cours 1 PDF (Page 118-124)

7.2 Estimateurs

7.2.2 L’Estimateur du Maximum de Vraisemblance

Lors d’une enquˆete polici`ere, si un suspect de sexe inconnu mesure environ 1.50 m, on aura plutˆot tendance `a rechercher une femme tandis que s’il mesure environ 1.80 m, on recherchera plutˆot un homme.

La notion de maximum de vraisemblance permet de formaliser cette intuition. On peut mod´eliser la distribution des tailles (en m`etres) f´eminines par une loi gaussienne d’esp´erance µF = 1,62 et d’´ecart type σF = 0.069 et celle des tailles masculines par une loi gaussienne d’esp´eranceµH = 1,76 et d’´ecart typeσH = 0.073. Les densit´es de ces deux lois sont repr´esent´ees sur la figure 7.1. Lorsque l’on connait la taille x d’un suspect, on

130 140 150 160 170 180 190 200 210

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07

130 140 150 160 170 180 190 200 210

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07

Homme Femme

Figure 7.1 – Densit´es des lois gaussiennes mod´elisant la taille des hommes et celle des femmes.

pourra supposer que ce suspect est une femme si la densit´e des tailles f´eminines prise en x est sup´erieure `a celle des tailles masculines et vice et versa.

D’un point de vue math´ematique, dans le mod`ele {N(µθ, σθ2), θ ∈ {F, H}}, lorsque l’on observe la taille x d’un individu, on peut estimer le sexe de cet individu en choisissant θ ∈Θ ={F, H} qui maximise la vraisemblance θ→ σθ1e

(x−µθ)2 2

θ .

D´efinition 7.2.9. On suppose que pour toute r´ealisationx= (x1, . . . , xn)de l’´echantillon X = (X1, . . . , Xn), il existe une unique valeur θn(x) ∈ Θ qui maximise la vraisemblance de la r´ealisation x : pn(x, θn(x)) = maxθΘpn(x, θ). Alors la statistique θˆn = θn(X) est appel´ee Estimateur du Maximum de Vraisemblance de θ.

Remarque 7.2.10. Dans le cas d’un mod`ele discret, pn(x, θ) = Pθ(X =x) et θn(x) est la valeur du param`etre θ dans Θ qui maximise la probabilit´e d’observer x sous Pθ.

www.alloacademy.com

7.2. ESTIMATEURS 111

Comme la fonction logarithme est strictement croissante, il revient au mˆeme de maxi-miser la vraisemblance θ → pn(x, θ) ou de maximiser la log-vraisemblance θ → ln(x, θ) d´efinie par

ln(x, θ) = ln(pn(x, θ)).

On pose ´egalement l(x1, θ) = ln(p(x1, θ)) =l1(x1, θ). Les calculs sont parfois plus simples avec la log-vraisemblance notamment parce que ln(x, θ) =

n

X

i=1

l(xi, θ) . Exercice 7.2.11. On se place dans le mod`ele P ={E(θ), θ >0}.

1. D´eterminer l’EMV ˆθn deθ et montrer qu’il est fortement convergent.

2. Remarquer que sous Pθ, X1 +. . .+Xn ∼Γ(n, θ). En d´eduire Eθ converge en loi vers une limite `a pr´eciser et conclure que l’EMV est asymptotique-ment normal de variance asymptotique `a pr´eciser.

Exemple 7.2.12. Le cas du mod`ele gaussien P ={N1(µ, σ2), µ ∈R, σ2 >0} : Pour Donc la vraisemblance et la log-vraisemblance s’´ecrivent

pn(x,(µ, σ2)) = 1

On cherche donc maintenant `a minimiser f(λ) pour λ ∈ R

+. Comme la d´eriv´ee f(λ) =

1

λ(1−vλn) est n´egative sur ]0, vn] et positive sur [vn,+∞[, la fonctionf atteint son minimum en vn. On conclut donc que la log-vraisemblance est maximale en (¯xn, vn). Ainsi l’EMV de (µ, σ2) est le couple moyenne empirique, variance empirique ( ¯Xn, Vn). Notons que l’on obtient ´egalement l’EMV en r´esolvant le syst`eme

(

Comme E(µ,σ2)(( ¯Xn, Vn)) = (µ,nn1σ2), l’EMV est un estimateur biais´e. Il est fortement convergent d’apr`es la loi forte des grands nombres.

Pour d´emontrer qu’il est asymptotiquement normal, on remarque que d’apr`es le corollaire 6.2.4, ( ¯Xn, Vn) =L

suivant la loi normale centr´ee r´eduite ind´ependante de (Xi)i1. On en d´eduit que

√n ( ¯Xn, Vn)−(µ, σ2) L

D’apr`es le th´eor`eme de la limite centrale multidimensionnel 6.2.8, le premier terme du second membre converge en loi vers la loi gaussienne centr´ee de matrice de covariance

´egale `a celle du vecteur (X1, σ2G21) c’est-`a-dire

Le second terme du second membre converge presque sˆurement vers (0,0). Avec le second cas particulier du th´eor`eme de Slutsky 5.3.13, on conclut que l’Estimateur du Maximum de Vraisemblance ( ¯Xn, Vn) est asymptotiquement normal de matrice de covariance asymp-totique Σ(σ2).

Exercice 7.2.13. Dans le mod`ele de BernoulliP ={B(p), p∈[0,1]}, v´erifier que l’EMV de pest la moyenne empirique ¯Xn= n1Pn

i=1Xi.

Dans les deux exemples pr´ec´edents, l’Estimateur du Maximum de Vraisemblance est fortement convergent et asymptotiquement normal. En fait, ces propri´et´es sont assez g´en´erales :

Th´eor`eme 7.2.14. Sous de bonnes propri´et´es de r´egularit´e sur le mod`ele que nous ne pr´eciserons pas, l’Estimateur du Maximum de Vraisemblance de θ est fortement convergent et asymptotiquement normal de variance asymptotique I1(θ) o`u la ma-trice I(θ) =Eθ(∇θl(X1, θ)∇θl(X1, θ)) s’appelle information de Fisher (∀1 ≤ i, j ≤ d, Iij(θ) = Eθ

∂l

∂θi(X1, θ)∂θ∂lj(X1, θ) ).

Nous renvoyons au paragraphe II.16 de [1] pour une ´etude pr´ecise et rigoureuse des propri´et´es de l’EMV.

Remarque 7.2.15. La pr´ecision asymptotique de l’estimation deθpar maximum de vrai-semblance est donn´ee par l’inverse de l’information de Fisher. Conform´ement `a l’intuition, plus l’information est grande et meilleure est la pr´ecision de l’estimateur du maximum de vraisemblance.

L’information de Fisher a une autre expression qui permet souvent de simplifier les cal-culs. Elle s’exprime comme l’oppos´e de l’esp´erance de la matrice hessienne ∇2θl(X1, θ) :

I(θ) = −Eθ2θl(X1, θ)

. En effet, dans le cas d’un mod`ele `a densit´e (sinon il suffit de remplacer les int´egrales par des sommes), comme pour tout θ ∈Θ, 1 = R

p(x1, θ)dx1 en

7.2. ESTIMATEURS 113

Exercice 7.2.16. Calculer l’information de Fisher dans le mod`ele de Bernoulli et le mod`ele P ={E(θ), θ >0}.

La plupart des mod`eles qui portent sur les familles de lois usuelles param´etr´ees par θ ∈Θ⊂Rd sont dits exponentiels au sens o`u discret, Rk est remplac´e par l’ensemble d´enombrable F dans lequel lesXi prennent leurs valeurs.

dans le cas `a densit´e.

Exemple 7.2.17. — Le mod`ele gamma P ={Γ(a, λ),(a, λ)∈(R

— Le mod`ele de Bernoulli est exponentiel puisque

∀x1 ∈ {0,1}, px1(1−p)1x1 =ex1ln(1−pp )+ln(1p)

Nous allons donner une id´ee de la preuve du th´eor`eme 7.2.14 dans le cas d’un mod`ele exponentiel avec un param`etre de dimension d = 1 (pour simplifier l’analyse) qui prend ses valeurs dans un ouvert Θ deRet une fonctionγ r´eguli`ere. Commeγ est injective,γ est alors strictement monotone et on la supposera strictement croissante afin de fixer les id´ees.

Enfin nous supposerons le mod`ele `a densit´e (ce n’est pas restrictif : dans le cas discret, on remplace les int´egrales par des sommes).

D´emonstration : On a alors

p(x1, θ) = h(x1)eγ(θ)T(x1)ϕ(γ(θ)) avecϕ(λ) = ln Z

h(x1)eλT(x1)dx1

.

En d´erivant sous le signe int´egral par rapport `a λ (ce que l’on peut justifier `a l’aide du th´eor`eme de convergence domin´ee `a l’int´erieur du domaine o`uϕ est finie), il vient

ϕ(λ) = d´efinition des mod`eles exponentiels, la fonction T est non constante sur {x1 :h(x1)>0}, la fonction ϕ′′(λ) est strictement positive par l’in´egalit´e de Cauchy-Schwarz. Avec la croissance stricte de γ, on en d´eduit que la fonction ϕ ◦ γ est ´egalement strictement croissante. Sa continuit´e entraˆıne qu’elle est inversible d’inverse ψ continu. En outre, l’image ϕ(γ(Θ)) de Θ par l’application ϕ◦γ est un ouvert.

La log-vraisemblance ln(x, θ) est, `a une fonction ne d´ependant pas de θ pr`es, ´egale `a γ(θ)Pn

i=1T(xi)−nϕ(γ(θ)) si bien que l’´equation d’optimalit´e du premier ordre s’´ecrit nγ(θ) 1

i=1T(Xi)) existe `a partir d’un certain rang n et converge vers ψ(ϕ(γ(θ))) =θ par continuit´e de ψ.

La fonction g d´efinie par

g(t) =

7.2. ESTIMATEURS 115

Sous Pθ, la convergence presque sˆure de ˆθn vers θ entraˆıne que le premier terme du produit converge presque sˆurement vers g(θ)p

ϕ′′(γ(θ)) = 1/(γ(θ)p

ϕ′′(γ(θ))). Par le th´eor`eme de la limite centrale 5.4.1, le second converge en loi vers la loi normale centr´ee r´eduite. On d´eduit alors du th´eor`eme de Slutsky 5.3.13 que sous Pθ,√

n(ˆθn−θ) converge en loi vers la loi N1(0,)2(θ)ϕ1′′(γ(θ))).

Comme ∂θl(x1, θ) =γ(θ)(T(x1)−ϕ(γ(θ))), l’information de Fisher est ´egale `a I(θ) = (γ)2(θ)Eθ((T(X1)−ϕ(γ(θ)))2) = (γ)2(θ)Varθ(T(X1)) = (γ)2(θ)ϕ′′(γ(θ)),

ce qui ach`eve la d´emonstration.

Remarque 7.2.19. SoitZ =z(X1, . . . , Xn) un estimateur sans biais d’un param`etreθde dimension 1 dans un mod`ele `a densit´e (sinon, on remplace les int´egrales par des sommes).

D’apr`es (7.1), puis en utilisant (7.2), l’in´egalit´e de Cauchy-Schwarz et l’ind´ependance des variables Xi

sous Pθ, on obtient

Avec la propri´et´e 7.2.5, on en d´eduit la minoration de Fr´echet-Darmois-Cramer-Rao du risque quadratique de l’estimateur : R(Z, θ) = Varθ(Z)≥ nI(θ)1 .

Si, dans la convergence en loi ´enonc´ee dans le th´eor`eme 7.2.14, il y a convergence du mo-ment d’ordre 2, alors le risque quadratique de l’Estimateur du Maximum de Vraisemblance v´erifie R(ˆθn, θ) = 1nEθ((√

n(ˆθn−θ))2)∼ nI(θ)1 pourn→+∞. Dans ces conditions, l’EMV (qui n’est pas forc´ement sans biais) atteint asymptotiquement la borne. Cela montre la qualit´e de cet estimateur.

L’exercice suivant est consacr´e au mod`ele uniforme, dans lequel l’EMV est bien forte-ment convergent mais pas asymptotiqueforte-ment normal.

Exercice 7.2.20. On se place dans le mod`ele uniforme P ={U[0, θ], θ >0}. 1. Ce mod`ele est-il exponentiel ?

2. V´erifier que l’EMV de θ est ˆθn = max(X1, . . . , Xn).

3. Pour x ∈ [0, θ], calculer Pθ(ˆθn ≤ x) et en d´eduire que ˆθn est un estimateur convergent de θ. Avec la monotonie de la suite (ˆθn)n conclure qu’il est mˆeme forte-ment convergent.

4. V´erifier que ˆθn a mˆeme loi queθU1/n o`u U ∼ U[0,1]. En remarquant que pour tout u ∈ [0,1], n(1−u1/n) converge vers −ln(u) lorsque n tend vers +∞, conclure que sousPθ,n(θ−θˆn) converge en loi vers−θln(U) lorsquentend vers +∞. Ainsi, dans ce mod`ele, l’EMV converge `a la vitesse 1/n et non 1/√

www.alloacademy.com

n.

Dans le document Probabilités et statistiques - Cours 1 PDF (Page 118-124)