 E imateur du maximum de vraisemblance

(1)

X  – MAP 

PC  –  juin  – E imateurs, TCL, ve eurs gaussiens Corrig´e des que ions non abord´ees en PC

Igor Kortchemski –igor.kortchemski@cmap.polytechnique.fr

Corrigé des exercices non traités surhttp:// www.normalesup.org/ ˜ kortchem/ MAPun peu après la PC.

 E imateur du maximum de vraisemblance

E ^{xercice 3.}

(Plus appliqué)Une colonie de vampires a élu domicile dans un château des Carpates, et la comptesse D. souhaite eimer leur nombre. Pour cela, une nuit de pleine lune, la comptesse en capture, leur mord les oreilles, puis les relâche. La nuit suivante, elle en captureau hasard. Trois ont une morsure aux oreilles.

Aidez la comptesse D. en utilisant un eimateur du maximum de vraisemblance.

Corrigé : Notonsnle nombre de vampires dans le château. Alors la probabilité que parmivampires capturés au hasard la nuit suivante trois vampires ont des morsures aux oreilles e

p_n=

n−



n . Pour trouver la valeur denmaximisant cette quantit´e, on remarque que

p_n

pn+ =n^−n−

n^−n+,

qui e riement inférieur àpourn≤et qui e riement supérieur àpourn≥. Ainsi,p_n emaximal

pourn=.

 Probl`eme r´ecapitulatif

E ^{xercice 4.}

(Modèle auto-régressif d’ordreAR()). Soit (Y_n)_n≥une suite de variables aléatoires indépendantes et de même loiN(m, σ^). Soienta∈RetX_une variable aléatoire de loiN(m_, σ_^) indépendante de (Y_n)_n≥. Pour toutn≥, on définit la suite récurrente aléatoire (X_n)_n≥par

X_n=aX_n−+Y_n.

Il s’agit d’un cas particulier deséries temporelles, utilisées pour modéliser l’évolution passée d’une quantité pour en prévoir le comportement futur.

Premi`ere partie.

() Montrer que (X_, . . . , X_n) eun veeur gaussien.

() D´eterminer la loi deX_net exprimer Cov(X_k, X_n) en fonion de Var(Xk) pour≤k≤n. Trouver la valeur dectelle queX_+cX_soit ind´ependant deX_.

() `A quelle condition surala suite (X_n) converge-t-elle en loi ?Quelle ealors la loi limite ?Quelle ela loi deX_nsi X_a cette loi limite ?

Pour des queions, demande d’explications etc., n’h´esitez pas `a m’envoyer un mail.



(2)

() Montrer que sia∈]−,[, le veeur (Xn, X_n+) converge en loi vers un veeur gaussien dont on d´eterminera les param`etres.

() Poura∈]−,[, ´etudier la convergence en loi de la moyenne empiriqueX_n=^_nPn i=X_i.

Deuxième partie. On suppose maintenant que (Y_n)_n≥eune suite de variables aléatoires indépendantes et de même loiN(, σ^) (avecσ connu), queX_=et queaeinconnu.

() Soitgla densit´e d’une loi gaussienneN(, σ^). Montrer qu’une densit´efnde (X_, . . . , Xn) au point (x_, . . . , xn) e f_n(x_, . . . , x_n) =g(x_)g(x_−ax_)· · ·g(x_n−ax_n−).

() D´eterminer l’eimateur du maximum de vraisemblanceba_n=ba_n(X_, . . . , X_n) dea.

Corrig´e :

Premi`ere partie.

() On montre par récurrence surnque toute combinaison linéaire de (X_, . . . , X_n) egaussienne. Pourn=il n’y a rien à faire. Supposons acquis le résultat au rangnet montrons le au rangn+. Pour des réels (λi)_^≤i≤n+,

on a n+

X

i=

λ_iX_i=λ_X_+· · ·+λ_n−X_n−+ (aλ_n++λ_n)X_n+Y_n+.

Par hypothèse de récurrence,λ_X_+· · ·+λ_n−X_n−+ (aλ_n++λ_n)X_neune gaussienne, de plus indépendante deY_n+, d’o ù le résultat.

() Pour trouver la loi deX_n, il suffit de trouver son esp´erance et sa variance. On a

E[X_n] =aE[X_n−] +E[Y_n] =aE[X_n−] +m, Var(X_n) =a^Var(X_n−) +σ^. Ce sont deux suites arithmético-géométriques, et on trouve

E[Xn] =











mn+m_ sia= aⁿ

m_− ^m

−a

+_^m−a sia,, Var(Xn) =











σ^n+σ_^ sia= a^n

σ_^− ^σ^

−a

+_^σ−^a sia,.

Pour calculer Cov(X_k, X_n), on remarque que

Xn=Yn+aYn−+· · ·+aⁿ⁻^k⁻^Yk++aⁿ⁻^kXk, d’o `u, par ind´ependance deX_ket desY_i,

Cov(X_k, X_n) =aⁿ⁻^kVar(X_k).

Comme (X_, X_) e un veeur gaussien, X_+cX_ e ind´ependant de X_ si et seulement si Cov(X_+ cX_, X_) =. Or

Cov(X_+cX_, X_) = Var(X_) +cCov(X_, X_) = Var(X_)(c+a).

Ainsi,X_+cX_eind´ependant deX_si et seulement sic=−a.

() La suite (Xn) converge en loi si et seulement si sa fonion cara´eriique converge en tout point vers une fonion continue en. On rappelle que

E[X_n] =











mn+m_ sia= aⁿ

m_− ^m

−a

+_^m−a sia,, Var(X_n) =











σ^n+σ_^ si|a|= a^n

σ_^− ^σ^

−a^

+_^σ₋^_a si|a|,.



(3)

On a

E he^itXⁿi

=eⁱ^E^[Xⁿ^]t⁻^Var(^Xn^)t



Si|a|<ou si (m_, σ_^) = (_^m−a,_^σ₋^_a), on voit que

E he^itXⁿi

−→

n→∞ e^it^^m⁻^a⁻ ^σ



−a·^t^

.

Ainsi,

X_n −→^loi

n→∞

N m

−a, σ^

−a^

! .

Si|a|=, ou si|a|>avecσ_^,_^σ−^a^, alorse⁻^σⁿ^^t^^ →lorsquet,. Dans ce cas, E

he^itXⁿi

−→

n→∞ 1_t=, fonion qui n’epas continue en. DoncX_nne converge pas en loi.

Finalement, le cas o ù|a|>etσ_^=_^σ₋^_a ebeacoup plus délicat. Supposons par l’absurde queX_nconverge en loi vers X. L’ensemble des points de discontinuité de la fonion de répartition F_X de X e au plus dénombrable, il exie donc A >suffisamment grand tel queP(X≥A)</et tel que F_X soit continue enA. Commem_ntend vers l’infini, pournsuffisamment grand (de sorte quem_n> A) :

P(X_n≥A)≥P(X_n≥m_n) =

.

carX_neune gaussienne de moyennem_n. OrP(X_n≥A)→P(X≥A)</, absurde.

SiX_=N _m

−a,_^σ−^a

, on voit queX_na la mˆeme loi queX_pour toutn≥.

() D’après la queion précédente, comme Xn et Yn+ sont indépendantes, (X_n, Yn+) converge en loi vers un veeur gaussien (X, Y) avec X=N _m

−a,_^σ₋^_a

,Y =N(m, σ^) etX ind´ependant deY. Comme (X_n, X_n+) = (Xn, aXn+Yn+), on en d´eduit que (Xn, Xn+) converge en loi vers (X, aX+Y) (par composition avec l’application continue (x, y)7→(x, ax+y)). Tout d’abord, on a

Cov(X, aX+Y) = Cov(X, aX) =aVar(X) = aσ^

−a^.

Le veeur gaussien (X, aX+Y) a donc pour moyenne (_^m−a,_^am−a+m) = (_^m−a,_^m−a) et pour matrice de covariance







σ^

−a^ aσ^

−a^ σ^

−a^







() La variable al´eatoireXn suit une loi gaussienne car (X_, . . . , Xn) e un veeur gaussien. On calcule ainsi la fonion cara´eriique deX_n:

E

e^itXⁿ

=eⁱ^E[^Xn]^t⁻^Var(_^Xn⁾^t^. Il s’agit donc d’´etudier le comportement asymptotique deE

hX_ni

et de Var(X_n) lorsquen→ ∞. Tout d’abord,

E hX_ni

= Pn

k=E[X_k]

n −→

n→∞

m

−a. Pour calculer la variance deXn, on peut remarquer queXk=a^kX_+Pk

i=a^k⁻ⁱYi pourk≥. Ainsi, X_+· · ·+Xn=λ_X_+λ_Y_+· · ·+λnYn



(4)

avec

λ_=a+a^+· · ·+aⁿ≤ 

−a etλi=+a+· · ·+aⁿ⁻ⁱ≤ 

−a pour≤i≤n.

Ainsi,

Var(X_+· · ·+X_n) =λ^_σ_^+ Xn

i=

λ^_iσ^≤Cn.

pour une certaine conanteC >qui ne d´epend pas den. Donc Var(Xn) =Var(X_+· · ·+Xn)

n^ −→

n→∞ .

Ainsi,

E

e^itXⁿ

−→

n→∞ eⁱ^^m⁻^a^t. DoncX_nconverge en loi vers la variable al´eatoire conante _^m−a.

Remarque.Une fois qu’on sait queE hX_ni

→ ^m

−a et que Var(X_n)→, il epossible d’en déduire queX_n converge en loi vers _^m−aen toute généralité en utilisant l’inégalité de Markov. En effet, pour tout >

P

Xn− m

−a >

≤  ^E

Xn− m

−a _

= 

^E

Xn−E hXn

i+E hXn

i− m

−a _

= 

^Var(X_n) +

E hX_ni

− m

−a 

, qui tend vers. DoncX_nconverge en probabilit´e vers _^m−a, donc en loi.

Deuxi`eme solution.

Deuxi`eme partie.

() On raisonne par récurence surnen utilisant la méthode de la fonion muette. Pourn=, le résultat evrai.

Supposons le acquis au rangn−et démontrons-le au rangn. Par indépendance de (X_, . . . , Xn−) avecYn, pour toute fonionF:Rⁿ→Rcontinue bornée on a d’après le théorème de transfert

E[F(X_, . . . , X_n)] = E[F(X_, . . . , X_n−, aX_n−+Y_n)]

= Z

Rⁿ⁻^

dx_· · ·dxn−

Z

R

dyF(x_, . . . , xn−, axn−+y)fn−(x_, . . . , xn)g(y).

En faisant le changement de variableu=ax_n−+y, on a donc E[F(X_, . . . , X_n)] =

Z

Rⁿ

dx_· · ·dx_nF(x_, . . . , x_n−, x_n)f_n−(x_, . . . , x_n−)g(x_n−ax_n−).

Donc

f_n(x_, . . . , x_n) =f_n−(x_, . . . , x_n−)g(x_n−ax_n−) et le résultat désiré s’ensuit.

(è) Pour déterminer l’eimateur du maximum de vraisemblance, posonsh(a) =g(x_)g(x_−ax_)· · ·g(x_n−ax_n−) et maximisonshen maximisant plutôtL(a) = lnh(a). On a

L(a) =−nln(σ√

π)

 − x^_

σ^+

n−

X

i=

(xi+−axi)^

σ^ , d’o `u

L⁰(a) =

n−

X

i=

−xi(xi+−axi) σ^ =σ⁻^





 a

n−

X

i=

x_i^−

n−

X

i=

x_ix_i−





 .

On a donc

ba_n= Pn−

i=X_iX_i−

Pn− i=X_i^ .



(5)

 Pour aller plus loin

E ^{xercice 6.}

^(Eimateurs linéaires)Soient X_, . . . , X_n des variables aléatoires indépendantes de même loi et de carré intégrable. Trouver l’eimateurθbn de la moyenneθ=E[X_], qui soit sans biais (c’e-à-direE

h θbn

i=θet de variance minimale dans la classe des eimateurs lin´eairesθbn=Pn

k=akXk.

Corrigé : Commeθb_n esans biais, on aa_+· · ·+a_n=. Comme les variables aléatoires sont indépendantes, on aVar(θb_n) =Pn

i=a^_iσ^avecσ^= Var(X_). D’après l’inégalité de Cauchy-Schwarz, on a





 Xn

i=

a^_i







·





 Xn

i=

 n^







≥





 Xn

i=

ai

n









. Puisquea_+· · ·+a_n=, on en d´eduit quePn

i=a^_i ≥ ^

n avec égalité si et seulement sia_i =_n^ pour touti∈ {,, . . . , n}. L’eimateur de variance minimale dans la classe des eimateurs linéaires et sans biais edonc la moyenne empi- riqueX_n=^_nPn

i=X_i.

E ^{xercice 7.}

^Soit ^g^{: [,]}^→[,] une fonion (mesurable) born´ee. On souhaite calculerm=R_

 g(x)dx. On poseσ^= R_

g(x)^dx−m^. SoientXetY des variables al´eatoires ind´ependantes de loi uniforme sur [,]. On pose U=1Y≤g(X), V=g(X), W=g(X) +g(−X)

 .

() Calculer l’esp´erance et la variance deU , V , W. Comparer les variances deU etV. () Proposer trois m´ethodes de type Monte-Carlo pour calculerm.

On suppose dans la suite quegemonotone.

() V´erifier queE[g(X)g(−W)]≤m^et comparer les variances deV etW.

Indication.On pourra montrer que (g(x)−g(y))(g(−x)−g(−y))≤pour toutx, y∈[,].

Soit (X_i)_i≥une suite de variables al´eatoires ind´ependantes de loi uniforme sur [,].

() On consid`ere les eimateurs suivants dem:

A_n= 

n Xn

k=

g(X_k) et 

n Xn

k=

(g(X_k) +g(−X_k)).

Montrer qu’ils sont sans biais. Lequel poss`ede la plus petite variance ?

() Dans le cas o ùg(x) =x^, déterminer le nombrende simulations nécessaires garantissant une précision relative de

% sur le calcul demen erreur quadratique avecAnetBn(la pr´ecision relative ´etant^Var(A_mⁿ⁾,^Var(B_mⁿ⁾).

Corrig´e :

() Tout d’abord,Usuit une loi de Bernoulli de paramètreP(Y≤g(X)). On calcule cette quantité avec le théorème de transfert :

P(Y≤g(X)) =E

h1Y≤g(X)

i= Z

[,]^dxdy1y≤g(x)= Z_

 g(x)dx=m.

Ainsi,E[U] =metVar(U) =m(−m).

D’après le théorème de transfert,

E[V] = Z_

 g(x)dx=m et E[V^] = Z_

 g(x)^dx, doncVar(V) =σ^.



(6)

CommeXet−Xont même loi, on a par linéarité de l’espérance

E[W] =m et E[W^] =(σ^+m^) +R_

g(x)g(−x)dx

 .

Ainsi,

Var(W) =σ^−m^+R_

g(x)g(−x)dx

 .

On a

Var(U)−V = Z_

 g(x)(−g(x))dx.

() Par la loi forte des grands nombres, presque s ˆurement,

m= lim

n→∞

Card({≤i≤n:Yi≤g(Xi)})

n = lim

n→∞

Xn

i=

g(X_i) = lim

n→∞



n Xn

i=

(g(X_i) +g(−X_i)).

() Comme g e monotone, on a (g(x)−g(y))(g(−x)−g(−y))≤ pour tous x, y∈ [,]. On en d´eduit que E[g(X)g(−X)] +E[g(Y)g(−Y)]−E[g(X)]E[g(Y)]≤, c’e-`a-dire queE[g(X)g(−X)]≤m^.

Ainsi,Var(W)≤^σ^

 =^Var(V)_ .

() On a bienE[A_n] =E[B_n] =m. Par ailleurs, compte tenu de ce qui pr´ec`ede,

Var(An) =σ^

n, Var(Bn)≤Var(W) n ≤σ^

n.

La variance deA_nedonc moindre, maisA_nn´ecessite un ´echantillon deux fois plus gros queB_n.

() ^Var(A_mⁿ⁾=_^ donnen=^σ_m^. Pourg(x) =x^, il vientm=^_ etσ^=_^ et doncn'avecA_n, et en fait plus de

fois moins avecBncar il s’av`ere queVar(W) =_^ .



 E imateur du maximum de vraisemblance

X  – MAP 

PC  –  juin  – E imateurs, TCL, ve eurs gaussiens Corrig´e des que ions non abord´ees en PC

 E imateur du maximum de vraisemblance

E xercice 3.

 Probl`eme r´ecapitulatif

E xercice 4.

 Pour aller plus loin

E xercice 6.

E xercice 7.

E ^{xercice 3.}

E ^{xercice 4.}

E ^{xercice 6.}

E ^{xercice 7.}