• Aucun résultat trouvé

Variance et erreur quadratique moyenne d’un estimateur 100

Dans le document Statistique La théorie et ses applications (Page 115-120)

6.4 Une approche intuitive de l’estimation : la m´ ethode des moments 96

6.5.2 Variance et erreur quadratique moyenne d’un estimateur 100

La varianceVθ(Tn) de l’estimateur est un crit`ere important dans la mesure o`u elle caract´erise la dispersion des valeurs deTndans l’univers des ´echantillons possibles. Toutefois il s’agit de la dispersion autour deEθ(Tn) et non pas autour de θ. Pour prendre en compte l’´ecart par rapport `a θ on introduit le crit`ere d’erreur quadratique moyenne.

D´efinition 6.4 On appelleerreur quadratique moyennedeTn par rapport

`

aθ,la valeur, not´eeeqmθ(Tn), d´efinie par :

eqmθ(Tn) =Eθ[(Tn−θ)2], et l’on a :

eqmθ(Tn) = [bθ(Tn)]2+Vθ(Tn).

En effet :

Eθ[(Tn−θ)2] =Eθ[{Tn−Eθ(Tn) +Eθ(Tn)−θ}2]

=Eθ[{Tn−Eθ(Tn)}2] + [Eθ(Tn)−θ]2+ 2Eθ[Tn−Eθ(Tn)][Eθ(Tn)−θ]

=Vθ(Tn) + [bθ(Tn)]2 carEθ[Tn−Eθ(Tn)] = 0.

Comme l’indique son nom ce crit`ere mesure ladistance au carr´e`a laquelle Tn se situe en moyenne par rapport `a θ. On peut faire l’analogie avec les impacts effectu´es par un tireur sur une cible (mˆeme si cela correspond plutˆot

`

a un param`etre de dimension 2). Le tireur cherche `a atteindre le centre de la cible mais ses impacts, au cours des r´ep´etitions («univers»de ses tirs), peuvent ˆ

etre syst´ematiquement d´ecal´es, c’est-`a-dire que le centre de ceux-ci n’est pas le centre de la cible. En revanche ses tirs peuvent ˆetre tr`es group´es (variance faible). Un autre tireur peut ˆetre bien centr´e (biais nul ou faible) mais avoir peu de r´egularit´e et donc une forte dispersion de ses tirs (variance ´elev´ee). Le choix du meilleur tireur d´epend de l’importance relative du d´ecalage syst´ematique et de la r´egularit´e.

Le crit`ere d’erreur quadratique moyenne (en bref e.q.m.) n’est pas la pa-nac´ee mais il est pr´ef´er´e parce qu’il s’exprime en fonction des notions simples de biais et de variance. D’autres crit`eres peuvent paraˆıtre tout aussi naturels, en particulier l’erreur absolue moyenneEθ(|Tn−θ|), mais celle-ci est beaucoup plus difficile `a manipuler analytiquement.

En adoptant le crit`ere d’e.q.m. pour juger de la pr´ecision d’un estimateur le probl`eme est de rechercher le meilleur estimateur au sens de ce crit`ere, ce qui nous conduit aux d´efinitions suivantes.

D´efinition 6.5 On dit que l’estimateur Tn1 domine l’estimateur Tn2 si pour toutθ ∈Θ, eqmθ(Tn1) ≤eqmθ(Tn2), l’in´egalit´e ´etant stricte pour au moins une valeur deθ.

L’id´eal serait de disposer d’un estimateur qui domine tous les autres. Or il n’existe pas en g´en´eral, d’estimateur d’e.q.m. minimale uniform´ement enθ.

Pour s’en convaincre consid´erons comme estimateur la v.a. certaine θ0 o`u θ0 est l’une des valeurs possibles. Pour celui-ci l’e.q.m. enθ =θ0 est nulle alors que pour tout autre estimateur l’e.q.m. est strictement positive (au moins par sa variance s’il est v´eritablement al´eatoire ou par son biais s’il est certain). Cet estimateur particulier ne peut donc ˆetre domin´e. N´eanmoins, si un estimateur est domin´e par un autre estimateur, il n’est pas utile de le retenir.

D´efinition 6.6 On dit qu’un estimateur est admissible s’il n’existe aucun estimateur le dominant.

Ainsi seule est `a prendre en compte la classe des estimateurs admissibles.

A partir de l`a, plusieurs orientations de choix sont possibles, l’une des plus r´epandues ´etant de choisir l’estimateur pour lequel le maximum que peut at-teindre l’e.q.m. sur Θ est le plus faible.

D´efinition 6.7 On dit queTn estminimax si pour tout autre estimateurTn on a :

sup

θ∈Θ eqmθ(Tn)≤sup

θ∈Θ eqmθ(Tn).

Nous ne poursuivons pas ici la recherche d’estimateurs minimax et nous nous contenterons d’illustrer par deux exemples les propri´et´es de dominance et d’admissibilit´e.

qui est toujours positif. Par cons´equentS2 n’est pas admissible.

En fait S'2 introduit un biais, mais celui-ci (au carr´e) est compens´e par une variance plus faible. Notons que ceci n’est pas vrai pour toute loi m`ere (voir

exercices).

Exemple 6.7 Soit `a estimer le param`etre p d’une loi de Bernoulli (ou, en situation pratique, une proportion ppar sondage dans une population). Soit Sn =n

i=1Xi le total empirique ou fr´equence de succ`es observ´ee. Montrons que sipest au voisinage de 1/2 la statistiqueT = (Sn+1)/(n+2) est pr´ef´erable, au sens de l’e.q.m., `a la proportion empirique naturelle Sn/n pour estimer p.

CommeSn suit une loiB(n, p), on aE(Sn) =npet V(Sn) =np(1−p). Pour la proportion empiriqueE(Sn/n) =p, le biais est donc nul et l’e.q.m. est ´egale

`

En faisant le rapport de cette e.q.m. `a celle deSn/n on obtient : n

(n+ 2)2

n+(1−2p)2 p(1−p)

.

Or pourp= 12 ceci vaut (n+2)n2 2 <1 et le rapport ci-dessus ´etant une fonction continue de p dans ]0,1[, il reste strictement inf´erieur `a 1 dans un certain voisinage de 1/2. Un calcul plus approfondi montrerait que ce voisinage d´epend denet est l’intervalle

]1 2 −

) n+ 1 2n+ 1, 1

2+

) n+ 1 2n+ 1[ .

En conclusion, aucun des deux estimateurs ne domine l’autre.

Dans ces deux exemples on constate que si l’on accepte un certain biais, des estimateurs apparemment naturels peuvent ˆetre moins performants au sens de l’e.q.m.. Toutefois de nombreux statisticiens privil´egient les estimateurs sans biais signifiant ainsi qu’ils ne consid`erent pas l’e.q.m. comme la panac´ee. Si l’on se restreint `a la classe des estimateurs sans biais des r´esultats tangibles peuvent ˆetre obtenus dans la recherche de l’estimateur optimal et ceux-ci seront pr´esent´es en section 6.6.

6.5.3 Convergence d’un estimateur

Nous consid´erons ici la suite {Tn}de v.a. `a valeurs dansRlorsque la taille nde l’´echantillon s’accroˆıt `a l’infini, toujours avec Θ⊆R. Pour un estimateur digne de ce nom on s’attend `a ce qu’il se rapproche de plus en plus deθ quand n→ ∞. C’est ce qu’exprime la notion de convergence. Formellement on dira que l’estimateurTn estconvergent selon un certain mode«m»si :

Tn −→«m»

n→∞θ

o`u«m»est `a remplacer par p, p.s ou m.q. respectivement pour la convergence en probabilit´e, presque sˆure ou en moyenne quadratique. ´Etant donn´e qu’il y a convergence vers une constante, rappelons (voir section 5.8) que la convergence en loi est ´equivalente `a la convergence en probabilit´e. Pour Θ⊆Rk la conver-gence en probabilit´e, donc la convergence en loi, et la convergence presque sˆure s’entendent composante par composante. La convergence en moyenne quadra-tique se g´en´eralise avec la norme.euclidienne usuelle dansRk.

Nous ´enon¸cons tout d’abord une propri´et´e de convergence des moments empiriques de port´ee g´en´erale, d´epassant le cadre param´etrique et que nous reprendrons donc dans le cadre non param´etrique du chapitre 8.

Proposition 6.1 Si, pour la loi m`ere,E(|Xr|)existe, alors tous les moments empiriques jusqu’`a l’ordrer, simples ou centr´es, sont des estimateurs presque sˆurement convergents des moments correspondants de la loi.

Il est clair que si les conditions d’application de la loi forte des grands nombres selon le th´eor`eme 5.3 sont r´eunies pour la v.a. Xr(r entier), alors le moment empirique Mr, comme moyenne desX1r, X2r, ..., Xnr, converge presque sˆurement versμr, moyenne de la loi deXr. Si nous nous en tenons `a l’´enonc´e de ce th´eor`eme, la condition est que la variance de la loi consid´er´ee existe, donc, pour la loi deXr,queE(X2r) existe. Dans la proposition ci-dessus nous avons indiqu´e une condition plus faible qui r´esulte d’une version de la loi forte des grands nombres due `a Kolmogorov.

Les moments d’ordres inf´erieurs existant a fortiori, ils convergent ´egalement.

Quant au moment centr´eMk (k≤r),il converge en tant que fonction continue deM1, M2, ..., Mket n´ecessairement versμkqui s’exprime par la mˆeme fonction vis-`a-vis de μ1, μ2, ..., μk (voir la proposition 5.15 sur la convergence d’une fonction de v.a.).

En particulier si E(X2) existe ou, de fa¸con ´equivalente, si la variance de la loi m`ere existe, la variance empirique S'n2 converge presque sˆurement vers la variance de cette loi (et a fortiori ¯Xn converge vers sa moyenne). Au passage notons que ceci vaut aussi pour la variance d’´echantillonSn2 qui ne diff`ere de S'2n que par le facteur n−1n .

Proposition 6.2 Soit une famille param´etrique de param`etreθ de dimension ktelle queEθ(|Xk|)existe pour toutθet qu’il existe un estimateur des moments pourθ. Si leskpremiers moments μ1(θ), ..., μk(θ)sont des fonctions continues deθ,alors cet estimateur est convergent presque sˆurement.

En effet en raison de l’hypoth`ese de continuit´e, la r´esolution du syst`eme d’´equations de la d´efinition 6.2 conduit `a un estimateur des moments qui s’ex-prime comme une fonction continue, deRk dansRk,des moments empiriques μ1, μ2, ..., μk. En vertu de la proposition 5.15 il converge donc vers la solution du syst`emeμ1(θ) =μ10), μ2(θ) =μ20), ..., μk(θ) =μk0) o`u nous distinguons ici θ0comme ´etant la vraie valeur de θpour la loi m`ere (ainsiMr−−→p.s. μr0) pour r= 1, ..., k). Du fait de l’unicit´e de solution enθpour ce syst`eme, propre

`

a l’existence de l’estimateur des moments, cette solution ne peut ˆetre queθ0. La convergence est une condition sine qua non pour qualifier une statistique d’estimateur et elle sera normalement v´erifi´ee pour les estimateurs naturels.

Pour la loi de Cauchy g´en´eralis´ee de param`etreθ d´efinie par la densit´e : f(x;θ) = 1

π[1 + (x−θ)2], x∈R,

(pourθ= 0,c’est la loi de Student `a 1 degr´e de libert´e) on a vu dans l’exemple 2.1 que la moyenne n’existe pas. On peut se poser la question de savoir com-ment se comporte alors la moyenne empirique. On montre (via la fonction caract´eristique des moments, comme propos´e dans un exercice du chapitre 5)

que la moyenne ¯X suit en fait la mˆeme loi ! Elle ne converge donc pas versθ.

En fait pour estimer θ il faut prendre la m´ediane de l’´echantillon, laquelle est convergente.

Dans le document Statistique La théorie et ses applications (Page 115-120)