Erreur quadratique moyenne - D´epartement des sciences ´economiques Ecole des sciences de la ge

• Donc, on voit que l’efficience d’un estimateur est un conceptrelatif. Il permet de comparer deux estimateurs qui sonttous les deux non biais´es.

• Il y a aussi l’idée de montrer qu’un estimateur est leplus efficientdans une classe d’estimateurs donnée. Un exemple est le théorème Gauss-Markov, qui montre que (sous certaines conditions), l’estimateur moindres carrés ordinaires (MCO) est le plus efficient parmi tous les estimateurslinéaireset non biaisés. Pour un premier exemple d’un estimateur MCO, voir la section (5.1), où nous montrerons que la moyenne

´echantillonnale est l’estimateur MCO de la moyenne dans la population.

• Il peut y avoir un arbitrage entre le biais d’un estimateur et sa variance. Il y a des estimateurs qui sont biaisés mais qui ont des variances plus petites que certains autres estimateurs non biaisés. Comment comparer deux estimateurs qui ne sont pas forcément non biaisés ? Il y a le conceptd’erreur quadratique moyenne, dont je discute dans l’encadré qui suit. Il s’agit d’un concept un peu plus avancé. Je recommande de lire l’encadré mais il n’est pas obligatoire de retenir tous les détails.

4.4 Erreur quadratique moyenne

Cette sous-section est un peu plus ardue que les autres. Sa lecture est facultative. Comme je note dans le chapitre sur la r´egression simple, le concept de l’erreur quadratique moyenne

n’est pas très souvent utilisé dans le cadre du modèle de régression linéaire, puisque typiquement on suppose que les hypothèses pour obtenir un estimateur non biaisé tiennent.

• Nous avons vu que l’efficience d’un estimateur est un conceptrelatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une variance moins élevée que le deuxième.

• Une autre fac¸on de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:

EQM

• Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.

• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.

• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,

EQM

• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,

Var(X) =E X²

−(E(X))².

Cette formule s’applique aussi `a la variable al´eatoire

β˜−β

⇒E

ce qui fut `a montrer, puisque

=Var

dˆu au fait queβn’est pas une variable al´eatoire.

• Le critère de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forcément non biaisés.

• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances unarbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de

l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biaisés mais qui ont néanmoins une erreur quadratique moyenne inférieure à n’importe quel estimateur non biaisé justement parce qu’ils ont une variance plus faible.

5 La moyenne ´echantillonnale comme estimateur de la moyenne de la population

• SoitY une variable aléatoire avec les propriétés suivantes :

E(Y) =µ_Y, Var(Y) = σ²_Y <∞.

• Il s’agit d’un estimateurraisonnable de la moyenne de la population. En fait, c’est un

exemple d’un estimateur o`u on estime un moment dans la population par le mˆeme moment

´echantillonnal.²

• Il n’est pas le seul estimateur possible. Par exemple, la m´ediane est souvent utilis´ee comme un estimateur de la moyenne de la population.³Par contre, la moyenne

échantillonnale a les propriétés désirables suivantes.

1. Il est non biais´e :

E( ¯Y) = µ_Y. 2. Il est convergent :

Y¯ −→^p µ_Y.

3. Parmi tous les estimateurs linéaires (qui sont des fonctions linéaires des observations de l’échantillon) qui sont non biaisés, il a la plus petite variance. Il est donc

l’estimateur le plus efficient dans cette classe. Nous parlons d’un estimateur qui est BLUE(Best Linear Unbiased Estimator en anglais). C’est le th´eor`eme

Gauss-Markov que nous avons invoqu´e ci-dessus.

• Nous avons montré l’absence de biais de la moyenne échantillonnale comme estimateur de la moyenne de la population dans le chapitre précédent.

• Voici encore la d´emonstration de l’absence de bais.

E( ¯Y) =E 1

• Nous avons montré la convergence de l’estimateur dans le chapitre précédent. Voir aussi le manuel, Annexe 3.3, pour une preuve plus rigoureuse. Nous avons montré que la variance de la moyenne échantillonnale est donnée par

Var Y¯

= 1 nσ²_Y,

2. Voir l’articleWikipediaqui s’intitule “Method of Moments (statistics).”

3. La médiane est connue pour être plusrobusteà la présence d’observations extrêmes ou aberrantes).

ce qui tend vers z´ero lorsquen→ ∞.

• L’efficience de l’estimateur dépend de façon cruciale de l’hypothèse que les réalisations de l’échantillon proviennent d’une population avec une variance constante.

• La démonstration de ce résultat est relativement ardue. Il s’agit du théorème

Gauss-Markov. Nous verrons une preuve de ce théorème dans le chapitre sur le modèle de régression simple, et aussi dans un encadré un peu plus loin dans ce chapitre.

5.1 La moyenne ´echantillonnale comme un estimateur moindres carr´es ordinaires de la moyenne

• Supposons que nous voulons choisir un estimateurmpour essayer de pr´edire les valeurs d’une variable al´eatoireY_i.

• Nous pouvons montrer que la moyenne échantillonnale est l’estimateur qui minimise la somme des erreurs de prévision au carré. Voici la preuve.

• Le probl`eme de minimisation est le suivant :

minm n

i=1

(Y_i−m)².

• La condition du premier ordre pour le choix demest :

−2

i=1

(Y_i−m) = 0

⇒

i=1

Y_i =nm

⇒m = 1 n

i=1

Yi ≡Y .¯

• La solution au probl`eme est tout simplement la moyenne ´echantillonnale.

• Pour cette raison, on va dire que la moyenne ´echantillonnale est l’estimateur moindres

carr´es ordinaires (MCO) de la moyenne de la population.

• C’est la première fois que nous rencontrons un exemple d’un estimateur MCO. Nous allons voir que pour plusieurs raisons l’estimateur MCO des paramètres du modèle de régression linéaire est de loin l’estimateur le plus utilisé.

• Notez qu’il n’est pas le seul estimateur possible. Nous pourrions, par exemple, utiliser la médiane de l’échantillon comme estimateur de la moyenne de la population. Nous pourrions, par exemple, minimiser la somme des erreurs de prévision absolues au lieu de minimiser la somme des erreurs au carré. Le problème de minimisation s’écrirait

minm n

i=1

|Y_i−m|.

• Il y a deux raisons principales pour l’utilisation fr´equente d’estimateurs MCO.

1. D’abord, comme nous avons vu, la solution au problème de minimisation est facile à trouver : la minimisation d’une expression quadratique donne une ou des conditions du premier ordre qui sontlinéairesdans les inconnus. Trouver la solution à une ou

plusieurs ´equations lin´eaires est normalement un jeu d’enfant.

2. Sous certaines conditions l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires non biais´es.

Nous pouvons montrer ce résultat assez facilement. Si vous voulez comprendre la logique du théorème Gauss-Markov, la lecture de cet encadré est fortement

recommand´ee. Je ne vais pas vous demander de reproduire une telle preuve dans un contexte d’examen, mais vous devriez ˆetre capable de suivre la preuve assez

facilement.

Soit un échantillon d’observations i.i.d. qui proviennent d’une population où E(Y_i) = µ_Y et Var(Y_i) =σ_Y². Unestimateur linéaireconstruit à partir den

observations i.i.d. peut s’´ecrire

où lesa_i sont des constantes qui pondèrent les observations différentes. Nous avons

écrit l’estimateur commeYe pour souligner que nous avons pas (encore) montré que l’estimateur le plus efficient est l’estimateur MCO, qui estY¯. Pour que l’estimateur soit non biaisé il faut que

Donc, pour que l’estimateur soit non biaisé il faut que la somme des coefficientsa_i soit égale à un.

Maintenant, quel est le choix desa_iqui minimise la variance de l’estimateur non biaisé ? Nous pouvons facilement trouver la réponse à cette question en minimisant la variance de l’estimateur sujet à la contrainte qu’il est non biaisé. La variance deYe peut s’écrire

=σ_Y²

i=1

a_i².

Minimiser la variance de l’estimateur revient `a minimiser la somme desa_iau carr´e.

Nous pouvons ´ecrire ce probl`eme comme

min

o`uλest un multiplicateur de Lagrange qui garantit que la contrainte soit satisfaite.

Ceux qui ne sont pas familiers avec l’optimisation sous contrainte devraient faire un peu de r´evision. Voir le livre de Chiang et Wainwright (2004) ou le livre de Hoy et al.

(2011). Les références détaillées sont dans le chapitre de références.

Les variables de choix du probl`eme sont lesa_i(il y en an) etλ. Les conditions du premier ordre du probl`eme sont

ai : 2ai −λ = 0, i= 1,2, . . . , n;

La premi`ere CPO tient pour∀i, i= 1. . . n. De cette premi`ere condition nous avons tout de suite que

a_i = λ 2.

Ceci veut dire que toutes les pondérations doivent être égales. De la deuxième condition nous avons

Notre estimateurYe est tout simplement l’estimateur MCO. Autrement dit,

Ye = ¯Y .

Nous venons de prouver une version très simple du théorème Gauss-Markov qui montre que, sous certaines conditions, l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs linéaires et non biaisés. Nous reviendrons à ce théorème dans le contexte du modèle de régression linéaire.

6 Trois types d’inf´erence

6.1 Inf´erence asymptotique

• Il s’agit du type d’inférence privilégié dans le manuel et dans le cours.

• Typiquement, nous ne connaissons pas le type de distribution (normale,t,F,χ², Poisson, Bernoulli etc.) qui a engendré nos observations. Pour cette raison, nous ne connaissons pas non plus la distribution à laquelle obéit notre estimateur.

• Même si les observations individuelles proviennent d’une distribution connue, notre estimateur n’est pas forcément engendré par une distribution connue. L’estimateur est une statistiqueet donc une fonction des observations individuelles. À part des cas simples, la distribution exacte à laquelle obéit une fonction de variables aléatoires n’est pas connue.

Un de ces cas simples est la loi normale et un estimateur linéaire, puisqu’une combinaison linéaire de variables aléatoires normales suit une distribution normale.⁴

• Par contre, sous certaines conditions (notamment des observations qui sont i.i.d., c’est à dire identiquement et indépendamment distribuées, et qui ont une variance finie), et si

4. Une distribution qui a la propriété qu’une combinaison linéaire de deux variables aléatoires indépendantes suit la même distribution que chacune des deux variables aléatoires individuellement est une distributionrégulière. Voir l’articleWikipediaqui s’intituleRegular Distribution.

notre échantillon est suffisamment grand, nous pouvons invoquer une version du théorème de la limite centrale afin d’obtenir une statistique ou un estimateur qui converge en

distribution vers une loi normale.

• De plus, si nous pouvons écrire des statistiquesnormalisées(en soustrayant leurs moyennes sous l’hypothèse nulle et en divisant par un estimateur convergent de leurs

écarts types), nous pouvons créer des statistiques qui suivent une distribution normale centrée réduite, ce qui rend très facile les tests d’hypothèses et l’inférence statistique.

6.1.1 Convergence en distribution

• Chaque fois que nous faisons de l’inférence asymptotique, il s’agit de montrer que la statistique calculée (souvent après normalisation) satisfait les hypothèses d’une version du théorème de la limite centrale, afin de conclure qu’il y a convergence en distribution et, pour cette raison, si notre échantillon est assez grand, de conclure que notre statistique est distribuée de façon approximativement normale.

Dans le document Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal (Page 8-17)