• Donc, on voit que l’efficience d’un estimateur est un conceptrelatif. Il permet de comparer deux estimateurs qui sonttous les deux non biais´es.
• Il y a aussi l’id´ee de montrer qu’un estimateur est leplus efficientdans une classe d’estimateurs donn´ee. Un exemple est le th´eor`eme Gauss-Markov, qui montre que (sous certaines conditions), l’estimateur moindres carr´es ordinaires (MCO) est le plus efficient parmi tous les estimateurslin´eaireset non biais´es. Pour un premier exemple d’un estimateur MCO, voir la section (5.1), o`u nous montrerons que la moyenne
´echantillonnale est l’estimateur MCO de la moyenne dans la population.
• Il peut y avoir un arbitrage entre le biais d’un estimateur et sa variance. Il y a des estimateurs qui sont biais´es mais qui ont des variances plus petites que certains autres estimateurs non biais´es. Comment comparer deux estimateurs qui ne sont pas forc´ement non biais´es ? Il y a le conceptd’erreur quadratique moyenne, dont je discute dans l’encadr´e qui suit. Il s’agit d’un concept un peu plus avanc´e. Je recommande de lire l’encadr´e mais il n’est pas obligatoire de retenir tous les d´etails.
4.4 Erreur quadratique moyenne
Cette sous-section est un peu plus ardue que les autres. Sa lecture est facultative. Comme je note dans le chapitre sur la r´egression simple, le concept de l’erreur quadratique moyenne
n’est pas tr`es souvent utilis´e dans le cadre du mod`ele de r´egression lin´eaire, puisque typiquement on suppose que les hypoth`eses pour obtenir un estimateur non biais´e tiennent.
• Nous avons vu que l’efficience d’un estimateur est un conceptrelatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme.
• Une autre fac¸on de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:
EQM
• Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.
• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.
• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,
EQM
• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,
Var(X) =E X2
−(E(X))2.
Cette formule s’applique aussi `a la variable al´eatoire
β˜−β
⇒E
ce qui fut `a montrer, puisque
=Var
dˆu au fait queβn’est pas une variable al´eatoire.
• Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es.
• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances unarbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de
l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance plus faible.
5 La moyenne ´echantillonnale comme estimateur de la moyenne de la population
• SoitY une variable al´eatoire avec les propri´et´es suivantes :
E(Y) =µY, Var(Y) = σ2Y <∞.
• Il s’agit d’un estimateurraisonnable de la moyenne de la population. En fait, c’est un
exemple d’un estimateur o`u on estime un moment dans la population par le mˆeme moment
´echantillonnal.2
• Il n’est pas le seul estimateur possible. Par exemple, la m´ediane est souvent utilis´ee comme un estimateur de la moyenne de la population.3Par contre, la moyenne
´echantillonnale a les propri´et´es d´esirables suivantes.
1. Il est non biais´e :
E( ¯Y) = µY. 2. Il est convergent :
Y¯ −→p µY.
3. Parmi tous les estimateurs lin´eaires (qui sont des fonctions lin´eaires des observations de l’´echantillon) qui sont non biais´es, il a la plus petite variance. Il est donc
l’estimateur le plus efficient dans cette classe. Nous parlons d’un estimateur qui est BLUE(Best Linear Unbiased Estimator en anglais). C’est le th´eor`eme
Gauss-Markov que nous avons invoqu´e ci-dessus.
• Nous avons montr´e l’absence de biais de la moyenne ´echantillonnale comme estimateur de la moyenne de la population dans le chapitre pr´ec´edent.
• Voici encore la d´emonstration de l’absence de bais.
E( ¯Y) =E 1
• Nous avons montr´e la convergence de l’estimateur dans le chapitre pr´ec´edent. Voir aussi le manuel, Annexe 3.3, pour une preuve plus rigoureuse. Nous avons montr´e que la variance de la moyenne ´echantillonnale est donn´ee par
Var Y¯
= 1 nσ2Y,
2. Voir l’articleWikipediaqui s’intitule “Method of Moments (statistics).”
3. La m´ediane est connue pour ˆetre plusrobuste`a la pr´esence d’observations extrˆemes ou aberrantes).
ce qui tend vers z´ero lorsquen→ ∞.
• L’efficience de l’estimateur d´epend de fac¸on cruciale de l’hypoth`ese que les r´ealisations de l’´echantillon proviennent d’une population avec une variance constante.
• La d´emonstration de ce r´esultat est relativement ardue. Il s’agit du th´eor`eme
Gauss-Markov. Nous verrons une preuve de ce th´eor`eme dans le chapitre sur le mod`ele de r´egression simple, et aussi dans un encadr´e un peu plus loin dans ce chapitre.
5.1 La moyenne ´echantillonnale comme un estimateur moindres carr´es ordinaires de la moyenne
• Supposons que nous voulons choisir un estimateurmpour essayer de pr´edire les valeurs d’une variable al´eatoireYi.
• Nous pouvons montrer que la moyenne ´echantillonnale est l’estimateur qui minimise la somme des erreurs de pr´evision au carr´e. Voici la preuve.
• Le probl`eme de minimisation est le suivant :
minm n
X
i=1
(Yi−m)2.
• La condition du premier ordre pour le choix demest :
−2
n
X
i=1
(Yi−m) = 0
⇒
n
X
i=1
Yi =nm
⇒m = 1 n
n
X
i=1
Yi ≡Y .¯
• La solution au probl`eme est tout simplement la moyenne ´echantillonnale.
• Pour cette raison, on va dire que la moyenne ´echantillonnale est l’estimateur moindres
carr´es ordinaires (MCO) de la moyenne de la population.
• C’est la premi`ere fois que nous rencontrons un exemple d’un estimateur MCO. Nous allons voir que pour plusieurs raisons l’estimateur MCO des param`etres du mod`ele de r´egression lin´eaire est de loin l’estimateur le plus utilis´e.
• Notez qu’il n’est pas le seul estimateur possible. Nous pourrions, par exemple, utiliser la m´ediane de l’´echantillon comme estimateur de la moyenne de la population. Nous pourrions, par exemple, minimiser la somme des erreurs de pr´evision absolues au lieu de minimiser la somme des erreurs au carr´e. Le probl`eme de minimisation s’´ecrirait
minm n
X
i=1
|Yi−m|.
• Il y a deux raisons principales pour l’utilisation fr´equente d’estimateurs MCO.
1. D’abord, comme nous avons vu, la solution au probl`eme de minimisation est facile `a trouver : la minimisation d’une expression quadratique donne une ou des conditions du premier ordre qui sontlin´eairesdans les inconnus. Trouver la solution `a une ou
plusieurs ´equations lin´eaires est normalement un jeu d’enfant.
2. Sous certaines conditions l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires non biais´es.
Nous pouvons montrer ce r´esultat assez facilement. Si vous voulez comprendre la logique du th´eor`eme Gauss-Markov, la lecture de cet encadr´e est fortement
recommand´ee. Je ne vais pas vous demander de reproduire une telle preuve dans un contexte d’examen, mais vous devriez ˆetre capable de suivre la preuve assez
facilement.
Soit un ´echantillon d’observations i.i.d. qui proviennent d’une population o`u E(Yi) = µY et Var(Yi) =σY2. Unestimateur lin´eaireconstruit `a partir den
observations i.i.d. peut s’´ecrire
o`u lesai sont des constantes qui pond`erent les observations diff´erentes. Nous avons
´ecrit l’estimateur commeYe pour souligner que nous avons pas (encore) montr´e que l’estimateur le plus efficient est l’estimateur MCO, qui estY¯. Pour que l’estimateur soit non biais´e il faut que
E
Donc, pour que l’estimateur soit non biais´e il faut que la somme des coefficientsai soit ´egale `a un.
Maintenant, quel est le choix desaiqui minimise la variance de l’estimateur non biais´e ? Nous pouvons facilement trouver la r´eponse `a cette question en minimisant la variance de l’estimateur sujet `a la contrainte qu’il est non biais´e. La variance deYe peut s’´ecrire
=σY2
n
X
i=1
ai2.
Minimiser la variance de l’estimateur revient `a minimiser la somme desaiau carr´e.
Nous pouvons ´ecrire ce probl`eme comme
min
o`uλest un multiplicateur de Lagrange qui garantit que la contrainte soit satisfaite.
Ceux qui ne sont pas familiers avec l’optimisation sous contrainte devraient faire un peu de r´evision. Voir le livre de Chiang et Wainwright (2004) ou le livre de Hoy et al.
(2011). Les r´ef´erences d´etaill´ees sont dans le chapitre de r´ef´erences.
Les variables de choix du probl`eme sont lesai(il y en an) etλ. Les conditions du premier ordre du probl`eme sont
ai : 2ai −λ = 0, i= 1,2, . . . , n;
La premi`ere CPO tient pour∀i, i= 1. . . n. De cette premi`ere condition nous avons tout de suite que
ai = λ 2.
Ceci veut dire que toutes les pond´erations doivent ˆetre ´egales. De la deuxi`eme condition nous avons
Notre estimateurYe est tout simplement l’estimateur MCO. Autrement dit,
Ye = ¯Y .
Nous venons de prouver une version tr`es simple du th´eor`eme Gauss-Markov qui montre que, sous certaines conditions, l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires et non biais´es. Nous reviendrons `a ce th´eor`eme dans le contexte du mod`ele de r´egression lin´eaire.
6 Trois types d’inf´erence
6.1 Inf´erence asymptotique
• Il s’agit du type d’inf´erence privil´egi´e dans le manuel et dans le cours.
• Typiquement, nous ne connaissons pas le type de distribution (normale,t,F,χ2, Poisson, Bernoulli etc.) qui a engendr´e nos observations. Pour cette raison, nous ne connaissons pas non plus la distribution `a laquelle ob´eit notre estimateur.
• Mˆeme si les observations individuelles proviennent d’une distribution connue, notre estimateur n’est pas forc´ement engendr´e par une distribution connue. L’estimateur est une statistiqueet donc une fonction des observations individuelles. `A part des cas simples, la distribution exacte `a laquelle ob´eit une fonction de variables al´eatoires n’est pas connue.
Un de ces cas simples est la loi normale et un estimateur lin´eaire, puisqu’une combinaison lin´eaire de variables al´eatoires normales suit une distribution normale.4
• Par contre, sous certaines conditions (notamment des observations qui sont i.i.d., c’est `a dire identiquement et ind´ependamment distribu´ees, et qui ont une variance finie), et si
4. Une distribution qui a la propri´et´e qu’une combinaison lin´eaire de deux variables al´eatoires ind´ependantes suit la mˆeme distribution que chacune des deux variables al´eatoires individuellement est une distributionr´eguli`ere. Voir l’articleWikipediaqui s’intituleRegular Distribution.
notre ´echantillon est suffisamment grand, nous pouvons invoquer une version du th´eor`eme de la limite centrale afin d’obtenir une statistique ou un estimateur qui converge en
distribution vers une loi normale.
• De plus, si nous pouvons ´ecrire des statistiquesnormalis´ees(en soustrayant leurs moyennes sous l’hypoth`ese nulle et en divisant par un estimateur convergent de leurs
´ecarts types), nous pouvons cr´eer des statistiques qui suivent une distribution normale centr´ee r´eduite, ce qui rend tr`es facile les tests d’hypoth`eses et l’inf´erence statistique.
6.1.1 Convergence en distribution
• Chaque fois que nous faisons de l’inf´erence asymptotique, il s’agit de montrer que la statistique calcul´ee (souvent apr`es normalisation) satisfait les hypoth`eses d’une version du th´eor`eme de la limite centrale, afin de conclure qu’il y a convergence en distribution et, pour cette raison, si notre ´echantillon est assez grand, de conclure que notre statistique est distribu´ee de fac¸on approximativement normale.