• Aucun résultat trouvé

• Donc, on voit que l’efficience d’un estimateur est un conceptrelatif. Il permet de comparer deux estimateurs qui sonttous les deux non biais´es.

• Il y a aussi l’id´ee de montrer qu’un estimateur est leplus efficientdans une classe d’estimateurs donn´ee. Un exemple est le th´eor`eme Gauss-Markov, qui montre que (sous certaines conditions), l’estimateur moindres carr´es ordinaires (MCO) est le plus efficient parmi tous les estimateurslin´eaireset non biais´es. Pour un premier exemple d’un estimateur MCO, voir la section (5.1), o`u nous montrerons que la moyenne

´echantillonnale est l’estimateur MCO de la moyenne dans la population.

• Il peut y avoir un arbitrage entre le biais d’un estimateur et sa variance. Il y a des estimateurs qui sont biais´es mais qui ont des variances plus petites que certains autres estimateurs non biais´es. Comment comparer deux estimateurs qui ne sont pas forc´ement non biais´es ? Il y a le conceptd’erreur quadratique moyenne, dont je discute dans l’encadr´e qui suit. Il s’agit d’un concept un peu plus avanc´e. Je recommande de lire l’encadr´e mais il n’est pas obligatoire de retenir tous les d´etails.

4.4 Erreur quadratique moyenne

Cette sous-section est un peu plus ardue que les autres. Sa lecture est facultative. Comme je note dans le chapitre sur la r´egression simple, le concept de l’erreur quadratique moyenne

n’est pas tr`es souvent utilis´e dans le cadre du mod`ele de r´egression lin´eaire, puisque typiquement on suppose que les hypoth`eses pour obtenir un estimateur non biais´e tiennent.

• Nous avons vu que l’efficience d’un estimateur est un conceptrelatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme.

• Une autre fac¸on de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:

EQM

• Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.

• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.

• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,

EQM

• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,

Var(X) =E X2

−(E(X))2.

Cette formule s’applique aussi `a la variable al´eatoire

β˜−β

⇒E

ce qui fut `a montrer, puisque

=Var

dˆu au fait queβn’est pas une variable al´eatoire.

• Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es.

• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances unarbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de

l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance plus faible.

5 La moyenne ´echantillonnale comme estimateur de la moyenne de la population

• SoitY une variable al´eatoire avec les propri´et´es suivantes :

E(Y) =µY, Var(Y) = σ2Y <∞.

• Il s’agit d’un estimateurraisonnable de la moyenne de la population. En fait, c’est un

exemple d’un estimateur o`u on estime un moment dans la population par le mˆeme moment

´echantillonnal.2

• Il n’est pas le seul estimateur possible. Par exemple, la m´ediane est souvent utilis´ee comme un estimateur de la moyenne de la population.3Par contre, la moyenne

´echantillonnale a les propri´et´es d´esirables suivantes.

1. Il est non biais´e :

E( ¯Y) = µY. 2. Il est convergent :

Y¯ −→p µY.

3. Parmi tous les estimateurs lin´eaires (qui sont des fonctions lin´eaires des observations de l’´echantillon) qui sont non biais´es, il a la plus petite variance. Il est donc

l’estimateur le plus efficient dans cette classe. Nous parlons d’un estimateur qui est BLUE(Best Linear Unbiased Estimator en anglais). C’est le th´eor`eme

Gauss-Markov que nous avons invoqu´e ci-dessus.

• Nous avons montr´e l’absence de biais de la moyenne ´echantillonnale comme estimateur de la moyenne de la population dans le chapitre pr´ec´edent.

• Voici encore la d´emonstration de l’absence de bais.

E( ¯Y) =E 1

• Nous avons montr´e la convergence de l’estimateur dans le chapitre pr´ec´edent. Voir aussi le manuel, Annexe 3.3, pour une preuve plus rigoureuse. Nous avons montr´e que la variance de la moyenne ´echantillonnale est donn´ee par

Var Y¯

= 1 nσ2Y,

2. Voir l’articleWikipediaqui s’intitule “Method of Moments (statistics).”

3. La m´ediane est connue pour ˆetre plusrobuste`a la pr´esence d’observations extrˆemes ou aberrantes).

ce qui tend vers z´ero lorsquen→ ∞.

• L’efficience de l’estimateur d´epend de fac¸on cruciale de l’hypoth`ese que les r´ealisations de l’´echantillon proviennent d’une population avec une variance constante.

• La d´emonstration de ce r´esultat est relativement ardue. Il s’agit du th´eor`eme

Gauss-Markov. Nous verrons une preuve de ce th´eor`eme dans le chapitre sur le mod`ele de r´egression simple, et aussi dans un encadr´e un peu plus loin dans ce chapitre.

5.1 La moyenne ´echantillonnale comme un estimateur moindres carr´es ordinaires de la moyenne

• Supposons que nous voulons choisir un estimateurmpour essayer de pr´edire les valeurs d’une variable al´eatoireYi.

• Nous pouvons montrer que la moyenne ´echantillonnale est l’estimateur qui minimise la somme des erreurs de pr´evision au carr´e. Voici la preuve.

• Le probl`eme de minimisation est le suivant :

minm n

X

i=1

(Yi−m)2.

• La condition du premier ordre pour le choix demest :

−2

n

X

i=1

(Yi−m) = 0

n

X

i=1

Yi =nm

⇒m = 1 n

n

X

i=1

Yi ≡Y .¯

• La solution au probl`eme est tout simplement la moyenne ´echantillonnale.

• Pour cette raison, on va dire que la moyenne ´echantillonnale est l’estimateur moindres

carr´es ordinaires (MCO) de la moyenne de la population.

• C’est la premi`ere fois que nous rencontrons un exemple d’un estimateur MCO. Nous allons voir que pour plusieurs raisons l’estimateur MCO des param`etres du mod`ele de r´egression lin´eaire est de loin l’estimateur le plus utilis´e.

• Notez qu’il n’est pas le seul estimateur possible. Nous pourrions, par exemple, utiliser la m´ediane de l’´echantillon comme estimateur de la moyenne de la population. Nous pourrions, par exemple, minimiser la somme des erreurs de pr´evision absolues au lieu de minimiser la somme des erreurs au carr´e. Le probl`eme de minimisation s’´ecrirait

minm n

X

i=1

|Yi−m|.

• Il y a deux raisons principales pour l’utilisation fr´equente d’estimateurs MCO.

1. D’abord, comme nous avons vu, la solution au probl`eme de minimisation est facile `a trouver : la minimisation d’une expression quadratique donne une ou des conditions du premier ordre qui sontlin´eairesdans les inconnus. Trouver la solution `a une ou

plusieurs ´equations lin´eaires est normalement un jeu d’enfant.

2. Sous certaines conditions l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires non biais´es.

Nous pouvons montrer ce r´esultat assez facilement. Si vous voulez comprendre la logique du th´eor`eme Gauss-Markov, la lecture de cet encadr´e est fortement

recommand´ee. Je ne vais pas vous demander de reproduire une telle preuve dans un contexte d’examen, mais vous devriez ˆetre capable de suivre la preuve assez

facilement.

Soit un ´echantillon d’observations i.i.d. qui proviennent d’une population o`u E(Yi) = µY et Var(Yi) =σY2. Unestimateur lin´eaireconstruit `a partir den

observations i.i.d. peut s’´ecrire

o`u lesai sont des constantes qui pond`erent les observations diff´erentes. Nous avons

´ecrit l’estimateur commeYe pour souligner que nous avons pas (encore) montr´e que l’estimateur le plus efficient est l’estimateur MCO, qui estY¯. Pour que l’estimateur soit non biais´e il faut que

E

Donc, pour que l’estimateur soit non biais´e il faut que la somme des coefficientsai soit ´egale `a un.

Maintenant, quel est le choix desaiqui minimise la variance de l’estimateur non biais´e ? Nous pouvons facilement trouver la r´eponse `a cette question en minimisant la variance de l’estimateur sujet `a la contrainte qu’il est non biais´e. La variance deYe peut s’´ecrire

Y2

n

X

i=1

ai2.

Minimiser la variance de l’estimateur revient `a minimiser la somme desaiau carr´e.

Nous pouvons ´ecrire ce probl`eme comme

min

o`uλest un multiplicateur de Lagrange qui garantit que la contrainte soit satisfaite.

Ceux qui ne sont pas familiers avec l’optimisation sous contrainte devraient faire un peu de r´evision. Voir le livre de Chiang et Wainwright (2004) ou le livre de Hoy et al.

(2011). Les r´ef´erences d´etaill´ees sont dans le chapitre de r´ef´erences.

Les variables de choix du probl`eme sont lesai(il y en an) etλ. Les conditions du premier ordre du probl`eme sont

ai : 2ai −λ = 0, i= 1,2, . . . , n;

La premi`ere CPO tient pour∀i, i= 1. . . n. De cette premi`ere condition nous avons tout de suite que

ai = λ 2.

Ceci veut dire que toutes les pond´erations doivent ˆetre ´egales. De la deuxi`eme condition nous avons

Notre estimateurYe est tout simplement l’estimateur MCO. Autrement dit,

Ye = ¯Y .

Nous venons de prouver une version tr`es simple du th´eor`eme Gauss-Markov qui montre que, sous certaines conditions, l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires et non biais´es. Nous reviendrons `a ce th´eor`eme dans le contexte du mod`ele de r´egression lin´eaire.

6 Trois types d’inf´erence

6.1 Inf´erence asymptotique

• Il s’agit du type d’inf´erence privil´egi´e dans le manuel et dans le cours.

• Typiquement, nous ne connaissons pas le type de distribution (normale,t,F,χ2, Poisson, Bernoulli etc.) qui a engendr´e nos observations. Pour cette raison, nous ne connaissons pas non plus la distribution `a laquelle ob´eit notre estimateur.

• Mˆeme si les observations individuelles proviennent d’une distribution connue, notre estimateur n’est pas forc´ement engendr´e par une distribution connue. L’estimateur est une statistiqueet donc une fonction des observations individuelles. `A part des cas simples, la distribution exacte `a laquelle ob´eit une fonction de variables al´eatoires n’est pas connue.

Un de ces cas simples est la loi normale et un estimateur lin´eaire, puisqu’une combinaison lin´eaire de variables al´eatoires normales suit une distribution normale.4

• Par contre, sous certaines conditions (notamment des observations qui sont i.i.d., c’est `a dire identiquement et ind´ependamment distribu´ees, et qui ont une variance finie), et si

4. Une distribution qui a la propri´et´e qu’une combinaison lin´eaire de deux variables al´eatoires ind´ependantes suit la mˆeme distribution que chacune des deux variables al´eatoires individuellement est une distributionr´eguli`ere. Voir l’articleWikipediaqui s’intituleRegular Distribution.

notre ´echantillon est suffisamment grand, nous pouvons invoquer une version du th´eor`eme de la limite centrale afin d’obtenir une statistique ou un estimateur qui converge en

distribution vers une loi normale.

• De plus, si nous pouvons ´ecrire des statistiquesnormalis´ees(en soustrayant leurs moyennes sous l’hypoth`ese nulle et en divisant par un estimateur convergent de leurs

´ecarts types), nous pouvons cr´eer des statistiques qui suivent une distribution normale centr´ee r´eduite, ce qui rend tr`es facile les tests d’hypoth`eses et l’inf´erence statistique.

6.1.1 Convergence en distribution

• Chaque fois que nous faisons de l’inf´erence asymptotique, il s’agit de montrer que la statistique calcul´ee (souvent apr`es normalisation) satisfait les hypoth`eses d’une version du th´eor`eme de la limite centrale, afin de conclure qu’il y a convergence en distribution et, pour cette raison, si notre ´echantillon est assez grand, de conclure que notre statistique est distribu´ee de fac¸on approximativement normale.

Documents relatifs