• Aucun résultat trouvé

Nous voulons choisir les valeurs des ´el´ements deβqui minimisent la somme des r´esidus carr´es.

Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons d´ej`a vu des

justifications pour l’utilisation de la somme des erreurs au carr´e dans le chapitre sur le mod`ele de r´egression simple.

1. L’alg`ebre est relativement simple. Le crit`ere (la fonction `a minimiser) est une expression quadratique (du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme d’´equationslin´eaires. Il est tr`es facile de r´esoudre un syst`eme d’´equations lin´eaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes (voir ci-dessous).

2. L’autre justification se trouve plus loin, dans la section7de ces notes. On peut montrer que, sous les hypoth`eses de base du mod`ele et sous l’homosc´edasticit´e des erreurs, l’estimateur MCO est l’estimateur le plusefficientdans la classe d’estimateurs lin´eaires (une fonction lin´eaire des observationsYi) et non biais´es. C’est le th´eor`eme

Gauss-Markov, c´el`ebre dans l’histoire de la pens´ee en statistique et en ´econom´etrie.

Comme nous avons vu dans le chapitre sur le mod`ele de r´egression simple, il y a d’autres estimateurs possibles `a part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des crit`eres souhaitables d’un estimateur (absence de biais, convergence, etc.) mˆeme s’ils sont moins efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent ˆetre robustes en pr´esence d’observations aberrantes. Voir la remarque ci-dessus `a propos d’une de nos hypoth`eses statistiques de base, l’existence de quatri`emes moments finis pourXi etui. J’invite ceux qui s’int´eressent `a poursuivre plus loin ce sujet `a consulter l’articleRobust Statistics sur Wikipedia.

Le probl`eme peut s’´ecrire comme

min

β U0U.

Simple, non ? Remplac¸onsU par sa d´efinition. Le probl`eme devient :

minβ (Y −Xβ)0(Y −Xβ),

ce qui est ´equivalent `a :

min

β (Y0Y −β0X0Y −Y0Xβ+β0X0Xβ).

Vous devez ˆetre parfaitement `a l’aise avec cette multiplication matricielle. On applique les mˆemes r`egles que pour la multiplication de scalaires en faisant bien attention `a l’orientation (est-ce qu’elles sont transpos´ees ou non ?) des matrices.

D´erivant par rapport `aβ, nous obtenons :

−X0Y −X0Y +X0Xβ+ (X0X)0β = 0.

Ici, on applique les r`egles de diff´erenciation matricielle auxquelles nous reviendrons dans la sous-section suivante. Notez aussi que le0 du cˆot´e droit est implicitement unvecteurde z´eros. L’expression du cˆot´e gauche est de dimensions(k+ 1)×1et donc l’expression du cˆot´e droit doit ˆetre conforme. Lorsqu’il n’y a pas d’ambigu¨ıt´e entre scalaire et vecteur nous allons utiliser cette notation. Pour d´enoterexplicitementun vecteur de z´eros au lieu d’un scalaire lorsqu’il pourrait y avoir ambigu¨ıt´e, nous utiliserons 0 ou le nombre de colonnes sera d´efini selon le contexte : si nous voulons ˆetre encore plus explicites concernant les dimensions du vecteur nous allons utiliser0mpour d´enoter un vecteur de z´eros de dimensionsm×1. Ceci nous donne

X0Xβ =X0Y.

Cet ensemble d’´equations s’appelle commun´ement les´equations normales de l’estimation MCO. Notez qu’il y a(k+ 1) ´equations. Les inconnus sont les valeurs des coefficients, dont il y a

(k+ 1). Les ´equations sont des fonctions lin´eaires des coefficients. Si la matrice(X0X)est de rang plein nous pouvons l’inverser afin d’obtenir

(X0X)−1X0Xβ = (X0X)−1X0Y.

En fait, l’hypoth`ese de la possibilit´e d’inverser la matriceX0X fait partie des hypoth`eses de base du mod`ele de r´egression multiple. (Voir quand mˆeme la discussion plus loin sur la

multicollin´earit´e parfaite.) Nous avons

(X0X)−1X0Xβ =Iβ =β,

o`uI est la matrice d’identit´e de dimensions(k+ 1)×(k+ 1),

I ≡

1 0 0 . . . 0 0 1 0 . . . 0 0 0 1 . . . 0 ... ... ... . .. ...

0 0 0 . . . 1

 ,

et donc

β ≡βˆ= (X0X)−1X0Y.

J’ai ´ecrit un chapeau surβpour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ? C’est la premi`ere fois que nous voyons une application de la diff´erentiation de matrices dans le cours. Ce sera d’ailleurs presque la derni`ere fois.

3.4.1 Diff´erentiation matricielle

Rappelez-vous la page D-4 du document que je vous ai donn´e `a lire (je donne la r´ef´erence exacte encore une fois `a la fin de ces notes), sp´ecifiquement l’encadr´e en bas de la page :

y ∂x∂y

Ax A0 x0A A x0x 2x x0Ax Ax+A0x

Etudiez bien la condition du premier ordre pour ˆetre sˆur `a 100% de comprendre comment on´ l’obtient en appliquant ces r`egles. Notez bien aussi que, pour les fins de notre diff´erentiation, il y a une fonction (la somme des r´esidus carr´es) dek+ 1variables explicatives qui sont les ´el´ements deβ.

Notez bien que le calcul deβˆimplique l’inversion d’une matrice de dimensions

(k+ 1)×(k+ 1). Dans le cas g´en´eral (o`uk > 3), nous savons que nous ne pouvons pas obtenir une expression alg´ebrique pour cette matrice invers´ee. R´esoudre ce probl`eme ´equivaut (ou presque) `a trouver les racines d’un polynˆome d’ordrek+ 1, et il y a un th´eor`eme qui dit ceci est impossible en g´en´eral (alg´ebriquement) pour des polynˆomes d’ordre 5 et plus. La solution alg´ebrique pour un polynˆome d’ordre 4 s’´etale sur plusieurs pages, et elle n’est pas d’une grande utilit´e pratique. Si nous voulions ´ecrire la solution pourβ aveck > 3avec une notation de sommations, c¸a serait plus qu’affreux, c¸a serait carr´ement impossible. Il y a des moyens de contourner ce probl`eme, mais ce sont des moyens qui datent d’avant l’´epoque d’ordinateurs personnels puissants. De nos jours, nous pouvons toujours demander `a l’ordinateur d’inverser nos matrices(X0X), utilisant des algorithmes num´eriques puissants et efficaces.

3.4.2 Quelques exemples simples des r`egles de diff´erentiation

Pour illustrer le fonctionnement de ces r`egles de diff´erentiation, prenons quelques exemples concrets tr`es simples. D’abord, supposons que

y =

La fonctionydans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la fonction (x1 etx2) et donc deux d´eriv´ees partielles distinctes. Par convention, on ´ecrit les d´eriv´ees partielles en colonne :

∂y ce qui est conforme `a la premi`ere r`egle du tableau ci-dessus.

Maintenant, supposons que

=

Maintenant,yest compos´ee de deux fonctions, d´efinies par les deux rang´ees de l’expression ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1etx2), et donc on a un total de quatre d´eriv´ees partielles. Nous avons

∂y1

Par convention, on ´ecrit ces quatre d´eriv´ees en notation matricielle comme

Donc, la convention revient `a aligner toutes les d´eriv´ees de la mˆeme fonction dans la mˆeme colonne, et toutes les d´eriv´ees par rapport au mˆeme argument dans la mˆeme rang´ee. Dans notre cas, nous avons et encore une fois la premi`ere r`egle du tableau est respect´ee.

Maintenant, supposons que

=

Cette fois-ci la fonctionyest scalaire. Il y a deux d´eriv´ees partielles possibles. Nous avons

∂y

∂x1 = 2A11x1+A21x2+A12x2 et

∂y

∂x2 = 2A22x2+A21x1+A12x1. Ecrivant ces r´esultats en notation matricielle nous avons´

ce qui est conforme `a la quatri`eme r`egle du tableau (il est important de v´erifier ceci).

Pour des cas plus compliqu´es (plusieurs fonctions, plusieurs arguments), les expressions non matricielles peuvent devenir assez longues et assez compliqu´ees. Ces r`egles de diff´erentiation matricielle permettent de tenir compte automatiquement et syst´ematiquement (sans oublier des termes !) de toutes les d´eriv´ees partielles possibles. Elles permettent aussi d’´ecrire toutes les d´eriv´ees partielles dans une notation tr`es compacte.

Documents relatifs