Estimateur MCO - D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Univ

Nous voulons choisir les valeurs des éléments deβqui minimisent la somme des résidus carrés.

Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons d´ej`a vu des

justifications pour l’utilisation de la somme des erreurs au carré dans le chapitre sur le modèle de régression simple.

1. L’algèbre est relativement simple. Le critère (la fonction à minimiser) est une expression quadratique (du deuxième degré), et donc les conditions du premier ordre donnent un système d’équationslinéaires. Il est très facile de résoudre un système d’équations linéaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes (voir ci-dessous).

2. L’autre justification se trouve plus loin, dans la section7de ces notes. On peut montrer que, sous les hypothèses de base du modèle et sous l’homoscédasticité des erreurs, l’estimateur MCO est l’estimateur le plusefficientdans la classe d’estimateurs linéaires (une fonction linéaire des observationsY_i) et non biaisés. C’est le théorème

Gauss-Markov, célèbre dans l’histoire de la pensée en statistique et en économétrie.

Comme nous avons vu dans le chapitre sur le modèle de régression simple, il y a d’autres estimateurs possibles à part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des critères souhaitables d’un estimateur (absence de biais, convergence, etc.) même s’ils sont moins efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent être robustes en présence d’observations aberrantes. Voir la remarque ci-dessus à propos d’une de nos hypothèses statistiques de base, l’existence de quatrièmes moments finis pourXi etui. J’invite ceux qui s’intéressent à poursuivre plus loin ce sujet à consulter l’articleRobust Statistics sur Wikipedia.

Le probl`eme peut s’´ecrire comme

min

β U⁰U.

Simple, non ? RemplaçonsU par sa définition. Le problème devient :

minβ (Y −Xβ)⁰(Y −Xβ),

ce qui est ´equivalent `a :

min

β (Y⁰Y −β⁰X⁰Y −Y⁰Xβ+β⁰X⁰Xβ).

Vous devez être parfaitement à l’aise avec cette multiplication matricielle. On applique les mêmes règles que pour la multiplication de scalaires en faisant bien attention à l’orientation (est-ce qu’elles sont transposées ou non ?) des matrices.

D´erivant par rapport `aβ, nous obtenons :

−X⁰Y −X⁰Y +X⁰Xβ+ (X⁰X)⁰β = 0.

Ici, on applique les règles de différenciation matricielle auxquelles nous reviendrons dans la sous-section suivante. Notez aussi que le0 du côté droit est implicitement unvecteurde zéros. L’expression du côté gauche est de dimensions(k+ 1)×1et donc l’expression du côté droit doit être conforme. Lorsqu’il n’y a pas d’ambigu¨ıté entre scalaire et vecteur nous allons utiliser cette notation. Pour dénoterexplicitementun vecteur de zéros au lieu d’un scalaire lorsqu’il pourrait y avoir ambigu¨ıté, nous utiliserons 0 ou le nombre de colonnes sera défini selon le contexte : si nous voulons être encore plus explicites concernant les dimensions du vecteur nous allons utiliser0_mpour dénoter un vecteur de zéros de dimensionsm×1. Ceci nous donne

X⁰Xβ =X⁰Y.

Cet ensemble d’équations s’appelle communément leséquations normales de l’estimation MCO. Notez qu’il y a(k+ 1) équations. Les inconnus sont les valeurs des coefficients, dont il y a

(k+ 1). Les ´equations sont des fonctions lin´eaires des coefficients. Si la matrice(X⁰X)est de rang plein nous pouvons l’inverser afin d’obtenir

(X⁰X)⁻¹X⁰Xβ = (X⁰X)⁻¹X⁰Y.

En fait, l’hypothèse de la possibilité d’inverser la matriceX⁰X fait partie des hypothèses de base du modèle de régression multiple. (Voir quand même la discussion plus loin sur la

multicollin´earit´e parfaite.) Nous avons

(X⁰X)⁻¹X⁰Xβ =Iβ =β,

o`uI est la matrice d’identit´e de dimensions(k+ 1)×(k+ 1),

I ≡







1 0 0 . . . 0 0 1 0 . . . 0 0 0 1 . . . 0 ... ... ... . .. ...

0 0 0 . . . 1





 ,

et donc

β ≡βˆ= (X⁰X)⁻¹X⁰Y.

J’ai écrit un chapeau surβpour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ? C’est la première fois que nous voyons une application de la différentiation de matrices dans le cours. Ce sera d’ailleurs presque la dernière fois.

3.4.1 Diff´erentiation matricielle

Rappelez-vous la page D-4 du document que je vous ai donné à lire (je donne la référence exacte encore une fois à la fin de ces notes), spécifiquement l’encadré en bas de la page :

y _∂x^∂y

Ax A⁰ x⁰A A x⁰x 2x x⁰Ax Ax+A⁰x

Etudiez bien la condition du premier ordre pour être sûr à 100% de comprendre comment on´ l’obtient en appliquant ces règles. Notez bien aussi que, pour les fins de notre différentiation, il y a une fonction (la somme des résidus carrés) dek+ 1variables explicatives qui sont les éléments deβ.

Notez bien que le calcul deβˆimplique l’inversion d’une matrice de dimensions

(k+ 1)×(k+ 1). Dans le cas général (oùk > 3), nous savons que nous ne pouvons pas obtenir une expression algébrique pour cette matrice inversée. Résoudre ce problème équivaut (ou presque) à trouver les racines d’un polynôme d’ordrek+ 1, et il y a un théorème qui dit ceci est impossible en général (algébriquement) pour des polynômes d’ordre 5 et plus. La solution algébrique pour un polynôme d’ordre 4 s’étale sur plusieurs pages, et elle n’est pas d’une grande utilité pratique. Si nous voulions écrire la solution pourβ aveck > 3avec une notation de sommations, ça serait plus qu’affreux, ça serait carrément impossible. Il y a des moyens de contourner ce problème, mais ce sont des moyens qui datent d’avant l’époque d’ordinateurs personnels puissants. De nos jours, nous pouvons toujours demander à l’ordinateur d’inverser nos matrices(X⁰X), utilisant des algorithmes numériques puissants et efficaces.

3.4.2 Quelques exemples simples des r`egles de diff´erentiation

Pour illustrer le fonctionnement de ces règles de différentiation, prenons quelques exemples concrets très simples. D’abord, supposons que

y =

La fonctionydans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la fonction (x₁ etx₂) et donc deux dérivées partielles distinctes. Par convention, on écrit les dérivées partielles en colonne :

∂y ce qui est conforme à la première règle du tableau ci-dessus.

Maintenant, supposons que

Maintenant,yest composée de deux fonctions, définies par les deux rangées de l’expression ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1etx2), et donc on a un total de quatre dérivées partielles. Nous avons

∂y₁

Par convention, on écrit ces quatre dérivées en notation matricielle comme



Donc, la convention revient à aligner toutes les dérivées de la même fonction dans la même colonne, et toutes les dérivées par rapport au même argument dans la même rangée. Dans notre cas, nous avons et encore une fois la première règle du tableau est respectée.

Maintenant, supposons que

Cette fois-ci la fonctionyest scalaire. Il y a deux d´eriv´ees partielles possibles. Nous avons

∂y

∂x₁ = 2A₁₁x₁+A₂₁x₂+A₁₂x₂ et

∂y

∂x₂ = 2A₂₂x₂+A₂₁x₁+A₁₂x₁. Ecrivant ces r´esultats en notation matricielle nous avons´



ce qui est conforme à la quatrième règle du tableau (il est important de vérifier ceci).

Pour des cas plus compliqués (plusieurs fonctions, plusieurs arguments), les expressions non matricielles peuvent devenir assez longues et assez compliquées. Ces règles de différentiation matricielle permettent de tenir compte automatiquement et systématiquement (sans oublier des termes !) de toutes les dérivées partielles possibles. Elles permettent aussi d’écrire toutes les dérivées partielles dans une notation très compacte.

Dans le document Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal (Page 14-20)