• Aucun résultat trouvé

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

N/A
N/A
Protected

Academic year: 2022

Partager "D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal"

Copied!
121
0
0

Texte intégral

(1)

ECO 4272 : Introduction `a l’´econom´etrie Notes sur la R´egression Multiple

Steve Ambler

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

2018 : Steve Ambler c

Hiver 2018

Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a ambler.steven@uqam.ca.

(2)

Table des mati`eres

1 Introduction 4

2 Biais d ˆu `a une variable omise 4

2.1 Exemple . . . 6

3 Mod`ele de r´egression multiple 10 3.1 Sp´ecification . . . 10

3.2 Sp´ecification matricielle . . . 11

3.3 Hypoth`eses de base du mod`ele . . . 12

3.4 Estimateur MCO . . . 14

3.4.1 Diff´erentiation matricielle . . . 16

3.4.2 Quelques exemples simples des r`egles de diff´erentiation . . . 18

3.5 Approche non matricielle au probl`eme de minimisation . . . 20

4 Propri´et´es alg´ebriques de l’estimateur MCO 23 4.1 Orthogonalit´e . . . 23

4.2 Somme des r´esidus . . . 25

4.3 Valeurs pr´edites . . . 25

4.4 Ecart type de la r´egression´ . . . 26

4.5 Mesures d’ajustement statistique . . . 27

4.5.1 LeR2 . . . 27

4.5.2 LeR2 ajust´e . . . 33

5 Propri´et´es statistiques de l’estimateur MCO 37 5.1 Propri´et´es statistiques : absence de biais . . . 37

5.2 Petite note : th´eor`eme de Slutsky . . . 38

5.3 Propri´et´es statistiques : convergence . . . 39

5.4 Petite note sur les covariances en notation matricielle . . . 45

5.5 Propri´et´es statistiques : distribution en grand ´echantillon . . . 46

5.5.1 Cas homosc´edastique . . . 49

6 Variance ´echantillonnale deβˆ 49 6.1 Cas homosc´edastique . . . 52

6.2 Homosc´edasticit´e versus H´et´erosc´edasticit´e . . . 53

7 Efficience de l’estimateur MCO sous l’homosc´edasticit´e 54 7.1 Preuve du th´eor`eme Gauss-Markov. . . 55

8 Biais d ˆu `a des variables omises (bis) 57 9 Tests d’hypoth`eses et ensembles de confiance 65 9.1 Tests d’hypoth`eses simples par rapport `a un seul coefficient . . . 65

9.2 Tests d’hypoth`eses simples par rapport `a une combinaison lin´eaire de coefficients . 67 9.2.1 M´ethode indirecte . . . 67

(3)

9.2.2 M´ethode directe . . . 69

9.3 Pourquoi les tests s´equentiels ne sont pas valides . . . 70

9.4 Tests d’hypoth`eses jointes . . . 71

9.5 Que faire lorsqueΣˆβˆ n’est pas disponible ?. . . 74

9.6 Une seule restriction comme un cas sp´ecial . . . 75

9.7 Significativit´e de la r´egression . . . 79

9.8 Tests d’hypoth`ese en pr´esence d’homosc´edasticit´e . . . 80

9.9 Test de significativit´e de la r´egression dans le cas homosc´edastique . . . 88

9.10 Tests exacts . . . 89

9.11 Ensembles de confiance . . . 90

10 Multicollin´earit´e 91 10.1 Multicollin´earit´e parfaite . . . 91

10.2 Multicollin´earit´e imparfaite . . . 93

10.3 Trucs pratiques . . . 96

11 Un Exemple 97

12 Un Autre Exemple 102

13 Concepts `a retenir 119

14 R´ef´erences 121

(4)

1 Introduction

Dans ce chapitre sur le mod`ele de r´egression multiple, il n’y a presque rien de fondamentalement nouveau par rapport au mod`ele de r´egression simple. Une lecture de la table des mati`eres de ces notes servira `a vous convaincre que ce sont les mˆemes sujets qui reviennent. C’est comme si on allait r´eapprendre la mati`ere sur le mod`ele de r´egression simple mais en notation matricielle.

C’est donc une bonne occasion de faire de la r´evision, surtout en ce qui concerne les propri´et´es de l’estimateur MCO. `A peu pr`es le seul aspect novateur (`a part la notation matricielle elle-mˆeme) sera l’id´ee de tester des hypoth`eses jointes (et une notion qui y est tr`es reli´ee, celle des ensembles de confiance).1

Une fois la notation matricielle apprise, toutes les d´erivations alg´ebriques concernant les propri´et´es alg´ebriques de l’estimateur MCO et les propri´et´es statistiques de l’estimateur MCO sontplus simplesen notation matricielle qu’en notation de sommations. J’esp`ere vous convaincre de ce principe avant de terminer notre ´etude sur le mod`ele de r´egression multiple.

2 Biais d ˆu `a une variable omise

On peut motiver le mod`ele de r´egression multiple en montrant que, si nous voulons analyser l’impact d’une variable explicative sur une variable d´ependante et si nous omettons une ou des variables qui ont un impact sur la variable d´ependante, notre estim´e de cet impact sera en g´en´eral biais´e, dans la mesure o`u la corr´elation entre cette variable omise ou ces variables omises et la variable explicative du mod`ele est non nulle.

Cela veut dire que, mˆeme si nous ne nous int´eressons pas particuli`erement `a l’impact de ces variables omises, il faut n´eanmoins en tenir compte dans notre mod`ele de r´egression afin d’obtenir un estim´e non biais´e de l’impact de notre variable d’int´erˆet (pour utiliser l’exemple empirique du manuel, l’impact de la taille moyenne des classes sur le rendement scolaire).

1. Le concept de tester une hypoth`ese simple qui porte sur unecombinaisonde coefficients est nouveau aussi, mais nous allons montrer comment transformer le mod`ele de r´egression multiple pour traiter ce cas comme un test d’une hypoth`ese nulle qui porte sur un seul coefficient. Voir la sous-section9.2.

(5)

On sait `a partir de notre ´etude du mod`ele de r´egression simple, que l’estimateur du coefficient de penteβ1 est ´egal `a :

βˆ11+

1 n

Pn

i=1 Xi−X¯ ui

1 n

Pn

i=1 Xi−X¯2 .

Maintenant, on modifie nos hypoth`eses statistiques par rapport au mod`ele de r´egression simple

´etudi´e dans le dernier chapitre. On n’impose plus que l’esp´erance (conditionnelle `a la valeur observ´eeXi) soit ´egale `a z´ero. Maintenant, on a :

1 n

n

X

i=1

Xi−X¯

ui −→p Cov(u , X) =Corr(u , X)σuσX,

et

1 n

n

X

i=1

Xi−X¯2 p

→σX2.

Donc, par le th´eor`eme de Slutsky (voir la section5.2ci-dessous), ce qui nous permet d’´etudier s´epar´ement les propri´et´es en grand ´echantillon du num´erateur et du d´enominateur du deuxi`eme terme dans l’expression pour la valeur de notre estimateurβˆ1, on a :

βˆ1 −→p β1 +Corr(u , X)σuσX

σX21+Corr(u , X) σu σX.

L’estimateur n’est plus convergent. Il y a un biais, mˆeme asymptotiquement (lorsque le nombre d’observations tend vers l’infini). Le signe du biais d´epend du signe de la corr´elation entre la variable explicativeXiet le terme d’erreurui.

Notez que, dans ce cas, les hypoth`eses de base du mod`ele ne sont pas respect´ees. La variable omise, qui est incluse dans le terme d’erreur du mod`ele, est corr´el´ee avec la variable explicative du mod`eleX. Autrement dit, l’hypoth`ese

E(ui|X =Xi) = 0

ne tient plus. Dans le cadre d’une ´etude empirique, il faut ´evaluer la plausibilit´e de cette

(6)

hypoth`ese avec les donn´ees qu’on a. S’il y a une variable dans la banque de donn´ees qui en principe pourrait affecter la variable d´ependante de l’´etude et qui risque d’ˆetre corr´el´ee avec une variable qui est incluse comme variable explicative dans le mod`ele, il y a probablement un probl`eme de variable omise.2

Une solution possible est d’inclure les variables omises explicitement comme variables

explicatives additionnelles dans le mod`ele de r´egression. Le mod`ele de r´egression simple devient un mod`ele de r´egression multiple. Nous verrons dans la section suivante la sp´ecification du mod`ele de r´egression multiple et les hypoth`eses standard qui permettront, comme dans le mod`ele de r´egression simple, de d´emontrer certaines propri´et´es souhaitables de l’estimateur MCO des coefficients.

2.1 Exemple

Nous pouvons ˆetre encore plus explicites. Supposons que le vrai mod`ele est donn´e par

Yi01X1i2X2i+ui

tandis que le mod`ele estim´e est

Yi01X1i+ ˜ui o`u

˜

ui ≡β2X2i+ui.

Le terme d’erreur du mod`ele estim´e incorpore la variable omiseX2iavec le vrai terme d’erreur ui. Nous avons

βˆ1 =

1 n

Pn

i=1 X1i−X¯1

Yi−Y¯

1 n

Pn

i=1 X1i−X¯1

2

2. Dans des cours plus avanc´es, vous allez apprendre des fac¸ons formelles de tester l’absence de corr´elation entre les variables explicatives du mod`ele et le terme d’erreur. Voir par exemple McFadden (2002). Sans ces m´ethodologies avanc´ees, il faut se fier `a la logique et `a son intuition.

(7)

=

1 n

Pn

i=1 X1i−X¯1

β01X1i2X2i+ui−β0−β11 −β22−u¯

1 n

Pn

i=1 X1i−X¯12

1 1 n

Pn

i=1 X1i−X¯12 1

n

Pn

i=1 X1i−X¯122 1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12

+

1 n

Pn

i=1 X1i−X¯1

(ui−u)¯

1 n

Pn

i=1 X1i−X¯12

12

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12 +

1 n

Pn

i=1 X1i−X¯1

(ui−u)¯

1 n

Pn

i=1 X1i−X¯12 . Calculant l’esp´erance deβˆ1, nous obtenons

E βˆ1

12E

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12

!

+E +

1 n

Pn

i=1 X1i−X¯1

E((ui−u)¯ |X11, X12, . . . , X1n)

1 n

Pn

i=1 X1i−X¯12

!

12E

1 n

Pn

i=1 X1i −X¯1

X2i−X¯2

1 n

Pn

i=1 X1i −X¯12

!

par la loi des esp´erances it´er´ees. En g´en´eral,

E

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12

! 6= 0.

L’estimateur est biais´e, le biais ´etant donn´e par la valeur de l’esp´erance dans l’´equation pr´ec´edente.

Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l’´echantillonn tend vers l’infini). L’expression

1 n

n

X

i=1

X1i−X¯1

X2i−X¯2

est tout simplement la covariance ´echantillonnale entreX1etX2. (C’est diff´erent par un facteur

(8)

den/(n−1)qui est presqu’´egal `a un sinest grand.) L’expression 1

n

n

X

i=1

X1i−X¯12

est tout simplement (ou presque) la variance ´echantillonnale deX1. Si les deux expressions sont des estimateurs convergents de leurs ´equivalents dans la population, nous avons :

1 n

n

X

i=1

X1i−X¯1

X2i−X¯2 p

→Cov(X1 , X2)

et

1 n

n

X

i=1

X1i−X¯12 p

→Var(X1). Par le th´eor`eme de Slutsky (voir la section5.2ci-dessous), nous avons

βˆ1 −→p β12Cov(X1 , X2) Var(X1)

La diff´erence entreβˆ1et sa vraie valeur est approximativement ´egale `a la vraie valeur deβ2 fois le ratio de la covariance entreX1etX2 et la variance deX2. Si on connaˆıt au moins le signe deβ2 (on pourrait avoir de l’information a priori sur le signe deβ2) et de la covariance, on peut pr´edire le signe de cet ´ecart. Aussi, nous savons que

Cov(X1 , X2) Var(X1)

est la valeur (asymptotiquement) du coefficient de pente d’une r´egression o`uX2 est la variable d´ependante etX1 est la variable explicative, cela veut dire l’estimation du mod`ele de r´egression lin´eaire simple suivant :

X2i01X1ii.

(9)

Dans cet encadr´e, j’´elabore un peu sur cette interpr´etation alernative.

Si on remonte un peu en arri`ere nous constatons que nous pouvons exprimer notre estimateur βˆ1 comme

βˆ112

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12 +

1 n

Pn

i=1 X1i−X¯1

(ui−u)¯

1 n

Pn

i=1 X1i−X¯12 . Nous constatons aussi que le terme qui multiplieβ2, soit

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12

ressemble `a quelque chose que nous connaissons. Il est ´egal (presque) `a la covariance

´echantillonnale entreX1 etX2divis´ee par la variance ´echantillonnale deX1. C’est exactement ce que l’on obtiendrait si on estimait un mod`ele de r´egression simple avecX2 comme variable d´ependante etX1 comme la seule variable explicative (`a part la constante).

Autrement dit, avec ce que l’on pourrait appeler le mod`eleauxiliaire suivant :

X2i01X1ii

on obtiendrait l’estimateur MCO suivant :

ˆ γ=

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i−X¯12 . Nous obtenons donc

βˆ112γˆ1+

1 n

Pn

i=1 X1i−X¯1

(ui−u)¯

1 n

Pn

i=1 X1i−X¯12 . Ainsi, si

ˆ γ1 −→p γ10

(10)

nous avons

βˆ1

p

→β12γ10.

On ne peut pr´esumer que l’estimateurγˆ1 est un estimateur convergent, puisqu’il faudrait faire des hypoth`eses statistiques maintenues (notamment concernant l’esp´erance conditionnelle de l’erreurεi) afin de pouvoir montrer cette convergence. C’est pourquoi j’ai ´ecritγ10 ici et non γ1.

Nous allons montrer une g´en´eralisation de ce r´esultat dans la section (8) ci-dessous, o`uX1 pourrait ˆetre un vecteur de plusieurs variables explicatives incluses etX2 pourrait ˆetre un vecteur de plusieurs variables omises.

3 Mod`ele de r´egression multiple

A la lumi`ere de ce que nous venons de montrer que l’omission d’une variable qui est pertinente` pour la pr´ediction de la variable d´ependanteYi peut mener `a un estimateur biais´e de l’influence d’une variable d’int´erˆetX1i sur la variable d´ependante. Donc, si nous voulons estimer son impact sans biais, il faut en principe inclure toutes les variables qui pourraient aider `a pr´edireYi et qui sont potentiellement corr´el´ees avecX1i.3Ceci nous m`ene aumod`ele de r´egression multiple.

3.1 Sp´ecification

Yi0+X1iβ1+X2iβ2+. . .+Xkiβk+ui. (1)

3. Est-il possible d’inclure toutesles variables qui peuvent aider `a pr´edire Yi? La r´eponse `a cette question est

non pour des raisons que nous allons ´etudier plus tard. Alors, quelles variables inclure ? Le choix de va- riables `a inclure dans un mod`ele de r´egression multiple peut ˆetre une question tr`es compliqu´ee. Nous allons voir quelques crit`eres de s´election dans ce chapitre. Voir le vid´eoclip https://www.youtube.com/watch?v=

HP3RhjLhRjY pour une discussion qui n’est pas trop technique. Voir aussi https://www.youtube.com/

watch?v=kl4RxV37ebk.

(11)

Chaque variable explicative porte deux indices inf´erieurs. Le premier fait r´ef´erence `a son identit´e.

Le deuxi`eme fait r´ef´erence `a l’unit´e d’observation (ou p´eriode dans le cas de s´eries

chronologiques). Cette convention suit la convention du manuel. On suppose un ´echantillon den observations.

3.2 Sp´ecification matricielle

Y =Xβ+U, o`u

Y ≡

Y1 Y2 . . . Yn 0

,

X ≡

1 X11 X21 . . . Xk1 1 X12 X22 . . . Xk2 ... ... ... . .. ... 1 X1n X2n . . . Xkn

 ,

β ≡

β0 β1 β2 . . . βk 0

,

U ≡

u1 u2 . . . un 0

.

donc,Y est un vecteur colonne de dimensionsn×1,X est une matrice de dimensions

n×(k+ 1),β est un vecteur colonne de dimensions(k+ 1)×1, etU est un vecteur colonne de dimensionsn×1. Le mod`ele contient une constanteβ0et par convention la premi`ere colonne de Xcontient un vecteur de valeurs ´egales `a un.

Notez que la convention concernant les indices inf´erieurs associ´es aux variables explicatives du mod`ele (qui, r´ep´etons-le, suit la notation du chapitre 6 du manuel), qui stipule queXij est la j-i`eme observation de la i-i`eme variable explicative, n’est pas strictement conforme avec la notation conventionnelle de l’alg`ebre lin´eaire ou des matrices. SoitX une matrice de dimensions

(12)

k×l. En alg`ebre lin´eaire on peut faire r´ef´erence `a un ´el´ement de la matriceXpar le biais

d’indices inf´erieurs. La convention est queXij est l’´el´ement dans l’i-i`eme rang´ee et la j-i`eme colonne. Donc, il s’agit d’un mariage malheureux entre deux notations qui sont incompatibles.

Dans ces notes, la notationXij fera r´ef´erence par d´efaut `a la sp´ecification du mod`ele dans l’´equation (1). Lorsque je veux utiliser la notation conventionnelle de l’alg`ebre lin´eaire, je vais l’´ecrire explicitement.4

Relire le paragraphe pr´ec´edent. Il est tr`es important de saisir la diff´erence entre la notation utilis´ee par Stock et Watson et la notation matricielle standard.

Pour l’instant, il ne s’agit que de la notation. L’avantage d’introduire cette notation est la simplificationde l’alg`ebre. Nous verrons de quoi il s’agit lors de la d´erivation de l’estimateur MCO.5 Avant de d´eriver l’estimateur MCO, nous allons nous pencher dans la sous-section suivante sur les hypoth`eses statistiques derri`ere le mod`ele de r´egression multiple.

3.3 Hypoth`eses de base du mod`ele

Les hypoth`eses sont les ´equivalents des hypoth`eses de base du mod`ele de r´egression simple du chapitre 4.

Voir l’encadr´eKey Concept 18.1 `a la page 707 du manuel (version anglaise — la traduction franc¸aise omet ce chapitre).

1. E(ui|Xi) = 0. Cette hypoth`ese est reli´ee `a la preuve que l’estimateur MCO deβest un estimateur non biais´e.

2. (Xi , Yi)i.i.d. Cette hypoth`ese est reli´ee `a la preuve que l’estimateur MCO deβ est un estimateur convergent.

3. Xietuiont des quatri`emes moments non nuls et finis. Cette hypoth`ese est aussi reli´ee `a la preuve que l’estimateur MCO deβ est un estimateur convergent.6

4. Si vous soupc¸onnez qu’il y a des incoh´erences de notation, je vous prie de bien vouloir me les signaler.

5. Toutes les preuves que nous allons voir (absence de biais de l’estimateur MCO, propri´et´es ´echantillonnales de l’estimateur, etc., sontbeaucoupplus faciles `a montrer en notation matricielle qu’en utilisant des sommations. J’esp`ere que vous allez finir par ˆetre convaincus de ce principe.

(13)

4. X est de rang plein en colonnes. Cela revient `a dire qu’il n’y a pas une colonne de la matriceX qui peut ˆetre exprim´ee comme une combinaison lin´eaire exacte des autres colonnes de la matrice. Une des cons´equences de cette hypoth`ese sera que la matrice (X0X)(qui est une matrice carr´ee par construction) sera une matrice de rang plein (k+ 1), et donc il sera possible de calculer son inverse(X0X)−1. Cet inverse (voir ci-dessous) fait partie de la d´efinition de l’estimateur MCO deβ. Donc, sans cette hypoth`ese, l’estimateur MCO deβne sera mˆeme pas bien d´efini.

5. Var(ui|Xi) = σu2.

6. La distribution deuiconditionnelle `a la valeur deXi suit une loi normale.

Les quatre premi`eres hypoth`eses sont les hypoth`eses retenues par d´efaut. Nous n’aurons besoin des deux derni`eres hypoth`eses que pour des cas sp´eciaux. L’avant derni`ere hypoth`ese s’applique seulementdans le cas sp´ecial d’erreurs homosc´edastiques. Si nous sommes prˆets `a supposer des erreurs homosc´edastiques, nous obtiendrons une version plus simple de la matrice de

variance-covariance des estimateurs MCO. Cette simplification correspond `a ce que nous avons vu dans le cadre du mod`ele de r´egression simple dans le cas homosc´edastique. Cette hypoth`ese correspond aussi au cas o`u l’estimateur MCO est l’estimateur lin´eaire le plus efficient, autrement dit l’estimateur lin´eaire non biais´e avec la plus petite variance (th´eor`eme Gauss-Markov). Le terme consacr´e en anglais est l’estimateurBLUE (Best Linear Unbiased Estimator). Avec l’avant-derni`ere hypoth`ese plus la derni`ere concernant la normalit´e des erreurs, on pourra effectuer des tests d’hypoth`eseexacts— les statistiquestpour tester des hypoth`eses simples auront des distributionstde Student mˆeme en petit ´echantillon, et les statistiquesF de Fisher pour tester des hypoth`ese jointes (voir plus loin dans le chapitre) auront des distributionsF mˆeme en petit ´echantillon.

loin de la moyenne (si la moyenne existe).

(14)

3.4 Estimateur MCO

Nous voulons choisir les valeurs des ´el´ements deβqui minimisent la somme des r´esidus carr´es.

Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons d´ej`a vu des

justifications pour l’utilisation de la somme des erreurs au carr´e dans le chapitre sur le mod`ele de r´egression simple.

1. L’alg`ebre est relativement simple. Le crit`ere (la fonction `a minimiser) est une expression quadratique (du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme d’´equationslin´eaires. Il est tr`es facile de r´esoudre un syst`eme d’´equations lin´eaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes (voir ci-dessous).

2. L’autre justification se trouve plus loin, dans la section7de ces notes. On peut montrer que, sous les hypoth`eses de base du mod`ele et sous l’homosc´edasticit´e des erreurs, l’estimateur MCO est l’estimateur le plusefficientdans la classe d’estimateurs lin´eaires (une fonction lin´eaire des observationsYi) et non biais´es. C’est le th´eor`eme

Gauss-Markov, c´el`ebre dans l’histoire de la pens´ee en statistique et en ´econom´etrie.

Comme nous avons vu dans le chapitre sur le mod`ele de r´egression simple, il y a d’autres estimateurs possibles `a part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des crit`eres souhaitables d’un estimateur (absence de biais, convergence, etc.) mˆeme s’ils sont moins efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent ˆetre robustes en pr´esence d’observations aberrantes. Voir la remarque ci-dessus `a propos d’une de nos hypoth`eses statistiques de base, l’existence de quatri`emes moments finis pourXi etui. J’invite ceux qui s’int´eressent `a poursuivre plus loin ce sujet `a consulter l’articleRobust Statistics sur Wikipedia.

Le probl`eme peut s’´ecrire comme

min

β U0U.

(15)

Simple, non ? Remplac¸onsU par sa d´efinition. Le probl`eme devient :

minβ (Y −Xβ)0(Y −Xβ),

ce qui est ´equivalent `a :

min

β (Y0Y −β0X0Y −Y0Xβ+β0X0Xβ).

Vous devez ˆetre parfaitement `a l’aise avec cette multiplication matricielle. On applique les mˆemes r`egles que pour la multiplication de scalaires en faisant bien attention `a l’orientation (est-ce qu’elles sont transpos´ees ou non ?) des matrices.

D´erivant par rapport `aβ, nous obtenons :

−X0Y −X0Y +X0Xβ+ (X0X)0β = 0.

Ici, on applique les r`egles de diff´erenciation matricielle auxquelles nous reviendrons dans la sous-section suivante. Notez aussi que le0 du cˆot´e droit est implicitement unvecteurde z´eros. L’expression du cˆot´e gauche est de dimensions(k+ 1)×1et donc l’expression du cˆot´e droit doit ˆetre conforme. Lorsqu’il n’y a pas d’ambigu¨ıt´e entre scalaire et vecteur nous allons utiliser cette notation. Pour d´enoterexplicitementun vecteur de z´eros au lieu d’un scalaire lorsqu’il pourrait y avoir ambigu¨ıt´e, nous utiliserons 0 ou le nombre de colonnes sera d´efini selon le contexte : si nous voulons ˆetre encore plus explicites concernant les dimensions du vecteur nous allons utiliser0mpour d´enoter un vecteur de z´eros de dimensionsm×1. Ceci nous donne

X0Xβ =X0Y.

Cet ensemble d’´equations s’appelle commun´ement les´equations normales de l’estimation MCO. Notez qu’il y a(k+ 1) ´equations. Les inconnus sont les valeurs des coefficients, dont il y a

(16)

(k+ 1). Les ´equations sont des fonctions lin´eaires des coefficients. Si la matrice(X0X)est de rang plein nous pouvons l’inverser afin d’obtenir

(X0X)−1X0Xβ = (X0X)−1X0Y.

En fait, l’hypoth`ese de la possibilit´e d’inverser la matriceX0X fait partie des hypoth`eses de base du mod`ele de r´egression multiple. (Voir quand mˆeme la discussion plus loin sur la

multicollin´earit´e parfaite.) Nous avons

(X0X)−1X0Xβ =Iβ =β,

o`uI est la matrice d’identit´e de dimensions(k+ 1)×(k+ 1),

I ≡

1 0 0 . . . 0 0 1 0 . . . 0 0 0 1 . . . 0 ... ... ... . .. ...

0 0 0 . . . 1

 ,

et donc

β ≡βˆ= (X0X)−1X0Y.

J’ai ´ecrit un chapeau surβpour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ? C’est la premi`ere fois que nous voyons une application de la diff´erentiation de matrices dans le cours. Ce sera d’ailleurs presque la derni`ere fois.

3.4.1 Diff´erentiation matricielle

Rappelez-vous la page D-4 du document que je vous ai donn´e `a lire (je donne la r´ef´erence exacte encore une fois `a la fin de ces notes), sp´ecifiquement l’encadr´e en bas de la page :

(17)

y ∂x∂y

Ax A0 x0A A x0x 2x x0Ax Ax+A0x

Etudiez bien la condition du premier ordre pour ˆetre sˆur `a 100% de comprendre comment on´ l’obtient en appliquant ces r`egles. Notez bien aussi que, pour les fins de notre diff´erentiation, il y a une fonction (la somme des r´esidus carr´es) dek+ 1variables explicatives qui sont les ´el´ements deβ.

Notez bien que le calcul deβˆimplique l’inversion d’une matrice de dimensions

(k+ 1)×(k+ 1). Dans le cas g´en´eral (o`uk > 3), nous savons que nous ne pouvons pas obtenir une expression alg´ebrique pour cette matrice invers´ee. R´esoudre ce probl`eme ´equivaut (ou presque) `a trouver les racines d’un polynˆome d’ordrek+ 1, et il y a un th´eor`eme qui dit ceci est impossible en g´en´eral (alg´ebriquement) pour des polynˆomes d’ordre 5 et plus. La solution alg´ebrique pour un polynˆome d’ordre 4 s’´etale sur plusieurs pages, et elle n’est pas d’une grande utilit´e pratique. Si nous voulions ´ecrire la solution pourβ aveck > 3avec une notation de sommations, c¸a serait plus qu’affreux, c¸a serait carr´ement impossible. Il y a des moyens de contourner ce probl`eme, mais ce sont des moyens qui datent d’avant l’´epoque d’ordinateurs personnels puissants. De nos jours, nous pouvons toujours demander `a l’ordinateur d’inverser nos matrices(X0X), utilisant des algorithmes num´eriques puissants et efficaces.

(18)

3.4.2 Quelques exemples simples des r`egles de diff´erentiation

Pour illustrer le fonctionnement de ces r`egles de diff´erentiation, prenons quelques exemples concrets tr`es simples. D’abord, supposons que

y =

A1 A2

 x1 x2

=A1x1+A2x2.

La fonctionydans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la fonction (x1 etx2) et donc deux d´eriv´ees partielles distinctes. Par convention, on ´ecrit les d´eriv´ees partielles en colonne :

∂y

∂x ≡

∂y

∂x1

∂y

∂x2.

Nous constatons que

∂y

∂x1 =A1 et

∂y

∂x2 =A2. Donc,

∂y

∂x =

 A1

A2

=A0, ce qui est conforme `a la premi`ere r`egle du tableau ci-dessus.

Maintenant, supposons que

y=

A11 A12 A21 A22

 x1 x2

(19)

=

A11x1+A12x2 A21x1+A22x2

≡

 y1 y2

Maintenant,yest compos´ee de deux fonctions, d´efinies par les deux rang´ees de l’expression ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1etx2), et donc on a un total de quatre d´eriv´ees partielles. Nous avons

∂y1

∂x1

=A11,

∂y1

∂x2 =A12,

∂y2

∂x1 =A21, et

∂y2

∂x2 =A22.

Par convention, on ´ecrit ces quatre d´eriv´ees en notation matricielle comme

∂y1

∂x1

∂y2

∂x1

∂y1

∂x2

∂y2

∂x2

.

Donc, la convention revient `a aligner toutes les d´eriv´ees de la mˆeme fonction dans la mˆeme colonne, et toutes les d´eriv´ees par rapport au mˆeme argument dans la mˆeme rang´ee. Dans notre cas, nous avons

∂y1

∂x1

∂y2

∂x1

∂y1

∂x2

∂y2

∂x2

=

A11 A21 A12 A22

=A0, et encore une fois la premi`ere r`egle du tableau est respect´ee.

Maintenant, supposons que

y=

x1 x2

A11 A12 A21 A22

 x1 x2

(20)

=

x1A11+x2A21 x1A12+x2A22

 x1 x2

=A11x12

+A21x1x2+A12x1x2+A22x22

.

Cette fois-ci la fonctionyest scalaire. Il y a deux d´eriv´ees partielles possibles. Nous avons

∂y

∂x1 = 2A11x1+A21x2+A12x2 et

∂y

∂x2 = 2A22x2+A21x1+A12x1. Ecrivant ces r´esultats en notation matricielle nous avons´

∂y

∂x1

∂y

∂x2

=

A11A12 A21A22

 x1 x2

+

A11A21 A12A22

 x1 x2

=Ax+A0x,

ce qui est conforme `a la quatri`eme r`egle du tableau (il est important de v´erifier ceci).

Pour des cas plus compliqu´es (plusieurs fonctions, plusieurs arguments), les expressions non matricielles peuvent devenir assez longues et assez compliqu´ees. Ces r`egles de diff´erentiation matricielle permettent de tenir compte automatiquement et syst´ematiquement (sans oublier des termes !) de toutes les d´eriv´ees partielles possibles. Elles permettent aussi d’´ecrire toutes les d´eriv´ees partielles dans une notation tr`es compacte.

3.5 Approche non matricielle au probl`eme de minimisation

Nous pouvons facilement v´erifier qu’une approche non matricielle au probl`eme de minimisation m`ene `a exactement les mˆemes r´esultats que l’approche matricielle, comme il se doit. C’est le but de cette sous-section des notes.

Nous avons vu que le mod`ele de r´egression multiple peut s’´ecrire en notation non matricielle

(21)

comme suit :

Yi0+X1iβ1+X2iβ2+. . .+Xkiβk+ui.

On veut minimiser la somme des r´esidus au carr´e. Le probl`eme peut s’´ecrire comme suit :

β0min1,...,βk

n

X

i=1

(Yi−β0−X1iβ1−X2iβ2−. . .−Xkiβk)2.

Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sˆur, il y a k+ 1conditions dur premier ordre puisqu’il y ak+ 1variables de choix pour minimiser notre fonction (la somme des r´esidus au carr´e) :

β0 : 0 =−2

n

X

i=1

(Yi−β0−X1iβ1−. . .−Xkiβk) ;

β1 : 0 = −2

n

X

i=1

X1i(Yi−β0−X1iβ1−. . .−Xkiβk) ;

β2 : 0 = −2

n

X

i=1

X2i(Yi−β0−X1iβ1−. . .−Xkiβk) ; . . .

βk: 0 = −2

n

X

i=1

Xki(Yi−β0−X1iβ1−. . .−Xkiβk).

Il s’agit d’un syst`eme dek+ 1 ´equations enk+ 1inconnus (lesβs). S’il n’y a pas de d´ependance lin´eaire exacte entre lesk+ 1 ´equations (cette condition est l’´equivalent non matriciel `a notre hypoth`ese concernant le rang de la matriceX), il y a une solution unique pour les inconnus. Nous pouvons r´e´ecrire le syst`eme comme suit :

n

X

i=1

Yi =

n

X

i=1

0 +X1iβ1+. . .+Xkiβk) ;

n

X

i=1

X1iYi =

n

X

i=1

X1i0+X1iβ1+. . .+Xkiβk) ;

(22)

n

X

i=1

X2iYi =

n

X

i=1

X2i0+X1iβ1+. . .+Xkiβk) ; . . .

n

X

i=1

XkiYi =

n

X

i=1

Xki0+X1iβ1+. . .+Xkiβk). Nous pouvons maintenant convertir ses ´equations en notation matricielle :

1 . . . 1

 Y1

... Yn

=

1 . . . 1

Xβ;ˆ

X11 . . . X1n

 Y1

... Yn

=

X11 . . . X1n

Xβ;ˆ

...

Xk1 . . . Xkn

 Y1

... Yn

=

Xk1 . . . Xkn

Xβ,ˆ

o`u j’ai ´ecrit un chapeau surβ pour indiquer qu’il s’agit d’un syst`eme d’´equations dont la solution nous donne nos estimateurs moindres carr´es ordinaires. Soyez sˆur de comprendre ce passage `a la notation matricielle. Maintenant, enempilantlesk+ 1 ´equations les unes pardessus les autres, nous avons tout de suite

1 . . . 1 X11 . . . X1n X21 . . . X2n

... ... ...

 Y1

... Yn

=

1 . . . 1 X11 . . . X1n X21 . . . X2n

... ... ...

 Xβˆ

(23)

⇒X0Y =X0Xβˆ

⇒βˆ= (X0X)−1X0Y.

Nous retrouvons la mˆeme solution en notation matricielle (ce qui n’est point surprenant).

4 Propri´et´es alg´ebriques de l’estimateur MCO

Comme dans le chapitre 4, nous allons montrer que l’estimateur a des propri´et´esalg´ebriquesqui doivent tenir ind´ependamment des hypoth`eses statistiques concernant les variables (explicatives et d´ependante) du mod`ele. Ces propri´et´es doivent tenir pour n’importe quel ´echantillon de donn´ees Nous utiliserons les r´esultats de cette section par la suite pour d´eriver certaines des propri´et´es statistiques de l’estimateur MCO.

4.1 Orthogonalit´e

Nous avons, directement `a partir des CPOs (ou `a partir de la CPO matricielle),

X0Xβˆ=X0Y

⇒X0

Xβˆ−Y

= 0

⇒X0

Y −Xβˆ

= 0.

Entre parenth`eses, nous avons un vecteur de dimensionsn×1qui nous donne les r´esidus de la r´egression (variable d´ependante moins la valeur pr´edite de la variable d´ependante donn´ee par X0β). Autrement dit,ˆ

Y −Xβˆ≡U .b Donc, nous avons :

X0Ub = 0,

(24)

o`uUb est le vecteur de r´esidus de la r´egression. Les r´esidus sontorthogonauxaux variables explicatives. Par d´efinition, deux vecteursZ1etZ2de dimensionsn×1sont orthogonaux si et seulement si

Z10Z2 = 0

Cela veut dire que chaque variable explicative (chaque colonne de la matriceX) est orthogonale aux r´esidus de la r´egression. Ce r´esultat est une g´en´eralisation du r´esultat dans le chapitre sur la r´egression simple de l’orthogonalit´e entre la seule variable explicative (`a part la constante) et les r´esidus. C’est une g´en´eralisation, mais la preuve est beaucoup plus succincte que celle qu’on a vue dans le chapitre sur la r´egression simple. Encore un avantage de la notation matricielle.

Nous avons vu dans le chapitre sur le mod`ele de r´egression simple que l’orthogonalit´e est reli´ee `a l’interpr´etation g´eom´etrique de la m´ethode de MCO. Estimer un mod`ele par MCO revient `a projeterla variable d´ependante dans l’espace travers´e par la variable explicative (ou les variables explicatives dans le cas de la r´egression multiple). La Figure 1 ci-dessous reprend le graphique que nous avons vu dans le chapitre pr´ec´edent. C’est donc pour le cas o`u il y a deux variables explicatives. La ligne de r´egression est consid´er´e comme un vecteur. La ligne pointill´ee sur le graphique est un vecteur dont la longueur ´egale la valeur deuˆi `a ce point. Il forme un angle droit par rapport `a la ligne de r´egression, d’o`u le termeorthogonal.7

Figure 1

7. Pour plus de d´etails voir Davidson et MacKinnon (1999) et Kachapova et Kachapova (2010). Les r´ef´erences d´etaill´ees sont dans le chapitre de r´ef´erences.

(25)

4.2 Somme des r´esidus

Notez que, par convention, la premi`ere colonne deXrepr´esente la constante et donc contient un vecteur de valeurs ´egales `a un. Si nous d´enotons cette premi`ere colonne parX1(notez que nous utilisons ici une notation d’alg`ebre lin´eaire), nous avons tout de suite

X10Ub =10Ub =

n

X

i=1

ˆ ui = 0.

Une preuve sur une seule ligne !

Donc, la somme des r´esidus est ´egale `a z´ero, comme dans le mod`ele de r´egression simple. Notez que ce r´esultat d´ecoule directement du r´esultat concernant l’orthogonalit´e.

4.3 Valeurs pr´edites

D´efinissons

Yˆ ≡Xβ,ˆ

le vecteur de valeurs pr´edites de la variable d´ependante. Nous avons

0Ub =

X(X0X)−1X0Y0

Ub

=Y0X(X0X)−1X0Ub = 0.

Les valeurs pr´edites de la variable d´ependante sont orthogonales aux r´esidus.

Finalement, nous avons

X0

Yˆ −Y

=X0

X(X0X)−1X0Y −Y

=X0X(X0X)−1X0Y −X0Y =X0Y −X0Y = 0.

Puisque la premi`ere colonne deXest un vecteur de valeurs unitaires, une cons´equence directe de

(26)

ce r´esultat est que la moyenne ´echantillonnale des valeurs pr´edites est ´egale `a la moyenne

´echantillonnale de la variable d´ependante elle-mˆeme. Autrement dit : 1

n

n

X

i=1

i = 1 n

n

X

i=1

Y ≡Y ,¯

un r´esultat semblable `a ce que nous avons vu dans le chapitre sur la r´egression simple.

4.4 Ecart type de la r´egression ´

On d´efinit

SER≡su, o`u

s2u ≡ 1 n−k−1

n

X

i=1

ˆ

u2i = SSR n−k−1,

et donc SSR est la somme des r´esidus au carr´e. On divise par(n−k−1)afin d’obtenir un estim´e non biais´e de la variance de l’erreur dans l’´equation de r´egression lorsque celle-ci est constante.8 Je sais que j’insiste beaucoup l`a-dessus, mais les d´emonstrations alg´ebriques dans cette section sont beaucoup plus courtes que leurs ´equivalents dans le chapitre pr´ec´edent. C’est dans ce sens que je dis que l’utilisation de la notation matricielle dans le contexte du mod`ele de r´egression multiple simplifie ´enorm´ement l’analyse. S’il fallait d´eriver les mˆemes propri´et´es sans avoir recours aux matrices, les d´emonstrations s’´etaleraient sur plusieurs pages.

8. Ici on suppose implicitement des erreurshomosc´edastiques, ou `a variance constante. Sinon il n’est pas logique de parler dela variance de l’erreur.

(27)

4.5 Mesures d’ajustement statistique

4.5.1 LeR2

La mesureR2 est d´efinie de la mˆeme fac¸on que dans le cas du mod`ele de r´egression simple :

R2 = ESS

TSS = 1− SSR TSS, o`u on d´efinit

ESS≡

n

X

i=1

i−Y¯2

, o`uY¯ est la moyenne ´echantillonnale desYi, et

TSS≡

n

X

i=1

Yi−Y¯2

Nous avons suppos´e implicitement ici que

TSS=SSR+ESS.

En fait, il faut d´emontrer ce r´esultat, comme nous avons fait dans le chapitre sur le mod`ele de r´egression simple. Nous avons

Y0Y =

Xβˆ+Ub0

Xβˆ+Ub

= ˆβ0X0Xβˆ+ ˆβ0X0Ub +Ub0Xβˆ+Ub0Ub

= ˆβ0X0Xβˆ+Ub0Ub

≡Yˆ0Yˆ +Ub0Ub =Yb0Yb +SSR.

Nous avons utilis´e pour passer `a l’avant derni`ere ligne de cette s´equence d’´equations le r´esultat

(28)

queX0Ub = 0. Nous avonspresquemontr´e le r´esultat voulu en quatre lignes, mais nous avons

TSS≡(Y −Y)¯ 0(Y −Y)¯

=Y0Y −Y¯0Y −Y0Y¯ + ¯Y0

o`uY est un vecteur de constantes avec chaque valeur ´egale `a¯ Y¯, et nous avons

ESS≡

Yˆ −Y¯0

Yˆ −Y¯

0Yˆ −Y¯0Yˆ −Yˆ0Y¯ + ¯Y0Y.¯ Donc, nous devons montrer que

0Yˆ = ¯Y0Y

⇐⇒ Y¯

n

X

i=1

i = ¯Y

n

X

i=1

Yi

⇐⇒ 1 n

n

X

i=1

i = 1 n

n

X

i=1

Yi = ¯Y ,

ce qui doit ˆetre le cas puisque nous avons montr´e parmi les propri´et´es alg´ebriques de l’estimateur MCO que la moyenne ´echantillonnale des valeurs pr´edites de la variable d´ependante doit ˆetre

´egale a la moyenne ´echantillonnale de la variable d´ependante elle-mˆeme. Donc, nous venons de montrer que

TSS=ESS+SSR.

Sachant queY ≡Yˆ +Ub, une fac¸on plus succincte de le faire est comme suit :

TSS= (Y −Y)¯ 0(Y −Y)¯

=

Yˆ +Ub−Y¯0

Yˆ +Ub−Y¯

(29)

=

Yˆ −Y¯

+Ub0

Yˆ −Y¯ +Ub

=

Yˆ −Y¯0

Yˆ −Y¯ +

Yˆ −Y¯0

Ub +Ub0

Yˆ −Y¯

+Ub0Ub

=

Yˆ −Y¯0

Yˆ −Y¯

+Ub0Ub

≡ESS+SSR, puisque nous avons montr´e auparavant queYˆ0Ub = 0et

0Ub =

n

X

i=1

Y¯Uˆi = ¯Y

n

X

i=1

i = 0.

Dans le chapitre sur le mod`ele de r´egression simple, nous avons appris que l’ajustement statistiqueR2 ´etait ´egal au coefficient de corr´elation (´echantillonalle) au carr´e entre la variable d´ependante et la (seule) variable explicative. Il y a un r´esultat semblable pour le mod`ele de r´egression multiple. Nous pouvons montrer que leR2est ´egale au coefficient de corr´elation (´echantillonnale) au carr´e entreY etYˆ, le vecteur de valeurs pr´edites de la variable

d´ependante.

La preuve de ce r´esultat est facile, mais il faut introduire un peu de notation pour la rendre plus succincte. (Pour plus d’explications, voir le 3e chapitre du livre de Greene, 2011.) Soiti le vecteur colonne o`u chaque ´el´ement est ´egal `a un. La longueur du vecteur (nombre de rang´ees) d´ependra du contexte. D´efinissons

M0

I−i(i0i)−1i0

.

Si on pr´emultiplie un vecteur quelconqueY parM0 la multiplication aura pour effet de soustraire la moyenneY¯ de chaque ´el´ement du vecteurY. Nous avons

M0Y =

I−i(i0i)−1i0

Y

(30)

=Y −i(i0i)−1i0Y

=Y −i1 n

n

X

i=1

Yi

=Y −iY¯ ≡Y −Y,¯ puisque(i0i)−1 = 1n eti0Y =Pn

i=1Yi. Il est aussi facile de montrer que M00 =M0

et

M0M0 =M0.

Une matrice qui a ces propri´et´es est appel´ee une matriceidempotente. De cette fac¸on, nous pouvons red´efinir leR2 comme

R2 ≡ ESS T SS =

Yˆ −Y¯ 0

Yˆ −Y¯ (Y −Y)¯ 0(Y −Y)¯

= Yˆ0M0Yˆ Y0M0Y . Nous avons aussi

M0Uˆ = ˆU puisque la somme des r´esidus est z´ero. Donc, nous avons

0M0Yˆ = ˆY0M0

Y −Uˆ

= ˆY0M0Y −Yˆ0M0

= ˆY0M0Y −Yˆ0

(31)

= ˆY0M0Y −βˆ0X0Uˆ (puisqueYˆ ≡Xβ)ˆ

= ˆY0M0Y −0 = ˆY M0Y

puisqueX0Uˆ = 0(orthogonalit´e entre les variables expicatives et les r´esidus).

Nous pouvons donc ´ecrire leR2comme

R2 =

0M0Y Y0M0Y

= Yˆ0M0Y Y0M0Y

0M0Y Yˆ0M0Y (multipliant num´erateur et d´enominateur par la mˆeme chose)

=

0M0Y Yˆ0M0Y (Y0M0Y)

0M0Y

=

0M0Y Yˆ0M0Y (Y0M0Y)

0M0Yˆ. On peut r´e´ecrire ceci en notation non matricielle pour obtenir

0M0Y Yˆ0M0Y (Y0M0Y)

0M0Yˆ =

0M0M0Y Yˆ0M0M0Y (Y0M0M0Y)

0M0M0

=

Pn i=1

i−Y¯

Yi−Y¯2

Pn

i=1 Yi−Y¯2 Pn

i=1

i−Y¯2

=

1 n−1

Pn i=1

i−Y¯

Yi−Y¯2

1 n−1

Pn

i=1 Yi−Y¯2

1 n−1

Pn i=1

i−Y¯ 2

Références

Documents relatifs

Notez que pour r´epondre `a cette partie vous allez devoir r´eestimer le mod`ele avec des variables explicatives additionnelles qui tiennent compte de l’interac- tion entre

J’ai accept´e aussi un mod`ele avec seulement des termes d’interac- tion (donc on laisserait tomber saf rica, asiae et laam comme variables explicatives et on garderait ce que

Ajoutez la variable school au mod`ele comme proxy pour s h , avec un terme d’interaction pour les pays de l’OCDE.. Le mod`ele maintenant ´equivaut au mod`ele de Solow avec l’ajout

Vous devriez fournir avec vos r´eponses un script en R, GRETL, STATA ou dans le langage que vous avez utilis´e pour r´epondre aux questions.. Lorsque je vous demande de commenter ce

Maintenant, testez la significativit´e jointe de ces deux variables ensemble, avec et sans ´ecarts types robustes.. Expliquez ce que

Ayant construit les moyennes ´echantillonnales normalis´ees, v´erifiez que (pour chaque valeur de n) les 10 000 observations que vous avez g´en´er´ees ont une moyenne pr`es de z´ero

Si vous jouez avec cette commande, vous allez constatez qu’elle produit des nombres positifs dont la majorit´e sont inf´erieurs `a 1 λ = 0.5.. Ceci refl`ete le fait que c’est

Pour le mod`ele de r´egression (avec mv comme variable d´ependante) que vous avez estim´e, effectuez le test Breusch-Pagan pour la pr´esence de l’h´et´erosc´edasticit´e avec