• Aucun résultat trouvé

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

N/A
N/A
Protected

Academic year: 2022

Partager "D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal"

Copied!
54
0
0

Texte intégral

(1)

ECO 4272 : Introduction `a l’´econom´etrie Tests diagnostics

Steve Ambler

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

2018 : Steve Ambler c

Hiver 2018

Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos sug- gestions pour les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `aambler.steven@uqam.ca.

(2)

Table des mati`eres

1 Introduction 4

2 Diagnostics informels 7

2.1 R´esidus versus valeurs pr´edites . . . 8

2.2 Graphique Q–Q . . . 8

2.3 Diagramme de variable ajout´ee . . . 10

2.4 Diagramme de r´esidus partiels . . . 12

2.5 R´esidus Normalis´es . . . 12

2.6 La MatriceH . . . 17

2.7 R´esidusstudentis´es de fac¸on externe . . . 19

3 Sensibilit´e `a des observations particuli`eres 19 3.1 Effets de levier . . . 20

3.2 DFFITSi . . . 21

3.3 DFBETASj,(i) . . . 22

3.4 COVRATIO(i) . . . 23

3.5 Distances de Cook . . . 24

3.6 R´esidus studentis´es . . . 25

4 Trois Commandes utiles : plot(·), influence.measures(·) et influence(·) 25 4.1 Niveaux seuils . . . 27

(3)

5 Tests diagnostics formels 27

5.1 H´et´erosc´edasticit´e . . . 27

5.2 Test Reset de Ramsey . . . 29

5.3 Normalit´e . . . 30

5.4 Ind´ependance des erreurs . . . 33

6 Multicollin´earit´e 33 7 Endog´en´eit´e 37 7.1 Tests d’endog´en´eit´e . . . 40

8 Un exemple d´etaill´e avecR 49

(4)

1 Introduction

Ce chapitre a pour but de pr´esenter de fac¸on relativement informelle quelques tests diagnostics qui sont utilis´es couramment en ´econom´etrie appliqu´ee.

Les tests diagnostics ont ´et´e conc¸us pour d´etecter des probl`emes reli´es aux hypoth`eses statistiques de base du mod`ele de r´egression lin´eaire. Si ces hypoth`eses ne sont pas confirm´ees, les conclusions auxquelles on arrive en estimant un mod`ele de r´egression peuvent ˆetre trompeuses.

Je commence avec une citation de Fox (2009), qui ´ecritLinear and generalized linear models make strong assumptions about the structure of data, assumptions that often do not hold in applications. Especially in small samples, these models can also be sensitive to unusual data ; in extreme cases, the results might be determined by one or a very small number of observations. It is therefore important to examine data carefully, both prior to and after fitting a regression model to the data.

Un des buts principaux de ces tests est de d´etecter la pr´esence d’observations influentes, des observations qui ont un impact majeur sur les coefficients estim´es d’un mod`ele ou sur les valeurs pr´edites de la variable d´ependante.

Si on d´etecte la pr´esence de telles observations, on peut aussi essayer d’en expliquer la cause. Parfois il s’agit tout simplement d’une erreur dans la saisie des donn´ees. Il peut aussi y avoir des causes plus profondes. Il y a aussi plusieurs rem`edes possibles. On peut changer la forme fonctionnelle du mod`ele (utiliser, par exemple, une ou plusieurs variables mesur´ees en logs et non en niveau), et on

(5)

peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas, le fait de laisser tomber des observations devrait faire partie du rapport qui est r´edig´e pour expliquer le mod`ele estim´e et les r´esultats d’estimation.

Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les donn´ees utilis´ees en ´econom´etrie appliqu´ee les termes d’erreur ne suivent pas forc´ement une distribution normale avec variance constante. Par contre, ils mettent peu d’accent sur des m´ethodes qui permettraient de v´erifier les hypoth`eses nulles de normalit´e ou d’homosc´edasticit´e. Il n’y a pas beaucoup, d’ailleurs, sur les fac¸ons d’´evaluer un mod`ele de r´egression donn´e ou de d´etecter des probl`emes avec un mod`ele de r´egression donn´e. (`a part le chapitre 9 dans la version en anglais sur la validit´e interne et la validit´e externe).

Ce chapitre est bas´e sur les articles de Boomsma (2014) et de Fox (2009), et surtout sur le quatri`eme chapitre de Kleiber et Zeileis (2008). Voir le chapitre de r´ef´erences pour plus de d´etails.

J’ai aussi utilis´e quelques articles utiles provenant deWikipedia: 1. Breusch-Pagan Test

2. Cook’s Distance

3. Errors-in-Variables Models 4. Hat Matrix

5. Heteroscedasticity 6. Leverage (Statistics) 7. Multicollinearity

(6)

8. Normality Test

9. Normal Probability Plot 10. Q-Q Plot

11. Ramsey Reset Test 12. Studentized Residual 13. White Test

Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement de deux types (pas forc´ement exclusifs).

1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou alg´ebrique) des r´esidus d’un mod`ele de r´egression.

2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de d´etecter des observations qui ont une influence d´emesur´ee sur les r´esultats de l’estimation (sur les valeurs des coefficients estim´es, les valeurs

pr´edites de la variable d´ependante, sur la variance estim´ee de l’erreur ou des coefficients, etc.).

Lorsque j’´ecrisdiagnostics informels je veux dire qu’il ne s’agit pas de statistiques qui suivent des lois connues que l’on pourrait utiliser formellement pour tester une hypoth`ese nulle quelconque. Ce sont plutˆot des techniques que l’on peut utiliser pour d´etecter des probl`emes potentiels dans la sp´ecification (choix de variables explicatives, choix de forme fonctionnelle, etc.) d’un mod`ele

´econom´etrique.

(7)

1. Des tests de l’hypoth`ese nulle de l’homosc´edasticit´e.

2. Des tests formels de la forme fonctionnelle du mod`ele de r´egression qui peuvent permettre de d´etecter des non-lin´earit´es.

3. Des tests de l’hypoth`ese de la normalit´e du terme d’erreur.

4. Une sous-section sur la question de la multicollin´earit´e.

5. Une courte sous-section sur l’ind´ependance des erreurs (un sujet plus pertinent dans le cadre des s´eries chronologiques).

6. Une sous-section sur la question de l’endog´en´eit´e, qui nous porte aux fronti`eres de la mati`ere du cours.

2 Diagnostics informels

• Il y a un certain nombre d’outils diagnostics bas´es sur les r´esidus de l’estimation d’un mod`ele de r´egression lin´eaire.

• Il y a aussi des outils diagnostics qui d´ependent du fait que les r´esidus d’un mod`ele de r´egression estim´e par moindres carr´es ordinaires ne sont pas ind´ependants et n’ont pas une variance constante,mˆeme siles erreurs du mod`ele sont ind´ependantes et homosc´edastiques. Ces outils sont bas´es sur l’utilisation de r´esidusnormalis´es, un sujet auquel nous reviendrons plus tard.

(8)

2.1 R´esidus versus valeurs pr´edites

• Nous avons d´ej`a vu qu’un graphique avec lesuˆiou lesuˆ2i sur l’axe vertical et lesYˆi sur l’axe horizontal peut ˆetre une fac¸on de d´etecter la pr´esence de l’h´et´erosc´edasticit´e.

• Au lieu de mesurer les valeurs des r´esidus sur l’axe vertical, il est aussi possible de mesurer les valeurs des r´esidus au carr´e afin de d´etecter de mani`ere visuelle l’h´et´erosc´edasticit´e.

• Un probl`eme potentiel avec ces m´ethodes informelles est quemˆeme siles erreursdu mod`ele de r´egression sont homosc´edastiques et ind´ependantes (autrement dit les donn´ees proviennent d’un ´echantillon i.i.d.), lesr´esidus du mod`ele de r´egression auront une variance non constante et ne seront pas ind´ependants les uns par rapport aux autres. Pour cette raison, on travaille souvent avec les r´esidusnormalis´es, un concept auquel nous allons revenir plus tard.

2.2 Graphique Q–Q

• L’id´ee de base est de comparer la distribution de probabilit´e des r´esidus d’un mod`ele de r´egression avec une distribution normale th´eorique.

• Il s’agit d’une m´ethode informelle pour analyser l’h´ypoth`ese que les erreurs du mod`ele suivent une distribution normale.

• LeQ est cens´e faire penser `a quantile.

• On compare les quantiles de deux distributions de probabilit´e sur un

(9)

graphique.

• Notez que siφ(·)est la fonction de distribution normale cumul´ee, la fonctionφ−1donne les quantiles de la normale cumul´ee.

• Si les deux distributions sont identiques, les points se retrouveront sur une droite avec une pente de 45 degr´es.

• S’il y a une relation lin´eaire entre les deux distributions, les points se retrouveront sur une droite.

• La fonction enRqqnorm(x)o`uxest un vecteur de r´ealisations d’une variable al´eatoire cr´ee un graphique qui comparex`a une distribution normale th´eorique.

• Deux distributions normales peuvent diff´erer dans leurs moyennes et dans leurs variances, et donc il doit y avoir une relation lin´eaire entre les deux.

Pour cette raison, si on compare la distribution empirique des r´esidus avec une normale centr´ee r´eduite th´eorique, les points devraient se retrouver sur une droite.

• La fonction enRplot(model,which=2)fait la mˆeme chose pour les r´esidus d’un mod`ele estim´e avec la commandemodel <− lm(·).

Nous allons voir plus loin que la fonctionplot(·)avec le nom d’un mod`ele estim´e pourra sortir automatiquement plusieurs graphiques int´eressants pour d´etecter des probl`emes potentiels associ´es `a un mod`ele estim´e.

(10)

2.3 Diagramme de variable ajout´ee

• Le but est de d´etecter si l’impact d’une variable individuelle (dans un mod`ele de r´egression multiple) est bien capt´e par une relation lin´eaire.

• Il est difficile de faire ceci avec un graphique des r´esidus contre la variable explicative, parce qu’il faut tenir constantes les valeurs de toutes les autres variables explicatives (en les ´egalisant `a leurs moyennes

´echantillonnales par exemple).

• Ce que l’on voudrait faire c’est de regarder l’impact d’une variable individuelle sur la variable d´ependante, ayant purg´e l’impact de toutes les autres variables sur la variable d´ependante. Un diagramme de variable ajout´ee nous permet de faire ceci.

• On proc`ede de la fac¸on suivante pour pouvoir tracer undiagramme de variable ajout´ee pour la variable explicativeXj.

1. On estime un mod`ele de r´egression multiple avecY comme variable d´ependante et toutes les autres variables `a partXj comme variables explicatives. On sauvegarde les r´esidus de cette estimation. Appelons ces r´esidusuˆy.

2. On estime un mod`ele de r´egression multiple avecXj comme variable d´ependanteet toutes les autres variables explicatives `a partXj comme variables explicatives. On sauvegarde les r´esidus de cette estimation. Appelons ces r´esidusuˆj.

(11)

horizontal.

4. On peut aussi estimer le mod`ele de r´egression simple suivant :

ˆ

uyi01ji+i.

Il est ´egalement possible d’ajouter la ligne de r´egression au graphique qu’on vient de cr´eer, avec la commande habituelleabline(·)

• Le th´eor`eme Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur le mod`ele de r´egression multiple ou bien l’article de Lovell 2010) nous dit que le coefficient estim´eˆγ1doit ˆetreidentique`aβˆj du mod`ele initial (cela veut dire le mod`ele de r´egression multiple incluant toutes les variables explicatives y comprisXj). L’interpr´etation est la suivante : la r´egression simple donne l’effet deXj surY, lorsque les impacts des autres variables surY et surXj) sont purg´es.

• Pour cette raison, le graphique devrait nous permettre de rep´erer si la relation (partielle) entreY etXj est vraiment lin´eaire.

• AvecR, la commandeavPlots(·)(provenant du packagecar), o`u l’argument est un objet contenant les r´esultats d’estimation d’un mod`ele de r´egression, cr´ee automatiquement des diagrammes de variable ajout´ee pour toutes les variables explicatives d’un mod`ele de r´egression multiple.

Voir aussi ci-dessous.

(12)

2.4 Diagramme de r´esidus partiels

• Il s’agit d’un graphique avecuˆi+ ˆβjXjisur l’axe vertical etXjisur l’axe horizontal.

• Notez que la pente de la relation entre ces deux variables est donn´ee par βˆj.

• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour d´etecter les non-lin´earit´es, tandis que les diagrammes de variable ajout´ee sont plus utiles pour d´etecter les observations aberrantes et influentes.

Partial residual plots are better for the detection of linearity, added variable plots are better for the detection of outliers and influential data points.

• DansR, la commandeprplot(·,x)qui provient du packagefaraway permet de g´en´erer automatiquement des graphiques de r´esidus partiels pour un mod`ele estim´e. Le premier argument de la commande est le nom du mod`ele estim´e. Le deuxi`eme argument est le nombre de la variable explicative.

2.5 R´esidus Normalis´es

• Notez que mˆeme si les erreurs d’un mod`ele de r´egression sont

homosc´edastiques, c’est `a dire Var(ui|X) =σ2, les r´esidus (qui sont un vecteur de variables al´eatoires) ne le sont pas.

• En fait, les r´esidusne peuvent ˆetre ind´ependants puisqu’ils doivent

(13)

satisfaire les restrictions suivantes :

X0Uˆ = 0.

• Cette ´equation est tout simplement la propri´et´e d’orthogonalit´e que nous avons montr´ee `a plus d’une reprise en classe.

• Puisque la premi`ere colonne deXest un vecteur o`u tous les ´el´ements sont ´egaux `a un, on sait que la somme des r´esidus est z´ero.

• Cette propri´et´e orthogonalit´e impose des relations alg´ebriquesexactes (en faitk+ 1relations exactes) entre les r´esidus qui les empˆechent d’ˆetre ind´ependantes au sens statistique du terme.

• Supposons au d´epart que Var(ui|X) = Var(ui) =σu2. Autrement dit, les erreurs sont homosc´edastiques. Nous supposons aussi (bien sˆur) que E(U|X) = 0.

• Nous avons

Uˆ ≡Y −Xβˆ=Y −X(X0X)−1X0Y

=

I−X(X0X)−1X0 Y

≡(I−H)Y o`u nous avons utilis´e la d´efinition

H ≡X(X0X)−1X0.

(14)

La matrice(I−H)estsym´etriqueetidempotente, ce qui veut dire

(I −H)0 = (I−H)

et

(I−H) (I −H) = (I−H),

o`u ces deux propri´et´es sont faciles `a v´erifier (je laisse ceci comme un exercice).

Nous voulons maintenant calculer la variance (conditionnelle) du vecteur des r´esidusUˆ. PuisqueUˆ est un vecteur de dimensionsn×1, il s’agit d’une matrice variance-covariance de dimensionsn×n. Nous avons

E

UˆUˆ0|X

=E((I−H)Y Y0(I−H)|X)

=E (I−H) (Xβ+U) (Xβ+U)0(I−H)|X

= (I−H)Xββ0X0(I −H) +E((I−H)XβU0(I−H)|X) +E((I−H)U β0X0(I −H)|X) + (I−H)E(U U0|X) (I−H).

= (I−H)Xββ0X0(I −H)

(15)

+ (I−H)E(U U0) (I−H)

= (I−H)E(U U0) (I−H)

puisque(I −H)X = 0(ceci est facile `a v´erifier), etX0(I−H) = 0.

Dans le cas homosc´edastique, nous avons

E

UˆUˆ0|X

= (I−H)σ2I(I−H)

2(I−H) (I−H)

2(I −H),

o`u nous avons utilis´e le fait que la matrice(I−H)est sym´etrique et idempotente.

• Ce r´esultat montre que les r´esidus ont des variances qui d´ependent des

´el´ements diagonaux de(I−H)mˆeme siles erreurs sont homosc´edastiques.

• On d´efinit les r´esidusnormalis´es (oustudentis´es de fac¸on interne) de la fac¸on suivante :

ri ≡ uˆi ˆ σ√

1−hii

o`uσˆest l’´ecart type de la r´egression o`u (comme d’habitude)

ˆ

σ2 ≡ 1 n−k−1

n

X

i=1

ˆ u2i

(16)

et leshiisont les ´el´ements sur la diagonale deH. On parle de

studentis´es de fac¸on interne puisqu’on utilise toutes les observations de l’´echantillon pour estimer l’´ecart type de la r´egression, par opposition aux r´esidusstudentis´es de fac¸on externe. Nous reviendrons `a ce dernier sujet un peu plus tard.

• Puisque (mˆeme dans le cas de l’homosc´edasticit´e) la variance des r´esidus n’est pas constante, l’id´ee ici est de normaliser les r´esidus en divisant par un estim´e de leurs ´ecarts types.

• De cette fac¸on, un graphique avec les r´esidus normalis´es ou avec les r´esidus normalis´es au carr´e sur l’axe vertical et avec la variable d´ependante ou avec une des variables explicatives sur l’axe horizontal peut faire ressortir mieux si l’hypoth`ese de l’homosc´edasticit´e tient ou non.

• On peut calculer les r´esidus normalis´es enR`a l’aide de la commande rstandard(·). L’argument de la commande est l’objet utilis´e pour sauvegarder les r´esultats d’estimation d’un mod`ele de r´egression lin´eaire.

• Si les hypoth`eses statistiques derri`ere le mod`ele tiennent (y compris l’homosc´edasticit´e des erreurs), il devrait ˆetre le cas que Var(ri|X) = 1 et il devrait aussi ˆetre le cas que Corr(ri, rj|X)a tendance `a ˆetre faible (Kleiber et Zeileis 2008).

• Dans les sections qui suivent, la plupart des mesures utilis´ees sont bas´ees sur les r´esidus normalis´es et non sur les r´esidus eux-mˆemes.

(17)

2.6 La Matrice H

• Pour un article tr`es abordable, voir Johnson (2006).

• La matriceHa ´et´e d´efinie dans la sous-section pr´ec´edente.

H est cens´e faire penser `ahat (chapeau).

• La matriceHest utilis´ee aussi pour calculer les distances de Cook et pour mesurer les effets de levier (voir plus loin).

• Il est possible de montrer que l’on peut exprimer les valeurs pr´edites de la variable d´ependante comme

j =h1jY1+h2jY2+. . .+hnjYn=

n

X

i=1

hijYi.

• Pour montrer ceci, nous avons par d´efinition

Yˆ ≡Xβˆ=X(X0X)−1X0Y =HY,

qui est un vecteur de dimensions(k+ 1)×1.Yˆj est l’´el´ementj+ 1de ce vecteur. Avec un petit abus de notation, si on appelle les ´el´ements de la rang´eej+ 1deH comme[h1j, h2j, . . . , hnj], alors nous avons

j =h1jY1+h2jY2+. . .+hnjYn.

• Ainsi, le poidshij capte la contribution de l’observationYi `a la valeur pr´editeYˆj.

(18)

• On peut montrer que

hii=

n

X

j=1

hij2,

et donc la valeurhiir´esume l’influence potentielle de l’observationYi sur toutesles valeurs pr´editesYˆj.

• On peut montrer que

1

n ≤hii≤1.

• On peut aussi montrer que la valeur moyenne deshiiest donn´ee par 1

n

n

X

i=1

hii ≡¯h= k+ 1 n .

• Il est possible de montrer que, dans le mod`ele de r´egression simple,

hii= 1

n + Xi−X¯2

Pn

j=1 Xj −X¯2,

ce qui a l’interpr´etation de la distance deXipar rapport `a la moyenne

´echantillonnaleX, normalis´ee par la somme des distances des¯ Xj par rapport `a la moyenne ´echantillonnaleX.¯

• Leshiipeuvent ˆetre calcul´es enRavec la commandehatvalues(·)o`u l’argument de la commande est un mod`ele estim´e avec la commande lm(·).

• Pour plus de d´etails sur les propri´et´es de la matriceHvoir Hoaglin et Welsch (1978).

(19)

2.7 R´esidus

studentis´es de fac¸on externe

• Il s’agit d’une autre fac¸on d’estimer l’´ecart type de la r´egression. Dans l’analyse ci-dessous sur la sensibilit´e `a des observations particuli`eres, si on soupc¸onne qu’une observation est aberrante, on est parfois mieux d’exclure cette observation du calcul de la variance estim´ee du terme d’erreur.

• On d´efinit les r´esidus studentis´es de fac¸on externe de la fac¸on suivante :

ri(i) ≡ uˆi ˆ σ(i)

1−hii

avec

ˆ

σ2(i) ≡ 1 n−k−2

X

j6=i

ˆ u2j.

On exclut l’ieobservation de notre estim´e de la variance du terme d’erreur.

3 Sensibilit´e `a des observations particuli`eres

• Nous avons maintenant d´efini et interpr´et´e la matriceH et ces ´el´ements, qui seront utilis´es dans les d´efinitions de certaines des mesures qui suivent.

• Il y a quelques techniques informelles d’essayer de d´etecter des observations aberrantes ou influentes, qui ont une influence pr´epond´erante sur les r´esultats de l’estimation.

(20)

• L’id´ee de base est d’analyser ce qui arrive si on laisse tomber une seule observation de l’´echantillon.

• On peut mesurer l’impact ou bien sur les coefficients estim´es ou bien sur la valeur pr´edite de la variable d´ependante.

• D´efinissonsβˆ(i)comme le vecteur de param`etres estim´es apr`es avoir laiss´e tomber l’observationide l’´echantillon, etYˆ(i)le vecteur de valeurs pr´edites de la variable d´ependante apr`es avoir laiss´e tomber l’observation ide l’´echantillon.

3.1 Effets de levier

• L’effet de levier de l’observationiest donn´e tout simplement par la valeur dehii.

• Parmi les autres propri´et´es deH,

0≤hii ≤1,

trace(H)≡

n

X

i=1

hii =k+ 1,

o`u(k+ 1)est le nombre de variables explicatives dans le mod`ele.

• Comme r`egle approximative, des valeurs au moins trois fois la valeur moyenne peuvent ˆetre consid´er´ees indicatrices d’observations aberrantes ou influentes, la valeur moyenne ´etant donn´ee par k+1n .

(21)

3.2 DFFITS

i

• D´efinition :

DFFITi ≡Yˆi−Yˆ(i).

• Cette mesure calcule l’impact d’omettre l’observationisur la valeur pr´edite de la variable d´ependante (aussi de l’observationi).

• Une grande valeur est un indice que l’observation est aberrante ou influente.

• Pour savoir si la valeur du changement estgrande ou non, il est utile de normaliser le changement par un estim´e de l’´ecart type du terme d’erreur du mod`ele. Cette mesure normalis´ee s’appelle DFFITSi.

• D´efinition :

DFFITSi ≡ Yˆi−Yˆ(i) ˆ σ(i)

hii

o`u comme nous avons vu dans la section2.7σˆ(i)est l’´ecart type de la r´egression estim´e sans l’observationi:

ˆ

σ2(i) ≡ 1 n−k−2

X

j6=i

ˆ u2j,

• Donc DFFITSi par opposition `a DFFITinormalise par un estim´e de quelque chose qui est reli´e `a l’´ecart type de l’erreur de l’observationi, et donc on l’appelle parfois le DFFIT studentis´e.

• Notez que nous normalisons parσˆ(i)

√hii(qui d´epend de l’effet de levier hii) et non parσˆ(i)

1−hii.

(22)

• L’interpr´etation est l’impact normalis´e d’omettre l’observationisur la valeur pr´edite de la variable d´ependante.

• Comme r`egle approximative, les points o`u la mesure d´epasse2×q

k+1 n

sont `a signaler comme des observations influentes.

3.3 DFBETAS

j,(i)

• Pour le coefficientβj, on d´efinit DFBETAj,(i)comme

DFBETAj,(i) ≡βˆj−βˆj,(i).

• C’est une mesure de l’impact de laisser tomber l’observationisur la valeur du coefficient estim´ej.

• Pour le coefficientβj, on d´efinit DFBETASj,(i)comme

DFBETASj,(i)

βˆj −βˆj,(i) ˆ

σ q

(X0X)−1jj

o`u(X0X)−1jj est l’´el´ement dans lajecolonne et lajerang´ee de l’inverse de(X0X). En fait, puisque dans la notation de Stock et Watson,βj est la jevariable explicative `a part la constante,(X0X)−1jj doit ˆetre l’´el´ement dans la colonnej + 1et la rang´eej+ 1de la matrice(X0X).

• La diff´erence entre DFBETAj,(i)et DFBETASj,(i)est semblable `a la diff´erence entre DFFITi et DFFITSi. Avec leS `a la fin cela signifie

(23)

type.

• Une valeur sup´erieure `a2/√

nest consid´er´eesuspicieuse.

3.4 COVRATIO

(i)

• C’est une mesure de l’impact de laisser tomber l’observationisur la matrice variance-covariance des coefficients estim´es du mod`ele.

• Voici la d´efinition :

COVRATIO(i)≡ det

ˆ σ(i)2

X(i)0 X(i)−1

det σˆ2(X0X)−1 o`u det(·)est le d´eterminant d’une matrice.

• La d´efinition deσˆ(i)2 est donn´ee ci-dessus. Ici

X(i)0 X(i)

utilise la matrice d’observations sur toutes les variables explicatives mais en excluant l’observationi.

• Il faut r´eduire la mesure de l’impact sur la matrice variance-covariance en un scalaire. C’est pour cette raison que l’on utilise le d´eterminant.

• Il est difficile de trouver dans la litt´erature des consignes sur les valeurs de cette mesure qui sontprobl´ematiques. Bellesley, Kuh et Welsch (1980) sugg`erent que des valeurs de

COVRATIO(i)−1

plus grandes que2p

(k+ 1)/nsignalent des observations `a investiguer comme potentiellement influentes.

(24)

3.5 Distances de Cook

• D´efinition : pour l’observationi, La distance de Cook est d´efinie comme

Di =

Yˆ −Yˆ(i)0

Yˆ −Yˆ(i) (k+ 1)ˆσ

o`u(k+ 1)est le nombre total de param`etres estim´es etσˆest l’´ecart type de la r´egression. Ici,Yˆ est le vecteur de toutes lesnvaleurs pr´edites de la variable d´ependante avec toutes les variables explicatives dans le mod`ele, etYˆ(i)est le vecteur de toutes lesnvaleurs pr´edites de la variable

d´ependante en laissant tomber laieobservation de l’´echantillon.

• L’interpr´etation de la distance de Cook est la suivante. Elle mesure

l’impact sur les valeurs pr´edites deY si on laisse tomber laieobservation.

Elle ressemble `a la mesure DFFITSimais elle utilise une autre fac¸on de normaliser et elle calcule lasommedes tous les changements des valeurs pr´editesau carr´elorsqu’on laisse tomber l’observationide l’´echantillon.

• Dans le mod`ele de r´egression simple, on peut montrer que les d´efinitions suivantes sont ´equivalentes alg´ebriquement :

Di = uˆ2i (k+ 1)ˆσ

hii (1−hii)2

,

Di =

βˆ−βˆi

0

(X0X)

βˆ−βˆi

(1 +k+ 1)ˆσ2

(25)

l’observationide l’´echantillon.

3.6 R´esidus studentis´es

• D´efinition :

ti ≡ uˆi

ˆ σ(i)

1−hii

(o`uσˆ(i)a la mˆeme d´efinition que dans la sous-section sur DFFIT), qui a l’interpr´etation de l’´ecart type estim´e de l’erreur en excluant l’observation i.

• La justification de cette mesure (par rapport aux r´esidus normalis´es d´efinis plus haut) est que si on veut juger si l’observationiest une observation aberrante ou non, il est mieux d’exclure cette observation de l’estimation de la variance.

• La commande enRrstudent(·)o`u comme d’habitude l’argument est le nom du mod`ele estim´e va calculer les r´esidus studentis´es

automatiquement.

4 Trois Commandes utiles : plot( · ) ,

influence.measures( · ) et influence( · )

• Une commande qui rend les calculs des sous-sections pr´ec´edentes `a toutes fins pratiques automatiques est la commandeplot(·)lorsque l’argument de la commande est un objet qui contient les r´esultats d’une

(26)

estimation d’un mod`ele de r´egression lin´eaire par la commandelm(·).

• Une autre commande tr`es utile :influence.measures(·)(une commande dans le packagestats), qui calcule entre autres les distances de Cook et les mesures DFFITS et DFBETAS.

• La commandesummary(influence.measures(·)), o`u l’argument est un mod`ele estim´e, va indiquer toutes les observations influentes selon au moins un des crit`eres. Donc, une seule commande en Rpeut ˆetre utilis´ee pour rep´erer les observations potentiellement

influentes ou aberrantes.

• La commandeinfluence(·), toujours o`u l’argument est un mod`ele estim´e va calculer les r´esultats suivants :

1. hat: un vecteur dont les ´el´ements sont leshii, les ´el´ements sur la diagonale de la matriceH.

2. coefficients: une matrice o`u l’ierang´ee donne le changement des coefficients estim´es lorsqu’on laisse tomber l’ieobservation de l’´echantillon. Autrement dit, c’est une matrice qui contient tous les DFBETAj,(i)(pour toutes les valeurs possibles dej).

3. sigma: un vecteur dont l’ie ´el´ement contient un estim´e de l’´ecart type de l’erreur de l’´equation lorsqu’on laisse tomber l’ie observation de l’´echantillon.

4. wt.res: un vecteur de r´esidus r´esultant de l’estimation du mod`ele

(27)

manuel pour plus de d´etails.

4.1 Niveaux seuils

• J’ai fait allusion ci-dessus `a des valeurs qui sont indicatives de probl`emes potentiels. Voici un r´esum´e qui provient de Liu, Milton et McIntosh (sans date).

• Comme nous avons vu, avec la commande enR

summary(influence.measures(·)), le logiciel va signaler toutes les valeurs qui sont `a surveiller selon au moins une des mesures.

Fonction Description Seuil

DFFITS changement des valeurs pr´edites > 2∗p

k+ 1/n

DFBETAS changement des coefficients > 2/√

n

COVRATIO changement de la matrice VCOV >(1 + 3∗(k+ 1)/n)

(d´eterminant) <(1−3∗(k+ 1)/n)

HATVALUES ´ecart standardis´e par rapport `a la moyenne desX >2∗(k+ 1)/n COOK changement du vecteur des valeurs pr´edites >4/n

5 Tests diagnostics formels

5.1 H´et´erosc´edasticit´e

• Il y a plusieurs tests pour d´etecter la pr´esence de l’h´et´erosc´edasticit´e.

Pour tous ces tests, l’hypoth`ese nulle est l’absence d’h´et´erosc´edasticit´e, c’est `a dire l’homosc´edasticit´e.

(28)

• Les deux tests les plus fr´equemment utilis´es par les ´econom`etres sont les tests Breusch-Pagan et White. Pour d’autres tests, voir l’articleWikipedia

Heteroscedasticity.

• Test Breusch-Pagan. Il s’agit d’un test de significativit´e de tous les coefficients (sauf la constante) dans la r´egression

2 =Xγ+

o`uUˆ2est le vecteur de r´esidus au carr´e.

• La commandebptest(·)utilise par d´efaut les r´esidusnormalis´es. Voir help(bptest) `a ce sujet.

• Test White. On r´egresse les r´esidus au carr´e du mod`ele estim´e sur toutes les variables explicatives du mod`ele, sur les produits de toutes les paires de variables explicatives, et sur les variables explicatives au carr´e. On peut montrer que la statistiquenR2 suit une distribution chi-carr´e en grand ´echantillon (asymptotiquement), o`u le nombre de degr´es de libert´e est le nombre de param`etres estim´es dans le mod`ele auxiliaire (celui avec les r´esidus au carr´e comme variable d´ependante). EnR, la commande white.test(·), provenant du packagebstats, effectue le test sur un mod`ele estim´e (l’argument de la commande est l’objet o`u les r´esultats de l’estimation sont sauvegard´es).

(29)

5.2 Test Reset de Ramsey

• Il s’agit d’un test pour ´evaluer la forme fonctionnelle d’un mod`ele de r´egression.

• Le but est de savoir s’il y a des combinaisons non lin´eaires des valeurs pr´edites qui ajoutent du pouvoir explicatif au mod`ele. Si oui, c’est un indice que la forme fonctionnelle (variables explicatives mesur´ees en logs, en polynˆomes, en fonctions exponentielles, etc.) du mod`ele estim´e n’est pas ad´equat.

• Le test est conc¸u pour d´etecter des non-lin´earit´es, mais non pour sugg´erer la forme fonctionnelle exacte qui serait la plus appropri´ee.

• Malheureusement, si on d´etecte un probl`eme de non-lin´earit´e, il faut modifier le mod`ele estim´e, mais trouver la bonne fac¸on de modifier le mod`ele demande une analyse approfondie de la question `a laquelle on essaie de r´epondre avec notre mod`ele ´econom´etrique.

• On effectue le test en estimant le mod`ele suivant :

Yi01X1i2X2i+. . .+γkXki

1i22i3+. . .+δk−1im+i.

• Ici,Yˆ est le vecteur de valeurs pr´edites deY provenant de l’estimation du mod`ele

Yi01X1i2X2i+. . .+βkXki+ui.

(30)

• On utilise une statistiqueF pour tester la significativit´e des coefficientsδ.

• Le choix de l’ordre du polynˆome enYˆi est arbitraire. On utilise souvent seulementYˆiau carr´e.

• Notez que l’hypoth`ese nulle est que tous les termes non lin´eaires dans les valeurs pr´edites sont non significatifs. Donc, l’hypoth`ese nulle est que la spe´cification initiale de l’´equation est ad´equate.

• Puisque le test porte sur toutes les puissances deYˆi, la multicollin´earit´e entre les puissances diff´erentes ne devrait pas ˆetre un probl`eme.

• L’utilisation du test Reset ne devrait pas remplacer un examen d´etaill´e par d’autres moyens (graphiques ou autres).

• DansR, la commanderesettest(model, power = ·)effectue le test. Il faut fournir le nom du mod`ele estim´e (premier argument) et aussi les degr´es du polynˆome dans les valeurs pr´editesYˆi(deuxi`eme argument).

• La commande fait partie du packagelmtest.

5.3 Normalit´e

• Test Shapiro-Wilk. L’hypoth`ese nulle est que l’´echantillon provient d’une distribution normale. La statistique est d´efinie comme

W ≡ Pn

i=1aix(i)2

Pn

i=1(xi−x)¯ 2

o`ux(i)est l’observationide l’´echantillon o`u les observations ont ´et´e

(31)

d´efinis par

a= (a1, . . . , an)≡ m0V−1 (m0V−1V−1m)1/2 o`u

m= (m1, . . . , mn)0

sont les valeurs anticip´ees des statistiques d’ordre de variables i.i.d.

provenant d’une loi normale centr´ee r´eduite etV est la matrice variance-covariance de ces statistiques d’ordre.

• Le test peut ˆetre effectu´e enRavec la commandeshapiro.test(·), provenant du packagestats, o`u l’argument est le vecteur de r´esidus d’un mod`ele de r´egression.

• Ce sont des petites valeurs de la statistique qui m`enent au rejet de l’hypoth`ese nulle. L’article de Shapiro et Wilk (1965) a une table de points de la distribution cumul´ee de la statistique.

• Le testshapiro.test(·)enRcalcule lap-value du test.

• La commandeshapiro.test(·)est incluse dans le packagestat.

• Test Jarque-Bera. Le test combine des mesures empiriques de l’asym´etrie et de l’aplatissement en une seule mesure. La statistique est d´efinie de la mani`ere suivante :

JB≡ n 6

S2+ 1

4(K−3)2

(32)

o`u (dans le contexte des r´esidus d’un mod`ele de r´egression)

S ≡ µˆ3 ˆ σ3 =

1 n

Pn

i=1(ˆui)3

1 n

Pn

i=1(ˆui)23/2 et

K ≡ µˆ4 ˆ σ4 =

1 n

Pn

i=1(ˆui)4

1 n

Pn

i=1(ˆui)22,

o`uµˆ3 etµˆ4sont des estim´es des troisi`eme et quatri`eme moments centr´es des r´esidus etσˆ2 est un estim´e de la variance des r´esidus. Notez que dans tous ces cas nous sommes en train d’utiliser des momentscentr´es

puisque de toute fac¸on la somme des r´esidus d’une r´egression estpar construction´egale `a z´ero.

• La statistique JB suit (approximativement ou en grand ´echantillon) une distribution chi-carr´e avec deux degr´es de libert´e. L’hypoth`ese nulle est la normalit´e.

• Une grande valeur de la statistique calcul´ee m`ene au rejet.

• EnR, le test Jarque-Bera peut ˆetre effectu´e avec la commande jarque.bera.test(·)provenant du packagetseries, o`u l’argument de la commande est une s´erie de donn´ees. La commande calcule automatiquement lap-value du test.

(33)

5.4 Ind´ependance des erreurs

• Ce sujet est beaucoup plus pertinent dans le cas o`u les donn´ees sont des s´eries chronologiques. Il s’agit de tests pour d´etecter la pr´esence

d’autocorr´elationdans les erreurs.

• Sans une etude du chapitre sur les s´eries chronologiques il est difficile d’´elaborer sur ce sujet.

• Les tests cl´es dans cette sous-section sont le test Durbin-Watson, la statistiquehde Durbin, et le test Breusch-Godfrey.

• Pour des pr´ecisions sur le test Durbin-Watson et le test Breusch-Godfrey, voir la documentation du packagelmtest. Pour des pr´ecisions sur la statistiquehde Durbin, voir la documentation du packageecm.

6 Multicollin´earit´e

• Voir Giles (2011, 2013f). Giles est assez sarcastique au sujet de la multicollin´earit´e, surtout dans son article de 2011. Il cite le manuel de Goldberger qui a une section sur le probl`eme de

micronumerosity dans le cadre de l’estimation de la moyenne d’une variable al´eatoire :A generally reliable guide may be obtained by counting the number of observations. Most of the time in econometric analysis, when n is close to zero, it is also far from infinity.

• L’interpr´etation : le probl`eme de la multicollin´earit´e survient puisque nous n’avons pas assez d’observations pour distinguer entre les impacts

(34)

de variables explicatives diff´erentes.

• Comme nous avons d´ej`a vu, la multicollin´earit´e (lorsqu’elle n’est pas parfaite) est une propri´et´e de l’´echantillon de donn´ees qui est `a notre disposition. Tel que sugg´er´e par Giles et Goldberger, puisque c’est une propri´et´e de l’´echantillon que nous avons, il n’y pas forc´ement un rem`ede au probl`eme.

• D´etection de la multicollin´earit´e :

1. Changements importants dans les valeurs estim´ees de coefficients lors de l’ajout ou du retrait d’une ou plusieurs variables.

2. Coefficients non significatifs individuellement mais significatifs en bloc.

3. Variance inflation factor:

VIF≡ 1

1−Rj2

o`uR2j est l’ajustement statistique d’une r´egression o`u la variable explicativej est la variable d´ependante et les variables explicatives sont toutes les autres variables explicatives du mod`ele. On appelle

1−R2j

latol´erance. La commande enRvif(·)permet d’´evaluer ce crit`ere pour un mod`ele estim´e.

4. Conditionnement deX0X. Racine carr´ee du ratio de la plus grande valeur caract´eristique sur la plus petite valeur caract´eristique.

(35)

qu’il y a un probl`eme potentiel.

5. Test Farrar-Glauber. Bas´e sur Farrar et Glauber (1967). Giles (2013f) est assez critique `a l’´egard de ce test. Il note que dans l’article

original, les auteurs font l’hypoth`ese que les variablesX suivent une distribution normale multivari´ee. Le test peut ˆetre interpr´et´e comme un test des corr´elations entre les variables dansX dans la population.

Mais l’´echantillon de donn´ees que nous avons est celui que nous avons.

6. Construction d’une matrice de corr´elations. Un coefficient de corr´elation ´elev´ee entre deux variables explicatives potentielles indique un probl`eme possible.

• Cons´equences de la multicollin´earit´e.

1. Dans des cas extrˆemes, l’ordinateur pourrait avoir des difficult´es (num´eriques) `a inverser la matriceX0X.

2. L’estim´e de l’impact d’une des variables sur la variable d´ependante peut devenir beaucoup moins pr´ecis.

3. La multicollin´earit´e peut aggraver les effets de variables omises.

• Rem`edes possibles.

1. V´erifier la pr´esence de la trappe aux variables dichotomiques.

2. Essayer de r´eestimer le mod`ele utilisant un sous-´echantillon des donn´ees.

(36)

3. Ne rien faire. Les donn´ees sont ce qu’elles sont, et essayer de faire parler les donn´ees lorsqu’elles sont muettes sur la question que nous leur posons.

4. Laisser tomber une variable. Attention au probl`eme du biais dˆu aux variables omises !

5. Obtenir davantage d’observations si possible.

6. Centrer les variables explicatives en soustrayant leurs moyennes.

7. Renormaliser les variables explicatives, par exemple en changeant les unit´es de mesure pour que les variables explicatives soient d’un ordre de grandeur comparable. Ceci peut affecter le conditionnement de la matrice(X0X).

8. Utiliser la technique de la r´egression pseudo-orthogonale (ridge regression en anglais). C’est un sujet qui est au-del`a de la mati`ere du cours `a part son id´ee de base. L’id´ee de base est d’utiliser l’estimateur

β˜≡(X0X+ Γ0Γ)−1X0Y,

o`u souvent la matriceΓest une matrice diagonale d´efinie comme

Γ≡αI

o`uαest une constante arbitraire. L’ajout de cette matrice introduit un

(37)

l’estimateur. Pour cette raison, le r´esultat dans certains cas peut ˆetre un estimateur avec une erreur quadratique moyenne inf´erieure `a celle de l’estimateur MCO (qui est un cas sp´ecial de cet estimateur avec α= 0). En g´en´eral, la taille du biais de l’estimateur augmente avec la valeur deαet la variance diminue (voir la section 1.4.3 de van

Wieringen 2018). Il y a donc un arbitrage entre biais et variance.

Malheureusement, il est impossible de connaˆıtre a priori la valeur exacte deαqui va minimiser l’erreur quadratique moyenne.

9. Si les variables explicatives qui sont corr´el´ees sont des retards (dans le contexte de donn´ees qui sont des s´eries chronologiques), on peut utiliser la technique desretards distribu´es qui impose une structure sur les coefficients `a estimer.

7 Endog´en´eit´e

• Ce sujet nous m`ene vraiment `a la fronti`ere de la mati`ere du cours, puisqu’il nous am`ene `a parler de la technique d’estimation parvariables instrumentales. Le principe de base est (j’esp`ere) relativement simple `a comprendre. Pour plus de d´etails, voir le chapitre 12 du manuel de Stock et Watson (version en langue anglaise). Il y a aussi un encadr´e `a la fin de cette section o`u je d´eveloppe l’estimateur IV (variables instrumentales).

Les d´eveloppements alg´ebriques dans l’encadr´e sont relativement abordables.

(38)

• C’est une fac¸on g´en´erale de r´esumer tout ce qui peut causer une corr´elation non nulle entre les variables explicatives du mod`ele et le terme d’erreur. Nous avons d´ej`a vu en d´etail le probl`eme de variables omises. Il y a d’autres sources possibles du probl`eme.

• Causes possibles de l’endog´en´eit´e.

1. Variable(s) omise(s). Nous avons vu ce probl`eme en d´etail.

2. Erreurs de mesure. La vraie variable explicative estX˜j mais ce qu’on mesure est donn´e par

Xj = ˜Xj+

o`uest un vecteur d’erreurs d’observation. Le vrai mod`ele est

Yi01X1i +. . .+βjji+. . .+βkXki+ui

et le mod`ele estim´e est donn´e par

Yi01X1i +. . .+βjXji+. . .+βkXki+ (ui−βji).

PuisqueXjid´epend dei, il y a ´evidemment une corr´elation non nulle entreXjiet le terme d’erreur.

3. Simultan´eit´e. Une variable exog`ene influence simultan´ement la variable d´ependanteY et une ou plusieurs des variables explicatives.

L’influence de la variable exog`ene surY peut ˆetre indirecte. Pensez au

(39)

l’´equation suivante (o`u l’´echantillon d’observations porte sur la quantit´e de caf´e vendue dans des supermarch´es diff´erents `a des prix possiblement diff´erents) :

Yi01Xi+ui

o`uYiest la quantit´e de caf´e etXi est le prix par unit´e du caf´e. Est-ce que ceci est une courbe d’offre ou une courbe de demande ? En fait,Yi etXi d´ependent en principe de facteurs exog`enes et l’´equation est ce que l’on observe sont des combinaisons de quantit´es et de prix `a l’´equilibre, l’´equation est ce qu’on appelle uneforme r´eduiteet non une ´equation structurelle. Pour estimer la courbe d’offre, il faut trouver un facteur qui fait d´eplacer la courbe de demande (comme, par exemple, le prix du th´e, un bien qui est substitut pour le caf´e). Si les seuls changements exog`enes sont des variations du prix du th´e, on pourra observer des combinaisons diff´erentes de prix du caf´e et de quantit´es vendues de caf´e qui r´esultent ded´eplacementsde la courbe de demande le long de la courbe d’offre. Ici, l’impact du prix du th´e sur la quantit´e vendue du caf´e estindirect. Il affecte la quantit´e vendue du caf´e parce qu’il affecte lademandepour le caf´e. On verra dans la section suivante sur les estimateurs `a variables instrumentales qu’une variable comme le prix du th´e serait un boninstrument`a utiliser pour estimer l’´equation ci-dessus.

(40)

7.1 Tests d’endog´en´eit´e

Nous consid´erons dans cette sous-section le test Durbin-Hausman-Wu et la fac¸on relativement simple de l’effectuer qui provient du manuel de Woodridge (2009).

• Test Durbin-Hausman-Wu. Ce test d´epend de la construction d’un estimateur `a variables instrumentales. Nous d´eveloppons cette id´ee dans l’encadr´e qui se trouve `a la fin de cette section. Je conseille fortement la lecture de cet encadr´e avant de lire plus loin.

1. Le test a pour but de tester si le probl`eme d’endog´en´eit´e est s´ev`ere.

Pour le faire, il faut avoir identifi´e un ensemble d’instruments qui permet d’obtenir un estimateur convergent deβ.

2. Il faut avoir deux estim´es diff´erents du mˆeme ensemble de param`etres : l’estimateur MCOβˆet l’estimateur IV (variables instrumentales)βˆIV.

3. Sous l’hypoth`ese nulle, les deux estim´es sont convergents, et il y a un estim´e (donn´e par l’estimateur MCO) qui est plus efficient que l’autre (qui est donn´e par l’estimateur IV).

4. Sous l’hypoth`ese alternative, le deuxi`eme estimateur est toujours convergent, tandis que le premier est non convergent.

5. La statistique s’´ecrit comme

DHW ≡

βˆ−βˆIV0

ΣˆβˆIV −Σˆβˆ

βˆ−βˆIV

(41)

o`uΣˆβˆIV est l’estimateur convergent de la matrice variance-covariance des param`etres estim´es par la m´ethode IV et†d´enote l’inverse

g´en´eralis´ee Moore-Penrose (qui g´en´eralise la notion d’inverser une matrice).

6. La statistique en grand ´echantillon (asymptotiquement) suit une distribution chi-carr´e avec un nombre de degr´es de libert´e ´egal au rang de la matrice

ΣˆβˆIV −Σˆβˆ

.

7. Le test peut ˆetre effectu´e enRpar le bias de la commande

hausman.systemfit(·)provenant du packagesystemfit. La commande prend deux arguments, qui sont les r´esultats du mod`ele estim´e de deux fac¸ons diff´erentes (MCO et IV dans l’exemple qui nous pr´eoccupe).

• Il y a une fac¸on beaucoup plus facile d’effectuer le test. Voir la section 15.5 dans Wooldridge (2009).

1. Soit le mod`ele lin´eaire donn´e par

Yi01W1,i+. . .+βkWk,ik+1Xi+ui,

o`u on sait que les variablesW ne sont pas corr´el´ees avec le terme d’erreurutandis que la variableXestpossiblementcorr´el´ee avec le terme d’erreur.

2. On a un ensemble de variables instrumentales qui comprennent les variables dans le mod`ele initial qui ne sont pas corr´el´ees avecU

(42)

(W1, W2, . . . , Wk)plus possiblement d’autres variables.

3. Soit le mod`ele auxiliaire donn´e par

Xi01W1,i+. . .+γk2Wk2,i+i,

o`uk2 ≥k+ 1. Donc il doit y avoir au moins une variable instrumentale qui n’est pas incluse dans le mod`ele initial.

4. Par hypoth`ese, les variablesW ne sont pas corr´el´ees avecu, alorsX sera non corr´el´ee avecU si et seulement si l’erreurn’est pas corr´el´ee avecu.

5. On voudrait inclurecomme variable explicative additionnelle dans le mod`ele initial. On ne peut le faire puisque l’erreur n’est pas observable, mais on peut inclure les r´esidus d’une estimation du mod`ele auxiliaire par MCO. Donc, on estime le mod`ele

Yi01W1,i+. . .+βkWk,ik+1Xik+2ˆi+ ˜ui.

Puisque ce n’est pas le mˆeme mod`ele que le mod`ele initial, le terme d’erreur n’est pas identique, et donc j’ai remplac´eui paru˜i.

6. On teste l’hypoth`ese nulle queβk+2 = 0avec une statistiquet. Si on rejette l’hypoth`ese nulle, on conclut que la variableXest endog`ene (corr´el´ee avec le terme d’erreurU) puisqueetusont corr´el´ees.

(43)

variable qui est potentiellement endog`ene dans le mod`ele initial.

Estimateur `a variables instrumentales

Le d´eveloppement dans cet encadr´e est tr`es semblable `a celui de l’encadr´e sur l’interpr´etation alternative de l’estimateur MCO dans le chapitre sur le mod`ele de r´egression multiple.

On commence avec le mod`ele lin´eaire habituel donn´e par

Y =Xβ+U.

On suppose maintenant qu’il n’est plus forc´ement le cas que

E(U|X) = 0.

Par contre, on suppose l’existence d’une matrice de dimensionsn×k2avec k2 ≥k+ 1et o`u

E(U|W) = 0.

I´l s’agit d’une matrice d’observations surk2variables instrumentalesqui ne sont pas corr´el´ees avec le terme d’erreur du mod`ele. Uninstrumentpar d´efinition est une variable corr´el´ee avec les variables explicatives dans le mod`ele et non corr´el´ee avec le terme d’erreur du mod`ele. Notez que s’il y a

(44)

des variables parmi les variables dansX qui ne sont pas conditionnellement corr´el´ees avecU, ces variables peuvent ˆetre incluses dansW.

Consid´erez maintenant le mod`ele transform´e

R0W0Y =R0W0Xβ+R0W0U

o`uRest une matrice de pond´erations (nous reviendrons sur cette matrice un peu plus tard). Nous pouvons pour l’instat consid´ererRcomme une matrice de constantes.

Laissant tomber le dernier terme du membre droit pour obtenir

R0W0Y =R0W0

D´efinissons maintenant l’estimateur IV (variables instrumentales) comme

βˆIV = (R0W0X)−1R0W0Y.

Nous avons tout de suite que

(R0W0X)

βˆIV −β

= (R0W0X) (R0W0X)−1R0W0Y −(R0W0X)β

0 0 0 0 −1 0 00 0

(45)

=R0W0U.

Nos hypoth`eses concernant l’esp´erance conditionnelle du terme d’erreur a tout de suite pour cons´equence que

1

nR0W0U −→p 0

⇒ 1

n(R0W0X)

βˆIV −β p

→0

βˆIV −β p

→0.

Notez que dans le cas de l’estimateur IV, nousne pouvons pasmonter l’absence de biais. Nous avons

βˆIV = (R0W0X)−1R0W0Y

= (R0W0X)−1R0W0(Xβ+U)

=β+ (R0W0X)−1R0W0U.

Nous pouvons calculer l’esp´erance de cet estimateur et appliquer, comme d’habitude, la loi des esp´erances it´er´ees pour obtenir

E βˆIV

=β+E

(R0W0X)−1R0W0U

=β+E

E

(R0W0X)−1R0W0U|W .

(46)

Le probl`eme `a ce stade-ci est la pr´esence deXdans l’expression (R0W0X)−1R0W0.Mˆeme ´etant donn´eesles valeurs desW, le terme (R0W0X)−1R0W0est encore stochastique. Nous ne pouvons pas traiter l’expression comme une matrice de constantes et, pour cette raison, l’´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance (conditionnelle).

Donc, pour cette raison, l’estimateur IV estconvergentmais il est possiblementbiais´een ´echantillons finis.

Justification alternative

Une autre fac¸on de justifier l’estimateurβˆIV est la suivante. Si les instrumentsW ne sont pas corr´el´es avec le terme d’erreur, nous avons

Y =Xβ+U

⇒E(R0W0Y) = E(R0W0(Xβ+U))

=E((R0W0X)β) +E(R0W0U)

=E(R0W0X)β+E(R0W0U)

=E(R0W0X)β+E(E(R0W0U|W))

=E(R0W0X)β

−1

(47)

Comme dans la section sur la justification alternative de l’estimateur MCO.

les vraies valeurs desβ sont une fonction des esp´erances deR0W0Xet de R0W0Y, Un estimateur naturel serait de remplacer les moments dans la population par leurs ´equivalents calcul´es avec notre ´echantillon de donn´ees.

Nous avons tout de suite

βˆIV = 1

n−1(R0W0X) −1

1

n−1(R0W0Y)

= (R0W0X)−1R0W0Y.

C’est une autre exemple d’un estimateur dans la classe de la m´ethode des moments : on remplace les moments dans la population par les moments

´echantillonnaux.

Estimateur des moindres carr´es `a deux ´etapes

Si les erreursU sont ind´ependantes et homosc´edastiques, on peut montrer que le choix optimal deRest donn´e par

R= (W0W)−1W0X,

qui a l’interpr´etation de la matrice de coefficients estim´es d’une r´egression de toutes les variablesXsur les instrumentsW. (C’est une autre version encore

(48)

du th´eor`eme Gauss-Markov.) Autrement dit, si on a

X =W ρ+,

alors

R ≡ρˆ= (W0W)−1W0X.

De cette fac¸on

Wρˆ=W R ≡Xˆ

a l’interpr´etation des valeurspr´editesdesXprovenant de cette r´egression.

Notez bien queρˆest unematricede coefficients puisqueX est une matrice de dimensions(n×(k+ 1))au lieu d’ˆetre un vecteur de dimensions(n×1).

Dans ce cas, on a βˆIV =

X0W(W0W)−1W0X−1

X0W(W0W)−1W0Y.

0X−1 XY.ˆ

Dans ce cas, l’estimateur IV est connu sous le nom de l’estimateurmoindres carr´es `a deux ´etapes(2SLS en anglais ce qui veut diretwo-stage least squares), la premi`ere ´etape ´etant la r´egression de toutes les variables

(49)

Quelques qualifications

Le probl`eme fondamental avec l’estimateur IV est la n´ecessit´e d’identifier des variables instrumentales appropri´ees. Ceci est un grand sujet de recherche en ´econom´etrie (le nombre de papiers sur le probl`emed’instruments faibles est ´enorme). Le probl`eme essentiellement est de trouver des variables qui non seulement ne sont pas corr´el´ees avec le terme d’erreur du mod`ele mais aussi sont fortement corr´el´ees avec les variables explicatives dans le mod`ele qui sont endog`enes (corr´el´ees avec le terme d’erreur).

Une rechercheGoogleouGoogle Scholaravec les mots cl´esweak instruments devrait suffire pour constater que c’est un sujet de recherche tr`es actif.

8 Un exemple d´etaill´e avec R

Je donne ici un exemple tr`es simple de calculs que l’on peut effectuer rapidement et facilement avecR.

L’exemple est bas´e sur le quatri`eme chapitre dans Kleiber et Zeileis (2008). Voir le livre pour des explications plus d´etaill´ees.

Les commandes peuvent ˆetre ex´ecut´ees comme un script.

(50)

R> # Charger les packages n´ecessaires en m´emoire.

R> library("stats") R> library("car")

R> library("sandwich") R> library("faraway")

R> # Les donn´ees proviennent du package sandwich.

R> # Charger les donn´ees en m´emoire.

R> data("PublicSchools")

R> # Permettre d’appeler les variables directement R> # sans utiliser le nom de la base de donn´ees.

R> attach(PublicSchools)

R> # Calculer des statistiques descriptives.

R> summary(PublicSchools)

R> # Il y a une observation manquante. L’enlever.

R> ps <- na.omit(PublicSchools) R> attach(ps)

R> # Renormaliser la variable Income.

R> Income <- Income/10000

R> # Recalculer les statistiques descriptives.

R> summary(ps)

R> # Estimer le mod`ele de r´egression simple.

(51)

R> # Sortir les r´esultats principaux.

R> summary(ps lm)

R> # Faire un graphique de la ligne de r´egression.

R> plot(Expenditure ∼ Income,ylim=c(230,830)) R> abline(ps lm)

R> # Ajouter 3 noms d’´etat au graphique.

R> id <- c(2,24,48)

R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE) R> # Calculer un certain nombre de statistiques.

R> # diagnostiques.

R> # D’abord, calculer les "hatvalues".

R> ps hat <- hatvalues(ps lm)

R> # Sortir un graphique avec les hatvalues.

R> plot(ps hat)

R> # Ajouter des lignes pour la moyenne R> # et pour trois fois la moyenne.

R> abline(h=c(1,3)*mean(ps hat),col=2)

R> # Identifier les observations aberrantes R> # sur le graphique.

R> id <- which(ps hat>3*mean(ps hat)) R>

text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)

Références

Documents relatifs

Dans le premier cas (convergence en probabilit´e), le vecteur de variables al´eatoires se comporte dans la limite comme un vecteur de constantes avec une variance nulle1. Dans

Expliquez en mots (ou, si vous pr´ef´erez, utilisant une expression alg´ebrique), le concept de l’efficience d’un estimateur lorsqu’il s’agit d’un vecteur de param`etres comme

Notez la forme de la statistique : valeur calcul´ee de la statistique, moins sa valeur sous l’hypoth`ese nulle, le tout divis´e par son ´ecart type ou par un estim´e convergent de

Expliquez bri`evement comment construire l’intervalle de confiance de 95% pour l’impact de la grandeur de la m`ere (dans le cas plus simple ou cet impact ne d´epend pas du sexe

´ Ecrivez une version ´equivalente du mod`ele o`u le δ β ˆ de la partie 3 (ou plutˆot δβ si vous ´ecrivez le mod`ele de la population) est directement un des pa- ram`etres du

` A tous les niveaux de significativit´e convinetionnels, nous ne pouvons rejeter l’hypoth`ese nulle.. L’hypoth`ese nulle est que tous les coefficients sauf β 0 sont ´egaux

´ Ecrivez les conditions du premier ordre pour r´esoudre le probl`eme de mi- nimisation, toujours sous forme non matricielle.. R´e´ecrivez les conditions du premier ordre sous

On pourrait utiliser une ou plusieur des mesures ´etudi´ees dans le chapitre sur les tests dignostics, par exemple : regarder un graphique des r´esidus contre les valeurs pr´edites