ECO 4272 : Introduction ` a l’´ Econom´ etrie Tests diagnostics

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Tests diagnostics

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion´ Université du Québec à Montréal

2018: Steve Amblerc

Hiver 2018

(2)

Introduction

I But : présenter de fa¸con informelle quelques tests diagnostics couramment utilisés en économétrie appliquée.

I Stock et Watson : beaucoup d’accent sur les données non normales et non homoscédastiques, peu pou pas d’accent sur les fa¸cons de détecter la non-normalité ou l’hétéroscédasticité.

I Voir Boomsma (2014) et Fox (2009) pour plus de d´etails, ou le 4e chapitre de Kleiber et Zeileis (2008).

(3)

Introduction

(4)

Introduction

(5)

Introduction (suite)

Quelques r´ef´erences Wikipedia: 1. Breusch-Pagan Test 2. Cook’s Distance

3. Errors-in-Variables Models 4. Hat Matrix

5. Heteroscedasticity 6. Leverage (Statistics) 7. Multicollinearity 8. Normality Test

9. Normal Probability Plot 10. Q-Q Plot

11. Ramsey Reset Test 12. Studentized Residual 13. White Test

(6)

Plan

1. Section sur les diagnostics informels

1.1 Analyse grahique ou algébrique des résidus d’un modèle de régression

1.2 Diagnostics pour détecter des observations qui ont une influence démesurée sur les résultats de l’estimation (coefficients, valeurs prédites, variance estimée de l’erreur, variance estimée des coefficients, etc.)

2. Tests formels de 2.1 l’homosc´edasticit´e

2.2 la forme fonctionnelle du modèle de régression 2.3 la normalité du terme d’erreur

2.4 mesures de la multicollinéarité 2.5 l’indépendance des erreurs 2.6 l’endogénéité

(7)

Plan

(8)

Plan

2. Tests formels de

2.1 l’homosc´edasticit´e

(9)

Plan

(10)

Plan

2.2 la forme fonctionnelle du mod`ele de r´egression

2.3 la normalité du terme d’erreur 2.4 mesures de la multicollinéarité 2.5 l’indépendance des erreurs 2.6 l’endogénéité

(11)

Plan

(12)

Plan

2.4 mesures de la multicollin´earit´e

2.5 l’indépendance des erreurs 2.6 l’endogénéité

(13)

Plan

2.4 mesures de la multicollinéarité 2.5 l’indépendance des erreurs

2.6 l’endogénéité

(14)

Plan

(15)

Diagnostics informels

I Résidus versus valeurs prédites. Nous avons déjà parlé de cet outil.

I Problème potentiel :même si les erreursdu modèle de régression sont homoscédastiques et indépendantes

(autrement dit les données proviennent d’un échantillon i.i.d.), les résidusdu modèle de régression auront une variance non constante et ne seront pas indépendants les uns par rapport aux autres.

I Pour cette raison, on travaille souvent avec les r´esidus

normalis´es, un concept auquel nous allons revenir ci-dessous.

(16)

Diagnostics informels

(17)

Diagnostics informels

(18)

Graphique Q–Q

I Pour analyser l’hýpothèse de la normalité des erreurs. Le

Q est cens´e faire penser `a quantile

I On compare les quantiles de deux distributions de probabilit´e sur un graphique

I Si φ(·) est la fonction de distribution normale cumul´ee,φ⁻¹ donne les quantiles

I 2 distributions sont identiques ⇒ les points se retrouveront sur une droite avec une pente de 45 degr´es

I Relation lin´eaire entre 2 distributions⇒ les points se retrouveront sur une droite

I En R qqnorm(x)crée un graphique qui compare x à une normale théorique

I En R plot(model,which=2) fait la même chose pour les résidus d’un modèle estimé aveclm(·)

(19)

Graphique Q–Q

(20)

Graphique Q–Q

(21)

Graphique Q–Q

(22)

Graphique Q–Q

(23)

Graphique Q–Q

I En R qqnorm(x) crée un graphique qui compare x à une normale théorique

(24)

Graphique Q–Q

I En R qqnorm(x) crée un graphique qui compare x à une normale théorique

(25)

Diagramme de variable ajout´ ee

I But – détecter si l’impact d’une variable individuelle (dans un modèle de régression multiple) est bien capté par une relation linéaire

I Difficile avec un graphique des r´esidus contre la variable explicative (il faut tenir constantes les valeurs de toutes les autres variables explicatives)

I On voudrait regarder l’impact d’une variable individuelle sur la variable d´ependante ayant purg´e l’impact de toutes les autres variables

I Un diagramme de variable ajout´ee nous permet de faire ceci. La d´emarche est la suivante :

(26)

Diagramme de variable ajout´ ee

(27)

Diagramme de variable ajout´ ee

(28)

Diagramme de variable ajout´ ee

I Un diagramme de variable ajout´ee nous permet de faire ceci.

La d´emarche est la suivante :

(29)

Diagramme de variable ajout´ ee (suite)

1. Estimer un modèle avecY comme variable dépendante et toutes les autres variables à partXj comme variables explicatives. Appelons les résidus û_y

2. Estimer un modèle Xj comme variable dépendanteet toutes les autres variables explicatives à partX_j comme variables explicatives. Appelons les résidus û_j

3. Créer un graphique avec û_y sur l’axe vertical et û_j sur l’axe horizontal

4. On peut aussi estimer ˆ

u_yi =γ₀+γ₁uˆ_ji +_i.

et ajouter la ligne de r´egression au graphique (avec la commande abline(·))

(30)

Diagramme de variable ajout´ ee (suite)

2. Estimer un modèle X_j comme variable dépendanteet toutes les autres variables explicatives à partX_j comme variables explicatives. Appelons les résidus ûj

(31)

Diagramme de variable ajout´ ee (suite)

(32)

Diagramme de variable ajout´ ee (suite)

(33)

Diagramme de variable ajout´ ee (suite)

(34)

Diagramme de variable ajout´ ee (suite)

I Le théorème Frisch-Waugh-Lovell nous dit que le ˆγ₁ doit être identique à ˆβ_j

I En R,avPlots(·)(packagecar), où l’argument est un modèle estimé, crée des diagrammes de variable ajoutée pour toutesles variables explicatives

I Interprétation — le coefficient ˆγ donne l’impact deXj sur Y une fois que l’on purgeX_j des effets des autres variables explicatives. Mais c’est exactement ce que fait l’estimation par MCO du modèle de régression multiple.

(35)

Diagramme de variable ajout´ ee (suite)

(36)

Diagramme de variable ajout´ ee (suite)

(37)

Diagramme de r´ esidus partiels

I Graphique avec ˆu_i + ˆβ_jX_ji sur l’axe vertical, X_ji sur l’axe horizontal

I La pente est donn´ee par ˆβ_j

I Boomsma (2014) – ces diagrammes sont plus utiles pour détecter les non-linéarités, tandis que les diagrammes de variable ajoutée sont plus utiles pour détecter les observations aberrantes et influentes

I R:prplot(·,x)(packagefaraway) permet de générer automatiquement des graphiques de résidus partiels pour un modèle estimé

I Premier argument : nom du modèle estimé. Deuxième argument : nombre de la variable explicative.

(38)

Diagramme de r´ esidus partiels

(39)

Diagramme de r´ esidus partiels

(40)

Diagramme de r´ esidus partiels

(41)

Diagramme de r´ esidus partiels

(42)

R´ esidus Normalis´ es

I Même si les erreurs d’un modèle sont homoscédastiques, les résidus ne le sont pas

I Les résidusne peuventêtre indépendants puisqu’ils satisfont X⁰Uˆ= 0

I Cette propriété impose des relations algébriques exactes(en faitk+ 1 relations exactes) entre les résidus qui les

empêchent d’être indépendantes au sens statistique du terme

I Nous avons

Uˆ≡Y −Xβˆ=Y −X X⁰X−1

X⁰Y

=

I −X X⁰X−1

X⁰

Y

≡(I−H)Y

I (I−H) est sym´etrique etidempotente

(43)

R´ esidus Normalis´ es

I Nous avons

X⁰Y

=

I −X X⁰X−1

X⁰

Y

≡(I−H)Y

(44)

R´ esidus Normalis´ es

I Nous avons

X⁰Y

=

I −X X⁰X−1

X⁰

Y

≡(I−H)Y

(45)

R´ esidus Normalis´ es

I Nous avons

X⁰Y

=

I −X X⁰X−1

X⁰

Y

≡(I−H)Y

(46)

R´ esidus Normalis´ es

I Nous avons

X⁰Y

=

I −X X⁰X−1

X⁰

Y

≡(I−H)Y

(47)

R´ esidus Normalis´ es (suite)

I Variance (conditionnelle) du vecteur des résidus Û. Û est n×1, la matrice variance-covariance est n×n

E

UˆUˆ⁰|X

= E (I−H)YY⁰(I −H)|X

= E (I −H) (Xβ+U) (Xβ+U)⁰(I −H)|X

= (I−H)Xββ⁰X⁰(I−H) +E (I−H)XβU⁰|X +E Uβ⁰X⁰(I−H)|X + (I−H) E UU⁰

(I −H).

= (I−H) E UU⁰

(I−H) puisque (I −H)X = 0

(48)

R´ esidus Normalis´ es (suite)

I Cas homosc´edastique :

=σ²(I−H),

I Même si les erreurs sont homoscédastiques les variances des résidus sont proportionnelles aux éléments sur la diagonale de (I−H)

(49)

R´ esidus Normalis´ es (suite)

I Cas homosc´edastique :

=σ²(I−H),

I Même si les erreurs sont homoscédastiques les variances des résidus sont proportionnelles aux éléments sur la diagonale de (I−H)

(50)

R´ esidus normalis´ es (suite)

I Résidusnormalisés (oustudentisés de fa¸con interne) :

r_i ≡ uˆ_i ˆ σ√

1−h_ii

où ˆσ est l’écart type de la régression et lesh_ii sont les

´

el´ements sur la diagonale de H

I On normalise les r´esidus en divisant par un estim´e de leurs

´

ecarts types (sousH₀ de l’homosc´edasticit´e)

I Un graphique avec les résidus normalisés (ou au carré) sur l’axe vertical et avec la variable dépendante ou une des variables explicatives sur l’axe horizontal peut faire ressortir mieux si l’hypothèse de l’homoscédasticité tient ou non

I R:rstandard(·). L’argument : l’objet utilisé pour sauvegarder les résultats d’estimation d’un modèle

(51)

R´ esidus normalis´ es (suite)

1−h_ii

´

(52)

R´ esidus normalis´ es (suite)

1−h_ii

´

(53)

R´ esidus normalis´ es (suite)

1−h_ii

´

(54)

R´ esidus normalis´ es (suite)

I Si les hypothèses statistiques derrière le modèle tiennent (y compris l’homoscédasticité des erreurs), il devrait être le cas que Var (r_i|X) = 1 et Corr (r_i,r_j|X) a tendance à être faible (Kleiber et Zeileis 2008)

I Dans les sections qui suivent, la plupart des mesures utilisées sont basées sur les résidus normalisés et non sur les résidus eux-mêmes.

(55)

R´ esidus normalis´ es (suite)

I Si les hypothèses statistiques derrière le modèle tiennent (y compris l’homoscédasticité des erreurs), il devrait être le cas que Var (r_i|X) = 1 et Corr (r_i,r_j|X) a tendance à être faible (Kleiber et Zeileis 2008)

I Dans les sections qui suivent, la plupart des mesures utilisées sont basées sur les résidus normalisés et non sur les résidus eux-mêmes.

(56)

La Matrice H

I La matrice H a été définie dans la sous-section précédente.

I H est cens´e faire penser `ahat (chapeau).

I La matrice H est utilis´ee aussi pour calculer les distances de Cook et pour mesurer les effets de levier.

I Il est possible de montrer que l’on peut exprimer les valeurs pr´edites de la variable d´ependante comme

Yˆ_j =h_1jY₁+h_2jY₂+. . .+h_njY_n=

n

X

i=1

h_ijY_i.

(57)

La Matrice H

n

X

i=1

h_ijY_i.

(58)

La Matrice H

n

X

i=1

h_ijY_i.

(59)

La Matrice H

n

X

i=1

h_ijY_i.

(60)

La Matrice H

n

X

i=1

h_ijY_i.

(61)

La Matrice H (suite)

I Ainsi, le poids h_ij capte la contribution de l’observationY_i `a la valeur pr´edite ˆY_j.

I On peut montrer que

hii =

n

X

j=1

hij2,

et donc la valeur h_ii r´esume l’influence potentielle de l’observation Yi sur toutesles valeurs pr´edites ˆYj.

I On peut montrer que 1

n ≤hii ≤1.

I On peut aussi montrer que la valeur moyenne des h_ii est donn´ee par

1 n

n

X

i=1

hii = ¯h = k+ 1 n .

(62)

La Matrice H (suite)

hii =

n

X

j=1

hij2,

n ≤hii ≤1.

1 n

n

X

i=1

hii = ¯h = k+ 1 n .

(63)

La Matrice H (suite)

hii =

n

X

j=1

hij2,

n ≤hii ≤1.

1 n

n

X

i=1

hii = ¯h = k+ 1 n .

(64)

La Matrice H (suite)

hii =

n

X

j=1

hij2,

n ≤hii ≤1.

1 n

n

X

i=1

hii = ¯h = k+ 1 n .

(65)

La Matrice H (suite)

I Il est possible de montrer que, dans le mod`ele de r´egression simple,

h_ii = 1

n + X_i −X¯2

Pn

j=1 Xj −X¯2,

ce qui a l’interprétation de la distance deXi par rapport à la moyenne échantillonnale ¯X, normalisée par la somme des distances des X_j par rapport à la moyenne échantillonnale ¯X.

I Les h_ii peuvent ˆetre calcul´es enRavec la commande

hatvalues(·)où l’argument de la commande est un modèle estimé avec la commandelm(·).

I Pour plus de détails sur les propriétés de la matrice H voir Hoaglin et Welsch (1978).

(66)

La Matrice H (suite)

h_ii = 1

n + X_i −X¯2

Pn

j=1 Xj −X¯2,

I Les h_ii peuvent ˆetre calcul´es en Ravec la commande

(67)

La Matrice H (suite)

h_ii = 1

n + X_i −X¯2

Pn

j=1 Xj −X¯2,

I Les h_ii peuvent ˆetre calcul´es en Ravec la commande

(68)

Sensibilit´ e ` a des observations particuli` eres

I Il y a quelques techniques informelles d’essayer de détecter des observations aberrantes ou influentes, qui ont une influence prépondérante sur les résultats de l’estimation.

I L’id´ee de base est d’analyser ce qui arrive si on laisse tomber une seule observation de l’´echantillon.

I On peut mesurer l’impact ou bien sur les coefficients estimés ou bien sur la valeur prédite de la variable dépendante.

I Définissons ˆβ_(i₎ comme le vecteur de paramètres estimés après avoir laissé tomber l’observation i de l’échantillon, et ˆY_(i₎ le vecteur de valeurs prédites de la variable dépendante après avoir laissé tomber l’observation i de l’échantillon.

(69)

Sensibilit´ e ` a des observations particuli` eres

(70)

Sensibilit´ e ` a des observations particuli` eres

(71)

Sensibilit´ e ` a des observations particuli` eres

I Définissons ˆβ_(i₎ comme le vecteur de paramètres estimés après avoir laissé tomber l’observation i de l’échantillon, et ˆY_(i) le vecteur de valeurs prédites de la variable dépendante après avoir laissé tomber l’observation i de l’échantillon.

(72)

Effets de levier

I L’effet de levier de l’observation i est donn´e tout simplement par la valeur de hii.

I Parmi les autres propri´et´es deH, 0≤h_ii ≤1, trace (H) =k+ 1,

o`u (k+ 1) est le nombre de variables explicatives dans le mod`ele.

I Comme règle approximative, des valeurs au moins trois fois la valeur moyenne peuvent être considérées indicatrices

d’observations aberrantes ou influentes.

(73)

Effets de levier

(74)

Effets de levier

(75)

DFFITS

i

I D´efinition :

DFFITi ≡Yˆi−Yˆ_(i).

I Cette mesure calcule l’impact d’omettre l’observation i sur la valeur pr´edite de la variable d´ependante (aussi de

l’observation i).

I D´efinition :

DFFITS_i ≡ Yˆi−Yˆ_(i₎ ˆ σ_(i)√

hii

où ˆσ_(i) est l’écart type de la régression estimé sans l’observation i :

ˆ

σ²_i ≡ 1 n−k

X

j6=i

ˆ u_i²,

I Comme règle approximative, les points où la mesure dépasse 2×q

k+1

n sont `a signaler comme des observations influentes.

(76)

DFFITS

i

I D´efinition :

l’observation i).

I D´efinition :

hii

ˆ

σ²_i ≡ 1 n−k

X

j6=i

ˆ u_i²,

k+1

(77)

DFFITS

i

I D´efinition :

l’observation i).

I D´efinition :

hii

ˆ

σ²_i ≡ 1 n−k

X

j6=i

ˆ u_i²,

k+1

(78)

DFFITS

i

I D´efinition :

l’observation i).

I D´efinition :

hii

ˆ

σ²_i ≡ 1 n−k

X

j6=i

ˆ u_i²,

k+1

(79)

DFBETAS

_j,(i)

I Pour le coefficientβ_j, on d´efinit DFBETA_j,(i) comme DFBETA_j,(i)≡βˆj −βˆ_j_,(i).

I C’est une mesure de l’impact de laisser tomber l’observationi sur la valeur du coefficient estim´e j.

I Pour le coefficientβ_j, on d´efinit DFBETAS_j,(i) comme DFBETAS_j,(i)≡

βˆ_j−βˆ_j_,(i) ˆ

σ q

(X⁰X)⁻¹_jj

où (X⁰X)⁻¹_jj est l’élément dans lajê colonne et lajê rangée de l’inverse de (X⁰X)

I Une valeur sup´erieure `a 2/√

n est consid´er´eesuspicieuse.

(80)

DFBETAS

_j,(i)

I Pour le coefficientβ_j, on d´efinit DFBETA_j,(i) comme DFBETA_j,(i)≡βˆj −βˆ_j_,(i).

I C’est une mesure de l’impact de laisser tomber l’observationi sur la valeur du coefficient estim´e j.

I Pour le coefficientβ_j, on d´efinit DFBETAS_j,(i) comme DFBETAS_j,(i)≡

βˆ_j−βˆ_j_,(i) ˆ

σ q

(X⁰X)⁻¹_jj

où (X⁰X)⁻¹_jj est l’élément dans lajê colonne et lajê rangée de l’inverse de (X⁰X)

I Une valeur sup´erieure `a 2/√

n est consid´er´eesuspicieuse.