Chapitre 3 Analyse de la regression multiple : estimation

(1)

Chapitre 3

Analyse de la regression multiple : estimation

Econométrie Approfondie

Ahmed Tritah, Université du Maine

Septembre 2017

(2)

Introduction

I Di¢ cile dans le cadre de la regression simple d’évaluer l’impact de x sur y toutes choses égales par ailleurs

I La regression linéaire multiple (RLM) en contrôlant pour plusieurs facteurs, potentiellement corrélés, est plus à même d’évaluer les e¤ets toutes choses égales par ailleurs.

I On peut expliquer une plus grande variation dey

I On peut faire le choix de formes de fonctionnelles plus ‡exibles

(3)

Le modèle avec deux variables indépendantes

I Exemple 1 : e¤et de l’éducation sur le salaire β₁ que l’on souhaite mesurer toutes choses égales par ailleurs

salaire =β₀+β₁educ + β₂exper+u (1)

exper est le nombre d’années d’expérience.

Nécessaire de faire des hypothèses suru. Ce modèle extrait l’experience du terme d’erreuru.

I β₁ mesure l’e¤et de l’éducation sur le salaire, pour des individus qui ont le même niveau d’expérience.

I Dans le modèle RLS l’expérience est contenue dansu ) ^pour mesurer β₁ sans biais on doit faire l’hypothèse que l’expérience et l’éducation ne sont pas corrélées : Qu’en pensez-vous?

(4)

I Exemple 2 : impact des dépenses par élève (expend) sur les résultats aux évaluations (avgscore)

On postule le modèle suivant:

avgscore = β₀+β₁expend + β₂avginc+u (2) avginc dénote le revenu moyen de la famille, u les autres facteurs non observables.

I En incluant le revenu moyen de la famille on contrôle pour son impact sur les performances scolaires.

I Pour quelles raisons cela est important?

I Dans le modèle RLS,avginc est dans le terme d’erreur.

I Pour quelles raisons à votre avis cela peut biaiser l’estimation de β₁?

(5)

I Le modèle RLM avec deux variables explicatives:

y = β₀+β₁x₁+β₂x₂+u (3)

I β₁ : e¤et dex₁ sury, les autres facteurs qui a¤ectenty étant

…xe

I β₂ : e¤et dex₂ sury, ______

I Choix de formes fonctionnelles plus ‡exibles :

Ex. : consommation (cons) fonction quadratique du revenu (inc)

cons = β₀+β₁inc+β₂inc²+u (4)

I Attention : ici la consommation dépend d’un seul facteur

I Pas de di¤érence dans l’estimation : (4) prend la forme de (3)

I Di¤érences dans l’interprétation des coe¢ cients. Comment inteprétez ici l’e¤et du revenu?

(6)

I L’hpothèse centrale du modèle est:

E(uj^x¹^,^x²) =0 (5)

I Quelle que soit la valeur dex₁ etx₂ dans la population, la moyenne des non-observables est nulle.

I Interprétation de (5) similaire à celle de l’hypothèse RLS4 I Intéprétation de (5) dans les exemples précédents

I Eq. (1) : E(uj^educ,^exper) =0

Quel rôle jouent les aptitudes dans ce cas?

I Eq.(2) : E(uj^expend,^avginc) =0 (discuttez cette hypothèse)

I Un cas particulier : E(ujînc,înc²) =E(ujînc) =0

(7)

Le modèle avec k variables indépendantes

I Le modèle RLM sur la population s’écrit

y = β₀+β₁x₁+β₂x₂+β₃x₃+...+β_kx_k+u (6) u terme d’erreur (perturbations, non-observables) : facteurs autres que x a¤ectant y

I La linéarité fait référence aux paramètres

I Exemple : salaire des dirigants (salaire) en fonction des ventes (ventes) et de leur ancienneté (ceoten)

ln(salaire) =β₀+β₁log(ventes) +β₂ceoten+β₃ceoten²+u

I Interprétez les coe¢ cients (exo).

(8)

I L’hypothèse centrale est:

E(uj^x¹^,^x²^{, ...,}^x^k) =0 (7)

u terme d’erreur (perturbations, non-observables) : facteurs autres que x a¤ectant y

I Tous les facteurs contenus dans le terme d’erreur sont non-corrélés avec les explicatives du modèle

I Mais aussi : spéci…cation correcte de la forme fonctionnelle qui lie la variable dépendante aux variables explicatives.

I L’hypothèse (7) implique que les MCO sont sans biais.

I Des erreurs de mesure sur les variables indépendantes (x_j) peuvent invalider l’hypothèse (7).

(9)

Dérivation de l’estimateur des MCO

I Dans le cas général, avec k variables explicatives, l’équation des MCO, appellé fonction de regression empirique ou droite des MCO, est :

ˆ

y = β^ˆ₀+β^ˆ₁x1 +β^ˆ₂x2+...+β^ˆ_kx_k, (8)

I Etant donné un échantillonf(xi1,xi2, ...,xik,yi):i =1, ...,ng^, les MCO consistent à choisir les estimateurs β_j qui minimisent la somme des carrés des résidus :

∑

n i=1

(y_i βˆ₀ βˆ₁x_i1 βˆ₂x_i2 ... βˆ_kx_ik)² (9)

I Restrictions sur les moments empiriques )un système de k+1 équations àk+1 inconnues :

(10)

∑

n i=1

(y_i βˆ₀ βˆ₁x_i1 βˆ₂x_i2 ... βˆ_kx_ik) = 0 (10)

∑

n i=1

xi1(yi βˆ₀ βˆ₁xi1 βˆ₂xi2 ... βˆ_kxik) = 0

∑

n i=1

x_i2(y_i βˆ₀ βˆ₁x_i1 βˆ₂x_i2 ... βˆ_kx_ik) = 0

¨¨

∑

n i=1

x_ik(yi βˆ₀ βˆ₁xi1 βˆ₂xi2 ... βˆ_kx_ik) = 0

I Ce sont les conditions du premier ordre des MCO

I On suppose que la solution f^β^ˆj,j =1, ...,kgdu système est unique.

(11)

Interprétation de l’équation des MCO

I La droite de regression est : ˆ

y = β^ˆ₀+β^ˆ₁x1 +β^ˆ₂x2+...+β^ˆ_kxk, (11)

I Les estimateursf^β^ˆj,j =1, ...,kgs’interprétent comme des e¤ets partiels ou "toutes choses égales par ailleurs". On peut en e¤et écrire :

∆yˆ = β^ˆ₁∆x1 +β^ˆ₂∆x2+...+β^ˆ_k∆x_k (12)

I Exemple: si toutes les variables, autres que x1,sont …xes on a l’e¤et sur y d’une variation dex₁ d’une unité :

∆yˆ =β^ˆ₁∆x1, (13)

I En incluant f^x^j^,^j =2, ...,kg^,^β^ˆ1 mesure l’e¤et dex1 sury évalué "toutes choses égales par ailleurs". On mesure donc l’e¤et dex₁ sur y en contrôllant l’in‡uence sur y des variables f^x^j^,^j =2, ...,kg^.

(12)

Exemple 3: résulats au BAC et réussite à l’université

I Déterminants des résultats universitaires (colGPA), en fonction des résultats aux lycées (hsGPA) et des tests d’évaluation à l’entrée à l’université (ACT)

\

colGPA=1,29+0,453hsGPA+0.094ACT,n=140 (14)

I E¤et partiel de hsGPAsur colGPA positif : en supposantACT

…xe, une augmentation de hsGPAd’un point augmente les résultats moyens ' ^{1/2 point.}

I E¤et partiel deACT positif mais faible (ACT =24 et σ 3):...

I Modèle de régression simple :

\

colGPA=1,29+0,0271ACT

e¤et de ACT n’est pas évalué pour des étudiants avec le mêmehsGPA:il s’agit d’une expérience di¤érente.

(13)

Exemple 4: Equation de salaire

I Salaire en fonction de l’éducation (educ) de l’expérience (exper) et l’ancienneté (tenure):

log\(salaire) = 0,824+0,092educ+0.0041exper (15) +0,022tenure,

n = 526

I Interprétation : ...

(14)

I Signi…cation de "toutes choses égales par ailleurs" dans la regression multiple : ...

I On peut évaluer l’impact de plusieurs variables : exemple avec équation de salaire...

I Question : dans l’exemple déjà présenté Eq. (14), si dans l’échantillon hsGPA=3,4;ACT =24,2;quelle est la valeur colGAP?

(15)

Prédiction des MCO et résidus

I Pour chaque observationi la valeur prédite est : ˆ

y_i = β^ˆ₀+β^ˆ₁x_i1 +β^ˆ₂x_i₂+...+β^ˆ_kx_ik, (16)

I Le résidu estimé pour l’observationi est : ˆ

u_i =y_i yˆ_i (17)

I Les valeurs prédites et les résidus ont les propriétés suivantes : 1. uˆ_i =0)^y^¯ =yˆ_i (découle de 10, 1^ère condition)

2. covariance empirique nulle entre chaque variable indépendante et les résidus)covariance empirique nulle entre les résidus et les prédictions (découle de 10, conditions∑ⁿi=1x_ijuˆ_i =0) 3. Le point de coordonné moyen(x_¯1,x¯1, ...,x¯1,y¯)est toujours sur

la droite de regression : y¯ =β^¯₀+β^¯₁x¯1+β^¯₂x¯2+...+β^¯_kx¯_k (découle de la propriété 1)

(16)

Interprétation de la regression multiple à l’aide de la regression partielle

I Pour le cas de deux variables explicatives, β₁ peut s’exprimer : βˆ₁ =

∑

n i=1

ˆ r_i1y_i

! /

∑

n i=1

ˆ

r_i1² (18)

I rˆ_i1 :résidu des MCO de la regression simple dex₁ surx₂,

I rˆ_i1: variation dex₁ non expliquée (i.e. non corrélée avec) par la variation dex₂ (i.e. purgé des e¤ets dex₂)

I βˆ₁ est donc obtenu en regressanty surrˆ_i1

I en ce sens βˆ₁ est l’e¤et dex₁ sury en maintenant …xe la variation dex₂.

I Dans la cas général rˆ_i1 provient de la regression dex₁ sur f^x²^{, ...,}^x^j^,^j =1, ...,kg

I βˆ₁ mesure l’e¤et dex₁ sury purgé de l’e¤et des autres variables explicatives

(17)

Comparaison de la régression simple et multiple

I Soit les deux modèles suivants:

˜

y =β^˜₀+β^˜₁x₁, et (SLR) ˆ

y =β^ˆ₀+β^ˆ₁x1+β^ˆ₂x2 (MLR)

I Il existe une relation simple entre (MLR) et (SLR) :

β˜₁ = β^ˆ₁+β^ˆ₂δ˜1 (19)

I δ˜1 : pente de la régression simple dex₂ surx₁.

I β˜₁ 6= β^ˆ₁ si le produit de l’e¤et partiel dex₂ suryˆ avec la pente dex₂ surx₁ 6=0

I β˜₁ ' ^β^ˆ1 si e¤etβˆ₂ '^{0 et/ou} ^δ^˜1'0 (voir Ex. 1).

I Aveck variables indépendantes,β˜₁ ' ^β^ˆ1 si (1)les coe¢ cients des MCO de f^x²^{, ...,}^x^kgsont tous égaux à zéro et/ou(2) x₁ n’est corrélé avec aucune des variables f^x²^{, ...,}^x^kg^.

(18)

Exemple 5: Participation des salariés à un plan épargne-retraite

I Soit mrate la contribution de l’entreprise, par exemple, si mrate=0,75 l’employeur contribue à 75 cent pour chaque $ épargné par son salarié. Soit age l’age du compte épargne.

I Sur un échantillon de 1534 entreprises on a : prate =87,36;

mrate =0,732 et age =13,2.

I La régression sur cet échantillon donne [

prate=80,12+5,52mrate+0.243age.

I La régression simple donne : ^prate[ =83,08+5,86mrate.

I Commentez ce résultat sachant que la corrélation empirique entre mrate et age est de 0,12.

(19)

Qualité de l’ajustement

I Le R2 est dé…nie comme précédement :

R² SSE/SST =1 SSR/SST (20)

I Le R² est aussi égal au carré de la corrélation entre y_i etyˆ_i:

R² =

∑n i=1

(y_i y¯)(yˆ_i yˆ)

2

∑n i=1

(y_i y¯)²

∑n i=1

(yˆ_i yˆ)²

, (21)

I le R² ne diminue jamais lorsqu’une variable est ajoutée au modèle

I On doit rajouter une variable seulement si son e¤et partiel sur y dans la population est di¤érent de zéro.

I Le R² permet aussi d’évaluer l’importance simultanée d’un groupe de variables pour expliquer y.

(20)

Exemple 6: déterminants des résultats universitaire

I On reprend l’exemple 3, Eq.(14)

\

colGPA = 1,29+0,453hsGPA+0.0094ACT, (22) n = 140, R² =0,176

I hsGPAt et ACT explique 17,6% de la variation de GPA dans cette échantillon

I Cela vous parait-il important?

(21)

Exemple 7: Expliquer le taux de récidive

I On observe en 1986 un échantillon de 2725 hommes nés en 1960-61. Chacun a été arrété au moins une fois avant 1986;

narr86 mesure le nombre d’arrestation en 1986;narr86=0 pour 72,29%de l’échantillon, varie entre 0 et 12 et 20,51%

ont été arrétés au moins une fois. Soit les variables suivantes :

I pcnv : proportion d’arrestation avec comdamnation avant 1986

I avgsen: durée moyenne des condamnations (0 pour la plupart)

I ptime86 : nombre de mois passés en prison en 1986

I qemp86 : nombre de trimestres en emploi en 1986.

I On postule un modèle linéaire pour expliquer les arrestations : narr86= β₀+β₁pcvn+β₂avgsen+β₃ptime86+β₃qemp86+u

I Justi…ez l’inclusion de pcvn,avgsen,ptime86,qemp86

(22)

I L’estimation de ce modèle sans la variable avgsenfourni :

narr86 = 0,712 0,150pcvn 0,034ptime86 0,104qemp86 n = 2725, R²=0,0413

I Interprétez ces résultats

I Supposez que ptime86 passe de 0 à 12. Quelle sera la variation du nombre d’arrestations?

I Le rajout de la variableavgsen donne l’équation estimée : narr86 = ,707 ,151pcvn+,0074avgsen ,037ptime86

,103qemp86

n =2725, R²=0,0422

I Interprétez ces résultats

(23)

La régression par l’origine

I La théorie peut suggérer que β₀=0.Dans ce cas on estime

˜

y =β^˜₁x₁+β^˜₂x₂+...+β^˜_kx_k (23)

I β˜₁, β˜₂, ...,β˜_k dénote les estimateurs des MCO de la regression dey sur x₁,x₂, ...,x_k par l’origine.

I L’estimateur des MCO de (23) minimise le carré des résidus

I Attention : En l’absence de constante, les propriétés des MCO déjà dérivés ne sont plus valables.

I Les résidus n’ont plus une moyenne nulle)yˆ 6=y_¯

I SSR =_∑ⁿ_i=1(y_i β˜₁x₁ β˜₂x₂ ... β˜_kx_k)² et

R²=1 SSR/SST peut être négatif : y¯ explique davantage de variation dey_i que les variables explicatives.

I Pour cela on préfère calculéR² en utilisant (21) I Si β₀ 6=0, alorsf^β^˜1,β˜₂, ...,β˜_kg sont biaisés.

I Si β₀ =0 on réduit la précision de f^β^ˆ1,βˆ₂, ...,βˆ_kg

(24)

Propriété statistiques des MCO sur la population

I Propriétés statistiques de la population obtenu par échantillonages répétés

I Ces propriétés garantissent des estimateurs sans biais

I Hypothèse RLM1 (linéarité dans les paramètres) Le modèle de population peut s’écrire :

y = β₀+β₁x1+β₂x2+β₃x3+...+β_kx_k+u, (MLR1) où β₀,β₁, ...,β_k sont les paramètres inconnus est constant à estimer et u est un terme d’erreur (perturbation) non observé aléatoire.

I Hypothèse RLM2 (Echantillonage aléatoire)

On dispose d’un échantillon aléatoire de n observations f(x_i1,x_i2, ...,x_ik,y_i):i =1, ...,kg, générés par le modèle (MLR1).

(25)

I Pour le tirage aléatoire d’une observation on écrira :

y_i = β₀+β₁x_i₁+β₂x_i2+...+β_kx_ik+u_i. (24) le termeu_i contient les éléments non observables de

l’observation i qui a¤ectentyi.

I f^β^ˆ0,βˆ₁,βˆ₂, ...,βˆ_kgsont les estimateurs des MC0 de f^β0,β₁,β₂, ...,β_kg, obtenus pour unéchantillon donné de sorte que la moyenne des résidus est égale à zéro et la corrélation empirique (d’échantillonage) de chacune des variables indépendantes avec ces résidus est égale à zéro.

I Hypothèse RLM3 (Absence de collinéarité parfaite)

Dans l’échantillon (et donc dans la population), aucune des variables indépendantes n’est constante, et il n’existe pas de relations linéaires exactes entre les variables.

En présence de collinéarité parfaite le modèle ne peut pas être estimé par les MCO.

(26)

I Attention : La régression multiple n’a d’utilité que si il y a de la colinéarité entre les variables explicatives.

I Exemples

I Fonction de consommation : cons= β₀+β₁rev+β₂rev²+u

I Fonction de consommation à élasticité constante : log(cons) =β₀+β₁log(rev) +β₂log(rev)²+u

I Reprenons l’exemple des dépenses électorale et de la proportion des su¤rages obtenus par le candidat A (voteA) : voteA=β₀+β₁+β₂expendA+β₃expendB+β₃totexpend+u

(25) expendA,expendB ettotexpend dénote les dépenses du candidats A et B et les dépenses totales.

Dans ces exemples, l’hypothèse MLR3 est-elle respectée?

(27)

I Solution : enlever au moins une variable.

I Problème de colinnéarité si n<k+1.

I Questions : reprenez l’exemple et considérez maintenant les variables explicativesexpendA,expendB et shareA, avec shareA=100(expendA/totexpend). Ce modèle satisfait-il MLR3?

(28)

I Hypothèse RLM4 (Espérance conditionnelle des erreurs nulle) Pour n’importe quelle valeur prise par les variables

indépendante, u a une valeur espérée égale à zéro.

E(uj^x¹^,^x²^{, ...,}^x^k) =0 (26)

I Cette hypothèse est invalidée si :

I mauvaise spéci…cation de la forme fonctionelle

I ommission d’une variable importante corrélée avec au moins une des variables explicatives

I si erreur de mesure dans les variables explicatives

I si y et x sont déterminés conjointement : problème de simultanéité

I Si RLM4 est véri…ée les variables explicatives sont dites exogènes. Sinon elles sont andogènes.

I Attention : important de distinguer RLM3 (problèmes de collinéarité) de RLM4 (problème plus di¢ cile à traiter).

(29)

Theorem (LES MCO sont sans biais) Sous les hypothèses RLM1-RLM4

E(β^ˆ_jj^x¹^,^x²^{, ...,}^x^k) = β_j (27) pour toute valeur des paramètresβˆ_j dans la population. Les estimateurs des MCO sont des estimateurs sans biais des paramètres du modèle sur la population.

I Dans les exemples précédents si les modèles spéci…és véri…ent MLR4 alors les MCO (la procédure) sont sans biais.

I Considérez l’Eq (15): on voudrait conclure que "9,2% est un estimateur sans biais des rendements de l’éducation".

I Mais : une estimation n’est jamais sans biais car elle est conditionelle à l’échantillon en notre possession.

I Un estimateur peut être sans biais si la propriété RLM4 est véri…ée en moyenne sur tous les échantillonage possible de la population : c’est en ce sens que les MCO sont sans biais.

(30)

Inclusion d’une variable non signi…cative : suridentication

I On postule le modèle suivant sur la population :

y = β₀+β₁x1+β₂x2+β₃x3+u (28)

I On suppose que les hypothèses RLM1-RLM4 sont véri…és.

I On suppose que l’e¤et partiel de x₃ sur y est égal à zéro : E(yj^x¹^,^x²^,^x³) =E(yj^x¹^,^x²) =β₀+β₁x₁+β₂x₂

I β₃ est inconnu on pourrait donc estimer :

y = β^ˆ₀+β^ˆ₁x1+β^ˆ₂x2+β^ˆ₃x3 (29)

I Quel est la conséquence à estimer (29) lorsque β₃ =0

I les MCO restent sans biais (cf théorème précédent) I L’estimation d’un modèle suridenti…é ne cause pas de

biais.

I Mais conséquences concernant la précisions des estimateurs.

(31)

Biais de variables omises : analyse de spéci…cation

I Cas simple : supposons que le véritable modèle soit

y = β₀+β₁x1+β₂x2+u (30)

I On suppose que les hypothèsesRLM1-RLM4 sont véri…és.

I Supposons que x2 est inconnue de sorte qu’on estime :

y = β^˜₀+β^˜₁x1, (31)

I Ex : salaire=β₀+β₁educ+β₂apt+u

I les aptitudes (apt) étant inconnues on estime :

salaire=β₀+β₁educ+v (32) iciv =β₂apt+u, β˜₁ est l’estimation de β₁ dans (32)

I Pour dériver le biais dans RLS on reprend l’Eq. (19) où β˜₁ =β^ˆ₁+β^ˆ₂δ˜1,puisque (30) satisfait RLM1-RLM4 on a :

E(β^˜₁) =E(β^ˆ₁) +E(β^ˆ₂)δ^˜1 = β₁+β₂δ˜1 (33)

(32)

I Par conséquent le biais de variable omiseest

biais(β^˜₁) =E(β^˜₁) β₁ = β₂δ˜1 (34)

I D’aprés (34) β˜₁ sera sans biais dans deux cas :

I β₂=0:le véritable modèle n’inclut pas x2 I δ˜1 =0 (rappelδ˜1=^cov_var(x^(x¹^,x²⁾

1) ) donc six₁ etx₂ sont non corrélés dans l’échantillon

I Dans l’exemple précédent pas de bias si

E(vjêduc) =β₂E(aptjêduc) +E(u) =β₂E(aptjêduc) i.e., siβ₂=0 ouE(aptjêduc) =E(apt)(educ etapt ne sont pas corrélés)

I Le signe du biais dépend du signe de β₂ et δ˜1: corr(x₁,x₂)>0 corr(x₁,x₂)<0 β₂ >0 biais positive biais négative β₂ <0 biais négative biais positive

(33)

I De même d’aprés (34) le biais sera faible si :

I β₂ 0,(l’e¤et partiel dex₂ est faible) et/où

I δ˜1 0 six₁ etx₂ sont peu corrélés dans l’échantillon I On doit mener un raisonnement économique pour évaluer le

signe de β₂ et δ˜1 et donc le sens du biais.

I Exemple 1 (equation de salaire) on suppose que le vrai modèle est

log(salaire) =β₀+β₁educ+β₂apt+u

I On n’observe pasapt et on estime β₁ à partir de log\(salaire) = 0,584+0.083educ

n = 526, R²=0,186 Quel est le sens du biais? Expliquez. (exo)

(34)

I Exemple 2 : les résultats moyens d’une école (avgscore) en fonction des dépenses par élèves (expend) et du taux de pauvreté de la localité (povrate) sont déterminés par

avgscore =β₀+β₁expend+β₂povrate+u (35)

I povarate non disponible, on estime donc β₁ par une régression simple de avgscore sur expend.Soit β˜₁ la valeur estimée.

I Doit-on accroître les dépenses d’éducation pour améliorer les résultats scolaires?

I A partir de l’estimation β˜₁ pourriez-vous apportez une réponse. Discuttez (exo).

I Remarque de terminologie importante :

I Si E(β₁)>β₁:biais positif

I Si E(β₁)<β₁:biais négatif

I β˜₁ est biaisé vers 0 si β˜₁ plus proche de 0 queβ₁

I Siβ₁ positif, β˜₁ biaisé vers 0 si biais négatif Siβ₁ négatif,β˜₁ biaisé vers 0 si biais positif

(35)

Biais de variable omise : le cas général

I Rappel : tous les estimateurs des MCO soit biaisés dés lors qu’au moins une des variablesx est corrélée avec y.

I Ex.: soit le modèle de population suivant qui satisfait RLM1-RLM4

y = β₀+β₁x₁+β₂x₂+β₃x₃+u (36)

I On omet x₃ et on obtient l’estimation:

˜

y =β^˜₀+β^˜₁x1+β^˜₂x2 (37)

I On supposex₂ etx₃ non corrélés et x₁ corrélé avecx₃.

I x₁,x₂ et x₃ sont conjointement corrélés ) l’estimation de β₁ et β₂ dans(37) est baisée.

(36)

I Biais dans le cas particulier où x₁ etx₂ ne sont pas (ou peu) corrélés :

E(β^˜₁) =β₁+β₃

∑n i=1

(x_i1 x¯₁)x_i3

∑n i=1

(x_i1 x¯₁)²

= β₁+β₃ cov(x₁,x₃) var(x1)

| {z } pente la regression

de x₃ sur x₁

I On retrouve l’expression (33)

(37)

I Exemple avec une équation de salaire :

salaire =β₀+β₁educ+β₂exper +β₃aptitude+u

I Si on omet aptitude, β₂ sera biaisé même si les aptitudes et l’expérience ne sont pas corrélés.

I Faites l’hypothèse que corr(exper,aptitude) =0 et que corr(educ,exper) =0.

I Quel sera le sens du biais de β˜₁ obtenu sans inclureaptitude dans le modèle? (exo)

I Ce type de raisonnement sert souvent de guide pour obtenir le sens d’un biais

I strictement valable seulement si la variable d’intérêt en question (icix₁)n’est corrélée avec aucune des autres variables du modèle, et si elles mêmes ne sont pas être corrélées avec la variable omise (hypothèses trés restrictives).

(38)

I On connait la tendance centrale des βˆ_j on souhaite évaluer leur précision

I On rajoute une hypothèse d’homocédasticité à MLR1-MLR4 : Hypothèse RLM5 (Homocédasticité)

Le terme d’erreuru à la même variance quelque soit la valeur des variables explicatives:

Var(uj^x¹^{, ...,}^xk) =σ².

I Exemple : salaire= β₀+β₁educ+β₂exper+β₃tenure+u

I l’homocédasticité : Var(uj^educ^,^exper,^tenure) =σ²

I MLR1-MLR5 : hypothèses de Gauss-Markov (données en coupe).

I Soit x= (x1,x2, ...,xk). On réécrit MLR1 et MLR4 comme : E(yj^x) =β₀+β₁x₁+β₂x₂+...+β_kx_k (MLR1; MLR4)

Var(yj^x) =σ² (MLR5)

(39)

I On peut obtenir la variance des estimateurs conditionelle à notre échantillon:

Theorem (Variance empiriques des estimateurs des MCO) Sous les hypothèses RLM1-RLM5

Var(β^ˆ_jj^x¹^,^x²^{, ...,}^xk) = ^σ

2

SST_j(1 R_j²) ⁽³⁸⁾ pour j =1,2, ...k, où SSTj =_∑ⁿ_i₌₁(xij x¯j)² est la variation empirique de x_j, et R_j² est le R² de la régression de x_j sur toutes les autres variables indépendantes (constante y compris).

I Pour démontrer ce théorème (...) on doit faire appel à toutes les hypothèses de Gauss-Markov.

I La valeur de Var(β^ˆ_j)est déterminante : Var(β^ˆ_j)élévée ) estimateurs moins précis (intervals de con…ance plus larges et seuils de signi…cativité des tests plus élevés)

(40)

Les composantes de la variance des MCO et multicolinéarité

1. La variance des erreurs, σ².une variance plus élevée (davantage de "bruit") réduit la précision des estimateurs (di¢ cile d’isoler l’e¤et partiel d’une variable). σ² est un attribu de la population et doit être estimé. La seule possibilité de réduire σ² est de rajouter des variables

"pertinentes" au modèle.

2. La variation empirique de x_j,STT_j. Une plus grande variation de xj améliore la précision des estimateurs. Cette composante dépend de façon systématique de la taille de l’échantillon,STT_j augmente avec la taille de l’échantillon.

Une valeur de SSTj petite n’est pas une violation de l’hypothèse MLR3, c’est le cas si SST_j =0.

(41)

3. La relation linéaire entre les variables explicatives, R_j².

I Exemple (k =2)y =β₀+β₁x₁+β₂x₂+u., alors

Var(β^ˆ₁) =σ²/[SST₁(1 R₁²)],R₁² est leR2 de la régression de x1 surx2. Ces deux variables sont fortement corrélées siR₁² est élevée. Une forte relation de linéarité entre les variables réduit la précisions des estimateurs.

I Cas général : R_j proportion de la variation totale dex_j expliquée par les autres variables du modèle. Var(β^ˆ_j)minimale siR_j²=0 (en pratique trés rare). Var(β^ˆ_j)!∞,lorsqueR_j² !^1;

collinéarité parfaite siR_j =1 (violation de l’hypothèseMLR3). On parle demulticolinéaritélorsqueR_j² est élevée.

I La multicolinéarité respecte l’hypothèse MLR3, son e¤et sur la précision des estimateurs dépendra de l’importance de σ² et SST_j et donc aussi de la taille des échantillons.

I Solution : enlever des variables (mais risque de biais si elles appartiennent au modèle de population).

(42)

Example (origine sociale et réussite scolaire)

E¤ets des di¤érentes dimensions de l’origine sociale des parents (éducation, salaire, type de logement,..) sur les résultats scolaire.

En général ces dimensions sont fortement corrélées : les pauvres sont moins instruits, les moins instruits ont des salaires plus faibles, et habitent des logement plus vétustent que les riches. Il faudra faire preuve d’"ingéniosité" pour estimer précisément les e¤ets séparés de chacune de ces variables où ne s’interesser qu’à une seule dimension, avec le risque d’obtenir alors des estimateurs biaisés.

(43)

I L’importance de la multicolinéarité dépend de la question qui nous interesse. Supposons :

y = β₀+β₀x1+β₂x2+β₂x3+u

x₂ et x₃ fortement corrélées et donc Var(β^ˆ₂)et Var(β^ˆ₃) élevées.

I Six₁ et non corrélée avecx₂ etx₃ alorsR₁²=0 et

Var(β^ˆ₁) =σ²/SST1, quelque soit la corrélation entrex₂ etx₃

Example (Discrimination sur le marché du crédit)

Octroi d’un crédit bancaire et proportion de minorité dans une localité. On contrôlera pour le revenu moyen, la valeur moyenne des logements, etc. Ces variables sont corrélées mais doivent être incluses pour tester la discrimination. La précision de l’e¤et de la proportion de minorités n’est pas a¤ectée par cette corrélation, si cette proportion est peu corrélée avec les autres variables.

(44)

I Question : vous postulez un modèle qui explique les résultats aux examens en fonction de l’assiduité en classe (nombre de cours présents). Pour contrôler pour les di¤érences initiales entre les étudiants vous incorporez dans votre modèle les variables suivantes :résultats obtenus à l’université les années antérieurs,résultats au BAC,résultats moyens en classe de terminale.

Un camarade vous fait remarquer que vous n’aller rien apprendre d’une telle régression car "tous ces résultats fortement corrélés."

Quelle serait votre réponse à cette critique?

(45)

Variance et erreurs de spéci…cation du modèle

I Le choix d’ajouter une variable à un modèle résulte d’un arbitrage entre biais et variance.

I Soit le modèle de population suivant qui satisfait MLR1-MLR5 y = β₀+β₁x₁+β₂x₂+u

I Soit deux estimateurs de β₁ : ˆβ₁ obtenu par regression multiple et β˜₁ obtenu par regression simple.

I Doit-on préférer βˆ₁ ou β˜₁?

I Comparons les variances :

Var(β^ˆ₁) = ^σ

2

SST1(1 R₁²)^{, et}

Var(β^˜₁) =σ²/SST1 (39)

(46)

I DoncVar(β^ˆ₁)>Var(β^˜₁) (sauf six₁ etx₂ ne sont pas corrélés), donc :

1. Siβ₂6=0, β˜₁ est biaisé, βˆ₂ est non biaisé et Var(β^ˆ₁)>Var(β^˜₁)

2. Siβ₂=0, β˜₁,et βˆ₂ sont non biaisés etVar(β^ˆ₁)>Var(β^˜₁)

I Si β₂ =0,on préfèrera β˜₁

I Si β₂ 6=0,on doit arbitrer entre le bias et la précision (résumé par R₁²) , mais :

I En augmentant la taille de l’échantillon on améliore la précision (le problème de multicolinéarité diminue)

I Siβ₂6=0, la variance de β˜₁ conditionnelle àx1 est plus élevée que celle de (39)

(47)

L’estimation des écartypes des MCO

I σ² =E(u), un estimateur serait

∑n i=1

u²_i

n ,maisu_i non observable

I rappel u_i inconnu car lesβ_j sont inconnus. En remplacant les β_j par leurs estimationsβˆ_j on obtient une estimation de u_i :

ˆ

u_i =y_i βˆ₁x₁ βˆ₂x₂ ... βˆ_kx_k

I Un estimateur sans biais de σ² est donc ˆ

σ² = (

∑

n i=1

ˆ

u²_i)/(n k 1) = ^SSR

n k 1 (40)

I Remarque on doit corriger pour le nombre de degré de liberté car les n termes uˆi estimés sont calculés à partir den

observations qui doivent respectésk+1 contraintes (lesu_i ontn k 1 degrés de liberté)

(48)

I Sous les hypothèses de Gauss Markov RLM1-RLM5 E(σˆ²j^X) =σ²

I p ˆ

σ²= σˆ est l’erreur type de le regression (SER).Le SER est une estimation de l’écartype du terme d’erreur (u).

I Le rajout d’une variable peut augmenter ou diminuer σˆ (cf numérateur vs dénominateur).

I σˆ connu, on obtient une estimation de l’écartype de βˆ_j à partir de (38):

se(β^ˆ_j) =σ/ˆ [SST_j(1 R_j²)]^1/2 (41)

I Remarque se(β^ˆ_j) est une variable aléatoire avec une distribution d’échantillonnage.

I Tout comme 38, Eq. 41 ne sera pas une estimation valide de sd(β^ˆ_j)si RLM3 est non respectée (erreurs hétérocédastique).

(49)

I Sous les hypothèses RLM1-RLM4, les MCO sont sans biais

I On montre que sous les hypothèses RLM1-RLM5 que l’estimateur des MCO, βˆ_j de β_j est lemeilleur estimateur linéaire sans biais (BLUE).

I (estimateur) règle : échantillon8de la population! estimation de paramètres

I (sans biais)E(β^ˆ_j) =β_j 8^j

I (linéaire) l’estimateur est une fonction linéaire de la variable dépendante (cf Eq.18)

βˆ_j =

∑

n i=1

w_ijy_i, oùw_ij peuvent étre fonctions desx_j

I (meilleur) estimateur à variance minimale : dans la classe des estimateurs linéaires et sans biais, les MCO ont la variance minimale

(50)

Theorem (Théorème de Gauss- Markov)

Sous les hypothèses RLM1-RLM5, βˆ₀,βˆ₁, ...,βˆ_k sont les meilleurs estimateurs sans biais (BLUE) de β₀,β₁, ...,β_k

I Lorsque les hypothèses RLM1-RLM5 sont valides inutile de rechercher un autre estimateur sans biais : celui des MCO est le meilleur.

I Ce théorème justi…e l’utilisation des MCO pour estimer une régression multiple.

I Si une seule de ces hypothèses n’est pas véri…ée le théorème ne s’applique plus.

I Si moyenne conditionelle des erreurs non nulle (RLM4 invalide) : les MCO sont biaisés.

I Si hétérosédasticité (RLM5 invalide) : les MCO ne sont plus à variance minimale parmi la classe des estimateurs linéaires sans biais.

(51)

Résumé

1. Le modèle RLM, permet de maintenir …xes d’autres facteurs lorsqu’on examine l’e¤et d’une variable explicative sur la variable dépendante. La RLM prend en compte la corrélation entre les variables indépendantes.

2. Le modèle est linéaire dans les paramètres, mais les relations entre les variables explicatives et expliquées peuvent être non linéaires

3. Les MCO sont simples d’application et permettent d’obtenir l’e¤et partiel d’une variable explicative sur la variables expliquée "toutes choses égales par ailleurs".

4. Le R² est la proportion de la variation de la variable

dépendante expliquée par les variables indépendantes. Il rend compte de la qualité de l’ajustement. On ne doit par accorder une trop grande importance à sa valeur lorsqu’on évalue un modèle économétrique.

(52)

’

5. Sous les hypothèses Gauss-Markov (RLM1-RLM4), l’estimateur MCO est sans biais. Par conséquent, introduire une variable non signi…cative n’entraine pas de biais. A l’inverse, omettre une variable explicative signi…cative biaise les MCO. Souvent, on peut évaluer le sens du biais.

6. Sous les 5 hypothèses G-M (RLM1-RLM5), la variance de l’estimateur MCO est Var(β^ˆ_j) =σ²/[SST_j(1 R_j²).Une augmentation de la variance des erreurs σ²,accroît Var(β^ˆ_j). Une variation empirique de xj,SSTj,plus élevée, diminue Var(β^ˆ_j).R_j² mesure le degré de colinéarité entre x_j et les autres variables explicatives. Lorsque R_j² !^1,^Var(β^ˆ_j)devient in…nie.

7. Introduire une variable non signi…cative augmente la variance des autres estimateurs MCO en raison des collinéarités.

8. Sous les hypothèses G-M (RLM1-RLM5), les estimateurs MCO sont les meilleurs estimateurs linéaires sans biais (BLUE).