Chapitre 3
Analyse de la regression multiple : estimation
Econométrie Approfondie
Ahmed Tritah, Université du Maine
Septembre 2017
Introduction
I Di¢ cile dans le cadre de la regression simple d’évaluer l’impact de x sur y toutes choses égales par ailleurs
I La regression linéaire multiple (RLM) en contrôlant pour plusieurs facteurs, potentiellement corrélés, est plus à même d’évaluer les e¤ets toutes choses égales par ailleurs.
I On peut expliquer une plus grande variation dey
I On peut faire le choix de formes de fonctionnelles plus ‡exibles
Le modèle avec deux variables indépendantes
I Exemple 1 : e¤et de l’éducation sur le salaire β1 que l’on souhaite mesurer toutes choses égales par ailleurs
salaire =β0+β1educ + β2exper+u (1)
exper est le nombre d’années d’expérience.
Nécessaire de faire des hypothèses suru. Ce modèle extrait l’experience du terme d’erreuru.
I β1 mesure l’e¤et de l’éducation sur le salaire, pour des individus qui ont le même niveau d’expérience.
I Dans le modèle RLS l’expérience est contenue dansu ) pour mesurer β1 sans biais on doit faire l’hypothèse que l’expérience et l’éducation ne sont pas corrélées : Qu’en pensez-vous?
I Exemple 2 : impact des dépenses par élève (expend) sur les résultats aux évaluations (avgscore)
On postule le modèle suivant:
avgscore = β0+β1expend + β2avginc+u (2) avginc dénote le revenu moyen de la famille, u les autres facteurs non observables.
I En incluant le revenu moyen de la famille on contrôle pour son impact sur les performances scolaires.
I Pour quelles raisons cela est important?
I Dans le modèle RLS,avginc est dans le terme d’erreur.
I Pour quelles raisons à votre avis cela peut biaiser l’estimation de β1?
I Le modèle RLM avec deux variables explicatives:
y = β0+β1x1+β2x2+u (3)
I β1 : e¤et dex1 sury, les autres facteurs qui a¤ectenty étant
…xe
I β2 : e¤et dex2 sury, ______
I Choix de formes fonctionnelles plus ‡exibles :
Ex. : consommation (cons) fonction quadratique du revenu (inc)
cons = β0+β1inc+β2inc2+u (4)
I Attention : ici la consommation dépend d’un seul facteur
I Pas de di¤érence dans l’estimation : (4) prend la forme de (3)
I Di¤érences dans l’interprétation des coe¢ cients. Comment inteprétez ici l’e¤et du revenu?
I L’hpothèse centrale du modèle est:
E(ujx1,x2) =0 (5)
I Quelle que soit la valeur dex1 etx2 dans la population, la moyenne des non-observables est nulle.
I Interprétation de (5) similaire à celle de l’hypothèse RLS4 I Intéprétation de (5) dans les exemples précédents
I Eq. (1) : E(ujeduc,exper) =0
Quel rôle jouent les aptitudes dans ce cas?
I Eq.(2) : E(ujexpend,avginc) =0 (discuttez cette hypothèse)
I Un cas particulier : E(ujinc,inc2) =E(ujinc) =0
Le modèle avec k variables indépendantes
I Le modèle RLM sur la population s’écrit
y = β0+β1x1+β2x2+β3x3+...+βkxk+u (6) u terme d’erreur (perturbations, non-observables) : facteurs autres que x a¤ectant y
I La linéarité fait référence aux paramètres
I Exemple : salaire des dirigants (salaire) en fonction des ventes (ventes) et de leur ancienneté (ceoten)
ln(salaire) =β0+β1log(ventes) +β2ceoten+β3ceoten2+u
I Interprétez les coe¢ cients (exo).
I L’hypothèse centrale est:
E(ujx1,x2, ...,xk) =0 (7)
u terme d’erreur (perturbations, non-observables) : facteurs autres que x a¤ectant y
I Tous les facteurs contenus dans le terme d’erreur sont non-corrélés avec les explicatives du modèle
I Mais aussi : spéci…cation correcte de la forme fonctionnelle qui lie la variable dépendante aux variables explicatives.
I L’hypothèse (7) implique que les MCO sont sans biais.
I Des erreurs de mesure sur les variables indépendantes (xj) peuvent invalider l’hypothèse (7).
Dérivation de l’estimateur des MCO
I Dans le cas général, avec k variables explicatives, l’équation des MCO, appellé fonction de regression empirique ou droite des MCO, est :
ˆ
y = βˆ0+βˆ1x1 +βˆ2x2+...+βˆkxk, (8)
I Etant donné un échantillonf(xi1,xi2, ...,xik,yi):i =1, ...,ng, les MCO consistent à choisir les estimateurs βj qui minimisent la somme des carrés des résidus :
∑
n i=1(yi βˆ0 βˆ1xi1 βˆ2xi2 ... βˆkxik)2 (9)
I Restrictions sur les moments empiriques )un système de k+1 équations àk+1 inconnues :
∑
n i=1(yi βˆ0 βˆ1xi1 βˆ2xi2 ... βˆkxik) = 0 (10)
∑
n i=1xi1(yi βˆ0 βˆ1xi1 βˆ2xi2 ... βˆkxik) = 0
∑
n i=1xi2(yi βˆ0 βˆ1xi1 βˆ2xi2 ... βˆkxik) = 0
¨¨
∑
n i=1xik(yi βˆ0 βˆ1xi1 βˆ2xi2 ... βˆkxik) = 0
I Ce sont les conditions du premier ordre des MCO
I On suppose que la solution fβˆj,j =1, ...,kgdu système est unique.
Interprétation de l’équation des MCO
I La droite de regression est : ˆ
y = βˆ0+βˆ1x1 +βˆ2x2+...+βˆkxk, (11)
I Les estimateursfβˆj,j =1, ...,kgs’interprétent comme des e¤ets partiels ou "toutes choses égales par ailleurs". On peut en e¤et écrire :
∆yˆ = βˆ1∆x1 +βˆ2∆x2+...+βˆk∆xk (12)
I Exemple: si toutes les variables, autres que x1,sont …xes on a l’e¤et sur y d’une variation dex1 d’une unité :
∆yˆ =βˆ1∆x1, (13)
I En incluant fxj,j =2, ...,kg,βˆ1 mesure l’e¤et dex1 sury évalué "toutes choses égales par ailleurs". On mesure donc l’e¤et dex1 sur y en contrôllant l’in‡uence sur y des variables fxj,j =2, ...,kg.
Exemple 3: résulats au BAC et réussite à l’université
I Déterminants des résultats universitaires (colGPA), en fonction des résultats aux lycées (hsGPA) et des tests d’évaluation à l’entrée à l’université (ACT)
\
colGPA=1,29+0,453hsGPA+0.094ACT,n=140 (14)
I E¤et partiel de hsGPAsur colGPA positif : en supposantACT
…xe, une augmentation de hsGPAd’un point augmente les résultats moyens ' 1/2 point.
I E¤et partiel deACT positif mais faible (ACT =24 et σ 3):...
I Modèle de régression simple :
\
colGPA=1,29+0,0271ACT
e¤et de ACT n’est pas évalué pour des étudiants avec le mêmehsGPA:il s’agit d’une expérience di¤érente.
Exemple 4: Equation de salaire
I Salaire en fonction de l’éducation (educ) de l’expérience (exper) et l’ancienneté (tenure):
log\(salaire) = 0,824+0,092educ+0.0041exper (15) +0,022tenure,
n = 526
I Interprétation : ...
I Signi…cation de "toutes choses égales par ailleurs" dans la regression multiple : ...
I On peut évaluer l’impact de plusieurs variables : exemple avec équation de salaire...
I Question : dans l’exemple déjà présenté Eq. (14), si dans l’échantillon hsGPA=3,4;ACT =24,2;quelle est la valeur colGAP?
Prédiction des MCO et résidus
I Pour chaque observationi la valeur prédite est : ˆ
yi = βˆ0+βˆ1xi1 +βˆ2xi2+...+βˆkxik, (16)
I Le résidu estimé pour l’observationi est : ˆ
ui =yi yˆi (17)
I Les valeurs prédites et les résidus ont les propriétés suivantes : 1. uˆi =0)y¯ =yˆi (découle de 10, 1ère condition)
2. covariance empirique nulle entre chaque variable indépendante et les résidus)covariance empirique nulle entre les résidus et les prédictions (découle de 10, conditions∑ni=1xijuˆi =0) 3. Le point de coordonné moyen(x¯1,x¯1, ...,x¯1,y¯)est toujours sur
la droite de regression : y¯ =β¯0+β¯1x¯1+β¯2x¯2+...+β¯kx¯k (découle de la propriété 1)
Interprétation de la regression multiple à l’aide de la regression partielle
I Pour le cas de deux variables explicatives, β1 peut s’exprimer : βˆ1 =
∑
n i=1ˆ ri1yi
! /
∑
n i=1ˆ
ri12 (18)
I rˆi1 :résidu des MCO de la regression simple dex1 surx2,
I rˆi1: variation dex1 non expliquée (i.e. non corrélée avec) par la variation dex2 (i.e. purgé des e¤ets dex2)
I βˆ1 est donc obtenu en regressanty surrˆi1
I en ce sens βˆ1 est l’e¤et dex1 sury en maintenant …xe la variation dex2.
I Dans la cas général rˆi1 provient de la regression dex1 sur fx2, ...,xj,j =1, ...,kg
I βˆ1 mesure l’e¤et dex1 sury purgé de l’e¤et des autres variables explicatives
Comparaison de la régression simple et multiple
I Soit les deux modèles suivants:
˜
y =β˜0+β˜1x1, et (SLR) ˆ
y =βˆ0+βˆ1x1+βˆ2x2 (MLR)
I Il existe une relation simple entre (MLR) et (SLR) :
β˜1 = βˆ1+βˆ2δ˜1 (19)
I δ˜1 : pente de la régression simple dex2 surx1.
I β˜1 6= βˆ1 si le produit de l’e¤et partiel dex2 suryˆ avec la pente dex2 surx1 6=0
I β˜1 ' βˆ1 si e¤etβˆ2 '0 et/ou δ˜1'0 (voir Ex. 1).
I Aveck variables indépendantes,β˜1 ' βˆ1 si (1)les coe¢ cients des MCO de fx2, ...,xkgsont tous égaux à zéro et/ou(2) x1 n’est corrélé avec aucune des variables fx2, ...,xkg.
Exemple 5: Participation des salariés à un plan épargne-retraite
I Soit mrate la contribution de l’entreprise, par exemple, si mrate=0,75 l’employeur contribue à 75 cent pour chaque $ épargné par son salarié. Soit age l’age du compte épargne.
I Sur un échantillon de 1534 entreprises on a : prate =87,36;
mrate =0,732 et age =13,2.
I La régression sur cet échantillon donne [
prate=80,12+5,52mrate+0.243age.
I La régression simple donne : prate[ =83,08+5,86mrate.
I Commentez ce résultat sachant que la corrélation empirique entre mrate et age est de 0,12.
Qualité de l’ajustement
I Le R2 est dé…nie comme précédement :
R2 SSE/SST =1 SSR/SST (20)
I Le R2 est aussi égal au carré de la corrélation entre yi etyˆi:
R2 =
∑n i=1
(yi y¯)(yˆi yˆ)
2
∑n i=1
(yi y¯)2
∑n i=1
(yˆi yˆ)2
, (21)
I le R2 ne diminue jamais lorsqu’une variable est ajoutée au modèle
I On doit rajouter une variable seulement si son e¤et partiel sur y dans la population est di¤érent de zéro.
I Le R2 permet aussi d’évaluer l’importance simultanée d’un groupe de variables pour expliquer y.
Exemple 6: déterminants des résultats universitaire
I On reprend l’exemple 3, Eq.(14)
\
colGPA = 1,29+0,453hsGPA+0.0094ACT, (22) n = 140, R2 =0,176
I hsGPAt et ACT explique 17,6% de la variation de GPA dans cette échantillon
I Cela vous parait-il important?
Exemple 7: Expliquer le taux de récidive
I On observe en 1986 un échantillon de 2725 hommes nés en 1960-61. Chacun a été arrété au moins une fois avant 1986;
narr86 mesure le nombre d’arrestation en 1986;narr86=0 pour 72,29%de l’échantillon, varie entre 0 et 12 et 20,51%
ont été arrétés au moins une fois. Soit les variables suivantes :
I pcnv : proportion d’arrestation avec comdamnation avant 1986
I avgsen: durée moyenne des condamnations (0 pour la plupart)
I ptime86 : nombre de mois passés en prison en 1986
I qemp86 : nombre de trimestres en emploi en 1986.
I On postule un modèle linéaire pour expliquer les arrestations : narr86= β0+β1pcvn+β2avgsen+β3ptime86+β3qemp86+u
I Justi…ez l’inclusion de pcvn,avgsen,ptime86,qemp86
I L’estimation de ce modèle sans la variable avgsenfourni :
narr86 = 0,712 0,150pcvn 0,034ptime86 0,104qemp86 n = 2725, R2=0,0413
I Interprétez ces résultats
I Supposez que ptime86 passe de 0 à 12. Quelle sera la variation du nombre d’arrestations?
I Le rajout de la variableavgsen donne l’équation estimée : narr86 = ,707 ,151pcvn+,0074avgsen ,037ptime86
,103qemp86
n =2725, R2=0,0422
I Interprétez ces résultats
La régression par l’origine
I La théorie peut suggérer que β0=0.Dans ce cas on estime
˜
y =β˜1x1+β˜2x2+...+β˜kxk (23)
I β˜1, β˜2, ...,β˜k dénote les estimateurs des MCO de la regression dey sur x1,x2, ...,xk par l’origine.
I L’estimateur des MCO de (23) minimise le carré des résidus
I Attention : En l’absence de constante, les propriétés des MCO déjà dérivés ne sont plus valables.
I Les résidus n’ont plus une moyenne nulle)yˆ 6=y¯
I SSR =∑ni=1(yi β˜1x1 β˜2x2 ... β˜kxk)2 et
R2=1 SSR/SST peut être négatif : y¯ explique davantage de variation deyi que les variables explicatives.
I Pour cela on préfère calculéR2 en utilisant (21) I Si β0 6=0, alorsfβ˜1,β˜2, ...,β˜kg sont biaisés.
I Si β0 =0 on réduit la précision de fβˆ1,βˆ2, ...,βˆkg
Propriété statistiques des MCO sur la population
I Propriétés statistiques de la population obtenu par échantillonages répétés
I Ces propriétés garantissent des estimateurs sans biais
I Hypothèse RLM1 (linéarité dans les paramètres) Le modèle de population peut s’écrire :
y = β0+β1x1+β2x2+β3x3+...+βkxk+u, (MLR1) où β0,β1, ...,βk sont les paramètres inconnus est constant à estimer et u est un terme d’erreur (perturbation) non observé aléatoire.
I Hypothèse RLM2 (Echantillonage aléatoire)
On dispose d’un échantillon aléatoire de n observations f(xi1,xi2, ...,xik,yi):i =1, ...,kg, générés par le modèle (MLR1).
I Pour le tirage aléatoire d’une observation on écrira :
yi = β0+β1xi1+β2xi2+...+βkxik+ui. (24) le termeui contient les éléments non observables de
l’observation i qui a¤ectentyi.
I fβˆ0,βˆ1,βˆ2, ...,βˆkgsont les estimateurs des MC0 de fβ0,β1,β2, ...,βkg, obtenus pour unéchantillon donné de sorte que la moyenne des résidus est égale à zéro et la corrélation empirique (d’échantillonage) de chacune des variables indépendantes avec ces résidus est égale à zéro.
I Hypothèse RLM3 (Absence de collinéarité parfaite)
Dans l’échantillon (et donc dans la population), aucune des variables indépendantes n’est constante, et il n’existe pas de relations linéaires exactes entre les variables.
En présence de collinéarité parfaite le modèle ne peut pas être estimé par les MCO.
I Attention : La régression multiple n’a d’utilité que si il y a de la colinéarité entre les variables explicatives.
I Exemples
I Fonction de consommation : cons= β0+β1rev+β2rev2+u
I Fonction de consommation à élasticité constante : log(cons) =β0+β1log(rev) +β2log(rev)2+u
I Reprenons l’exemple des dépenses électorale et de la proportion des su¤rages obtenus par le candidat A (voteA) : voteA=β0+β1+β2expendA+β3expendB+β3totexpend+u
(25) expendA,expendB ettotexpend dénote les dépenses du candidats A et B et les dépenses totales.
Dans ces exemples, l’hypothèse MLR3 est-elle respectée?
I Solution : enlever au moins une variable.
I Problème de colinnéarité si n<k+1.
I Questions : reprenez l’exemple et considérez maintenant les variables explicativesexpendA,expendB et shareA, avec shareA=100(expendA/totexpend). Ce modèle satisfait-il MLR3?
I Hypothèse RLM4 (Espérance conditionnelle des erreurs nulle) Pour n’importe quelle valeur prise par les variables
indépendante, u a une valeur espérée égale à zéro.
E(ujx1,x2, ...,xk) =0 (26)
I Cette hypothèse est invalidée si :
I mauvaise spéci…cation de la forme fonctionelle
I ommission d’une variable importante corrélée avec au moins une des variables explicatives
I si erreur de mesure dans les variables explicatives
I si y et x sont déterminés conjointement : problème de simultanéité
I Si RLM4 est véri…ée les variables explicatives sont dites exogènes. Sinon elles sont andogènes.
I Attention : important de distinguer RLM3 (problèmes de collinéarité) de RLM4 (problème plus di¢ cile à traiter).
Theorem (LES MCO sont sans biais) Sous les hypothèses RLM1-RLM4
E(βˆjjx1,x2, ...,xk) = βj (27) pour toute valeur des paramètresβˆj dans la population. Les estimateurs des MCO sont des estimateurs sans biais des paramètres du modèle sur la population.
I Dans les exemples précédents si les modèles spéci…és véri…ent MLR4 alors les MCO (la procédure) sont sans biais.
I Considérez l’Eq (15): on voudrait conclure que "9,2% est un estimateur sans biais des rendements de l’éducation".
I Mais : une estimation n’est jamais sans biais car elle est conditionelle à l’échantillon en notre possession.
I Un estimateur peut être sans biais si la propriété RLM4 est véri…ée en moyenne sur tous les échantillonage possible de la population : c’est en ce sens que les MCO sont sans biais.
Inclusion d’une variable non signi…cative : suridentication
I On postule le modèle suivant sur la population :
y = β0+β1x1+β2x2+β3x3+u (28)
I On suppose que les hypothèses RLM1-RLM4 sont véri…és.
I On suppose que l’e¤et partiel de x3 sur y est égal à zéro : E(yjx1,x2,x3) =E(yjx1,x2) =β0+β1x1+β2x2
I β3 est inconnu on pourrait donc estimer :
y = βˆ0+βˆ1x1+βˆ2x2+βˆ3x3 (29)
I Quel est la conséquence à estimer (29) lorsque β3 =0
I les MCO restent sans biais (cf théorème précédent) I L’estimation d’un modèle suridenti…é ne cause pas de
biais.
I Mais conséquences concernant la précisions des estimateurs.
Biais de variables omises : analyse de spéci…cation
I Cas simple : supposons que le véritable modèle soit
y = β0+β1x1+β2x2+u (30)
I On suppose que les hypothèsesRLM1-RLM4 sont véri…és.
I Supposons que x2 est inconnue de sorte qu’on estime :
y = β˜0+β˜1x1, (31)
I Ex : salaire=β0+β1educ+β2apt+u
I les aptitudes (apt) étant inconnues on estime :
salaire=β0+β1educ+v (32) iciv =β2apt+u, β˜1 est l’estimation de β1 dans (32)
I Pour dériver le biais dans RLS on reprend l’Eq. (19) où β˜1 =βˆ1+βˆ2δ˜1,puisque (30) satisfait RLM1-RLM4 on a :
E(β˜1) =E(βˆ1) +E(βˆ2)δ˜1 = β1+β2δ˜1 (33)
I Par conséquent le biais de variable omiseest
biais(β˜1) =E(β˜1) β1 = β2δ˜1 (34)
I D’aprés (34) β˜1 sera sans biais dans deux cas :
I β2=0:le véritable modèle n’inclut pas x2 I δ˜1 =0 (rappelδ˜1=covvar(x(x1,x2)
1) ) donc six1 etx2 sont non corrélés dans l’échantillon
I Dans l’exemple précédent pas de bias si
E(vjeduc) =β2E(aptjeduc) +E(u) =β2E(aptjeduc) i.e., siβ2=0 ouE(aptjeduc) =E(apt)(educ etapt ne sont pas corrélés)
I Le signe du biais dépend du signe de β2 et δ˜1: corr(x1,x2)>0 corr(x1,x2)<0 β2 >0 biais positive biais négative β2 <0 biais négative biais positive
I De même d’aprés (34) le biais sera faible si :
I β2 0,(l’e¤et partiel dex2 est faible) et/où
I δ˜1 0 six1 etx2 sont peu corrélés dans l’échantillon I On doit mener un raisonnement économique pour évaluer le
signe de β2 et δ˜1 et donc le sens du biais.
I Exemple 1 (equation de salaire) on suppose que le vrai modèle est
log(salaire) =β0+β1educ+β2apt+u
I On n’observe pasapt et on estime β1 à partir de log\(salaire) = 0,584+0.083educ
n = 526, R2=0,186 Quel est le sens du biais? Expliquez. (exo)
I Exemple 2 : les résultats moyens d’une école (avgscore) en fonction des dépenses par élèves (expend) et du taux de pauvreté de la localité (povrate) sont déterminés par
avgscore =β0+β1expend+β2povrate+u (35)
I povarate non disponible, on estime donc β1 par une régression simple de avgscore sur expend.Soit β˜1 la valeur estimée.
I Doit-on accroître les dépenses d’éducation pour améliorer les résultats scolaires?
I A partir de l’estimation β˜1 pourriez-vous apportez une réponse. Discuttez (exo).
I Remarque de terminologie importante :
I Si E(β1)>β1:biais positif
I Si E(β1)<β1:biais négatif
I β˜1 est biaisé vers 0 si β˜1 plus proche de 0 queβ1
I Siβ1 positif, β˜1 biaisé vers 0 si biais négatif Siβ1 négatif,β˜1 biaisé vers 0 si biais positif
Biais de variable omise : le cas général
I Rappel : tous les estimateurs des MCO soit biaisés dés lors qu’au moins une des variablesx est corrélée avec y.
I Ex.: soit le modèle de population suivant qui satisfait RLM1-RLM4
y = β0+β1x1+β2x2+β3x3+u (36)
I On omet x3 et on obtient l’estimation:
˜
y =β˜0+β˜1x1+β˜2x2 (37)
I On supposex2 etx3 non corrélés et x1 corrélé avecx3.
I x1,x2 et x3 sont conjointement corrélés ) l’estimation de β1 et β2 dans(37) est baisée.
I Biais dans le cas particulier où x1 etx2 ne sont pas (ou peu) corrélés :
E(β˜1) =β1+β3
∑n i=1
(xi1 x¯1)xi3
∑n i=1
(xi1 x¯1)2
= β1+β3 cov(x1,x3) var(x1)
| {z } pente la regression
de x3 sur x1
I On retrouve l’expression (33)
I Exemple avec une équation de salaire :
salaire =β0+β1educ+β2exper +β3aptitude+u
I Si on omet aptitude, β2 sera biaisé même si les aptitudes et l’expérience ne sont pas corrélés.
I Faites l’hypothèse que corr(exper,aptitude) =0 et que corr(educ,exper) =0.
I Quel sera le sens du biais de β˜1 obtenu sans inclureaptitude dans le modèle? (exo)
I Ce type de raisonnement sert souvent de guide pour obtenir le sens d’un biais
I strictement valable seulement si la variable d’intérêt en question (icix1)n’est corrélée avec aucune des autres variables du modèle, et si elles mêmes ne sont pas être corrélées avec la variable omise (hypothèses trés restrictives).
I On connait la tendance centrale des βˆj on souhaite évaluer leur précision
I On rajoute une hypothèse d’homocédasticité à MLR1-MLR4 : Hypothèse RLM5 (Homocédasticité)
Le terme d’erreuru à la même variance quelque soit la valeur des variables explicatives:
Var(ujx1, ...,xk) =σ2.
I Exemple : salaire= β0+β1educ+β2exper+β3tenure+u
I l’homocédasticité : Var(ujeduc,exper,tenure) =σ2
I MLR1-MLR5 : hypothèses de Gauss-Markov (données en coupe).
I Soit x= (x1,x2, ...,xk). On réécrit MLR1 et MLR4 comme : E(yjx) =β0+β1x1+β2x2+...+βkxk (MLR1; MLR4)
Var(yjx) =σ2 (MLR5)
I On peut obtenir la variance des estimateurs conditionelle à notre échantillon:
Theorem (Variance empiriques des estimateurs des MCO) Sous les hypothèses RLM1-RLM5
Var(βˆjjx1,x2, ...,xk) = σ
2
SSTj(1 Rj2) (38) pour j =1,2, ...k, où SSTj =∑ni=1(xij x¯j)2 est la variation empirique de xj, et Rj2 est le R2 de la régression de xj sur toutes les autres variables indépendantes (constante y compris).
I Pour démontrer ce théorème (...) on doit faire appel à toutes les hypothèses de Gauss-Markov.
I La valeur de Var(βˆj)est déterminante : Var(βˆj)élévée ) estimateurs moins précis (intervals de con…ance plus larges et seuils de signi…cativité des tests plus élevés)
Les composantes de la variance des MCO et multicolinéarité
1. La variance des erreurs, σ2.une variance plus élevée (davantage de "bruit") réduit la précision des estimateurs (di¢ cile d’isoler l’e¤et partiel d’une variable). σ2 est un attribu de la population et doit être estimé. La seule possibilité de réduire σ2 est de rajouter des variables
"pertinentes" au modèle.
2. La variation empirique de xj,STTj. Une plus grande variation de xj améliore la précision des estimateurs. Cette composante dépend de façon systématique de la taille de l’échantillon,STTj augmente avec la taille de l’échantillon.
Une valeur de SSTj petite n’est pas une violation de l’hypothèse MLR3, c’est le cas si SSTj =0.
3. La relation linéaire entre les variables explicatives, Rj2.
I Exemple (k =2)y =β0+β1x1+β2x2+u., alors
Var(βˆ1) =σ2/[SST1(1 R12)],R12 est leR2 de la régression de x1 surx2. Ces deux variables sont fortement corrélées siR12 est élevée. Une forte relation de linéarité entre les variables réduit la précisions des estimateurs.
I Cas général : Rj proportion de la variation totale dexj expliquée par les autres variables du modèle. Var(βˆj)minimale siRj2=0 (en pratique trés rare). Var(βˆj)!∞,lorsqueRj2 !1;
collinéarité parfaite siRj =1 (violation de l’hypothèseMLR3). On parle demulticolinéaritélorsqueRj2 est élevée.
I La multicolinéarité respecte l’hypothèse MLR3, son e¤et sur la précision des estimateurs dépendra de l’importance de σ2 et SSTj et donc aussi de la taille des échantillons.
I Solution : enlever des variables (mais risque de biais si elles appartiennent au modèle de population).
Example (origine sociale et réussite scolaire)
E¤ets des di¤érentes dimensions de l’origine sociale des parents (éducation, salaire, type de logement,..) sur les résultats scolaire.
En général ces dimensions sont fortement corrélées : les pauvres sont moins instruits, les moins instruits ont des salaires plus faibles, et habitent des logement plus vétustent que les riches. Il faudra faire preuve d’"ingéniosité" pour estimer précisément les e¤ets séparés de chacune de ces variables où ne s’interesser qu’à une seule dimension, avec le risque d’obtenir alors des estimateurs biaisés.
I L’importance de la multicolinéarité dépend de la question qui nous interesse. Supposons :
y = β0+β0x1+β2x2+β2x3+u
x2 et x3 fortement corrélées et donc Var(βˆ2)et Var(βˆ3) élevées.
I Six1 et non corrélée avecx2 etx3 alorsR12=0 et
Var(βˆ1) =σ2/SST1, quelque soit la corrélation entrex2 etx3
Example (Discrimination sur le marché du crédit)
Octroi d’un crédit bancaire et proportion de minorité dans une localité. On contrôlera pour le revenu moyen, la valeur moyenne des logements, etc. Ces variables sont corrélées mais doivent être incluses pour tester la discrimination. La précision de l’e¤et de la proportion de minorités n’est pas a¤ectée par cette corrélation, si cette proportion est peu corrélée avec les autres variables.
I Question : vous postulez un modèle qui explique les résultats aux examens en fonction de l’assiduité en classe (nombre de cours présents). Pour contrôler pour les di¤érences initiales entre les étudiants vous incorporez dans votre modèle les variables suivantes :résultats obtenus à l’université les années antérieurs,résultats au BAC,résultats moyens en classe de terminale.
Un camarade vous fait remarquer que vous n’aller rien apprendre d’une telle régression car "tous ces résultats fortement corrélés."
Quelle serait votre réponse à cette critique?
Variance et erreurs de spéci…cation du modèle
I Le choix d’ajouter une variable à un modèle résulte d’un arbitrage entre biais et variance.
I Soit le modèle de population suivant qui satisfait MLR1-MLR5 y = β0+β1x1+β2x2+u
I Soit deux estimateurs de β1 : ˆβ1 obtenu par regression multiple et β˜1 obtenu par regression simple.
I Doit-on préférer βˆ1 ou β˜1?
I Comparons les variances :
Var(βˆ1) = σ
2
SST1(1 R12), et
Var(β˜1) =σ2/SST1 (39)
I DoncVar(βˆ1)>Var(β˜1) (sauf six1 etx2 ne sont pas corrélés), donc :
1. Siβ26=0, β˜1 est biaisé, βˆ2 est non biaisé et Var(βˆ1)>Var(β˜1)
2. Siβ2=0, β˜1,et βˆ2 sont non biaisés etVar(βˆ1)>Var(β˜1)
I Si β2 =0,on préfèrera β˜1
I Si β2 6=0,on doit arbitrer entre le bias et la précision (résumé par R12) , mais :
I En augmentant la taille de l’échantillon on améliore la précision (le problème de multicolinéarité diminue)
I Siβ26=0, la variance de β˜1 conditionnelle àx1 est plus élevée que celle de (39)
L’estimation des écartypes des MCO
I σ2 =E(u), un estimateur serait
∑n i=1
u2i
n ,maisui non observable
I rappel ui inconnu car lesβj sont inconnus. En remplacant les βj par leurs estimationsβˆj on obtient une estimation de ui :
ˆ
ui =yi βˆ1x1 βˆ2x2 ... βˆkxk
I Un estimateur sans biais de σ2 est donc ˆ
σ2 = (
∑
n i=1ˆ
u2i)/(n k 1) = SSR
n k 1 (40)
I Remarque on doit corriger pour le nombre de degré de liberté car les n termes uˆi estimés sont calculés à partir den
observations qui doivent respectésk+1 contraintes (lesui ontn k 1 degrés de liberté)
I Sous les hypothèses de Gauss Markov RLM1-RLM5 E(σˆ2jX) =σ2
I p ˆ
σ2= σˆ est l’erreur type de le regression (SER).Le SER est une estimation de l’écartype du terme d’erreur (u).
I Le rajout d’une variable peut augmenter ou diminuer σˆ (cf numérateur vs dénominateur).
I σˆ connu, on obtient une estimation de l’écartype de βˆj à partir de (38):
se(βˆj) =σ/ˆ [SSTj(1 Rj2)]1/2 (41)
I Remarque se(βˆj) est une variable aléatoire avec une distribution d’échantillonnage.
I Tout comme 38, Eq. 41 ne sera pas une estimation valide de sd(βˆj)si RLM3 est non respectée (erreurs hétérocédastique).
I Sous les hypothèses RLM1-RLM4, les MCO sont sans biais
I On montre que sous les hypothèses RLM1-RLM5 que l’estimateur des MCO, βˆj de βj est lemeilleur estimateur linéaire sans biais (BLUE).
I (estimateur) règle : échantillon8de la population! estimation de paramètres
I (sans biais)E(βˆj) =βj 8j
I (linéaire) l’estimateur est une fonction linéaire de la variable dépendante (cf Eq.18)
βˆj =
∑
n i=1wijyi, oùwij peuvent étre fonctions desxj
I (meilleur) estimateur à variance minimale : dans la classe des estimateurs linéaires et sans biais, les MCO ont la variance minimale
Theorem (Théorème de Gauss- Markov)
Sous les hypothèses RLM1-RLM5, βˆ0,βˆ1, ...,βˆk sont les meilleurs estimateurs sans biais (BLUE) de β0,β1, ...,βk
I Lorsque les hypothèses RLM1-RLM5 sont valides inutile de rechercher un autre estimateur sans biais : celui des MCO est le meilleur.
I Ce théorème justi…e l’utilisation des MCO pour estimer une régression multiple.
I Si une seule de ces hypothèses n’est pas véri…ée le théorème ne s’applique plus.
I Si moyenne conditionelle des erreurs non nulle (RLM4 invalide) : les MCO sont biaisés.
I Si hétérosédasticité (RLM5 invalide) : les MCO ne sont plus à variance minimale parmi la classe des estimateurs linéaires sans biais.
Résumé
1. Le modèle RLM, permet de maintenir …xes d’autres facteurs lorsqu’on examine l’e¤et d’une variable explicative sur la variable dépendante. La RLM prend en compte la corrélation entre les variables indépendantes.
2. Le modèle est linéaire dans les paramètres, mais les relations entre les variables explicatives et expliquées peuvent être non linéaires
3. Les MCO sont simples d’application et permettent d’obtenir l’e¤et partiel d’une variable explicative sur la variables expliquée "toutes choses égales par ailleurs".
4. Le R2 est la proportion de la variation de la variable
dépendante expliquée par les variables indépendantes. Il rend compte de la qualité de l’ajustement. On ne doit par accorder une trop grande importance à sa valeur lorsqu’on évalue un modèle économétrique.
’
5. Sous les hypothèses Gauss-Markov (RLM1-RLM4), l’estimateur MCO est sans biais. Par conséquent, introduire une variable non signi…cative n’entraine pas de biais. A l’inverse, omettre une variable explicative signi…cative biaise les MCO. Souvent, on peut évaluer le sens du biais.
6. Sous les 5 hypothèses G-M (RLM1-RLM5), la variance de l’estimateur MCO est Var(βˆj) =σ2/[SSTj(1 Rj2).Une augmentation de la variance des erreurs σ2,accroît Var(βˆj). Une variation empirique de xj,SSTj,plus élevée, diminue Var(βˆj).Rj2 mesure le degré de colinéarité entre xj et les autres variables explicatives. Lorsque Rj2 !1,Var(βˆj)devient in…nie.
7. Introduire une variable non signi…cative augmente la variance des autres estimateurs MCO en raison des collinéarités.
8. Sous les hypothèses G-M (RLM1-RLM5), les estimateurs MCO sont les meilleurs estimateurs linéaires sans biais (BLUE).