ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion´ Université du Québec à Montréal

2018: Steve Amblerc

Hiver 2018

(2)

Objectifs

1. Présenter le modèle de régression multiple.

2. D´eriver l’estimateur MCO.

3. Etudier ses propri´´ et´es alg´ebriques.

4. Regarder les hypothèses statistiques du modèle et analyser leurs conséquences (absence de biais, convergence, efficience).

5. Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.

6. Analyser les tests d’hypoth`esesimples et le calcul d’intervalles de confiance dans le cadre du mod`ele.

7. Les tests d’hypoth`esesjointes et les ensembles de confiance.

(3)

Introduction

I Presque rien de nouveau par rapport au mod`ele de r´egression simple.

I Quasiment un rappel de la mati`ere d’avant l’examen intra.

I Introduction et utilisation de la notation matricielle.

I Nouveau concept : tester les hypoth`eses jointes.

(4)

Biais dˆ u ` a une variable omise

I Fa¸con de motiverle mod`ele de r´egression multiple.

I Si nous omettons un ou des facteurs qui ont un impact sur la variable dépendante, l’estimé de l’impact de la variable explicative d’intérêt peut être biaisé.

(5)

Biais dˆ u ` a une variable omise (suite)

I L’estimateur ˆβ₁ est ´egal `a βˆ1 =β1+

1 n

Pn

i=1 X_i −X¯ u_i

1 n

Pn

i=1 X_i −X¯2 .

I Modifions les hypoth`ese statistiques : 1

n

X

i=1

X_i−X¯

u_i −→^p Cov (u, X) = Corr (u, X)σuσ_X, et

1 n

n

X

i=1

Xi−X¯2 p

−

→σ²_X.

(6)

Biais dˆ u ` a une variable omise (suite)

I On a βˆ1

−→p β1+Corr (u , X)σuσX

σ²_X =β1+ Corr (u, X) σu

σ_X.

I L’estimateur ne converge plus `aβ1 en probabilit´e.

I Le signe du biais dépend (même lorsquen → ∞) du signe de la corrélation entre X_i et u_i.

I Notez que dans ce cas-ci

E (u_i|X =X_i)6= 0.

I S’il y a une variable dans la banque de données qui en principe pourrait affecter la variable dépendante de l’étude et qui risque d’être corrélée avec une variable qui est incluse comme variable explicative dans le modèle, il y a probablement un problème de variable omise.

(7)

Exemple

I Nous pouvons ˆetre encore plus explicite.

I Suppons que le vrai mod`ele est donn´e par Yi =β0+β1X1i+β2X2i +ui

I Le mod`ele estim´e est

Y_i =β₀+β₁X_1i + ˜u_i

I Le terme d’erreur du mod`ele estim´e incorpore la variable omiseX_2i avec le vrai terme d’erreuru_i.

(8)

Exemple (suite)

I Nous avons βˆ₁=

1 n

Pn

i=1 X_1i−X¯₁

Y_i −Y¯

1 n

Pn

i=1 X1i−X¯1

2 =

1 n

Pn

i=1 X_1i −X¯₁

β₀+β₁X_1i+β₂X_2i +u_i−β₀−β₁X¯₁−β₂X¯₂−u¯

1 n

Pn

i=1 X1i −X¯1

2

=β₁

1 n

Pn

i=1 X_1i −X¯₁2 1

n

Pn

i=1 X1i −X¯1

2 +β₂

1 n

Pn

i=1 X_1i−X¯₁

X_2i−X¯₂

1 n

Pn

i=1 X1i −X¯1

2

+

1 n

P_n

i=1 X_1i −X¯₁

(u_i −u)¯

1 n

Pn

i=1 X_1i−X¯₁2

(9)

Exemple (suite)

I ce qui doit enfin être égal à

=β1+β2 1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X_1i −X¯₁2

+

1 n

Pn

i=1 X_1i−X¯₁

(u_i−u)¯

1 n

Pn

i=1 X1i −X¯1

2 .

I Calculant l’esp´erance de ˆβ₁, nous obtenons E ˆβ₁ =β₁+β₂E

1 n

P_n

i=1 X_1i −X¯₁

X_2i −X¯₂

1 n

Pn

i=1 X_1i−X¯₁2

!

+E +

1 n

Pn

i=1 X1i −X¯1

E ((ui−u)¯ |X₁₁,X12, . . . ,X1n)

1 n

Pn

i=1 X_1i −X¯₁2

!

(10)

Exemple (suite)

I ce qui doit enfin être égal à

=β1+β2E

1 n

Pn

i=1 X1i −X¯1

X2i −X¯2

1 n

Pn

i=1 X_1i −X¯₁2

!

par la loi des espérances itérées.

I En g´en´eral E

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X_1i −X¯₁2

! 6= 0.

I L’estimateur est biaisé, le biais étant donné par la valeur de l’espérance dans l’équation précédente.

(11)

Exemple (suite)

I Nous avons 1 n

n

X

i=1

X_1i −X¯₁

X_2i −X¯₂

qui est (presque) la covariance ´echantillonnale entre X₁ et X₂.

I Et

1 n

n

X

i=1

X_1i−X¯1

2

est (presque) la variance ´echantillonnale deX₁.

(12)

Exemple (suite)

I Si les deux expressions sont des estimateurs convergents de leurs ´equivalents dans la population, nous avons :

1 n

n

X

i=1

X_1i −X¯₁

X_2i −X¯₂ p

−→Cov (X₁ , X₂)

I et

1 n

n

X

i=1

X_1i−X¯₁2 p

−

→Var (X₁).

(13)

Exemple (suite)

I Th´eor`eme de Slutsky =>

βˆ₁ −→^p β₁+β₂Cov (X₁ , X₂) Var (X₁)

I L’´ecart entre ˆβ1 et sa vraie valeur est approximativement

´

egale `a la vraie valeur de β₂ fois le ratio de la covariance entre X₁ etX₂ et la variance de X₁.

I Si on connaˆıt au moins le signe de β₂ et de la covariance, on peut pr´edire le signe de cet ´ecart. Aussi, nous savons que

Cov (X1, X2) Var (X₁)

est la valeur (asymptotique) du coefficient de pente d’une régression où X2 est la variable dépendante et X1 est la variable explicative.

(14)

Mod` ele de r´ egression multiple

I Mod`ele :

Y_i =β₀+X_1iβ₁+X_2iβ₂+. . .+X_kiβ_k +u_i.

I Version matricielle :

Y =Xβ+U,

I Il faut d´efinir les matrices/vecteurs (page suivante).

(15)

Mod` ele de r´ egression multiple (suite)

Y ≡

Y1 Y2 . . . Yn

0

X ≡







1 X11 X21 . . . Xk1

1 X₁₂ X₂₂ . . . X_k2 ... ... ... . .. ... 1 X1n X2n . . . X_kn





 ,

β ≡

β₀ β₁ β₂ . . . β_k 0

U ≡

u1 u2 . . . un

0

(16)

Estimateur MCO

I Probl`eme de minimisation : min

β U⁰U.

I Rempla¸cons U par sa d´efinition.

minβ (Y −Xβ)⁰(Y −Xβ).

I Equivalent `´ a :

minβ Y⁰Y −β⁰X⁰Y −Y⁰Xβ+β⁰X⁰Xβ .

(17)

Estimateur MCO (suite)

I CPOs (dérivée par rapport à β) :

−X⁰Y −X⁰Y +X⁰Xβ+ X⁰X0

β = 0

⇒2X⁰Xβ−2X⁰Y = 0

⇒X⁰Xβ =X⁰Y.

I Nous avons k+ 1 équations linéaires pour trouver k+ 1 inconnus (les éléments deβ).

I Nous appelons communément ces équations leséquations normales.

(18)

Estimateur MCO (suite)

I Nous obtenons X⁰X−1

X⁰Xβ = X⁰X−1

X⁰Y =β.

I R´esultat fondamental :

βˆ= X⁰X−1

X⁰Y

(19)

Diff´ erentiation matricielle

I Application de :

y ^∂y_∂x

Ax A⁰ x⁰A A x⁰x 2x x⁰Ax Ax +A⁰x

I Etudiez bien la CPO pour comprendre pourquoi c’est une´ application de ces r`egles.

I Etudiez bien les exemples simples dans les notes.´

(20)

Approche non matricielle

I Le probl`eme est

β0,βmin1,...,βk

n

X

i=1

(Yi−β0−X1iβ1−X2iβ2−. . .−Xkiβk)².

I CPOs :

β₀ : 0 =−2

n

X

i=1

(Y_i −β₀−X_1iβ₁−. . .−X_kiβ_k) ;

βj : 0 =−2

n

X

i=1

Xji(Yi−β0−X1iβ1−. . .−Xkiβk) pour j 6= 0.

I k+ 1 ´equations (lin´eaires) enk+ 1 inconnus.

(21)

Approche non matricielle (suite)

I Nous obtenons

n

X

i=1

Y_i =

n

X

i=1

(β₀+X_1iβ₁+. . .+X_kiβ_k) ;

n

X

i=1

X_1iY_i =

n

X

i=1

X_1i(β₀+X_1iβ₁+. . .+X_kiβ_k) ;

n

X

i=1

X_2iY_i =

n

X

i=1

X_2i(β₀+X_1iβ₁+. . .+X_kiβ_k) ; . . .

n

X

i=1

X_kiY_i =

n

X

i=1

X_ki(β₀+X_1iβ₁+. . .+X_kiβ_k).

(22)

Approche non matricielle (suite)

I Nous pouvons maintenant convertir en notation matricielle.

1 . . . 1





 Y1

... Y_n





=

1 . . . 1 Xβ;ˆ

X₁₁ . . . X_1n





 Y1

... Y_n





=

X₁₁ . . . X_1n Xβ;ˆ ...

X_k1 . . . X_kn





 Y₁

... Y_n





=

X_k1 . . . X_kn Xβ,ˆ

(23)

Approche non matricielle (suite)

I Onempile les k+ 1 ´equations les unes pardessus les autres :







1 . . . 1 X₁₁ . . . X_1n X21 . . . X2n

... ... ... X_k1 . . . X_kn











 Y₁

... Y_n





=







1 . . . 1 X₁₁ . . . X_1n X21 . . . X2n

... ... ... X_k1 . . . X_kn





 Xβˆ

⇒X⁰Y =X⁰Xβˆ

⇒βˆ= (X⁰X)⁻¹X⁰Y.

I On obtient la mˆeme solution (pas surprenant).

(24)

Propri´ et´ es alg´ ebriques de l’estimateur MCO

I Plus facile de les d´eriver en notation matricielle.

I Orthogonalit´e : les ´equations normales sont X⁰Xβˆ=X⁰Y

⇒X⁰

Xβˆ−Y

= 0

⇒X⁰

Y −Xβˆ

= 0.

Y −Xβb≡Ub. Donc, nous avons :

X⁰Ub= 0.

I Une cons´equence directe est que la somme des r´esidus est

´

egale `a z´ero.

(25)

Orthogonalit´ e (suite)

I Même interprétation géométrique que dans le modèle de régression simple.

Figure 1

(26)

Propri´ et´ es alg´ ebriques (suite)

I D´efinissons

Yˆ ≡Xβ,ˆ

I Nous avons Yˆ⁰Ub=

X X⁰X−1

X⁰Y 0

Ub=Y⁰X X⁰X−1

X⁰Ub= 0.

I Les valeurs pr´edites de Y sont orthogonales aux r´esidus.

I Finalement, nous avons X⁰

Yb−Y

=X⁰

X X⁰X−1

X⁰Y −Y

=X⁰X X⁰X−1

X⁰Y −X⁰Y =X⁰Y −X⁰Y = 0.

I Conséquence : la moyenne échantillonnale des valeurs prédites est égale à ¯Y.

(27)

Ecart type de la r´ ´ egression

I On d´efinit

SER≡s_u, o`u

s_u² ≡ 1 n−k−1

n

X

i=1

ˆ

u²_i = SSR

n−k−1 = Ub⁰Ub n−k−1.

I Donc SSR est la somme des résidus au carré. On divise par (n−k−1) afin d’obtenir un estimé non biaisé de la variance de l’erreur dans l’équation de régression (si les erreurs sont homoscédastiques).

(28)

Ajustement statistique

I La mesure R² est définie de la même fa¸con que dans le cas du modèle de régression simple :

R²= ESS

TSS = 1− SSR TSS, o`u on d´efinit

ESS≡

n

X

i=1

Yˆ_i −Y¯2

,

o`u ¯Y est la moyenne ´echantillonnale desY_i, et TSS≡

n

X

i=1

Yi−Y¯2

(29)

Ajustement statistique (suite)

I Il faut montrer que TSS = ESS + SSR.

I Puisque Y ≡Yˆ +Ub, nous avons TSS = Y −Y¯0

Y −Y¯

=

Yˆ +Ub−Y¯0

Yˆ +Ub−Y¯

=

Yˆ−Y¯

+Ub 0

Yˆ −Y¯

+Ub

=

Yˆ−Y¯ 0

Yˆ−Y¯

+

Yˆ −Y¯ 0

Ub+Ub⁰

Yˆ −Y¯

+Ub⁰Ub

=

Yˆ −Y¯0

Yˆ −Y¯ +Ub⁰Ub

≡ESS + SSR, ce qui fut `a d´emontrer.

(30)

Ajustement statistique (suite)

I R² est aussi égal à la corrélation (échantillonnale) au carré entre Y et ˆY.

I Pour rendre la preuve plus facile, introduisons un peu de notation.

M⁰ ≡

I−i i⁰i−1

i⁰ .

I On a

M⁰Y =Y −Y,¯

M⁰⁰=M⁰, et M⁰M⁰ =M⁰.

I M⁰ est une matrice idempotente.

(31)

Ajustement statistique (suite)

I Nous pouvons r´e´ecrire leR² comme

R² ≡ ESS TSS =

Yˆ −Y¯0

Yˆ −Y¯ Y −Y¯0

Y −Y¯

= Yˆ⁰M⁰Yˆ Y⁰M⁰Y. Nous avons aussi

M⁰Uˆ= Û puisque la somme des résidus est zéro.

(32)

Ajustement statistique (suite)

I Donc, nous avons

Yˆ⁰M⁰Yˆ = ˆY⁰M⁰

Y −Uˆ

= ˆY⁰M⁰Y −Yˆ⁰M⁰Uˆ

= ˆY⁰M⁰Y −Yˆ⁰Uˆ

= ˆY⁰M⁰Y −βˆ⁰X⁰Uˆ (puisque ˆY ≡Xβ)ˆ

= ˆY⁰M⁰Y −0 = ˆY⁰M⁰Y

puisque X⁰Uˆ= 0 (orthogonalit´e entre les variables expicatives et les r´esidus).

(33)

Ajustement statistique (suite)

I Nous pouvons donc ´ecrire leR² comme R² = Yˆ⁰M⁰Y

Y⁰M⁰Y

= Yˆ⁰M⁰Y Y⁰M⁰Y

Yˆ⁰M⁰Y Yˆ⁰M⁰Y

(multipliant numérateur et dénominateur par la même chose)

=

Yˆ⁰M⁰Y Yˆ⁰M⁰Y (Y⁰M⁰Y)

Yˆ⁰M⁰Y

=

Yˆ⁰M⁰Y Yˆ⁰M⁰Y (Y⁰M⁰Y)

Yˆ⁰M⁰Yˆ .

(34)

Ajustement statistique (suite)

I On peut r´e´ecrire ceci en notation non matricielle pour obtenir Yˆ⁰M⁰Y Yˆ⁰M⁰Y

(Y⁰M⁰Y)

Yˆ⁰M⁰Yˆ =

Yˆ⁰M⁰M⁰Y Yˆ⁰M⁰M⁰Y (Y⁰M⁰M⁰Y)

Yˆ⁰M⁰M⁰Yˆ

=

Pn i=1

Yˆi−Y¯

Yi −Y¯2

Pn

i=1 Yi −Y¯2 Pn

i=1

Yˆi−Y¯ 2

=

1 n−1

Pn i=1

Yˆi −Y¯

Yi−Y¯2

1 n−1

Pn

i=1 Yi −Y¯2

1 n−1

Pn i=1

Yˆi −Y¯ 2

(35)

Ajustement statistique (suite)

=







1 n−1

Pn i=1

Yˆi−Y¯

Yi−Y¯ q 1

n−1

Pn

i=1 Y_i−Y¯2

r

1 n−1

Pn i=1

Yˆ_i −Y¯2







2

≡ Corr

Y,Yˆ2

.

I Le R² nous dit à quel point le modèle de régression permet de prédire les variations de la variable dépendante autour de sa moyenne (mesuré par la corrélation entre les valeurs prédites et les valeurs réalisées).

(36)

Ajustement statistique (suite)

I Dans le cas du mod`ele de r´egression simple, nous avons Yˆ_i−Y¯

= X_i−X¯βˆ₁.

I Nous avons tout de suite







1 n−1

Pn i=1

Yˆ_i−Y¯

Y_i −Y¯ q 1

n−1

Pn

i=1 Y_i −Y¯2

r

1 n−1

Pn i=1

Yˆ_i −Y¯2







2

=







1 n−1

Pn i=1

X_i −X¯βˆ₁

Y_i−Y¯ q 1

n−1

Pn

i=1 Y_i −Y¯2

r

1 n−1

Pn i=1

X_i−X¯βˆ₁2







2

(37)

Ajustement statistique (suite)

=





1 n−1

Pn

i=1 X_i −X¯

Y_i −Y¯ q 1

n−1

Pn

i=1 Yi −Y¯2q

1 n−1

Pn

i=1 Xi−X¯2





2

≡ Corr (Y,X)2

⇒R² = Corr (Y,X)2

.

I On voit que le résultat trouvé dans le chapitre sur le modèle de régression simple n’est qu’un cas spécial du résultat général développé ici.

(38)

R

²

ajust´ e

I Ajouter une variable explicative au mod`ele ne peut que faire augmenter R².

I Avec autant de variables explicatives que d’observations ((k+ 1) =n), on aura R² = 1.X est alors une matrice carr´ee et on a

0 =U =Y −Xβˆ

⇒Y =Xβ.ˆ

⇒βˆ=X⁻¹Y.

I Donc, unR² ´elev´e n’est pas toujours et partout une bonne chose.

(39)

R

²

ajust´ e (suite)

I Une autre mesure qui p´enalisel’ajustement lorsqu’on ajoute des variables explicatives.

R¯²≡1− n−1 n−k−1

SSR

TSS = 1− s_u²_ˆ s_Y² .

I Trois propri´et´es importantes du ¯R². 1. _n−k−1ⁿ⁻¹ >1, et donc ¯R²<R².

2. Ajouter une variable explicative suppl´ementaire a deux effets sur ¯R². 1) SSR doit baisser, ce qui fait augmenter ¯R². 2) Le facteur _n−kⁿ⁻¹₋₁ augmente, ce qui fait diminuer ¯R². L’effet net est ambigu.

3. R¯²peut ˆetre n´egatif.

(40)

R

²

ajust´ e (suite)

I La d´efinition du R² ajust´e semble arbitraire.

I Elle a une justificationstatistique.

I Si on ajoute une variable explicative additionnelle X_k+1 à un modèle, on peut tester sa significativité.

I Si la statistique t normalisée pour le test à une valeur absolue supérieure à 1, leR² ajusté augmente. Si non, il diminue.

I Nous allons revenir à cette question après la section sur les tests d’hypothèse.

(41)

Propri´ et´ es statistiques de l’estimateur MCO

I Hypoth`eses de base : 1. E (ui|Xi) = 0.

2. (Xi, Yi) i.i.d.

3. Xi etui ont des quatri`emes moments non nuls et finis.

4. X est de rang plein en colonnes. En fait, cette hypoth`ese est n´ecessaire pour que l’estimateur MCO existe.

I Hypoth`eses additionnelles : 1. Var (ui|Xi) =σ²_u.

2. La distribution deui conditionnelle `a la valeur deXi suit une loi normale.

(42)

Absence de biais

I Nous avons

βˆ= (X⁰X)⁻¹X⁰Y

= (X⁰X)⁻¹X⁰(Xβ+U)

=β+ (X⁰X)⁻¹X⁰U

→E βˆ

=β+ E (X⁰X)⁻¹X⁰U

=β+ E (X⁰X)⁻¹X⁰E (U|X)

=β.

La dernière égalité dépend de la loi des espérances itérées.

(43)

Th´ eor` eme de Slutsky

I Sous certaines conditions, X_n−→^p X ⇒h(X_n)−→^p h(X).

I En g´en´eral,

Zn=f (Xn,Yn), et si Xn

−→p X et Yn

−→p Y, alors Zn

−p

→f(X,Y).

I Convergence en probabilit´e et en distribution. Sian

−→p ao`u a est une constante et si S_n−→^d S, alors

a_n+S_n−→^d a+S, a_nS_n−→^d aS, et si a6= 0,

Sn

a_n

−→d S a.

(44)

Convergence

I Nous avons

βˆ= (X⁰X)⁻¹X⁰Y

= (X⁰X)⁻¹X⁰(Xβ+U)

=β+ (X⁰X)⁻¹X⁰U

→ βˆ−β

=

(X⁰X) n

−1 (X⁰U)

n

Nous avons divisé et multiplié par le scalaire n afin de pouvoir parler de convergence en probabilité. ^(X_n⁰^X⁾ est une matrice dont l’élément i,j est donné par

X_i⁰X_j n = 1

n

X

l=1

Xi−1,lXj−1,l.

(45)

Convergence (suite)

I Par une des hypothèses du modèle de régression multiple, nous avons

n→∞lim Xi0Xj

n = E X_i⁰X_j .

I Ceci veut dire qu’il y a convergence en probabilité vers l’espérance deXi0Xj. Donc, ^(X_n⁰^X⁾ converge en probabilité à Q_x, qui est définie comme

Q_x ≡E X⁰X

n

.

I Donc, le premier terme converge en probabilit´e `a (Q_x)⁻¹

(46)

Convergence (suite)

I Le 2e terme converge en probabilité à zéro. Voici l’argument.

E

(X⁰U) n

= E

(X⁰E (U|X)) n

= 0.

I Si on consid`ere l’i`eme colonne de la matrice X, nous avons Var

1 nX_i⁰U

= 1

n 2

Var X_i⁰U

= 1

n 2

Var

n

X

l=1

X_i−1,lU_l

!

= 1

n 2 n

X

l=1

Var (Xi−1,lU_l). D´efinissonsX_i−1,lU_l ≡V_i,l. Nous avons

Var 1

nXi0

U

= 1

n 2 n

X

l=1

Var (Vi,l) = 1

n 2

nVar (Vi)

= 1

n

Var (V_i).

(47)

Convergence (suite)

I Avec une espérance de zéro et une variance qui tend vers zéro, on a (presque) la preuve de la convergence :

(X⁰U) n

−p

→0.

I Les hypothèses du théorème de Slutsky sont satisfaites, donc la limite de probabilité du produit est le produit des limites de probabilité. Donc, nous avons :

βˆ−β _p

−

→0.

(48)

Covariances en notation matricielle

I Notation matricielle pour les covariances. Consid´erons (Y −E(Y)) (Y −E(Y))⁰.

I L’´el´ement (i,j) est :

(Yi−E (Yi)) (Yj −E (Yj)).

I Donc son esp´erance est une covariance (variance si i =j).

E ((Y_i−E (Y_i)) (Y_j −E (Y_j)))

I Donc, la matrice suivante contient toutes les variances et covariances possibles entre les ´el´ements de Y.

E (Y −E(Y)) (Y −E(Y))⁰ .

(49)

Distribution ´ echantillonnale de ˆ β

I Nous avons √

n

βˆ−β

=

(X⁰X) n

−1 (X⁰U)

√n

.

I Nous avons d´ej`a vu que E

βˆ−β

= 0.

I Donc, une expression qui nous donne la matrice de variance-covariance de√

n βˆ−β

est donn´ee par :

E

n

βˆ−β βˆ−β 0

(50)

Distribution ´ echantillonnale de ˆ β (suite)

I Nous devons examiner le comportement en grand ´echantillon de

(X⁰X) n

−1 (X⁰U)

√n

!

(X⁰X) n

−1 (X⁰U)

√n !0

=

(X⁰X) n

−1 (X⁰U)

√n

(X⁰U)

√n 0

(X⁰X) n

−1

.

I Nous avons d´ej`a vu que_(X0X) n

−1 p

−→(Q_x)⁻¹. Regardons (X⁰U)

√n

(X⁰U)

√n 0

.

(51)

Distribution ´ echantillonnale de ˆ β (suite)

I Nous avons :

(X⁰U) =

n

X

i=1





 ui

X_1iu_i X_2iu_i

... X_kiu_i







≡

n

X

i=1

Vi.

I Selon leKey Concept 18.1, les Vi sont i.i.d., donc 1

n

X

i=1

Vi

−→p 0,

√1 n

n

X

i=1

V_i −→^d N(0, Σ_V), Σ_V ≡E ViVi0

.

(52)

Distribution ´ echantillonnale de ˆ β (suite)

I Donc (th´eor`eme de Slutsky)

√n

βˆ−β _d

−→N 0k+1 , Qx−1

ΣVQx−1 ,

(53)

Cas homosc´ edastique

I Nous pouvons ´ecrire

E UU⁰

=σ²_uIn. Nous avons

(X⁰U)

√n

(X⁰U)

√n 0

=

X⁰UU⁰X n

p

−→E 1

nσ²_uX⁰InX

= E 1

nσ²_uX⁰X

=σ²_uQx.

I Donc

√n

βˆ−β _d

−→N 0_k+1 , σ_u²Q_x⁻¹Q_xQ_x⁻¹

=N 0_k+1, σ_u²Q_x⁻¹ .

(54)

Estimateurs convergents

I Nous rempla¸cons Q_X avec

Qˆ_x ≡ (X⁰X) n .

I Nous rempla¸cons ΣV avec Σˆ_V ≡ 1

n−k−1

n

X

i=1

X_iX_i⁰( ˆu_i)²

I Nous pouvons finalement ´ecrire βˆ≈N

β , 1

n

Qˆ_x−1

Σˆ_v

Qˆ_x−1

≡N

β , Σˆ_β_ˆ .

(55)

Cas homosc´ edastique

I Un estimateur convergent de σ_u² est donn´e par s_u² ≡ 1

n−k−1

n

X

i=1

ˆ u_i².

Nous utilisons le mˆeme estimateur deQ_x, et donc βˆ≈N

β , 1

n

Qˆ_x−1

s_u²

Qˆ_x Qˆ_x−1

≡N

β , Σ˜_β_ˆ ,

βˆ≈N

β , 1 ns_u²

Qˆ_x−1

≡N

β , Σ˜_β_ˆ ,

(56)

Gauss-Markov

I Dans le cas homoscédastique, si ˜β est n’importe quel estimateur linéaire et non biaisé de β, il faut que

Var

c⁰βˆ

≤Var

c⁰β˜

pour toute combinaison lin´eairec⁰β.

I Il y a une preuve dans la section 18.5 du manuel.

I Notez que cette preuve ne suppose pas la normalit´e du terme d’erreur. Voir Giles (2011b).

I Il y a aussi une preuve simple si on suppose que les variables explicatives X sont fixes ou non stochastiques. Voir la page suivante.

(57)

Gauss-Markov : preuve

I Soit ˜β=CY un autre estimateur lin´eaire de β.

I On suppose que C peut s’´ecrireC = (X⁰X)⁻¹X⁰+D o`u D est une matrice non nulle.

I Nous avons

E(CY) =E

X⁰X−1

X⁰+D

(Xβ+U)

=

X⁰X−1

X⁰+D

Xβ+E

X⁰X−1

X⁰+D U

=β+DXβ+E

X⁰X−1

X⁰+D

E(U|X)

=β+DXβ

(58)

Gauss-Markov : preuve (suite)

I Nous voulons prouver que ˆβ a la plus petite variance parmi les estimateursnon biais´es. Il faut donc queDX = 0

I Nous avons

Var(CY|X,D) =CVar(Y|X,D)C⁰

=CVar(U|X)C⁰ =σ²_uCC⁰

=σ²_u

X⁰X−1

X⁰X X⁰X−1

+ X⁰X−1

X⁰D⁰ +DX X⁰X−1

+DD⁰

=σ_u² X⁰X−1

+σ_u²DD⁰ o`u DD⁰ est positive semi-d´efinie.

(59)

Gauss-Markov : preuve (suite)

I Nous avons

Var β˜

−Var βˆ

=σ²_uDD⁰

⇒Var c⁰β˜

−Var c⁰βˆ

=σ²_uc⁰DD⁰c ≥0, ce qui fut `a d´emontrer.

(60)

Tests d’hypoth` eses simples par rapport ` a un seul coefficient

I Nous utilison la statistiquet donn´ee par t =

βˆ_i −β_i^H⁰ s_β_ˆ

i

.

I Toutela discussion du chapitre sur la statistique et l’inf´erence s’applique. Nous avons

t∼N(0, 1).

I Si H₁ :β_i 6=β_i^H⁰ nous avons

Φ (−|t^a|) = Pr (t ≤ −|t^a|)

= Pr t≤ −

βˆi−β_i^H⁰ s_β_ˆ

i

! .

(61)

Tests d’hypoth` eses simples : H

1

unilat´ erale 1

I On a

H₀ :β_i =β_i^H⁰ et

H1 :βi > β_i^H⁰,

I Lap-value du test est donn´ee par p= Pr z >t^act

= 1−Φ t^act .

(62)

Tests d’hypoth` eses simples : H

1

unilat´ erale 2

I On a

H₀ :β_i =β_i^H⁰ et

H1 :βi < β_i^H⁰,

I Lap-value du test est donn´ee par p= Pr z <t^act

= Φ t^act .

(63)

Tests par rapport ` a une combinaison lin´ eaire de coefficients

I Mod`ele en notation non matricielle :

Y_i =β₀+X_1iβ₁+X_2iβ₂+. . .+X_kiβ_k +u_i.

I Nous voulons tester la restriction suivante : H0 : β1+β2 = 1, contre

H1 : β1+β2 6= 1.

(64)

Combinaison lin´ eaire de coefficients (suite)

I Version ´equivalente au mod`ele original :

Yi =β0+X1i(β1+β2) + (X2i−X1i)β2+. . .+X_kiβ_k+ui.

I Nous pouvons réécrire le modèle comme

Y_i =β₀+X_1iγ₁+Z_iβ₂+. . .+X_kiβ_k +u_i, o`u Z_i ≡X_2i −X_1i et γ1 ≡β1+β2.

I Tester H0 : β1+β2 = 1 revient `a testerH0: γ1= 1.

(65)

Les tests s´ equentiels ne sont pas valides

I Supposons que nous voulons tester l’hypoth`ese jointe suivante :

H₀ : β₁=β₂= 0.

contre

H1 : ∃i, i = 1,2 tel que βi 6= 0.

I Pourquoi pas tester les 2 hypoth`eses de fa¸con s´equentielle ? t₁ = βˆ₁−β₁^H⁰

sβˆ1

,

t₂ = βˆ₂−β₂^H⁰ sβˆ2

.

I On pourrait rejeter si une des deux hypothèses est rejetée par un test d’hypothèse simple.

(66)

Les tests s´ equentiels ne sont pas valides (suite)

I Le problème avec cette idée est qu’il s’agit de distributions de probabilité jointes.

I Prenons le cas simple où les 2 coefficients sont indépendamment distribués.

I Dans les deux cas, on ne rejetterait pas l’hypothèse nulle à un niveau de significativité marginal de 5% si |t₁|<1.96 et

|t₂|<1.96.

I La probabilité d’obtenir au moins un rejet en effectuant deux tests si les hypothèses nulles sont vraies serait égale à 1−0.95².

I Il faudrait au moins ajuster le niveau de significativit´e marginal.

(67)

Test Bonferroni

I L’annexe (7.1) du livre d´ecrit une fa¸con d’ajuster les niveaux de significativit´e marginaux pour tenir compte de la

corr´elation non nulle entre les coefficients.

I Cette m´ethodologie peut ˆetre utile dans certains cas,

notamment lorsqu’on lit les résultats de régressions rapportés dans des articles publiés ou des cahiers de recherche où onne donne pasla matrice variance-covariance complète des coefficients estimés.

(68)

Test Bonferroni

I Choisir une valeur critique où la probabilité de rejeter H₀ ne dépasse pas la probabilité de la rejeter si on tient compte de la non-indépendance entre les hypothèses faisant partie de l’hypothèse jointe.

I On rejetteH0 si on rejette au moins une des hypoth`eses individuelles.

I Cas de 2 hypothèses simples : appelonsA l’événement que nous rejetons la première hypothèse, etB l’événement que nous rejetons la 2e hypothèse simple :

Pr (A∪B)≤Pr (A) + Pr (B),

I Avec des p-values identiques, on va choisir desp-values tel que leur somme soit égale à la p-value désirée du test joint.

I Le test Bonferroni est tr`es conservateur : minimiser la probabilit´e de rejeter H0 (jointe) lorsqu’elle est vraie.

(69)

Tests d’hypoth` eses jointes

I Reprenons l’exemple de la sous-section pr´ec´edente.

L’hypoth`ese nulle `a tester est

H₀ : β₁+β₂ = 1,

I Nous pouvons ´ecrire cette hypoth`ese sous forme matricielle de la fa¸con suivante :

0 1 1 0 . . . 0





 β0

β₁ β2

β3

... βk







= 1

I Ceci est de la forme :

Rβ=r,

(70)

Tests d’hypoth` eses jointes (suite)

I Prenons un cas où le nombre d’hypothèses est égal à deux.

H₀:β₁=β₂= 0 et

H₁ :∃i, i = 1,2 tel que β_i 6= 0.

I Sous forme matricielle, nous avons

H₀ :

0 1 0 0 . . . 0 0 0 1 0 . . . 0





 β₀ β1

β₂ β₃ ... β_k







= 0

0

.

(71)

Tests d’hypoth` eses jointes (suite)

I On peut montrer que la statistique suivante ob´eit, (en grand

´

echantillon et sous H0) `a une loiFq,∞ : F ≡

Rβˆ−r0h

RΣˆ_β_ˆR⁰i−1

Rβˆ−r /q.

I Ici, on aq le nombre de restrictions que l’on veut tester et ˆΣβˆ

la matrice variance-covariance de l’estim´e ˆβ.

I Dans l’exemple que nous venons d’´etudier, q= 2, et donc F −→^d Fq,∞.

I La plupart des logiciels de régression, dontRoffrent la possibilité de spécifier les équivalents deR et r afin de tester des hypothèses jointes quelconques.

(72)

Une seule restriction comme cas sp´ ecial

I Dans les cas q = 1, la statistiqueF est le carr´e de la statistique t.

I Nous ne pouvons pas faire la distinction entre une statistique t qui serait grande en valeur absolue et n´egative et une statistique t grande en valeur absolue et positive.

I Pour illustrer l’´equivalence prenons l’exempleH0:β1= 0.

Sous forme matricielle

0 1 0 . . . 0





 β₀ β1

β₂ ... βk







=β₁ = 0.

(73)

Une seule restriction comme cas sp´ ecial (suite)

I Nous avons dans ce cas

F =

βˆ1−0







0 1 0 . . . 0 Σˆ_β_ˆ





 0 1 0 ... 0













−1

βˆ1−0

.

I On peut montrer (exercice) que

0 1 0 . . . 0 Σˆ_β_ˆ





 0 1 0 ... 0







= ˆσ²_ˆ

β1,

(74)

Une seule restriction comme cas sp´ ecial (suite)

I Donc, nous avons

F = βˆ1−0 s_β_ˆ

1

!2

=t².

I Deuxi`eme exemple :

H0 :β1+β2= 1.

I Sous forme matricelle :

0 1 1 0 . . . 0





 β0

β₁ β₂ β3

... β_k







=β1+β2 = 1.

(75)

Une seule restriction comme cas sp´ ecial (suite)

I Dans ce cas

F =

βˆ1+ ˆβ2−1











 0 1 1 0 ... 0







0

Σˆβˆ





 0 1 1 0 ... 0













−1

βˆ1+ ˆβ2−1

.

I On peut v´erifier que

0 1 1 0 . . . 0 Σˆ_β_ˆ





 0 1 1 0 ... 0







=s²_ˆ

β1+s²_ˆ

β2+ 2s_β_ˆ

1,βˆ2

(76)

Une seule restriction comme cas sp´ ecial (suite)

I Ici, s_β_ˆ

1,βˆ2 est l’´el´ement hors-diagonale de la matrice

variance-covariance, un estim´e convergent de la covariance entre ˆβ₁ et ˆβ₂.

I Il s’agit donc de l’estimateur convergent de la variance de βˆ₁+ ˆβ₂.

I La statistique F devient

F =

βˆ₁+ ˆβ₂−12

s²_ˆ

β1+s²_ˆ

β2+ 2sβˆ1,βˆ2

=t².

I On voit l’´equivalence entre la statistique F et le carr´e de la statistique t.

(77)

Significativit´ e de la r´ egression

I Souvent, on veut tester l’hypothèse nulle selon laquelle tous les coefficients de la régression sauf la constante sont égaux

` a z´ero.

I Nous pouvons ´ecrire cette restriction sous forme matricielle sans probl`eme avec

R =







0 1 0 0 . . . 0 0 0 1 0 . . . 0 0 0 0 1 . . . 0 ... ... ... ... . .. ...

0 0 0 0 . . . 1





 ,

et

r =





 0 0 0 ... 0





 .

(78)

Cas homosc´ edastique

I Rien de différent par rapport au cas général. On remplace ˆΣ_β_ˆ par ˜Σ_β_ˆ.

I Donc, nous avons : F ≡

Rβˆ−r0h

RΣ˜_β_ˆR⁰i−1

Rβˆ−r /q,

I Alternative : estimer le modèle sous l’hypothèse nulle et sous l’hypothèse alternative, et utiliser la formule suivante :

F = (SSR_restricted −SSRunrestricted)/q SSRunrestricted/(n−kunrestricted −1).

(79)

Cas homosc´ edastique (suite)

I Formule ´equivalente :

F = Runrestricted² −R_restricted² /q 1−Runrestricted²

/(n−kunrestricted −1),

I Vous devriez montrer algébriquement comment passer de la première à la deuxième version de ce test. La démonstration est en fait très simple.

I Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homosc´edastique peuvent ˆetre

´

ecrites sous cette forme. Voir par exemple Greene (2000).