Introduction Modèle de régression simple

(1)

Introduction

Modèle de régression simple

(2)

Part I

Introduction

(3)

Dé…nition de l’économétrie

L’économétrie est un ensemble de méthodes statistiques développées a…n d’étudier des questions économiques: tester des modèles, faire des prédictions.

Exemple 1. Tester la théorie du capital humain de J. Mincer.

Exemple 2. Mesurer les e¤ets du salaire minimum sur le taux de chômage.

Une particularité de l’économétrie est l’utilisation de données qui ne sont pas expéri- mentales. Les données proviennent essentiellement d’enquêtes ou de comptabilités.

(4)

Structure des données

Exemple 1. Données transversales (cross-sectional data) in WAGE1.xls obsno wage educ exper tenure female married

1 3.10 11 2 0 1 0

2 3.24 12 22 2 1 1

... ... ... ... ... ...

526 3.50 14 5 4 1 0

Exemple 2. Séries temporelles (time series data).

obsno year avgmin avgcov unemp gnp

1 1950 0.20 20.1 15.4 878.7

2 1951 0.21 20.7 16.0 925.0

... ... ... ... ... ...

38 1987 3.35 58.2 16.8 4496.7

(5)

Etapes d’une analyses empirique

Exemple. Le modèle théorique est:

wage = f(educ, exper, tenure);

où les dérivées de la fonction f( ) sont toutes positives = prédiction théorique (in:

Mincer, Jacob (1958). "Investment in Human Capital and Personal Income Distrib- ution". Journal of Political Economy. 66 (4): 281–302).

Par exemple, le modèle économétrique est:

wage_i = ₀ + ₁educ_i + ₂exper_i + ₃tenure_i + u_i;

avec ₀, ₁ > 0, ₂ > 0, ₃ > 0 sont des paramètres, et u_i est un terme d’erreur avec une certaine distribution.

Le modèle économétrique doit spéci…er une forme fonctionnelle (qui impose des con- traintes sur le modèle théorique), ajouter un terme d’erreur et dé…nir exactement les variables.

(6)

Part II

Modèle de régression simple

(7)

Modèle de régression simple

Comment mesurer l’e¤et d’une variable x sur une variable y?

Le modèle de régression (linéaire) simple est dé…ni par:

y = ₀ + ₁x + u

où ₀ est la constante, ₁ est la pente et u le terme d’erreur et

y =

8>

>>

<

>>

>:

variable dépendante variable expliquée variable prédite régressant

, x =

8>

>>

<

>>

>:

variable indépendante variable explicative variable prédictrice régresseur

:

La pente ₁ mesure l’e¤et de x sur y. Pourquoi parle-t-on de "régression"?

Rappel: Un modèle est une "vue de l’esprit" représentant un phénomène.

(8)

Modèle de régression simple

Exemple. La relation entre le salaire et l’éducation (en années) s’écrit:

wage_i = ₀ + ₁educ_i + u_i

Ce modèle est linéaire car l’e¤et de la variable x (educ) sur la variable y (wage) est linéaire:

y = ₁ x si u = 0.

La linéarité est une restriction importante, pas nécessairement réaliste.

Que réprésente le terme d’erreur? L’ensemble des variables explicatives omises. Par exemple, l’expérience, l’ancienneté, ou l’habileté.

(9)

Modèle de régression simple

Nuage de points. Légende: ordonnées: salaire, abscises: éducation

(10)

Dérivation des estimateurs des MCO

Question: Comment obtenir des estimateurs de ₀ et de ₁? Un estimateur est une valeur (obtenue par une suite d’opérations appliquées à un échantillon) qui permet d’évaluer un paramètre inconnu relatif à une loi de probabilité.

! Obtenir les estimateurs de ₀ et de ₁ est équivalent à faire passer une droite au sein du nuage de points.

! La méthode des moindres carrés ordinaires (MCO) consiste à minimiser la somme des carrés des résidus.

Soit un échantillon f(x_i; y_i) : i = 1; :::; Ng de N observations.

Pour des valeurs quelconques b₀ et b₁ des paramètres ₀ et ₁; et pour l’observation i, le résidu est dé…ni par:

e

u_i = y_i b₀ b₁x_i:

(11)

Dérivation des estimateurs des MCO

Droite de régression et résidus

(12)

Dérivation des estimateurs des MCO

La somme des carrés des résidus est dé…nie par

Q(b₀; b₁) = (y₁ b₀ b₁x₁)² + + (y_N b₀ b₁x_N)²

= ^X^N

i=1(y_i b₀ b₁x_i

| {z })

résidu

2:

Concept à maîtriser: l’opérateur de somme ^P.

Le problème de minimisation de la somme des carrés des résidus est:

min_f_b

0;b₁g Q(b₀; b₁):

Pour obtenir le minimum, on dérive la fonction et on égalise les dérivées à zéro.

Question: Pourquoi minimiser la somme des carrés des résidus et non, par exemple, la somme des valeurs absolues des résidus?

(13)

Dérivation des estimateurs des MCO

Les conditions de premier ordre de la minimisation de

X_N

i=1(y_i b₀ b₁x_i)² sont:

@Q

@b₀(^b₀; ^b₁) = 1 2

XN i=1

(y_i ^b₀ ^b₁x_i) = 0; (CPO1)

@Q

@b₁(^b₀; ^b₁) = 1 2

XN i=1

x_i(y_i ^b₀ ^b₁x_i) = 0; (CPO2)

où ub_i = y_i ^b₀ ^b₁x_i est le résidu des MCO.

Ces équations constituent un système de 2 équations à 2 inconnues.

(14)

Dérivation des estimateurs des MCO

Dé…nissons les moyennes empiriques de x et de y de la manière suivante:

x = 1 N

X_N

i=1x_i; y = 1 N

X_N

i=1y_i

Supposons que:

X_N

i=1(x_i x)² 6= 0:

Que signi…e cette hypothèse?

Dans ce cas, le système d’équations peut être résolu et les estimateurs des MCO sont:

b₁ =

P_N

i=1(x_i x)(y_i y)

P_N

i=1(x_i x)² et ^b₀ = y ^b₁x

(15)

Dérivation des estimateurs des MCO

Notons que

b₁ =

P_N

i=1(x_i x)(y_i y)

P_N

i=1(x_i x)² =

P_N

i=1(x_i x)y_i

P_N

i=1(x_i x)² =

P_N

i=1(y_i y)x_i

P_N

i=1(x_i x)²

La droite de régression de la population est:

y = ₀ + ₁x:

La droite de régression de l’échantillon des MCO est:

^

y = ^b₀ + ^b₁x:

La valeur prédite des MCO de la variable y pour x = x_i est:

^

y_i ^b₀ + ^b₁x_i: Le résidu des MCO est

b

u_i y_i ^b₀ ^b₁x_i = y_i y^_i:

(16)

Exemple numérique

Soit les données.

i y x y y x x (y y)² (x x)² (y y)(x x)

1 10 3 0 2 0 4 0

2 8 7 2 2 4 4 4

3 12 5 2 0 4 0 0

P 30 15 0 0 8 8 4

Donc:

b₁ =

P_N

i=1(x_i x)(y_i y)

P_N

i=1(x_i x)² = 1 2

b₀ = y ^b₁x = 10 + 1

25 = 12;5

(17)

Exemples

Exemple 1. Soit la base de données WAGE1.xls sur 526 employés des Etats-Unis en 1976. L’équation suivante est estimée:

[

wage = 0;90 + 0;54 educ,

Comment interpréter ces estimations? La constante est négative. Pourquoi?

Pour obtenir ces résultats, la formule Excel est:

=DROITEREG(A1:A526;B1:B526;VRAI;VRAI)

(18)

Exemples

Nuage de points et droite de régression. Légende: abscises = salaire, ordonnées = éducation.

(19)

Exemples

(20)

Exemples

Exemple 2. En transformant la variable dépendante en logarithmes, log(wage) = 0;\ 584 + 0;083 educ.

où le salaire d’un individu dont le niveau d’éducation est de 0 années est en moyenne de 1;793 exp(0;584) dollars.

Comment interpréter ces estimations? Si l’éducation augmente d’une année, le salaire augmente de 8,3%.

Pour obtenir ces résultats, la formule Excel est:

=DROITEREG(V1:V526;C1:C526;VRAI;VRAI)

(21)

Exemples

Nuage de points avec droite de régression. Légende: abscises = éducation, ordonnées = logarithme du salaire.

(22)

Propriétés algébriques des MCO

Propriété 1. La somme des résidus est nulle:

X_N

i=1ub_i = 0 En e¤et,

CPO1 : 1 2

X_N

i=1(y_i ^b₀ ^b₁x_i) = 0 ! ^X^N_i=1 u^b_i = 0

Propriété 2. La somme du produit des résidus et des variables explicatives est nulle:

X_N

i=1x_iu_b_i = 0 En e¤et,

CPO2 : 1 2

X_N

i=1 x_i(y_i ^b₀ ^b₁x_i) = 0 ! ^X^N_i=1 x_iu_b_i = 0

(23)

Propriétés algébriques des MCO

Propriété 3. La régression passe par le point moyen de l’échantillon:

y = ^b₀ + ^b₁x:

En e¤et,

CPO1 : 1

2

X_N

i=1(y_i ^b₀ ^b₁x_i) = 0

! ^X^N_i=1 y_i ^X^N

i=1 b₀ X_N

i=1 b₁x_i = 0

! 1 N

X_N

i=1 y_i 1 N

X_N

i=1 b₀ 1 N

X_N

i=1 b₁x_i = 0

(24)

Propriétés algébriques des MCO

Quelques dé…nitions:

SCT = ^X^N

i=1(y_i y)²; SCE = ^X^N

i=1(^y_i y)²; SCR = ^X^N

i=1 ub²_i:

Propriété 4. La somme des carrés totaux est égale à la somme de somme des carrés expliqués et de la somme des carrés résiduels:

SCT = SCE + SCR.

D’où:

R² = SCE

SCT = 1 SCR

SCT 2 [0;1]

où le R-carré, appelé également coe¢ cient de détermination, mesure l’ajustement de la droite au nuage de points.

(25)

Propriétés algébriques des MCO

Propriété 5. Le R-carré (ou coe¢ cient de détermination) est égal au carré du coe¢ cient de corrélation entre la variable explicative et la variable expliquée:

R² = SCE

SCT = 1 SCR

SCT = (^P^N_i=1(x_i x)(y_i y))²

P_N

i=1(x_i x)² ^P^N_i=1(y_i y)²: Rappel: Wooldridge (2013), Appendix C4, p. 768.

(26)

Exemple numérique

Soit les estimations obtenues précédemment:

y = 12;5 1 2x

Donc:

i y x y^_i u_b_i x_iu_b_i (y y)² (^y y)² ub²_i

1 10 3 11 1 3 0 1 1

2 8 7 9 1 7 4 1 1

3 12 5 10 2 10 4 0 4

P 30 15 30 0 0 8 2 6

et

R² = 2

8 = 1 6

8 = 0:25:

(27)

Exemples

Exemple 1. Soit la base de données WAGE1.xls sur les employés des Etats-Unis en 1976, les résultats d’estimations sont les suivants:

[

wage = 0;90 + 0;54 educ, R² = 0;165

et

log(wage) = 0;\ 584 + 0;083 educ, R² = 0;186:

(28)

Exemples

Exemple 2. Soit la base de données CEOSAL1.xls contenant un échantillon de 209 observations sur le salaire des P.D.-G. Le modèle suivant est estimé:

salary[ = 963;191 + 18;501 roe;

R² = 0;013

où reo est le rendement de l’action en points (:::; 2; 1;0;+1;+2; :::) et salary le salaire annuel des P.D.-G. en milliers de dollars.

Comment interpréter les résultats?

(29)

Propriétés algébriques des MCO

Si la variable explicative est multipliée par une constante alors l’estimateur du paramètre de la variable est divisé par cette même constante.

Si la variable expliquée est multipliée par une constante alors l’estimateur du paramètre de la constante et de la pente est multiplié par cette même constante.

(30)

Exemple

Soit la droite de régression estimée préalablement:

salary[ = 963;191 + 18;501 roe.

où roe est le rendement de l’action en points et salary est exprimé en milliers de dollars.

Si la variable explicative est exprimée en décimales (:::; 0:02; 0:01;0;+0:01;

+0:02; :::), alors:

salary[ = 963;191 + 1850;1 roe_dec.

Si la variable expliquée est exprimée en dollars, alors:

salary_dollars\ = 963191 + 18501 roe.

(31)

Pour préparer le cours suivant

Wooldridge, Je¤rey M., Introductory Econometrics: A Modern Approach, 5th Edition. South-Western College Pub (2013).

– Sections 2.1–2.2 (compléments), – Sections 1.4, 3.2

– Appendix A1. Basic mathematical tools, pp. 703-705.

– Appendix B1-B4. Fundamentals of probability, pp. 722-745.

Dubuc, Patrick. Utilisation de DROITEREG,

https://www.youtube.com/watch?v=T8CY5ETApgY

Exercices 1