• Aucun résultat trouvé

Introduction a STATA : un exemple d’étude

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction a STATA : un exemple d’étude"

Copied!
37
0
0

Texte intégral

(1)

Introduction a STATA : un exemple d’étude

Introduction a STATA : un exemple d’étude

Ahmed Tritah, Université du Maine

Novembre 2014

(2)

Introduction a STATA : un exemple d’étude Le prix des logements pour les familles monoparentales

Introduction

Les étapes d’un projet

I lien http ://perso.univ-lemans.fr/~atritah/L3econometrieS1/

I Etablir un cadre théorique (modèle) qui spéci…e le sujet d’étude et dé…ni la façon dont les résultats pourrons être interprétés.

I Trouver les données qui correspondent à la contrepartie empirique du modèle.

I Mener une analyse exploratoire pour se familiariser avec les données et identi…er les points abérants : votre échantillon est-il représentatif de la population ?

I Ajuster le modèle à l’aide d’une regression et mener une analyse de spéci…cation pour déterminer l’adéquation des facteurs explicatives avec la forme fonctionelle estimée.

I Procéder à l’inférence statistique sur les questions et les implications dérivées du modèle

I Analyser les résultats des tests d’hypothèses et le pouvoir prédictif du modèle.

(3)

Introduction a STATA : un exemple d’étude Interprétation des résultats

La question

I On s’intéresse aux déterminants externes du prix des logements, i.e. les éléments d’environnement du logement.

I La variable dépendante, dénotéelprice,est le prix médian (en log) des logements dans une localité. Une observation

correspon à une localité.

I Variables explicatives externes : caractéristiques de la localité

I lnox : mesure de la population (en log)

I ldist : distance au bassin d’emploi (en log)

I stratio : ratio d’étudiants par enseignant

(4)

Introduction a STATA : un exemple d’étude Interprétation des résultats

Statistiques descriptives

stratio 506 18.45929 2.16582 12.6 22 ldist 506 1.188233 .539501 .1222176 2.495682 lnox 506 1.693091 .2014102 1.348073 2.164472 lprice 506 9.941057 .409255 8.517193 10.8198 price 506 22511.51 9208.856 5000 50001 Variable Obs Mean Std. Dev. Min Max . summarize price lprice lnox ldist stratio

(5)

Introduction a STATA : un exemple d’étude Interprétation des résultats

Regression par MCO

(6)

Introduction a STATA : un exemple d’étude Interprétation des résultats

Analyse de la variance F statistique et R2

I F statistique : teste H0 : β1= β2 =...= βk =0

I Fcal=MSMSModel

residiual =175,86

I Probabilité de rejeter H0 alors que H0 vrai : Prob(F>Fcal) =0,0000

I Ici on rejette H0 à "tous les niveaux conventionels de signi…cation"

I Ecartype des erreurs du modèle (Root MSE) : trés faible au regard de la moyennelprice.

I Variation de y autour dey¯ expliquée par x : R2=1 SSresidual/SSTotal :

I On s’interesse à la variation par rapport à la moyenne : SSTotal=i(yi y¯)2.

I L’idée est de comparer notre modèle au modèleyi =y¯+ui

I Peut-on faire mieux que la moyenne pour prédireyi?

I Ce qui revient à se demander siE(yjx)6=E(y)

(7)

Introduction a STATA : un exemple d’étude Interprétation des résultats

Le R2 ajusté

I Rappel : le R2 ne dimininue jamais lorsque une variable explicative est ajoutée au modèle ; ceci quelque soit la signi…cativité de la variable.

I Le R2 ajusté corrige cela en prenant en compte le nombre de degré de liberté en calculant un ratio de variance plutôt que de variation entre les résidus et y :

2 =1 SSR/(n k)

SST/n 1 =1 (1 R2)n 1 n k <R2

I2 augmente si le gain à rajouter une variable explicative (variation plus faible des résidus) excède son coût (perte d’un degré de liberté).

I On peut utiliser le ¯R2 pour comparer des modèles avec la même variable dépendante mais des spéci…cations di¤érentes.

I On peut aussi comparer l’erreur type de chaque modèle.

(8)

Introduction a STATA : un exemple d’étude Interprétation des résultats

Retrouver les résultats d’estimation

I Les commandes stata tels que regress crée des variables systèmes qui enregistrent les résultats.

I Le vecteur des paramètres estimés est contenu danse(b), et la matrice de variance covariance danse(V). Un élément de e(b) est référencé_b[varname]et son écartype estimé _se[varname](par ex. _b[rooms] et _se[rooms]).

I Le contenu de ces matrices se réfère à la dernière estimation et sont remis à jour à chaque nouvelle estimation.

I On peut retrouver leur contenu avec la commande ereturn

e(N) = 506 e(df_m) = 4 e(df_r) = 501

e(F) = 175.8550695227946 e(r2) = .5840322442976398 e(rmse) =e(mss) = .265002908929826649.39877352102587 e(rss) = 35.18349741237627 e(r2_a) =e(ll) = .5807111444517128-43.4951392092929 e(ll_0) = -265.4134648194153 e(rank) = 5

scalars:

e(sample) functions:

e(V) : 5 x 5 e(b) : 1 x 5 matrices:

e(estat_cmd) : "regress_estat"

e(model) : "ols"

e(predict) : "regres_p"

e(properties) : "b V"

e(cmd) : "regress"

e(depvar) : "lprice"

e(vce) : "ols"

e(marginsok) : "XB default"

e(title) : "Linear regression"

e(cmdline) : "regress lprice lnox ldist rooms stratio"

macros:

(9)

Introduction a STATA : un exemple d’étude Interprétation des résultats

I e(sample) crée une variable binaire qui prend la valeur 1 si l’observation est inclu dans l’estimation et 0 sinon.

I Pour obtenir des stat des. sur l’échantillon exact utilisé dans l’échantillon on tape :

summarise regresseurs if e(sample) ou plus directement :

stratio 18.45929 2.16582 12.6 22 rooms 6.284051 .7025938 3.56 8.78 ldist 1.188233 .539501 .122218 2.49568 lnox 1.693091 .2014102 1.34807 2.16447 lprice 9.941057 .409255 8.51719 10.8198 Variable Mean Std. Dev. Min Max Estimation sample regress Number of obs = 506 . estat summarize

I Stata possède un language matriciel. Toutes les commandes sur les matrice commencent par matrix.

(10)

Introduction a STATA : un exemple d’étude Interprétation des résultats

I Pour imprimer la matrice des coe¢ cients estimés :

y1 -.95354002 -.13434015 .25452706 -.05245119 11.083865 lnox ldist rooms stratio _cons e(b)[1,5]

. matrix list e(b)

I Pour imprimer la matrice de variance covariance des coe¢ cients estimés :

_cons -.03037429 -.01001835 -.00341397 -.00088151 .10119496 stratio 9.740e-07 .00002182 .00003374 .00003478

rooms .00035279 .00003043 .00034337 ldist .00426247 .00185789

lnox .01362865

e(V) lnox ldist rooms stratio _cons Covariance matrix of coefficients of regress model

. estat vce

Les éléments de la diagonale correspondent aux carrés des écartypes estimés(_se[])

(11)

Introduction a STATA : un exemple d’étude Détecter la collinéarité dans la régression

I Stat détecte automatiquement la collinéarité parfaite

I La multicolinéarité (colinéarité forte) modi…e l’intéprétation des résultats.

I Rapel de cours, la kième diagonale de la matrice de variance covariance (VCE) est :

ˆ σ

SSTj(1 Rj2) (cf. Eq. (41) chapitre 3)

I La variance estimée sera d’autant plus élevé que (1)la corrélation de j avec les autres variables explicatives (Rj2) est élevée, (2)la variation de xj à sa moyenne (SSTj)est faible et (3) la qualité de l’ajustement est faible (σˆ élevé).

I Le terme (1 Rj2) 1 est le facteur d’in‡ation de la variance (VIF). Il peut être calculé aprés chaque régression avec la commande estat vif. L’usage admet une suspission de colinéarité à partir d’un VIF moyen supérieur à 1, ou d’un VIF maximum supérieur à 10.

(12)

Introduction a STATA : un exemple d’étude Détecter la collinéarité dans la régression

Mean VIF 2.56

stratio 1.17 0.852488 rooms 1.22 0.820417 ldist 3.89 0.257162 lnox 3.98 0.251533 Variable VIF 1/VIF . estat vif

_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886 stratio -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651 rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338 ldist -.1343401 .0431032 -3.12 0.002 -.2190255 -.0496548 lnox -.95354 .1167418 -8.17 0.000 -1.182904 -.7241762 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 84.5822709 505 .167489645 Root MSE = .265 Adj R-squared = 0.5807 Residual 35.1834974 501 .070226542 R-squared = 0.5840 Model 49.3987735 4 12.3496934 Prob > F = 0.0000 F( 4, 501) = 175.86 Source SS df MS Number of obs = 506 . reg lprice lnox ldist rooms stratio

(13)

Introduction a STATA : un exemple d’étude Présentation des résultats

Présentation des résultats

I estimates permet de stocker les résultats d’estimations

I estimates store: enregistre les résultats

I estimates table: crée une table d’équations avec les p-value (p), t-stat (t), erreurs-types (se). Les options permettent de spéci…er le format (voirhelp estimates), de rajouter des résultats contenus danse()(option stat) ; etc.

. estimates store model4 //enregistrent les estimations du model4 . quietly regress lprice lnox ldist rooms stratio //Model 4 . estimates store model3 //enregistrent les estimations du model3 . quietly regress lprice ldist stratio lnox //Model 3

. estimates store model2 //enregistrent les estimations du model2 . quietly regress lprice rooms rooms2 ldist/*Model 2*/

. estimates store model1 //enregistrent les estimations du model1

> les résultats*/

. /*quietly lance la regression sans afficher///

. quietly regress lprice rooms /*Model 1*/

. generate rooms2=rooms^2

(Housing price data for Boston-area communities) . use tp_hprice2a, clear

(14)

Introduction a STATA : un exemple d’étude Présentation des résultats

legend: b/se/p rmse .317 .289 .311 .265 r2_a .399 .5 .424 .581 0.000 0.000 0.000 0.000 .127 .584 .304 .318 _cons 7.62 11.3 13.6 11.1 0.000 0.000 .135 .117

lnox -1.22 -.954

0.000 0.000 .0066 .0059 stratio 0.000 -.0775 0.002 -.0525 0.002 .0255 .0505 .0431 ldist .237 -.157 -.134

0.000 .014

rooms2 0.000 .0889 0.000 0.000 .0201 .183 .0185 rooms .369 -.821 .255 Variable model1 model2 model3 model4

> ) p(%4.3f)

. estimates table model1 model2 model3 model4, stat(r2_a rmse) b(%7.3g) se(%6.3g

(15)

Introduction a STATA : un exemple d’étude Présentation des résultats

I On peut aussi présenter la signi…cativité sous forme d’étoile

legend: * p<0.05; ** p<0.01; *** p<0.001 ll -43.5 -136 -124 -88.6 rmse .265 .317 .311 .289 r2_a .581 .399 .424 .5 _cons 11.1*** 7.62*** 13.6*** 11.3***

rooms2 .0889***

stratio -.0525*** -.0775***

rooms .255*** .369*** -.821***

ldist -.134** -.157** .237***

lnox -.954*** -1.22***

Variable model4 model1 model3 model2 Models of median housing price

> */ star title("Models of median housing price")

. estimates table model4 model1 model3 model2, stat(r2_a rmse ll) b(%7.3g) /*

I Il existe deux autres commandes importantes pour créer des table de type articles :

I estout

I outreg2

(16)

Introduction a STATA : un exemple d’étude Présentation des résultats

Présenter des statistiques descriptives et des corrélations

I statsmat stocke les résultats de stat des dans une matrice

I Exemple :prix moyen des logements en fonction des niveaux de criminalité (5 niveaux)

v,high 102 14957 13350 high 101 22222 19900 Medium 101 23374 21600 low 101 24806 22800 v,Low 101 27273 24499 n mean p50

price_crime[5,3]: Housing price by quintile of crime

> me")

> */ matrix(price_crime) format(%9.4g) title("Housing price by quintile of cri . statsmat price, stat(n mean p50) by(crimelevel) /*

. label values crimelevel crlev . egen crimelevel=cut(crime), group(5)

. label define crlev 0 "v.Low" 1 "low" 2 "Medium" 3 "high" 4 "v.high"

I autre possibilité tabout(voir :

http ://www.ianwatson.com.au/stata/tabout_tutorial.pdf)

(17)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I On suppose que le modèle est proprement spéci…é et que les erreurs sont identiquements et indépendements distribuées.

I Rappel : les estimateurs sont des variables aléatoires dont la distribution dépend de la distribution des erreurs.

I Trois types de tests : Test de student (Wald teste), tests LM (teste de Lagrange) et test LR (teste du ratio de

vraissemblance).

I On présente ici les testes de Wald (vue en cours).

I Avec q restrictions sur les paramètres le modèle restreint comporte (k q) coe¢ cients à estimer.

I Stata présente les p values des testes : signi…cativité maximale d’un teste qui ne rejette pas H0.Par exemple si p =0.013 on peut rejeter H0 à 10% et à 5%, mais pas 1% (à 1% le tcritique >tcalcule´).Par défaut les tests sont bilatéraux.

(18)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Stata dispose de trois commandes de tests trés utiles :

I test coe‡ist : oùcoe‡ist contient le nom d’une ou plusieurs variable du modèles

I testexp=exp :exp est une fonction algébrique des variables

I testparmvarlist : qui permet des tests de typestestparm pop outestparmind1 ind9,i.e. tester si ces variables sont conjointement égales à zéro (utiles pour des variables

discrètes).

I lincomexp : permet d’e¤ectuer des testes sur des combinaisons linéaires des coe¢ cients

(19)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

test de Wald avec la commande test

I On souhaite tester une hypothèse de type : H0 : βj =0

I Sous H0 on connait la distribution du ratio du coe¢ cient estimé à son écartype (distribution t).

I regress imprime ce ratio dans la colonne t

Prob > F = 0.0000 F( 1, 501) = 188.67

( 1) rooms = 0 . test rooms

_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886 stratio -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651 rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338 ldist -.1343401 .0431032 -3.12 0.002 -.2190255 -.0496548 lnox -.95354 .1167418 -8.17 0.000 -1.182904 -.7241762 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 84.5822709 505 .167489645 Root MSE = .265 Adj R-squared = 0.5807 Residual 35.1834974 501 .070226542 R-squared = 0.5840 Model 49.3987735 4 12.3496934 F( 4, 501) = 175.86Prob > F = 0.0000 Source SS df MS Number of obs = 506 . regress lprice lnox ldist rooms stratio

(20)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Plus générallement on teste l’égalité d’un coe¢ cient à un paramètre

Prob > F = 0.0001 F( 1, 501) = 16.59

( 1) rooms = .33 . test rooms=0.33

. quietly regress lprice lnox ldist rooms stratio

(21)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

test de Wald avec combinaison linéaire sur les paramètres

I On souhaite tester une hypothèse de type H0 :βrooms +βdist+βstratio =0

Prob > F = 0.0001 F( 1, 501) = 16.59

( 1) rooms = .33 . test rooms=0.33

. quietly regress lprice lnox ldist rooms stratio

I test permet de tester l’égalité de 2 coe¢ cients ou que leur ratio est égal à une certaine valeur

Prob > F = 0.0011 F( 1, 501) = 10.77

( 1) lnox - 10*stratio = 0 . test lnox=10*stratio Prob > F = 0.0574 F( 1, 501) = 3.63

( 1) ldist - stratio = 0 . test ldist=stratio

. quietly regress lprice lnox ldist rooms stratio

(22)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Regression contraintes

I On a montré que l’hypothèse βrooms+βdist+βstratio =0 ne pouvait pas être rejetée.

I On doit donc réestimer le modèle en imposant cette contrainte.

I La commandeconstraint permet de dé…nir la contrainte : constraint [define] #[exp =expjcoe‡ist]

I Ensuite, on estime le modèle contraint à l’aide de cnsreg :

cnsregdepvar indepvars [if] [in] [weight], constraints(numlist) numlist fait référence au numéro de la contraintes spéci…é

dans constraint par #

(23)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Regression contraintes

I On a montré que l’hypothèse βrooms+βdist+βstratio =0 ne pouvait pas être rejetée.

I On doit donc réestimer le modèle en imposant cette contrainte.

I La commandeconstraint permet de dé…nir la contrainte : constraint [define] #[exp =expjcoe‡ist]

I Ensuite, on estime le modèle contraint à l’aide de cnsreg :

cnsregdepvar indepvars [if] [in] [weight], constraints(numlist) numlist fait référence au numéro de la contraintes spéci…é

dans constraint par #

(24)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

_cons 11.48651 .1270377 90.42 0.000 11.23691 11.7361 stratio -.0549922 .0056075 -9.81 0.000 -.0660092 -.0439752 rooms .2430633 .01658 14.66 0.000 .2104886 .2756381 ldist -.1880712 .0185284 -10.15 0.000 -.2244739 -.1516684 lnox -1.083392 .0691935 -15.66 0.000 -1.219337 -.9474478 lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

( 1) ldist + rooms + stratio = 0

Root MSE = 0.2652 Prob > F = 0.0000 F( 3, 502) = 233.42 Constrained linear regression Number of obs = 506 . cnsreg lprice lnox ldist rooms stratio, constraint(1)

. constraint def 1 ldist+rooms+stratio=0

(25)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Les testes d’hypothèse jointes

I Chacune des hypothèse doit être satisfaite simultanément (H0 :β2=0 et β3 =0), ce qui est di¤érent de

H00 :β2+β3 =0

Prob > F = 0.0000 F( 2, 501) = 58.95

( 2) ldist = 0 ( 1) lnox = 0 . test lnox ldist

. quietly regress lprice lnox ldist rooms stratio

Prob > F = 0.0028 F( 2, 501) = 5.94

( 2) ldist - stratio = 0 ( 1) lnox - 10*stratio = 0

. test (lnox=10*stratio) (ldist=stratio) . quietly regress lprice lnox ldist rooms stratio

(26)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Tester des restrictions non linéaires et des combinaisons non linéaires

I Tous les testes précédent reviennent à minimiser la somme des carrés des résidus en imposant des contraintes linéaires sur les paramètres

I Mais les contraintes peuvent être non linéaires (tester l’égalité du produit de deux paramètres à une valeur)

I tensnlpermet de spéci…er des hypothèses non linéaires. Pour cette commande on doit utiliser la syntaxe _b[varname] pour le coe¤cients de la variable varname

I nlcom permet de tester des combinaisons non linéaires des paramètres (par interval de con…ance ou estimation

ponctuelle).

I Ces testes sont sensibles à l’échelle de mesure des variables X et y (pas vrai pour les testes linéaires).

(27)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Prob > F = 0.2306 F(1, 501) = 1.44

(1) _b[lnox]*_b[stratio] = 0.06 . testnl _b[lnox]*_b[stratio]=0.06

. quietly regress lprice lnox ldist rooms stratio

Ici on ne peut pas rejeter l'hypothèse H₀ quelnox*stratio=0.06

I Tester des hypothèses non linéaires jointes :

Prob > F = 0.0062 F(2, 501) = 5.13

(2) _b[rooms]/_b[ldist] = 3*_b[lnox]

(1) _b[lnox]*_b[stratio] = 0.06

> (_b[rooms]/_b[ldist]=3*_b[lnox]) . testnl (_b[lnox]*_b[stratio]=0.06) ///

. quietly reg lprice lnox ldist rooms stratio

On peut rejeter l’hypothèse H0à 1%

(28)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Tester des modèles concurents (non-emboîtés)

I Si les variables explicatives d’un modèle forment un sous ensemble d’un autre (modèle emboités) on peut utiliser les procédures de testes classiques (test)

I Supposons qu’on souhaite évaluer les modèles suivants :

H0 : yi =xiβ+e0i, i =1, ...,n : Modèle 1 H1 : yi =ziβ+e1i, i =1, ...,n : Modèle 2

I On suppose que chaque vecteur de variable explicative, xi et zi contient des variables qui lui sont spéci…ques.

I Un examen de la qualité de l’ajustement (R2 ouRoot MSE) sous chaque hypothèse n’est pas satisfaisant et n’a pas de justi…cation statistique.

I Les économétres Davidson et MacKinon (1981) on proposé une solution.

(29)

Introduction a STATA : un exemple d’étude

Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Intuition : On génère les valeurs prédites dey,yˆ1 etyˆ2 sous chaque hypothèse. On inclut yˆ2 dans le modèle 1 (hyp. H0), si

ˆ

y2 signi…cative on rejette H0. On introduit ensuiteyˆ1 dans le modèle 2 (hyp. H1),si yˆ1 signi…cative on rejette H1. Quatres résultat possibles :

1. On préfère H0 à H1

2. On préfère H1 à H0

3. Les deux modèles sont rejetès 4. Aucun des modèles n’est rejetés

lnoxcompris dans M1 mais pas M2 etcrime, proptaxcompris dans M2 et non M1 (modèles non emboités).

Ici on rejette H0et H1par rapport au modèle ou tous les variables (lnox,crime,proptax) seraient incluses.

H1 : M1 p-val 0.00000 H0 : M2 N(0,1) -17.63186 H1 : M2 p-val 0.00000 H0 : M1 N(0,1) -20.07277 Cox-Pesaran test for non-nested models H1 : M1 p-val 0.00000 H0 : M2 t(499) 7.19138 H1 : M2 p-val 0.00000 H0 : M1 t(500) 10.10728 J test for non-nested models

M2 : Y = a + Zg with Z = [crime proptax ldist rooms stratio]

M1 : Y = a + Xb with X = [lnox ldist rooms stratio]

. nnest lprice lnox ldist rooms stratio (crime proptax ldist rooms stratio)

(30)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

Résidus et valeurs prédites

I Aprés l’ajutement d’un modèle avec regresson peut calculer les résidus de la régression et les valeurs prédites pour

l’échantillon de la régression ou un autre échantillon. Un modèle bien spéci…é doit générer de bonnes prédictions quelque soit l’échantillon de la population. Pour générer ces valeurs, aprés regresson invoque la commande :

predict [type]newvar [if] [in], [,choice] choice : quantité à calculer pour chaque observation

I predict calcule par défaut les valeurs prédites :

. predict double lpriceeps, residual (option xb assumed; fitted values) . predict double lpricehat

. quietly reg lprice lnox ldist rooms stratio Pour restreindre le calcul des résidus et des prédictions à l’échantillon utilisé pour l’estimation imposez la restriction if e(sample)

I La qualité de l’ajustement peut être visualisé à l’aide d’un graphique.

(31)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

Résidus et valeurs prédites

8.599.51010.511Predicted log median housing price

8.5 9 9.5 10 10.5 11

Actual log median housing price

> */ xtitle("Actual log median housing price") aspectratio(1) legend(off)

> */ ytitle("Predicted log median housing price")/*

> */ (line lprice lprice if lprice<., clwidth(thin)),/*

. twoway (scatter lpricehat lprice, msize(small) mcolor(black) msize(tiny))/*

. label var lpricehat "predicted log price"

. predict double lpricehat, xb

. quietly reg lprice lnox ldist rooms stratio

Le modèle surévalue les logements les moins chères et sous évalue les logements les plus chères. Le modèle n’a donc pas de bonnes prédictions pour ces valeurs extrêmes

(32)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

Calcul des intervals de prédictions

I Voir [R] regression postestimation pour l’ensemble des capacités de predict aprés regress.

I En plus de la prédictions ponctuelle on peut obtenir l’interval de con…ance des prédictions : "ensemble des valeurs probables de yi étant donné xi à x%".

I Stata calcule deux types de prédiction :

I predicted value : valeur espére de la variable dépendante pour des valeurs données des variables explivatives.

I forcast (prévisions) : valeur de la variable dépendante pour un esemble donnée de variable explicatives.

Regle` :variance prévision> variance prédiction

I Un interval de prédiction est une borne supérieur et inférieur qui contient la véritable valeur du paramètre de population avec une certaine probabilité.

(33)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

Calcul des intervals de prédictions

I Les bornes de l’interval pour la prévision est : y0 t1 α/2f

f est l’estimation de la variance des erreurs de prédictions On calcule cette interval de con…ance avec l’option stdf de predict

I Les bornes de l’interval pour la prédiction est : y0 t1 α/2p

f est l’estimation de la variance des erreurs de prédictions La variance de la valeur prédite augmente avec la distance àx.¯ On calcule cette interval de con…ance avec l’option stdp de predict

I On peut visualiser graphiquement la prédiction ponctuelle et son interval de con…ance en générant les bornes de l’interval.

(34)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

I On invoque deux fois predict pour générer la prédiction (par défaut) et l’érreur type de la prédiction (option stdp)

(407 missing values generated)

> dans la variables stpred*/

. predict double stpred if e(sample), stdp /*genere l'erreur type pour l'échantillon ///

(407 missing values generated) (option xb assumed; fitted values)

> de la régression dans la variable xb*/

. predict double xb if e(sample) /*genere les valeurs prédites pour l'échantillon ///

. quietly reg lprice lnox if _n<100 /* on se retreint au 100 1ere observations*/

(Housing price data for Boston-area communities) . use tp_hprice2a, clear

I Pour calculer l’interval de con…ance, il nous faut générer t1 α/2 avec la fonction tval qui est l’inverse de la fonction de densité de probabilité de student.

(407 missing values generated) . gen double lowlim=xb-tval*stpred (407 missing values generated) . gen double uplim=xb+tval*stpred

. scalar tval=invttail(e(df_r),0.975) /*t de student tel P(x<t)=0.975)*/

(35)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

I Graph des résultats avec indication de la moyenne de la variable explicative

> */ ytitle(Actual and predicted log price) legend(cols(3))

> */(rline uplim lowlim lnox if e(sample), sort), /*graph des limites supérieurs et inférieurs

> */ (connected xb lnox if e(sample), sort msize(small)) /*droite de regression x et y prédit

> à la valeur moyenne de lnox ///

> roite verticale

. twoway (scatter lprice lnox if e(sample), sort ms(Oh) xline(`lnoxbar')) /*nuage de points avec d . **graph des résultats

.

. label var lowlim "95% prediction interval"

. label var uplim "95% prediction interval"

. label var xb "Pred"

. local lnoxbar=r(mean) /*l'enregistrer dans une variable local lnoxbar*/

. summarize lnox if e(sample), meanonly /*créer en mémoire la moyenne de lnow*/

(36)

Introduction a STATA : un exemple d’étude Résidus et valeurs prédites

9.51010.511Actual and predicted log price

1.4 1.5 1.6 1.7

log(nox)

log(price) Pred 95% prediction interval

(37)

Introduction a STATA : un exemple d’étude Calcul d’élasticité et des e¤ets marginaux

9.51010.511Actual and predicted log price

1.4 1.5 1.6 1.7

log(nox)

log(price) Pred 95% prediction interval

Références

Documents relatifs

Commands that you type each time you enter Stata are best entered in a specifc.. le (e.g., profile.do), that you let execute automatically whenever you

(At this juncture, I would point out that I bold and italicize STATA commands to distinguish them from ordinary text, even though they are not actually entered into the command

I sort var 1 var 2 /* classe les observations par ordre croissant de var1 puis pour chaque valeur de var1 par ordre croissant de var2 */.. Exemple : sort salaire age I gsort ( ou +

Par ailleurs, la figure fait apparaître une différence entre les approximations (2) et (3) : l’erreur maximale issue du Khi-deux à correction individuelle, ou formule

A chaque élément de la courbe C' on applique un poids égal à l'élément correspondant de la courbe C /f et l'on se propose de trouver le centre de gravité d'un pareil système..

La démarche consiste à noter les Coefficients de pression extérieurs sur la toiture (Cpe,sup) et les Coefficients de Pressions extérieurs sur la mur situé sous l’Avancée

[r]

Those totally thin sets which are closed and contain only irregular points for some open set can be regarded as a special class ofexceptional sets. The connection