Guide d’économétrie appliquée

(1)

Guide d’économétrie appliquée

Simon Leblond

¹

Universit´ e de Montr´ eal simon.leblond@umontreal.ca

9 septembre 2003

1Merci `a William McCausland, Fran¸cois Vaillancourt et Benoit Perron pour leurs commentaires utiles dans l’´elaboration de ce document. Je demeure seule responsable de toutes les erreurs.

(2)

Table des Mati` eres

1 Commandes g´en´erales importantes 5

1.1 Importation des donn´ees . . . 5

1.2 Manipulation des donn´ees . . . 8

1.2.1 Op´erateurs math´ematiques . . . 9

1.2.2 Op´erateurs logiques et de comparaison . . . 9

1.2.3 Fonctions et Op´erateurs matriciels . . . 9

1.3 Autres transformations des variables . . . 13

1.4 Divers . . . 14

1.5 Exemples et r´esultats pour le Chapitre 1 . . . 16

2 Visualisation des donn´ees 18 2.1 Impression/Exportation des donn´ees . . . 18

2.1.1 Impression `a l’´ecran . . . 18

2.1.2 Exportation . . . 18

2.1.3 Impression . . . 19

2.2 Exemples et r´esultats pour le Chapitre 2 . . . 19

3 Graphiques 21 3.1 Exemples et r´esultats pour le Chapitre 3 . . . 24

4 R´egressions Simples 26 4.0.1 Estimateurs de Variance Robustes . . . 28

4.1 Tests d’hétéroscédasticité . . . 30

4.2 Test de Changement structurel (Test de Chow) . . . 32

5 Variables instrumentales et Doubles Moindres Carr´es 34 5.1 Estimateur Variables Instrumentales . . . 34

5.2 DMCO . . . 36

(3)

5.3 Tests d’endogénéité . . . 37

6 Estimateur du Maximum de Vraissemblance (EMV) 38 7 Moindres Carrés Généralisés 41 8 Variables dépendantes qualitatives 43 8.1 Probit/Logit . . . 43

8.2 Tobit . . . 46

9 Séries Chronologiques 48 9.1 Opération sur les variables dans le cadre de séries chronologiques 48 9.2 Opérateurs de séries temporelles . . . 48

9.3 Tests d’autocorr´elation . . . 50

9.4 M´ethode de Box-Jenkins . . . 51

9.4.1 Stationnarit´e des donn´ees . . . 51

9.4.2 Mod´elisation des cycles: Mod`eles AR, MA, ARMA, ARIMA . . . 53

9.4.3 S´election de Mod`ele . . . 55

10 Donn´ees longitudinales (Panel) 56 10.1 Variables Binaires . . . 56

10.2 Effets Fixes et Effets Al´eatoires . . . 57

11 Interaction avec les traitements de texte et les tableurs 60 12 Où trouver ses données et comment les extraires 61 A Tableaux Récapitulatifs 62 A.1 Fonctions de Matlab . . . 62

A.2 Fonctions de Stata . . . 65

A.3 Op´erateurs . . . 68

(4)

Introduction

Ce manuel ne vient pas se substituer à vos notes de cours, mais plutôt les compléter en vous donnant un guide pour l’utilisation des logiciels économé- triques. À ce titre, bien que vous trouverez quelques fois des explications plus importantes sur la nature d’un problème économétrique, la majorité du temps on supposera que vous possédez déjà les connaissances liées à la section consultée.

Chaque section présente rapidement le but de l’opération qui y est traité.

Les commandes appropriées sont ensuite présentées, d’abord individuelle- ment, puis dans le cadre d’exemples concrets. Pour l’instant, les deux logiciels couverts par ce manuel sont Matlab et Stata. Notez que ce manuel couvre la version 7 de Stata, la version 8 sera intégrée peu à peu pendant l’année qui vient. Comme il s’agit d’un manuel encore en développement, des changements lui seront constamment apportés en cours de session et la version distribuée sera toujours la plus récente. Tout commentaire, suggestion ou correction sera bienvenu et apprécié.

Prenez note que ce texte décrit seulement certaines fonctions ainsi que leurs options les plus souvent utilisées pour le genre de recherches effectuées au bac et à la maˆıtrise en économie, il n’est donc pas du tout exhaustif. Un conseil: apprenez à utiliser l’aide de Matlab et de Stata. Il s’agit là d’outils fort utiles pour découvrir de nouvelles fonctions ou pour connaˆıtre l’ensemble des options disponible pour les fonctions décrites dans ce guide.

Les fonctions sont pr´esent´ees dans le format suivant:

Pour Matlab:

1. Le nom de la fonction;

2. Le format d’entr´ee;

(5)

3. Sa description;

4. Ses options (s’il y en a);

5. Un exemple court.

Pour Stata:

1. Le nom de la fonction et, entre paranthèses, le nom abrgégé de la fonction;

2. Sa description;

3. Le format d’entr´ee;

4. Ses options (s’il y en a);

5. Un exemple court.

La majorité des chapitres se terminent par une section donnant un exemple plus long et plus concret d’applications des informations présentés dans le chapitre.

La nomenclature suivante est suivie dans ce guide:

• Le texte en machine à écrire désigne les fonctions dans leur forme générique.

• Le texte enitaliquedésigne les variables et autres chaˆınes de caractères qui doivent être remplacées.

• Le texte ensans serifdésigne le texte tel qu’il serait entré à l’ordinateur.

Les chapitres 1 à 3 font le tour des commandes de base dans Stata et Matlab, ainsi que leur format de saisie. A la suite de ces chapitres vous` devriez être en mesure d’importer, de manipuler, puis d’exporter vos données et de tracer des graphiques.

Les chapitres 4 à 10 abordent quant à eux chacun un sujet spécifique de l’économétrie. Ils prennent donc une approche quelque peu différente puisqu’ils introduisent peu de nouvelles fonctions, se concentrant plutôt sur la démarche à adopter pour effectuer l’opération en question.

(6)

Finalement, les deux derniers chapitres (11 et 12) (à venir) sortent quelque peu du cadre de ce guide en abordant respectivement la manipulation des données par Word et Excel et la recherche de données. Ces chapitres ont pour but de vous aider dans le cadre plus général de la production d’un travail de recherche.

(7)

Chapitre 1

Commandes g´ en´ erales importantes

1.1 Importation des donn´ ees

Matlab load

load nom de f ichier¹

load fonctionne seulement avec les données numériques, mais a l’avantage d’être la commande d’importation de données la plus simple de Matlab. load importe le fichier spécifié dans une matrice du même nom. Les données doivent être séparées par des espaces ou des tabulations.

ex: importe les donn´ees du fichier ‘monfichier.dat’ dans la matrice ‘monfichier’

load monfichier.dat

Note: loaddevrait ˆetre suffisant pour les besoin du cours ECN 3949.

xlsread

[A, B] = xlsread(nom de f ichier)

1Puisque le dossier de travail est déjà spécifié dans Matlab, il est inutile de donner le chemin d’accès avec le nom des fichiers. Les extensions doivent par ailleurs être présentes.

(8)

xlsreadlit la première feuille d’un tableur Microsoft Excel (‘.xls’) et renvoit toutes les données numériques dans la matrice A et toutes les données texte dans la matrice B de même taille. Les élément de texte sont remplacés par

‘NaN’ dans la matrice A et les éléments numériques sont laissés vides dans la matrice B.

Sixlsreadrencontre des données texte dans la première rangée et la première colonne, la matrice B ne contiendra que ces valeurs.

ex: importe les donn´ees du fichier ‘tableur.xls’ dans les matrices

‘num’

[num,txt]= xlsread(‘tableur.xls’) textread

[A, B, C . . .] = textread(‘nom de f ichier’, ‘f ormat’)

textreadpermet d’importer des données d’un fichier formatténom de f ichier vers les variables spécifiéesA, B, C, etc. f ormatest une chaˆıne de caractères et spécifie le format des variables à importer, il doit y avoir un format par variable. N’importe quel séparateur de données peut-être utilisé par le fichier.

Les formats possibles sont:

• %u: donn´ees num´eriques, entier positif

• %f: données numériques non-entiéres

• %s: texte

• %q: texte, si entre guillemets (‘ “xyz” ’), renvoie seulement le texte (‘xyz’)

• ‘lettres’: ignore le texte ´ecrit; par exemple si on a ‘etage6’, “ ‘f ormat⁰

= ‘etage%u’ renverait ‘6’ ”

Il est suggéré de se limiter à%f et %q qui sont amplements suffisants dans le cadre du cours.

Options: headerlines: spécifie un nombre de lignes à sauter au début du fichier.

[A, B, C, . . .] = textread(‘f ichier’,‘f ormat⁰’,‘headerlines’, #) ex: fmt = ‘%f%f%f%q’

[y,var1,var2,var3] = textread(‘ECN3949TP1.txt’,fmt,headerlines,2)

(9)

dlmread

M = (‘nom de f ichier’, ‘s´eparateur de donn´ees’)

Moins flexible que textread, mais plus queload,dlmreadfonctionne seulement avec les données numériques, mais a l’avantage d’être plus simple.

dlmread importe le fichier sp´ecifi´e dans la matrice M.

‘séparateur de données’spécifie le type de séparateur dans le fichier, il peut prendre les valeurs suivantes:

• ‘,’: virgule, valeur par d´efaut

• ‘;’: point-vigule

• ‘\t’: tabulation

• ‘ ’: espace

ex: M = (‘ECN3949TP1.txt’,‘\t’)

Stata insheet

Rapide et efficace, insheetpermet d’importer les données d’un fichier texte possédantune observation par ligneet dont les données sont séparées par des tabulations ou desvirgules.

si le nom des donn´ees sont sur la premi`ere ligne:

insheet using nomdef ichier²

si le fichier ne contient pas le nom des donn´ees:

insheet [nomdesvariables]³ using nomdef ichier

options⁴: clear, spécifie que les données en mémoires peuvent être rem- placées par les nouvelles données importées.

2A moins de pr´` ecisions contraires,nomdef ichierindique le nom complet, donc avec le chemin d’acc`es et l’extension (a:\test.txtpar exemple).

3La nomenclature de l’aide de Stata est conserv´ee tout au long de ce guide, ainsi les arguments entre “[ ]” d´esignent des arguments facultatifs.

4Les options dans stata sont séparés du reste de la commande par une virgule. Par exemple, dans le cas présent: insheet using”c:\test.txt”, clear

(10)

infile (inf)⁵

Permet plus de flexibilité que insheet en permettant que les observations soient sur plusieurs lignes ou que les données soient séparées par des espaces.

une observation par ligne: infile nomdesvariables using nomdef ichier observations sur plusieurs lignes:

infile nom des variables [ skip(#) nom des variables] using ‘‘nom de f ichier’’;

où#désigne le nombre de ligne à sauter pour continuer la lecture de l’observation.

options: clear, voir insheet

ex: observation sur la première, la deuxième et la quatrième ligne. . .

infile var1 var2 skip var3 var4 skip(1) var5 var6 using “a:\test.raw”

1.2 Manipulation des donn´ ees

Matlab

Matlab ´etant un logiciel de manipulations de matrices, il n’y a pas de distinction faite entre une matrice et une variable comme c’est le cas avec Stata. Les variables sont automatiquement trait´e comme des vecteurs dans le cas de Matlab.

Toutes les manipulations de donn´ees sont donc trait´ees dans la section 1.2.3:

Fonctions et op´erateurs matriciels.

Stata

generate (g)

Probablement la commande la plus utile (et utilis´ee) dans Stata, elle permet de cr´eer des nouvelles variables.

generate nouvellevariable = expression

ex: g x2 = x^2

5Le nom entre paranthèses qui suit le nom de la fonction désigne l’abréviation que l’on peut utiliser dans le code.

(11)

replace

Mˆeme id´ee que generate, mais pour une variable existante.

replace variable existante =expression

ex: replace x2 = x/2

1.2.1 Op´ erateurs math´ ematiques

Ce sont les mˆemes dans Matlab et Stata:

Addition: + Soustraction: - Multiplication: * Division: / Puissance: ^

1.2.2 Op´ erateurs logiques et de comparaison

Ce sont les mˆemes dans Matlab et Stata:

ET: &

OU: | Non (¬) : ~ Egal´ : ==

Dif ferent´ :~= P lusgrand:>

P luspetit :<

P lusgrandou´egal:>=

P luspetitou´egal:<=

1.2.3 Fonctions et Op´ erateurs matriciels

Matlab

(12)

Cr´eation de matrices

Les matrices et les vecteurs sont crées dans Matlab en inscrivant directement le nom de la matrice et les opérations qu’on désire effectuer séparées par le signe égal (‘=’).

ex:

A = [1,2,3,4;5,6,7,8]; où les virgules séparent les colonnes et les points-virgules séparent les rangées. (matrice 2×4)

B = A*2 C = A^2

Fonctions matricielles

• Cr´eer une matrice identit´e 2×2: I = eye(2)

• Créer une matrice 4x5 dont chaque élément égale à zéro: Z = zeros(4,5)

• Créer un vecteur 1x6 dont chaque élément égale à un: O = ones(1,6)

• Créer une matrice 2x2 dont chaque élément est un aléa U(0,1): U = rand(2), équivalent à U = rand(2,2)

• Créer une matrice 3x8 dont chaque élément est un aléa N(0,1): N = randn(3,8)

Op´eration sur les matrices

• Extraction d’une sous-matrice:

– Extraire la deuxieme colonne de A: A(:,2) – Extraire la deuxieme rangée de A: A(2,:) – Extraire l’élément A₁₂: A(1,2)

– Extraire le vecteur (A12, A13, A14): A(1,2:4)

• Empilage de matrices

– Empiler horizontalement (mettre les rang´ees une sur l’autre): [A,A]

(4×4)

(13)

– Empiler verticalement (mettre les colonnes une à côté de l’autre):

[A;A] (2×8)

• Opération élément par élément: opérateur mathématique précédé d’un point (‘.’)

– Multiplication de A par B élément par élément: A.*B

• Inverse: Inv(A)

• Transpos´ee: A⁰

• Matrice diagonale n×n, avec pour diagonale les éléments de V, où V est un vecteur n×1 ou 1×n: diag(V)

• Extraire la diagonale d’une matrice carr´ee A sous forme de vecteur:

diag(A)

Autres trucs utiles

• Cr´eation d’une variable binaire: g = (condition logique);

ex: d = (y >=0)

• Création d’un vecteur dont les éléments sont une suite: v = début:incrément:f in;

ex: x = 1.0;0.1;2.0 produit le vecteur [1.0,1.1,1.2, . . . ,2.0];

notez que l’argumentincrement´ est facultatif, ainsix = 1:10 produitle vecteur [1,2, . . . ,10].

Stata

Fonctions matricielles matrix (mat)

L’´equivalent de generate pour les matrices, permet de cr´eer des nouvelles matrices ou de modifier des matrices existantes.

matrix nom de la matrice = expression

(14)

ex:

Cr´eation d’une matrice: mat A = B*C

Modification d’une matrice existante: mat A = A*2

Construction d’une matrice: mat D = (1,0,0\0,1,0); où les virgules séparent les colonnes et les \ séparent les rangées (matrice 2×3).

Extraction d’une sous-matrice: mat A = B(1..4,2...); se lit rangées 1 à 4, colonne 2 à N.

Remplacement d’un élément: mat A(1,1) = 3; remplace l’élément a₁₁ par 3.

mkmat

Permet de transformer des variables existantes en vecteurs du mˆeme nom ou en une nouvelle matrice.

Transformation en vecteurs: mkmat nom(s) de variable(s)

Transformation en matrice: mkmat nom(s) de variable(s), matrix [(nom de la nouvelle matrice)]

ex: mkmat x1 x2 x3 x4, mat(X) svmat

Inverse de mkmat, transforme les colonnes d’une matrice en vecteurs.

svmatmatrice,[names(nom col1, nom col2, . . .)];namespeut aussi s’´ecrire n

ex: svmat X, n(x1,x2,x3,x4) matrix get

Sert à obtenir une copie d’une matrice système⁶ Quelques matrices systèmes:

• b: coefficients apr`es une estimation

• VCE: matrice de variance-covariance apr`es une estimation matrix variable = get(matrice syst`eme)

6Les variables et les matrices systèmes sont stockés par Stata dans des noms prédéfinis après une opération donnée.

(15)

ex: matrix beta = get( b) det(A): d´eterminant de A

rowsof(A): nombre de rangées de A colsof(A): nombre de colonnes de A el(A,i,j): élément a_ij deA

I(n): matrice identit´en×n

inv(A): inverse de la matrice carr´eeA

diag(V): matrice diagonale n×n, avec pour diagonale les éléments de V, où V est un vecteur n×1 ou 1×n

vecdiag(A): extrait la diagonale d’une matrice carr´ee A sous forme de vecteur

Op´erateurs matriciel

Soit AetB, deux matrices carrées définies positivesn×n etC, une matrice définie positive t×n:

Transpos´ee: A⁰ (n×n) Somme: A + B (n×n) Diff´erence: A - B (n×n) Produit vectoriel: B*C⁰ (n×n) Division par un scalaire: A/k (n×n)

Empiler les rang´ees horizontalement: A ((n+t)×n) Empiler les colonnes verticalement: A,B (n×2n)

1.3 Autres transformations des variables

Matlab

Soit un vecteur z 1×n:

exp(z): exponentielle de z élément par élément log(z): logarithme naturel de z élément par élément sqrt(z): racine carrée de z élément par élément mean(z): moyenne des éléments du vecteur z std(z): écart-type des éléments du vecteur z var(z): variance des éléments du vecteur z

(16)

sum(z): somme des ´el´ements du vecteur z

cumsum(z): somme cumulative des ´el´ements du vecteurz(retourne un vecteur 1×n)

min(z): renvoie l’éléments du vecteur z ayant la valeur la moins élevée max(z): renvoie l’éléments du vecteur z ayant la valeur la plus élevée length(z): nombre de colonnes du vecteur z

size(z): renvoie un vecteur 1×2 contenant la taille de la matrice (rang´ees,colonnes) Stata

log(x): logarithme naturel de x, ´equivalent `a ln(x) exp(x): exponentiel de x, i.e. e^x

mod(x,y): partie enti`ere de x par rapport `ay, par exemple: mod(5,26) = 5 abs(x): valeur absolue de x

sqrt(x): racine carrée de x, équivalent àx^1/2

max(x₁, ..., x_n): renvoie l’argument possédant la valeur la plus élevée min(x₁, ..., x_n): renvoie l’argument possédant la valeur la moins élevée sum(x): somme de tous les éléments de x

uniform(): donne une valeur al´eatoire entre 0 et 1 (ditribution uniforme sur [0,1))

1.4 Divers

Matlab Commentaires

Il est possible d’ins´erer des commentaires dans son programme en prenant soin de d´ebuter la ligne de commentaire par le symbole ‘%’.

ex: % Ceci est un commentaire.

Suppression de la sortie

Pour que Matlab effectue une op´eration sans que l’on voit le r´esultat, il suffit de terminer la ligne de commande par un point-virgule (‘;’).

ex: B = [8,7,6,5;4,3,2,1]; N’affichera pas la matrice B.

(17)

Commande sur plusieurs lignes

Il est possible d’´ecrire une commande sur plusieurs lignes. Les ‘. . . ’ indiquent

`

a Matlab que la commande se poursuit `a la ligne suivante.

ex:

[v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15,v16] =. . . textread(‘TP1donnees.txt’, fmt);

Stata

Commentaires

Il est possible d’ins´erer des commentaires dans son programme en prenant soin de d´ebuter la ligne de commentaire par le symbole ‘*’.

ex: * Ceci est un commentaire.

more

Avez-vous déjà rencontré le message--more--qui fait une pause dans l’affichage de vos données? Si ¸ca vous énerve, vous pouvez enlever ce message en spécifiant set more off au début de votre programme.

set matsize (set mat)

La taille maximale des matrices est fixée par défaut à 40×40 dans Stata.

Pour utiliser des matrices plus grandes vous devez utiliser la fonction set matsize.

set matsize #; o`u # est un nombre entre 10 et 800 qui indique la taille maximale des matrices.

if

La majorité des fonctions peuvent être suivies de la commandeifqui permet de spécifier une condition pour que l’expression soit executée. if est placé après la fonction, mais avant les options

Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très souvent.

commande if expression

ex: replace x=y if x < y

(18)

in

La majorité des fonctions peuvent être suivies de la commandeinqui permet de spécifier l’étendue des données affectées par la fonction. inest placé après la fonction, mais avant les options.

Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très souvent.

commande in etendue; o`´ u ´etendue peut prendre la forme # ou #/#, et

# peut-être un nombre positif, l (dernière observation), f (première observation) ou un nombre négatif (distance par rapport à la dernière observation).

ex:

regress y x1 x2 in f /60; équivalent à regress y x1 x2 in 1/60: les 60 premières observations.

list y in -10/l: les 10 derni`eres observations.

1.5 Exemples et r´ esultats pour le Chapitre 1

Lecture des données à partir du fichier Donnees.dat et manipulation des variables dans le but de faire une régression. Le fichierDonnees.datcontient 5 variables, comptant chacune 100 observations.

Matlab

load Donnees.dat;

% Attribution de noms `a certaines des variables.

px = Donnees(:,1);

qt = Donnees(:,2);

% Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit

%être inclu dans l’ensemble [0,25;0,5]et la 5e variable doit être égale

% `a 1 pour que la variable binaire ´egale 1.

bin = (0.25 = Donnees(:,3)/Donnees(:,4) = 0.5 & Donnees(:,5) == 1);

% Cr´eation d’une variable indice.

no = [1:100]

Stata

(19)

set more off

infile px qt var3 var4 var5 ”c:\mes documents\Donnees.dat”, clear

* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit

* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale

* `a 1 pour que la variable binaire ´egale 1.

g bin = (0.25 = var3/var4 = 0.5 var5==1)

* Cr´eation d’une variable indice.

g no = n

(20)

Chapitre 2

Visualisation des donn´ ees

2.1 Impression/Exportation des donn´ ees

2.1.1 Impression ` a l’´ ecran

Matlab

Matlab affiche par défaut toutes les opérations effectuées à l’écran. Pour

´

eliminer la sortie, se référer à la section 1.4.

Stata list

Affiche à l’écran la valeur des variables spécifées.

list [nom(s) de variable(s)]; si aucun nom de variable est sp´ecifi´e, Stata affiche toutes les variables.

2.1.2 Exportation

Matlab diary

Permet de sauvegarder une copie de sa session dans le fichier sp´ecifi´e. Doit ˆ

etre suivi de diary(‘off’) `a la fin du programme.

diary(‘nom de f ichier’) programme

(21)

diary(‘off’) wk1write

wk1write(‘nom de f ichier’,M)

Sauvegarde la matrice M dans un fichier de tableur nom de f ichier.wk1;

aucune extension ne doit donc être spécifiée.

Stata log using

Permet de sauvegarder une copie de sa session dans le fichier sp´ecifi´e. Doit ˆ

etre suivi de log off `a la fin du programme.

log using nom de f ichier programme

log off

Options: replace, indique `a Stata de remplacer le fichier existant.

2.1.3 Impression

Matlab

La fa¸con la plus pratique d’imprimer ses résultats est d’utiliser la fonction diary, puis de traiter le fichier de sortie avec son traitement de texte préféré.

Stata

La fa¸con la plus pratique d’imprimer ses résultats est d’utiliser la fonction log, puis de traiter le fichier “.log” avec son traitement de texte préféré.

2.2 Exemples et r´ esultats pour le Chapitre 2

Reprenons l’exemple du chapitre 1, en incluant cette fois les fonctions du chapitre 2.

Matlab

diary(’ExChap2.out’);

(22)

load Donnees.dat;

% Attribution de noms `a certaines des variables.

px = Donnees(:,1);

qt = Donnees(:,2);

% Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit

%être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale

% `a 1 pour que la variable binaire ´egale 1.

bin = (0.25 = Donnees(:,3)/Donnees(:,4) = 0.5 & Donnees(:,5) == 1);

# Cr´eation d’une variable indice.

no = [1:100]

diary(’off’) Stata

log using ”c:\mes documents\ExChap2.log”, replace set more off

infile px qt var3 var4 var5 ”c:documents.dat”, clear

* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit

* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale

* `a 1 pour que la variable binaire ´egale 1.

g bin = (0.25 = var3/var4 = 0.5 & var5 ==1) list px qt bin

* Cr´eation d’une variable indice.

g no = n log close

(23)

Chapitre 3 Graphiques

Matlab plot

Trace des nuages de point en deux ou trois dimensions.

plot(x, y,‘couleur style marqueur’,x, y2,‘couleur style marqueur de 2’,x, y3, ...)

Où ‘couleur style marqueur’ est une chaˆıne de caractère optionnelle contenant de un à quatre caractères et qui définit la couleur de la série, le style de la ligne et le type de marqueur des points.

Les possibilit´es sont:

• Couleurs:

– ‘c’: cyan – ‘m’: magenta – ‘y’: jaune – ‘r’: rouge – ‘g’: vert – ‘b’: bleu – ‘w’: blanc – ‘k’: noir

• Styles:

(24)

– ‘-’: solide – ‘--’: tiret (???) – ‘:’: pointill´e – ‘-.’: tiret-point – ‘none’: pas de ligne

• Marqueurs:

– ‘+’, ‘o’, ‘*’, ‘x’: marqueur du mˆeme signe – ‘s’: carr´e (plein)

– ‘d’: losange (plein)

– ‘^’,‘v’,‘<’: triangle vers le haut, le bas ou la gauche respectivement (plein)

– ‘p’: pentagone (plein) – ‘h’: hexagone (plein)

Il est possible de donner une seule variable, Matlab fait alors un graphique de cette variable par rapport `a l’indice des observations.

ex:

plot(y): courbe de y par rapport `a l’indice des observations plot(x,y): courbe de y par rapport `a x, options standard (ligne pleine,pas de marqueur)

plot(x,y,‘k+’): courbe de y par rapport `a x, marqueurs en ‘+’, noirs (pas de ligne)

plot(x,y,‘b-d’,x,y2,‘r:’): courbe de y par rapport à x et de y2 par rapport à x (sur le même graphique), première courbe bleue, pleine, marqueurs en losanges, deuxième courbe rouge, pointillée (pas de marqueurs)

Il est possible une fois le graphique trac´e de modifier une foule de ses param`etres, voici quelques-unes de ces fonctions:

xlabel(‘titre’): spécifie le titre de l’axe des x ylabel(‘titre’): spécifie le titre de l’axe des y title(‘titre)’: spécifie le titre du graphique.

(25)

axis: permet de définir les propriétés des axes, voir l’aide de Matlab pour plus de détails.

grid: permet de définir les propriétés des axes, voir l’aide de Matlab pour plus de détails.

hold

Permet de superposer plusieurs graphiques en sp´ecifiant hold on.

Pour ne plus superposer les graphiques suivant, il suffit de sp´ecifier hold off.

plot(x,y) hold on plot(x,y2) plot(x,y3) hold off

Pour sauvegarder un graphique, il suffit de s´electionner Save dans le menu File de la fenˆetre du graphique.

Stata graph (gr)

Trace des graphiques.

graph nom des variables, [type de graphique, autres options]

O`u type de graphiquepeut prendre les valeurs suivantes:

• histogram (h): histogramme

• twoway (t): nuage de points à deux axes; valeur par défaut si plusieurs variables sont affichés. La première variable spécifiée est toujours la variable dépendante.

• bar (b): graphique `a barres

• pie (p): graphique en pointe de tartes

Voici certaines des options suppl´ementaires les plus utiles:

• xlog, ylog: spécifie que l’axe des x ou des y respectivement doit être en échelle logarithmique.

(26)

• xline, yline: spécifie qu’une grille en x ou en y respectivement devrait être affichée.

• connect(option)(c(option)): spécifie si les points devraient être con- nectés/. optionpeut prendre les valeurs suivantes:

– .: non-connect´es; valeur par d´efaut – l: lignes droites entre les points

– s: traces des lignes courbes entre les points ( ´A V´ERIFIER)

• symbol(option) (s(options)): sp´ecifie le symbole que doivent prendre les points. option peut prendre les valeurs suivantes:

– O: grand cercles; valeur par d´efaut – o: petits cercles

– .: points – i: invisibles

• saving(nomdef ichier), [replace]: sauvegarde le graphique dans le fichier spécifié, si aucune extension n’est spécifiée, Stata ajoute par défaut “.gph”.

replace indique que le fichier existant peut ˆetre remplac´e.

3.1 Exemples et r´ esultats pour le Chapitre 3

Matlab

diary(’ExChap3.out’);

% cr´eation d’un indice de temps commen¸cant `a 4.

t = 4:103;

% cr´eation du log de cet indice.

lnt = log(t);

plot(t,lnt,‘k’) plot(t,lnt,‘k-’) plot(t,lnt,‘k-p’) hold on

plot(t,-lnt,‘b-+’)

(27)

xlabel(‘temps’)

ylabel(‘log du temps’) title(‘courbe logarithmique’) diary(’off’)

Stata

log using ”e:\ExChap3.log”, replace set more off

* Fixer le nombre d’observations `a 100. set obs 100

* création d’un indice de temps commen¸cant à 4. g t = n+3 * création du log de cet indice. g lnt = log(t) graph lnt t, saving(”e:1”, replace)

graph lnt t, yline saving(”e:2”, replace) graph lnt t, yline c(s) saving(”e:3”, replace) graph lnt t, yline s(.) saving(”e:4”, replace)

graph lcrd t, xlog yline c(s) s(i) saving(”e:5”, replace) log off

(28)

Chapitre 4

R´ egressions Simples

Dans ce chapitre et les suivants, il est suggéré de lire la section de Matlab même si on utilise Stata: contrairement à ce dernièr où on a qu’à utiliser une fonction pour effectuer l’opération désirée, Matlab nécessite l’élaboration pas

`

a pas de l’op´eration qui est effectu´ee par la boˆıte noire qu’est Stata.

Dans ce chapitre nous consid´ererons le mod`ele suivant:

y=β₀+β₁x₁+β₂x₂+· · ·+β_kx_k+uy=Xβ+U

Matlab

MCO

D´efinition des variables:

X = [ones(size(x1),x1,x2,. . . ,xk]

[T,K] = size[X]

TetKsont respectivement le nombre d’observations et le nombre de variables ind´ependantes.

Proc´edure pour calculer les moindres carr´es ordinaires (MCO):

Calcul des coefficient:

b = inv(X’*X)*X’*y

o`u X est une matrice T ×K,Y est un vecteur t×1 et b un vecteur k×1 Calcul des r´esidus:

e = y-X*b

(29)

Calcul de la variance des r´esidus:

sigma2 = (e’*e)/(T-K)

Calcul de la variance des coefficients:

varb = sigma2 * inv(X’*X)

Calcul de l’´ecart-type des coefficients:

etype = sqrt(diag(varb))

Cr´eation d’un vecteur de y-moyen:

ybar = [ones(size(y))*mean(y)]

Vecteur des y pr´edits:

yhat = X*b

Variation expliqu´ee:

SSE = sum((yhat-ybar).^2) Variation totale:

SST = sum((y-ybar).^2) Calcul du R²:

R2 = SSE/SST

Tests d’hypoth` eses et Intervalles de confiance

Test de H₀,β₂ = 0:

b2 = b(3)

etype2 = etype(3) t2 = b2/etypeb2

On obtient ainsi la valeur de la statistique t.

Intervalle de confiance `a 95% de β₂: bornesupp = b2 + etype2*1.96 borneinf = b2 + etype2*(-1.96)

Fonctions dans Matlab

La notion de fonction est introduite, car vous effectuerez des MCO tellement souvent qu’il vous est suggéré d’en faire une fonction dès maintenant.

Une fonction est un fichier matlab ind´ependant qui contient du code

`

a être exécuté lorsque son nom est invoqué.

(30)

La premi`ere ligne du fichier doit ˆetre sous la forme suivante:

function [varo1, varo2, . . .] = N om de f onction(vari1, vari2, . . .) où varo désigne une variable retournée par la fonction et vari désigne une variable utilisée par la fonction.

Les lignes subséquentes contiennent le code à être exécuté.

La fonction peut ensuite ˆetre appel´ee par la commande suivante:

[vars1, vars2, . . .] = N om de f onction(vare1, vare2, . . .)

où vars sont les nom qu’on désire utiliser pour les variables varo etvare le nom de variables que l’on donne à la fonction.

ex: MCO.m

function [b,e,etype,R2] = MCO(X,y) [T,K] = size(X);

b = inv(X’*X)*X’*y;

e = y-X*b;

sigma2Ch = (e’*e)/(T-K);

varChb = sigma2Ch * inv(X’*X);

etype = sqrt(diag(varChb));

ybar = [ones(size(y))*mean(y)];

yCh = X*b;

SSE = sum((yCh-ybar).^2);

SST = sum((y-ybar).ˆverb+2+);

R2 = SSE/SST;

Cette fonction serait appel´ee par la commande suivante:

[beta,u,etype,R2] = MCO(Z,y)

oùbeta, u, etypeetR2 sont les noms de variables qui seront utilisées dans le code et Z ety sont les variables contenant les données à ˆ

etre traitées. Zprend généralement la formeZ = [ones(size(x1)),x1,x2,...].

4.0.1 Estimateurs de Variance Robustes

Il peut être utile de pouvoir calculer une matrice de variance-covariance qui soit robuste à la présence d’hétéroscédascticité. L’estimateur robuste de cette matrice le plus utilisé est celui deWhitequi est donné par la formule suiv-

(31)

ante:

V ar[b] =ˆ 1 T

X⁰X T

⁻¹ 1 T

T

X

i=1

e²_ix_ix⁰_i

! X⁰X

T ⁻¹

En matlab, toujours en utilisant les r´esultats de la fonction MCO.m, on devrait ´ecrire:

e2 = e.^2

varWhite = T*inv(X’*X)*sum((e2.*X)*X’)/T*inv(X’*X) Stata

regress (reg)

Incontournable si on désire faire des régressions par MCO. Effectue la régression de la variable dépendante sur la ou les variables indépendantes spécifiées.

regress variable d´ependante [variables ind´ependantes]

Options:

• level(#) (l(#)): permet de spécifier le niveau de confiance pour les intervalles et le p-value (# doit être un entier); si level() n’est pas spécifié, # prend la valeur 95, i.e. le niveau de confiance est fixé à 95%.

• robust (r): calcule des variances robustes par la m´ethode de Eicker- White.

ex: reg y x1 x2 x3 if x1==1, r predict

Permet de calculer les valeurs pr´edites, les r´esidus, etc. pour toutes les observations.

predict nom de nouvelle variable; sans aucune option calcule les valeurs pr´edites (ˆy).

Options:

• xb: calcule X⁰β, la valeur lin´eaire pr´edite

• residuals (r): calcule les r´esidus

• stdp: calcule les ´ecarts-types des valeurs pr´edites

(32)

ex: calcule les ˆy hors-´echantillon reg y x1 x2 x3 in 1/100

predict y hat if ˜ e(sample)

test (t)

testpermet d’effectuer des tests d’hypoth`eses apr`es une estimation. Il prend principalement deux formes:

test [expression1 = expression2]: test que l’expression1 n’est pas statistiquement diff´erente de l’expression2

test liste de coef f icients: test que les coefficients ne sont pas conjointe- ments statistiquement diff´erents de z´ero.

ex:

reg y x1 x2 x3 test x1 = x2 test x2 x3

4.1 Tests d’h´ et´ erosc´ edasticit´ e

La présence d’hétéroscédasticité ne vient pas biaiser vos résultats, elle biaise plutôt les écarts-types obtenus par MCO. Il existe plusieurs méthodes sim- ilaires de tester pour la présence d’hétéroscédasticité. La plus simple est le test de Breusch-Pagen:

1. récupérer les résidus de la régression qu’on désire tester;

2. générer le carré des résidus;

3. régresser la carré des résidus sur les variables dépendantes de la régression originale;

4. tester si les coefficients sont conjointement significatifs (test F ou test LM).

(33)

Matlab

[b,u,etype,R2] = MCO(X,y) u2 = u.^2

[bu,e,etypeu,R2u] = MCO(X,u2) Test F:

F = (R2u/length(bu’))/((1-R2u)/(length(u2)-length(bu’))) ¹ Test LM ²:

LM = length(u2)*R2u

Notez bien que le R² utilisé est celui de la régression auxiliaire effectuée en 3.

Stata reg y x1 x2 predict u, r g u2 = uˆ2 reg u2 x1 x2

Il suffit alors de regarder la statistique F donn´ee par Stata.

La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement distribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des variables dépendantes et leurs produits croisés dans la régression de l’étape 3, il s’agˆıt là du test de White. Afin de limiter le nombre de régresseurs, on peut utiliser un test de White légèrement modifié:

u² =β₀+β₁yˆ+β₂yˆ²+e

On proc`ede pour le reste exactement de la mˆeme fa¸con que pour le test de Breusch-Pagan.

Que faire lorsque vous trouvez la présence d’hétéroscédasticité? Deux options s’offrent à vous:

• Calculer des variances robustes par la m´ethode de White³

1Rappel: la forme g´en´erale du test F pour la signification conjointe de tous les coefficients est: F = _(1−R2^R)/(n−k−1)²^/k

2Rappel: la statistique LM suit uneχ²_k

3Il peut-être bien tentant de procéder systématiquement avec les variances robustes

(34)

• Estimer le modèle par MCG, i.e. modéliser la forme d’hétéroscédasticité (voir le chapitre 7).

4.2 Test de Changement structurel (Test de Chow)

Consid´erez le mod`ele suivant:

y=β0+β1x1+β2x2+u

Le test de Chow sert à vérifier s’il existe une différence dans l’influence d’une variable dépendante entre deux groupes de données, i.e. si le coefficient est statistiquement différent. Les deux groupes de données pourraient être deux séries d’observations ou deux périodes de temps par exemple.

La fa¸con “classique” d’effectuer le test de Chow est d’effectuer la régression du modèle pour les deux groupes de fa¸con indépendante et pour les deux groupes ensemble:

= β₁₀+β₁₁x₁₁+β₁₂x₁₂ ˆ

y2 =β20+β21x21+β22x22

ˆ

y = β₀ +β₁x₁ +β₂x₂ puis de tester si les coefficient sont statistiquement diff´erents par un test F:

F = (SSRˆ _y −SSRˆ _y₁ −SSRˆ _y₂)/q (SSRˆ _y₁ −SSRˆ _y₂)/n₁+n₂−2k)

Rappel: q est le nombre de contraintes et k le nombre de coefficients, ici q =k = 3

Une autre fa¸con plus rapide d’effectuer ce test est de construire une variable binaire égale à un pour les observations du deuxième groupe et de faire une seule régression sur les variables originales et sur les termes d’interaction avec la variable binaire⁴:

Eicker-White pour éviter de faire le test d’hétéroscédasticité, mais cette fa¸con de faire réduit la précision de vos résultats (i.e. gonfle les écarts-types et réduit la puissance des tests) lorsque les données sont homoscédastiques.

4Cette section et l’exemple qui la suit sont inspir´es de la rubrique de l’aide de Stata:

How can I compute the Chow test statistic? par Bill Gould.

(35)

Soit δ la variable binaire:

ˆ

y=β0+β1x1+β2x2β3δ+β4x1δ+β5x2δ

On désire maintenant tester si β₀ = (β₀ +β₃), si β₁ = (β₁ +β₄) et si β₂ = (β2+β5). Ce qui revient à tester si β3,β4 etβ5 sont conjointement différent de 0. Ceci peut être facilement effectué par un test de F.

ex:

Matlab

g2 = (groupe ==2);

g2x1 = g2*X(:,2);

g2x2 = g2*X(:,3);

Xg = [X,g2,g2x1,g2x2];

function [b,u,etype,R2] = MCO(X,y);

function [bg,ug,etypeg,R2g] = MCO(Xg,y);

# Test F:

F = (R2 - R2g/length(b’))/((1-R2g)/(length(u)-length(b’)))⁵

Stata

g g2 = (groupe == 2) g g2x1 = g2*x1

g g2x2 = g2*x2

reg y x1 x2 g2 g2x1 g2x2 test g2 g2x1 g2x2

5Rappel: la forme généraleR² du testF est: F =_(1−R^(R2²ûr)/(n−k−1)^r−R²^r^)/k

(36)

Chapitre 5

Variables instrumentales et Doubles Moindres Carr´ es

Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les hy- pothèses classiques du modèle linéaire sont violées et on se retrouve face à un problème d’endogénéité. Dans ces cas, on peut faire appel à l’estimateur de variables instrumentales (VI) ou auxdoubles moindres carrés ordinaires (DMCO).

5.1 Estimateur Variables Instrumentales

Soit X, une matrice de VI et Z, la matrice originale. L’estimateur VI est donn´e par:

βˆ_{(V I)} = (X⁰Z)⁻¹X⁰y et l’estimateur VI de la covariance par:

ˆ

σ²(X⁰Z)⁻¹(X⁰X)(Z⁰X)⁻¹ o`u

ˆ σ² = 1

T(y−Zβˆ_(IV₎)⁰(y−Zβˆ_(IV₎).

ou, lorsque K > J (K ´etant le nombre de VI et J le nombre de variables ind´ependantes), par:

βˆ_(IV₎ = [Z⁰X(X⁰X)⁻¹X⁰Z]⁻¹Z⁰X(X⁰X)⁻¹X⁰y.

(37)

ˆ

σ²[Z⁰X(X⁰X)⁻¹X⁰Z]⁻¹. Matlab

Cr´eons la fonctionVI pour l’estimateur VI:

function [bvi,evi,etypevi,varChbvi,R2vi] = VI(X,Z,y) [T,K] = size(X);

bvi = inv(X’*Z)*X’*y;

evi = y-Z*bvi;

sigma2Ch = (evi’*evi)/(T-K);

varChbvi = sigma2Ch * inv(X’*Z)*X’*X*inv(Z’*X);

etypevi = sqrt(diag(varChbvi));

yCh = Z*bvi;

SSEvi = sum((yCh-ybar).ˆ2);

SSTvi = sum((y-ybar).ˆ2);

R2vi = SSEvi/SSTvi;

Notez que cette fonction est optimale seulement pour K ≤J.

Stata ivreg

ivreg permet de faire directement une r´egression par DMCO.

ivreg variable dependante variables independantes (variable dependante= variable(s) intrumentale(s)), options

où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui affiche les résultats de la première régression.

ex:

ivreg y1 z1 z2 (y2=x1), r first predict peut être utilisé après ivreg

(38)

5.2 DMCO

Le principe des doubles moindres carrés ordinaires est d’utiliser une estimation de la variable endogène qui ne soit pas corrélée avec le terme d’erreur pour effectuer la régression.

Soit le mod`ele suivant:

y₁ =β₀+β₁x₁+β₂x₂ +β₃y₂+u et soit z une VI de y₂.

Comme leur nom l’indique, les DMCO se font en deux ´etapes.

1. Estimation de la variable endog`ene:

R´egression de y₂ sur toutes les variables ind´ependantes (x₁ etx₂ ici) et la/les VI pour y2 (z ici).

On récupère ˆy₂, l’estimation linéaire de y₂. 2. Régression du modèle avec ˆy₂:

R´egression de y₁ sur une constante, x₁, x₂ et ˆy₂.

Cette dernière régression ne souffrant plus d’endogénéité, les ˆβ ainsi obtenus sont non-biaisés.

Matlab

Z = [ones(size(y1)),x1,x2,z]

[bz,uz,etypez,R2z] = MCO(Z,y2) y2hat = Z*bz

X = [ones(size(y1)),x1,x2,y2hat]

[b,u,etype,R2] = MCO(X,y1) Stata

Voir la fonction ivreg à la section précédente.

(39)

5.3 Tests d’endog´ en´ eit´ e

Letest de Hausmanpermet de vérifier s’il existe bel et bien une différence entre l’estimateur VI et l’estimateur MCO, vérifiant ainsi s’il y a bel et bien endogénéité des variables (si les deux estimateurs sont consistants, ils seront asymptotiquement égaux). Sous H0, la statistique de Hausman est:

H= [ ˆβ_{(V I)}−b]⁰[ˆσ²[(Z⁰X(X⁰X)⁻¹X⁰Z]⁻¹ −σˆ²(Z⁰Z)⁻¹]⁻¹[ ˆβ_{(V I)}−b]∼χ²(J)

Matlab

En utilisant la fonction développée à la section précédente:

[bmco,umco,etypemco,varChbmco,R2mco] = MCO(X,y) [biv,uiv,etypeiv,varChbiv,R2iv] = IV(X,y)

H = (biv-bmco)’*(varChbiv-varChbmco))’*(biv-bmco) Stata

hausman

Effectue le test de sp´ecification d’Hausman.

Estimation du mod`ele moins efficient, mais convergent (VI ici) hausman, save

Estimation du mod`ele efficient, mais peut-ˆetre pas convergent (MCO ici) hausman

Options: constant (c), indique que la constante doit ˆetre inclue dans la comparaison des deux mod`eles.

ex:

ivreg y1 z1 z2 (y2=x1) hausman, save

reg y1 z1 z2 y2 hausman, c

(40)

Chapitre 6

Estimateur du Maximum de Vraissemblance (EMV)

La fonction de vraisemblance est la probabilit´e jointe des observations

´

etant donné les paramètres d’intérêts, i.e.:

L(θ|y) =f(y₁, . . . , y_n|θ) =

n

Y

i=1

f(y_i|θ)

L’estimateur du maximum de vraisemblance (EMV) a pour but de choisir le vecteur de paramètresθ qui maximise la fonction de vraisemblance, i.e. pour lequel les données observées sont les plus probables. Pour simplifier les choses, la fonction de log-vraisemblance,L(θ|y), est généralement utilisée¹. Prenons l’exemple d’un échantillon normalement distribué, de moyenne 0 et de variance σ²:

f(y|X, β, σ²) =

T

Y

t=1

(2πσ²)^−1/2exp[(y_t−x⁰_tβ)²]

= (2πσ²)^{−T /2}exp

−(y−Xβ)⁰(y−Xβ) 2σ²

.

La log-vraisemblance est L(β, σ²) =−T

2 log(2π)− T

2 logσ² −(y−Xβ)⁰(y−Xβ)

2σ² .

1Le logarithme ´etant une fonction montone, la valeur qui maximiseL(θ|y) est la mˆeme que celle qui maximise L(θ|y).

(41)

Les CPO sont:

δlnL

δβ = (y−Xβ)(y−Xβ) 2σ²

δlnL

δσ² =− T

2σ² + (y−Xβ)⁰(y−Xβ) 2σ⁴

Ce qui nous permet de trouver

βˆ= (X⁰X)X⁰y σˆ² = (y−Xβ)⁰(y−Xβ)

T = eˆ⁰ˆe T

Matlab

Il n’existe pas de fonction de maximisation dans Matlab, il faut donc minimiser la n´egative de la fonction `a l’aide de la fonction suivante:

fminsearch

[x, f val] = fminsearch(f onction, options, variables)

où x est la variable qui contiendra la/les valeur(s) qui minimise(nt)la fonction, f val est une variable facultative où seront stockées les valeurs de la fonction pour chacune des valeur minimale, f onction est le nom de la fonction à minimiser (réfère à un fichier ‘.m’) etvariablesest une liste de variables utilisées par la fonction, mais qui ne doivent pas être minimisées. Les options possibles sont:

• Display: ajuste l’affichage de la progression de la minimisation; se référer à l’aide de Matlab pour plus d’info.

• MaxFunEvals: nombre maximal d’´evaluations de la fonction permises

• MaxIter: nombre maximal d’it´erations permises

Si aucune option n’est désirée, il faut utilisée l’ensemble vide[]pouroptions.

ex: voir section 8.1

(42)

Stata ml

Permet de faire une estimation par maximum de vraisemblance pour une

´

equation donnée. Cette fonction étant fort complexe et très peu utilisée dans le cadre des problèmes abordés dans ce guide, il est laissé à la discrétion du lecteur le soin de consulter l’aide de Stata à son sujet. Il existe normalement des fonctions pré-définies pour les estimateur abordées ici qui doivent être traités par maximum de vraisemblance (probit et logit par exemple).

(43)

Chapitre 7

Moindres Carr´ es G´ en´ eralis´ es

La méthode des moindres carrés généralisés(MCG) cherche à modéliser la fonction de la variance. Nous obtenons alors l’estimateur MCG

βˆ^{M CG} = (X⁰V⁻¹X)⁻¹X⁰V⁻¹y ou encore

βˆ^{M CG} = (X⁰W⁻¹X)⁻¹W⁰V⁻¹y et sa variance est

var[ ˆβ] =σ²(X⁰V⁻¹X)⁻¹. où V etW sont égaux à

W =σ²







x1 0 · · · 0 0 x₂ · · · 0 ... ... . .. ...

0 0 · · · x_n







≡σ²V

Matlab

Le principe de base ici est de construire la matrice V avec la forme appropri´ee de variance pour pouvoir ensuite calculer les ˆβ^{M CG}.

Voyons comment on estimerait le mod`ele y = β0 +β1x1 +β2x2 +ε o`u l’on suppose que la variance suivre une fonction de type σ²(x) =σ²x_2i:

X = [ones(size(y)),x1,x2];

V = diag(x2);

(44)

[T,K] = size(X);

bGLS = inv(X’*inv(V)*X)*X’*inv(V)*y;

eGLS = y-X*bGLS;

sigma2ChGLS = (eGLS’*eGLS)/(T-K);

varChbGLS = sigma2ChGLS * inv(X’*inv(V)*X);

etypeGLS = sqrt(diag(varChbGLS));

yChGLS = X*bGLS;

SSEGLS = sum((yChGLS-ybar).²);

SST =sum((y−ybar).²);

R2GLS=SSEGLS/SST Stata

vwls

permet de faire une régression linéaire pondérée par la variance.

vwls variable dependante variables independantes [poids], options Options: sd(nom variable)fournit une estimation de l’´ecart-type de la variable d´ependante.

ex:

vwls y x1 x2, sd(sigma2ch)

o`u sigma2ch est une estimation de l’´ecart-type de y.

predict peut être utilisé après vwls

(45)

Chapitre 8

Variables d´ ependantes qualitatives

8.1 Probit/Logit

Un probit et un logit s’appuient en fait sur le même principe, ils ne diffèrent que dans la forme de la fonction de répartition qu’ils utilisent pour calculer l’effet sur la probabilité d’une variation de la variable latente. En effet, lorsque la variable dépendante ne prend que des valeurs qualitatives (oui ou non par exemple), l’effet d’une variable indépendante sur la probabilité de dire oui doit être “traduit” par une fonction de répartition. Cette dernière nous donne la probabilité associée à une valeur donnée de la valeur latente exprimée par la combinaison linéaire des variables indépendantes.

Matlab

Pour le probit, on doit utiliser la fonction de r´epartition de la loi normale:

F(x) = Φ(x) = 1

√2π Z x

−∞

e^−z

2 2 dz

normcdf normcdf(X)

Donne la valeur de la fonction de répartition de la loi normale pour la valeur de X spécifiée.

(46)

Pour le logit, on utilie plutˆot la fonction de r´epartition de la loi logistique:

F(x) = 1 1 +e^−x

Comme il n’existe pas de fonction prédéfinie dans Matlab pour la fonction de répartition de la loi logistique, on doit en construire une:

function [Fx] = logitcdf(x) Fx = 1/(1+exp(-x))

La procédure étant la même pour un probit et un logit, elle ne sera démontrée qu’une seule fois pour le cas de la loi logistique (logit).

Voyons d’abord comment construire une fonction de log-vraisemblance pour une loi normale:

function P = logvrais(b,X,y) [T,K] = size(y);

sumy = sum(y);

summy = T - sum(y);

lXb = logitcdf(X*b’) L = y.*log(lXb) + (ones(T,1)-y).*log(ones(T,1)- lXb);

P = -sum(L)

Voyons maintenant comment il nous est possible d’utiliser cette fonction pour trouver les ˆβ par maximum de vraisemblance:

options = []

bmin = fminsearch(@logvrais,[0,0,0,0,0,0,0,0,0,0,0],options,X,y)

Il ne nous reste maintenant qu’à calculer l’effet d’une variable sur la proba- bilité. Ceci peut être fait en fixant toutes les autres variables à une valeur (généralement leur moyenne échantillonalle), puis en estimant le modèle suc- cessivement pour deux valeurs de la variable. La différence de la probabilité de ces deux estimations linéaires de la variable dépendante (ˆy) donne la variation de probabilité.

(47)

ex: le modèle estimé est ˆy = β₀ +β₁x₁+β₂x₂+β₃bin1 +µ où bin1 est une variable binaire.

options = []

bmin = fminsearch(@logvrais,[0,0,0,0,0,0,0,0,0,0,0],options,X,y) yhat1 = bmin(1) + bmin(2)*mean(x1) + bmin(3)*mean(x2) + bmin(4) yhat2 = bmin(1) + bmin(2)*mean(x1) + bmin(3)*mean(x2)

diff = normcdf(yhat1)-normcdf(yhat2)

Note: on pourrait aussi calculer l’effet marginal directement en calculant la dérivée de l’espérance de y sachant X:

∂E[y|X]

∂X =

dF(X⁰β) d(X⁰β)

β=f(X⁰β)β Par exemple, dans le cas d’un probit:

Pr(y= 1) = Φ(X⁰β)

∂Pr(y= 1)

∂X = φ(X⁰β)β

Stata

probit (prob)

Estime un mod`ele probit.

probit variable d´ependante variable ind´ependante

Options: probit poss`ede en grande partie les mˆemes options que regress.

Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire, il faut préciser xt dans les options de predict.

logit

Permet d’estimer un mod`ele logit.

logit variable d´ependante variable ind´ependante

Options: logit poss`ede en grande partie les mˆemes options que regress.

(48)

8.2 Tobit

Un tobit est essentiellement un modèle dont les données sont tronquées.

Comme le probit, le tobit suit une loi normale.

Matlab

Soit un modèle tronqué à gauche à zéro (y^∗ étant une variable latente dey):

y^∗ = X⁰β+µ y = max(0, y^∗)

Encore ici, on procédera par maximum de vraisemblance, mais on devra cette fois considérer qu’il existe deux fonctions: une pour y= 0 et une pour y > 0. La log vraisemblance pour le tobit sera donnée par la somme de la log vraisemblance des deux fonctions:

si y= 0 :

l1(β, σ) = log[1−Φ(x_iβ/σ) si y >0 :

l2(β, σ) = log{(1/σ)φ[(yi−xiβ)/σ]}

En matlab:

ybin = (y == 0)

lvrais = ybin.*log(1-normcdf(X’*b/sqrt(sigma2Ch))) + ...

(ones(T,1)-ybin).*log(1/sqrt(sigma2Ch)*normpdf((y-X’*b)/sqrt(sigma2Ch)) P = -sum(lvrais)

Afin de calculer l’espérance de yétant donné x, il suffit de calculer:

E(y|x) = Φ(xβ/σ)xβ+σφ(xβ/σ)

Le transfert de cette fonction en Matlab ne devrait plus, `a ce stade, vous

(49)

causer aucun probl`eme...

Stata tobit

Permet d’estimer un mod`ele tobit.

logit variable d´ependante variable ind´ependante

Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à gauche ou à droite. Une ou les deux de ces options doivent être spécifiées. # indique le point de troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit respectivement de la valeur minimum et de la valeur maximum.

Les autres options de tobit sont en grande partie commune avecregress.

ex:

tobit y x1 x2 x3 x4, ll(0)

(50)

Chapitre 9

S´ eries Chronologiques

9.1 Op´ eration sur les variables dans le cadre de s´ eries chronologiques

Matlab

Il n’y a pas d’opération particulière à effectuer avec Matlab lorsqu’on travaille avec des séries chronologiques.

Stata tsset

Lorsqu’on travaille avec des s´eries chronologiques dans Stata, il est n´ecessaire de l’en informer par la commande tsset.

tsset variable de temps ex:

generate t = n tsset = t

9.2 Op´ erateurs de s´ eries temporelles

Voici comment reproduire l’équivalent des opérateursAvanceetRetarddans Matlab et Stata pour travailler sur les séries chronologiques.

(51)

Matlab

Il n’existe pas d’opérateur de séries temporelles en soit dans Matlab, il faut donc utiliser les opérateurs matriciels vus au chapitre 1.

ex:

• Op´erateur Retard:

T = length(X) x = X(3:T)

x lag1 = X(2:T-1) x lag2 = X(1:T-2)

Note: il faut ajuster manuellement le nombre d’observations consid´er´ees.

• Op´erateur Avance:

T = length(X) x = X(1:T-2) x fwd1 = X(2:T-1) x fwd2 = X(3:T)

Stata l

L’opérateurl est l’opérateurRetardde stata. Il peut être utilisé avec toutes les fonctions qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été faite.

l#.variable

où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre de retards à appliquer. Si # est omis, un seul retard est appliqué (équivalent

`

a l1.variable).

tsset t

regress y x l.x l2.x

(52)

f

L’opérateurfest l’opérateurAvancede stata. Il peut être utilisé avec toutes les fonctions qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été faite.

f#.variable

où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre d’avance à appliquer. Si # est omis, une seule avance est appliquée (équivalent àf1.variable).

tsset t

regress y x f.x f2.x

9.3 Tests d’autocorr´ elation

Inutile de mentionner que l’autocorrélation est un problème qui n’est perti- nent que dans le cas des séries temporelles. . .

Le testρest le test le plus simple à effectuer pour tester la présence d’autocorrélation:

1. récupérer les résidus de la régression qu’on désire tester;

2. régresser û_t sur ût−1 à ût−n etX

3. Tester la signification conjointe des coefficients de cette r´egression par un test F.

Choisissons n ´egal `a 3.

Matlab T = length(y)

[b,u,etype,R2] = MCO(X,y)

U = [ones(T-3,1),u(3:T-1),u(2:T-2);u(1:T-3)];

[bu,e,etypeu,R2u] = MCO(U,u(4:T)) Test F:

F = (R2u/length(bu’))/((1-R2u)/(length(u2)-length(bu’)-1)) Test LM:

LM = (T-3)*R2u

(53)

Stata reg y x1 x2 predict u, r reg u l.u l2.u l3.u

Il suffit alors de regarder la statistique F donn´ee par Stata.

Le test de Durbin-Watson est aussi utilisé pour tester la présence d’autocorrélation, mais comme il est moins précis et ne considère qu’une seule période, nous ne le couvrirons pas ici.

9.4 M´ ethode de Box-Jenkins

Ce qu’il est important de comprendre, à mon avis, dans la méthode de Box- Jenkins, c’est que l’objectif de toutes les opérations que nous effectuons est de se retrouver avec un résidu qui est un bruit-blanc. Le but ultime étant de modéliser la série afin de faire des prédictions, nous pouvons seulement ˆ

etre certain d’avoir tout extrait lorsqu’il nous reste seulement un bruit-blanc:

un processus qui est par définission impossible à prédire.

9.4.1 Stationnarit´ e des donn´ ees

La première étape de la méthode de Box-Jenkins consiste à effectuer les transformations nécessaires afin de s’assurer que notre série est stationnaire, si elle ne l’est pas, il nous sera impossible de travailler dessus.

Première question à se poser: doit-on travailler en log ou pas? Si la variable croˆıt à un taux constant, elle sera linéaire en log. De plus, les pro- priétés du logarithme font en sorte qu’il “écrase” une variance croissante.

Outre la transformation logarithmique, il existe trois cas possibles de non- stationnarité qui impliqueront des changements dans la série (ou sa modélisation):

• Changement structurel

• Tendance d´eterministe

• Racine unitaire

(54)

Changement structurel

Les changement structurels peuvent être détectés à l’aide du Test de Chow (voir section 4.2). Malheureusement, rien ne peut généralement être fait pour stationnariser une série dans le cas d’un changement structurel.

Tendance d´eterministe

Afin de régler le problème de la présence d’une tendance temporelle, il suffit de la modéliser la tendance. Il faut faire attention de bien choisir la tendance la mieux adaptée à nos données: linéaire, quadratique, logarithmique, etc.

ex: tendance quadratique Matlab

T = length(y);

t = 1:T;

t2 = t^2;

X = [ones(size(y)),t,t2]

[b,u,etype,R2] = MCO(X,y) Stata

t = n t2 = t^2 tsset t

regress y t t2

Racines Unitaires

On fait face à un problème de racine unitaire lorsque ρ = 1 dans le modèle suivant:

y_t=α+ρyt−1+e_t

Afin de régler le problème de racine unitaire, il faut différencier la série, i.e.

travailler sur ∆y_t=y_t−y_t−1 plutˆot que y_t. Le mod`ele devient donc:

∆y_t=α+θyt−1 +_t Matlab

(55)

T = length(y);

x = y(2:T) - y(1:T-1) ...

Stata

La différenciation d’une série est effectuée automatiquement dans Stata lors de l’utilisation de la fonction arima.

Tester pour la présence d’une racine unitaire se fait par un test t où H₀ est θ = 0. Malheureusement, sous l’hypothèse nulle, la statistique t ne suit pas la loi asymptotique habituelle. Il faut plutôt utiliser la loi de Dickey- Fuller. S’il y a corrélation des termes d’erreur, il faut plutôt utiliser une loi de Dickey-Fuller augmentée.

Stata dfuller

Effectue un test de Dickey-Fuller augmenté sur la variable spécifiée.

dfuller nom de variable, options Options:

• lags(#): spécifie le nombre de retards à utiliser pour le calcul de la variance estimée Newey-West.

• trend: incluera une variable de tendance dans la r´egression.

pperron

Possède exactement la même structure et les mêmes options que dfuller, mais effectue un test de Phillips-Perron plutôt qu’un test de Dickey-Fuller augmenté.

9.4.2 Mod´ elisation des cycles: Mod` eles AR, MA, ARMA, ARIMA

Stata