Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

(1)

ECO 4272: Introduction à l’économétrie Exercice 1: Solutions

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2013, Steve Ambler Automne 2013

1 Distributions de probabilit´e jointes (20 points)

1. La somme de toutes les probabilités jointes doit être égale à 1. Donc, la valeur manquante doit être égale à 0.10.

2. Voici le tableau :

Y \X 6 7 8 9 Pr(Y)

2 0.20 0.15 0.10 0.05 0.50 5 0.12 0.09 0.06 0.03 0.30 8 0.08 0.06 0.04 0.02 0.20 Pr(X) 0.40 0.30 0.20 0.10 1.00

La dernière rangée du tableau contient les probabilités marginales pour la variable X, c’est à dire Pr(X =X_i , X_i = 6,7,8,9). La dernière colonne contient les probabilités marginales pour la variableY, c’est à dire Pr(Y =Y_i , Y_i = 2,5,8). La somme des valeurs dans la dernière colonne et des valeurs dans la dernière rangée doit être égale à un.

3. Nous avons

E(X|Y = 2) = 6× Pr(X = 6, Y = 2)

Pr(Y = 2) + 7×Pr(X = 7, Y = 2) Pr(Y = 2)

(2)

+8× Pr(X = 8, Y = 2)

Pr(Y = 2) + 9× Pr(X= 9, Y = 2) Pr(Y = 2)

= 6×0.20

0.50+ 7×0.15

0.50+ 8× 0.10

0.50 + 9× 0.05 0.50 = 7.

De mani`ere semblable, nous avons

E(X|Y = 5) = 6× Pr(X = 6, Y = 5)

Pr(Y = 5) + 7×Pr(X = 7, Y = 5) Pr(Y = 5) +8× Pr(X = 8, Y = 5)

Pr(Y = 5) + 9× Pr(X= 9, Y = 5) Pr(Y = 5)

= 6× 0.12

0.30 + 7× 0.09

0.30+ 8× 0.06

0.30+ 9× 0.03 0.30 = 7 et

E(X|Y = 8) = 6× Pr(X = 6, Y = 8)

Pr(Y = 8) + 7×Pr(X = 7, Y = 8) Pr(Y = 8) +8× Pr(X = 8, Y = 8)

Pr(Y = 8) + 9× Pr(X= 9, Y = 8) Pr(Y = 8)

= 6×0.08

0.20+ 7×0.06

0.20+ 8× 0.04

0.20 + 9× 0.02 0.20 = 7.

Vous devriez déjà commencer à soupçonner fortement qu’il s’agit de variables aléatoires indépendantes, puisque les probabilités conditionnelles sont

égales pour toutes les réalisations possibles deXaux probabilités non conditionnelles ou marginales, et donc les espérances conditionnelles deXsont

´egales, peu importe la valeur deY.

4. Il faut procéder de manière semblable à la sous-question précédente. Nous avons

E(Y|X = 6) = 2×Pr(X = 6, Y = 2)

Pr(X = 6) + 5×Pr(X = 6, Y = 5)

Pr(X = 6) + 8×Pr(X = 6, Y = 8) Pr(X = 6)

= 2× 0.20

0.40+ 5×0.12

0.40+ 8×0.08

0.40 = 4.1.

De mani`ere semblable, nous avons

E(Y|X = 7) =

(3)

2×Pr(X = 7, Y = 2)

Pr(X = 7) + 5×Pr(X = 7, Y = 5)

Pr(X = 7) + 8×Pr(X = 7, Y = 8) Pr(X = 7)

= 2× 0.20

0.40+ 5×0.12

0.40+ 8×0.08

0.40 = 4.1, E(Y|X = 8) =

2×Pr(X = 8, Y = 2)

Pr(X = 8) + 5×Pr(X = 8, Y = 5)

Pr(X = 8) + 8×Pr(X = 8, Y = 8) Pr(X = 8)

= 2× 0.20

0.40+ 5×0.12

0.40+ 8×0.08

0.40 = 4.1, et

E(Y|X = 9) = 2×Pr(X = 9, Y = 2)

Pr(X = 9) + 5×Pr(X = 9, Y = 5)

Pr(X = 9) + 8×Pr(X = 9, Y = 8) Pr(X = 9)

= 2× 0.20

0.40+ 5×0.12

0.40+ 8×0.08

0.40 = 4.1.

Encore une fois, les esp´erances conditionnelles sont ´egales, peu importe la valeur deX.

5. Nous avons

E(X) = 6×Pr(X = 6)+7×Pr(X = 7)+8×Pr(X = 8)+9×Pr(X = 9)

= 6×0.40 + 7×0.30 + 8×0.20 + 9×0.10 = 7.

6. Nous avons

E(Y) = 2×Pr(Y = 2) + 5×Pr(Y = 5) + 8×Pr(Y = 8)

= 2×0.50 + 5×0.30 + 8×0.20 = 4.1.

7. Nous avons déjà vu que les espérances conditionnelles deX et Y sont les mêmes, peu importe les valeurs de Y et X respectivement. Donc on peut conclure que les deux variables sont indépendantes. Il est aussi facile de vérifier que, danschaquecas, nous avons

Pr(X =X_i, Y =Y_j) =Pr(X =X_i)×Pr(Y =Y_j). Les deux variables sont ind´ependantes.

(4)

2 Efficience (40 points)

1. Nous avons

E Y¯

=E 1 n

n

X

i=1

Yi

!

= 1 n

n

X

i=1

E(Y_i) = 1 n

n

X

i=1

µ_Y = 1

nnµ_Y =µ_Y.

La moyenne échantillonnale continue d’être un estimateur non biaisé, même si la variance desY_i n’est pas constante.

2. Nous avons

Var Y¯

=Var 1 n

n

X

i=1

Yi

!

= 1 n²

n

X

i=1

Var(Yi) = 1 n²

n

X

i=1

σ²Xi2

= σ² n²

n

X

i=1

X_i².

Nous avons supposé que les observations sont indépendanes, mêmes si les Y_i n’ont pas une variance égale.

3. Pour répondre à cette partie, nous avons besoin de l’hypothèse que les observations sur lesX_i sont finies. Supposons que

Xmin2 ≤Xmax2

.

(La preuve pour le cas inverse est facile.) Nous avons tout de suite que σ²

n²

n

X

i=1

Xi2 ≤ σ² n²

n

X

i=1

Xmax2

.

Maintenant,

n→∞lim σ² n²

n

X

i=1

X_max² = 0 puisqueX_max² <∞. Nous avons tout de suite

n→∞lim σ² n²

n

X

i=1

X_i² = 0,

(5)

ce qui fut `a d´emontrer.

4. Nous avons

E Y˜

=E 1 n

n

X

i=1

c_iY_i

!

= 1 n

n

X

i=1

ciE(Yi) = µ_Y n

n

X

i=1

ci.

Nous avons tout simplement appliqué les règles de base pour le calcul de l’espèrance d’une combinaison linéaire de variables aléatoires. Évidemment,

si n

X

i=1

c_i =n l’estimateurY˜ est non biais´e.

5. L’idée de base est de choisir les pondérations c_i afin de construire l’estimateur qui est le plus efficient possible. La variance de l’estimateur Y˜ est donnée par

Var Y˜

=Var 1 n

n

X

i=1

c_iY_i

!

= 1 n²

n

X

i=1

Var(ciYi) = 1 n²

n

X

i=1

ci2

Var(Yi) = 1 n²

n

X

i=1

ci2

σ²Xi2

= σ² n²

n

X

i=1

ci2

Xi2 ∝

n

X

i=1

ci2

Xi2

où ∝ se lit est proportionnel à. Encore une fois, nous avons eu besoin de l’indépendance des observations pour arriver à cette expression relativement simple. Notre problème est de minimiser la variance de l’estimateur sujet à la contrainte qu’il reste non biaisé. Les variables de choix seront les poids à mettre sur chaque observation (lesc_i) et (évidemment) le multiplicateur de Lagrange. On peut écrire le problème comme

minci,λ L =

n

X

i=1

c_i²X_i²+λ n−

n

X

i=1

c_i

!!

.

(6)

Il y a(n+ 1)CPOs au probl`eme. Pour unc_i quelconque nous avons

∂L

∂c_i = 0 = 2ciXi2−λ.

Pourλ, nous avons

∂L

∂λ = 0 = n−

n

X

i=1

c_i

! .

Comme d’habitude, la derni`ere CPO garantie que la contrainte soit satis- faite. Sans trouver une solution finale pour les inconnus, nous avons tout de suite `a partir des CPOs pour lesc_i que

c_i = λ 2

1

X_i² ∝ 1 X_i², ce qui fut `a d´emontrer.

Quelle est la morale de cette histoire ? Nous venons de voir que, face

`a des observations qui ont une variance non constante, nous allons ac- corder davantage de poids aux observations provenant d’une distribution avec uneplus petite variance. L’intuition de ce r´esultat est simple.

Une observation tirée d’une distribution avec une variance qui est très petite nous permet d’estimer notre paramètre inconnu (µY) avec plus de précision. L’observation contient plus d’information concernant µ_Y qu’une observation provenant d’une distribution avec une très grande variance. Donc, il serait logique de mettre un poids plus élevé sur les observations qui ont une plus petite variance.

Nous venons en fait de démontrer la logique derrière l’estimateur des moindres carrés généralisés, que vous pourrez apprendre dans le cours ECO5272. Il est a noter aussi que dans le cas où X_i = X et donc la variance est constante, nous avons

c_i = λ 2

1 X² et donc le poids est constant. Nous avons aussi

n =

n

X

i=1

λ 2

1

X² =nλ 2

1 X².

(7)

⇒λ = 2X² ⇒c_i = 1.

Nous revenons à l’estimateur MCO comme cas spécial de l’estimateur MCG (moindres carrés généralisés) lorsque la variance des Y_i est constante, d’où justement le termegénéralisés.

Nous venons aussi, en passant, de prouver le th´eor`eme Gauss-Markov.

Pourquoi ? Notre estimateur Y˜ est un estimateur linéaire général, puisqu’il est tout simplement une somme pondérée des observations.

Nous avons trouv´e une restriction sur les c_i pour qu’il soit non biais´e.

Par la suite, nous avons minimisé sa variance et nous avons trouvé un cas spécial où la variance minimale nous donne l’estimateur MCO. Le cas spécial est le cas où la variance des observations est constante. Il est

à noter finalement que nous avons eu besoin de l’hypothèse de variance constante, mais non de la normalité des observations.

3 Th´eor`eme limite centrale (40 points)

J’inclus un fichier avec un code comment´e. Voir l’adresse suivante : www.er.uqam.ca/nobel/r10735/4272/tps/exer1331b.R

J’ai inclus presque toutes les commandes n´ecessaires sauf celles pour sauvegarder les graphiques dans des fichiers.

1. La commande rexp(n,rate=2) va produire un ´echantillon de variables al´eatoires qui suivent une loi exponentielle avec rate = λ = 2.

Si vous jouez avec cette commande, vous allez constatez qu’elle produit des nombres positifs dont la majorité sont inférieurs à ¹_λ = 0.5. Ceci reflète le fait que c’est une distribution asymétrique, avec plus d’observations inférieures à la moyenne que supérieures à la moyenne. La commande mean(rexp(n,rate=2))produit la moyenne d’un échantillon de taille nde variables aléatoires exponentielles. Si vous jouez avec cette commande, vous allez constater qu’elle produit des nombres positifs. Lorsquendevient grand, la moyenne échantillonnale est souvent très près de 0.5, et à peu près la moitié des nombres sont inférieurs à 0.5. Ceci illustre numériquement la loi des grands nombres. Pour répondre à la question, il faut construire (pour chaque valeur de n) une boucle à exécuter 10 000 fois qui contient des moyennes échantillonnales de variables aléatoires exponentielles.

(8)

2. Soit Y une variable al´eatoire exponentielle, et soit Y¯ une moyenne

´echantillonalle denvariables exponentielles. Nous avons E(Y) = 1

λ, E Y¯

=E 1 n

n

X

i=1

Y_i

!

= 1 λ, et

Var Y¯

=Var 1 n

n

X

i=1

Y_i

!

= 1 n

1 λ².

Donc, pour r´epondre `a la question, il faut prendre les 10 000 moyennes

échantillonnales que vous avez générées, soustraire ¹_λ où bien sûr λ = 2 dans ce cas, et diviser par

σY¯ = r1

n 1 λ².

Bien sˆur, en divisant par des chiffres de plus en plus petit, en empˆeche la variance de diminuer avecn.

3. AppelonsX le vecteur contenant les 10 000 moyennes échantillonnales. Si vous exécutez la commande mean(X) vous allez trouvez un chiffre près de zéro, et si vous exécutez la command var(X)vous allez en principe trouver un résultat près de un.

4. Voir le code.

5. Pour n = 1, l’histogramme devrait ressembler tout simplement à un histogramme de la distribution exponentielle, sauf pour la normalisation (ce qui va centrer les résultats sur zéro et changer leur variance). Au fur et à mesure quenaugmente, l’histogramme va perdre son asymétrie et va commencer à ressembler de plus en plus à une cloche normale.

6. Le test devrait produire unep-value très très petite pour le casn= 1, et lap- value va augmenter avecn. Même pourn = 100vous allez presque toujours rejeter l’hypothèse de la normalité. Il estpossiblede générer un échantillon de données pour lesquelles on ne rejette pas la normalité, mais ceci serait très rare. Cela montre que la distribution exponentielle est très loin de la normale et que le théorème de la limite centrale s’applique seulement pour des valeurs très élevées de la taille de l’échantillon. J’inclus dans le code des

(9)

exemples pourn = 500etn = 1000. Même pourn = 1000j’ai pu rejeter l’hypothèse nulle de la normalité à quelques reprises à un taux marginal de 1%. Tout cela pour montrer qu’il y a des distributions pour lesquelles ça prend un très grand échantillon si on veut invoquer le théorème de la limite centrale.

7. C’est un de r´esultats produits directement par la commande jarque.bera.test(x).

cr´e´e le 30/09/2013