1 Propri´et´es de la covariance (10 points)

(1)

ECO 4272: Introduction l’économétrie Exercice 1 : Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2011, Steve Ambler Hiver 2011

1 Propri´et´es de la covariance (10 points)

Cov(X , Y) =

m

X

i=1 n

X

j=1

(X_i−E(X)) (Y_j −E(Y))Pr(X =X_i , Y =Y_j)

=

m

X

i=1 n

X

j=1

X_iY_iPr(X=X_i , Y =Y_j)

−

m

X

i=1 n

X

j=1

XiE(Y)Pr(X =Xi , Y =Yj)

−

m

X

i=1 n

X

j=1

E(X)Y_jPr(X =X_i , Y =Y_j)

+

m

X

i=1 n

X

j=1

E(X)E(Y)Pr(X =X_i , Y =Y_j)

(2)

=

m

X

i=1 n

X

j=1

XiYiPr(X=Xi , Y =Yj)

−E(Y)

m

X

i=1 n

X

j=1

X_iPr(X =X_i , Y =Y_j)

−E(X)

m

X

i=1 n

X

j=1

Y_jPr(X =X_i , Y =Y_j)

+E(X)E(Y)

m

X

i=1 n

X

j=1

Pr(X =X_i , Y =Y_j)

=

m

X

i=1 n

X

j=1

−E(Y)

m

X

i=1

X_iPr(X =X_i)

−E(X)

n

X

j=1

Y_jPr(Y =Y_j) +E(X)E(Y)

=

m

X

i=1 n

X

j=1

−E(X)E(Y)−E(X)E(Y) +E(X)E(Y)

=E(XY)−E(X)E(Y), ce qui fut `a montrer.

2 Tests d’hypoth`ese, intervalles de confiance, etc.

(30 points)

1. SoitY_ila taille mesurée de l’ième homme de l’échantillon. Nous pouvons supposer un échantillon aléatoire et donc une moyenne (dans la

(3)

population) constante que nous pouvons appelerµ_Y. Nous avons : 1

n−1

n

X

i=1

Y_i−Y¯

≡σˆ²_Y ≡s²_Y = 7.2²,

la variance échantillonnale (qui est tout simplement le carré de l’écart type

échantillonnal — je vous ai envoyé un courriel à cet effet pour préciser), ce qui est un estimateur non biaisé et convergent de la variance deY. Donc, nous avons que

1

ns²_Y ≡σˆ²Y¯

est un estimateur non bias´e et convergent de la variance deY¯, la moyenne

´echantillonnale, et

ˆ

σY¯ = sY

√n

est l’écart type de la moyenne échantillonnale (par opposition à l’écart type

´echantillonnal). Donc, la statistique Y¯ −µ_Y

ˆ σY¯

est une variable aléatoire avec une espérance de zéro et une variance unitaire. si l’échantillon est assez grand, nous pouvons supposer qu’elle est approximativement une variable normale centrée réduite. Nous avons

0.95 =Pr

−1.96≤ Y¯ −µY

ˆ σY¯

≤1.96

=Pr Y¯ −1.96ˆσY¯ ≤µY ≤Y¯ + 1.96ˆσY¯

,

=Pr

177−1.96 6.5

√800 ≤µ_Y ≤177 + 1.96 6.5

√800

=Pr(177−0.45≤µY ≤177 + 0.45).

L’intervalle de confiance de 95% pour la taille des hommes québécois en centimètres est

177±0.45.

De mani`ere semblable, pour les hommes ontariens, nous avons 0.95 =Pr

179−1.96 7.2

√1000 ≤µ_Y ≤179 + 1.96 7.2

√1000

(4)

=Pr(179−0.446≤µ_Y ≤179 + 0.446)

L’intervalle de confiance de 95% pour la taille des hommes ontariens en centim`etres est

179±0.446

2. De manière semblable que pour la sous-question précédente, nous avons 0.99 = Pr

177−2.57 6.5

√800 ≤µ_Y ≤177 + 2.57 6.5

√800

=Pr(177−0.591≤µ_Y ≤177 + 0.591).

L’intervalle de confiance de 99% pour la taille des hommes québécois en centimètres est

177±0.591.

De mani`ere semblable, nous avons 0.99 =Pr

179−2.57 7.2

√1000 ≤µ_Y ≤179 + 2.57 7.2

√1000

=Pr(179−0.585≤µ_Y ≤179 + 0.585).

L’intervalle de confiance de 99% pour la taille des hommes ontariens en centim`etres est

179±0.585.

3. L’écart type de la moyenne échantillonnale est donnée par

√6.5

800 = 0.230 La valeur calcul´ee de la statistique est

177−179

0.230 =−8.70.

Le test est pour une hypothèse alternative bilatérale. La p-value est donnée par

p−value = 2Φ (−| −8.70|) = 0.00006.

L’hypoth`ese nulle est rejet´ee (massivement).

(5)

4. La valeur calcul´ee de la statistique est encore donn´ee par 177−179

0.230 =−8.70.

Le test est maintenant pour une hypothèse unilatérale. La p-value est donnée par

p−value = 1−Φ (−8.70) = 0.99997.

Evidemment, notre échantillon de données ne fournit pas d’évidence en´ faveur de l’hypothèse alternative que la taille moyenne des hommes québécois est supérieure à 179cm.

5. La formule pertinente est donnée au milieu de la page 24 des notes de cours sur l’estimation et l’inférence statistique. La différence entre les deux moyennes échantillonnales peut s’écrire

Y¯_q−Y¯_o = 177−179 =−2.

La variance de cette diff´erence est donn´ee par Var Y¯_q−Y¯_o

=σ_Y²_¯

q+σ_Y²_¯

o = 1

nq

σ_Y²_q + 1 no

σ²_Y_o, puisque nous pouvons supposer que les deux ´echantillons sont

ind´ependants. Puisque nous ne connaissons pas les vraies valeurs de ces variances, nous utilisons un estimateur convergent donn´e par

ˆ

σ² Y¯q−Y¯o

= ˆσY²¯q + ˆσ²Y¯o

= s²_q nq

+ s²_o no

= 6.5²

800 + 7.2²

1000 = 0.105.

Donc nous avons sous l’hypoth`ese nulle Y¯q−Y¯o

q_s₂

q

nq + _n^s²^o

o

−d

→N(0,1)

Sachant ceci, l’intervalle de confiance de 95% est donn´e par

95% =Pr



−1.96≤

Y¯q−Y¯o

− µYq −µYo

q_s₂

q

nq +_n^s²^o

o

≤1.96



=

(6)

Pr Y¯_q−Y¯_o

−1.96 ss²_q

nq

+ s²_o no

≤ µ_Y_q −µ_Y_o

≤ Y¯_q−Y¯_o

+ 1.96 ss²_q

nq

+ s²_o no

!

=Pr

−2−1.96×√

0.105 ≤ µ_Y_q −µ_Y_o

≤ −2 + 1.96×√

0.105 . Donc l’intervalle de confiance pour la diff´erence des tailles moyennes est

−2±0.635.

6. La statistique normalis´ee est donn´ee par Y¯q−Y¯o

−0 q_s₂

q

nq +_n^s²^o

o

= −2

0.105 =−19.05.

La p-value du test (l’hypothèse alternative est bilatérale) est p−value= 2Φ (−| −19.05|). Cette p-value est à toutes fins pratiques égale à zéro.

7. La valeur de la statistique normalis´ee pour avoir une p-value de 0.05 serait -1.96. Notre estimateur de la variance deY¯_q−Y¯_o est maintenant

6.5²+ 7.2² n

ounest la taille (commune) de chacun des deux ´echantillons. Donc nous cherchons la solution `a

−1.96 = −2 q6.5²+7.2²

n

⇒√

n = 1.96 2

√

6.5²+ 7.2²

⇒n=

1.96 2

2

6.5²+ 7.2²

= 90.36.

Nous avons toujours un nombre entier d’observations. Donc, il faudrait au moins 91 observations pour rejeter l’hypoth`ese nulle avec une p-value de 0.05.

(7)

3 Convergence (20 points)

1. Pour montrer l’absence de biais, il faut calculer l’esp´erance de l’estimateur.

Nous avons E

Ye

= 1

4E(Y₁) + 1

4E(Y₂) + 1 2(n−2)

n

X

i=3

E(Y_i)

où nous avons appliqué la règle E(AY) =AE(Y),

⇒E Ye

= 1

4µ_Y +1

4µ_Y + 1 2(n−2)

n

X

i=3

µ_Y

= 1

4µ_Y +1

4µ_Y + (n−2) 2(n−2)µ_Y

= 1

4 +1 4 +1

2

µY =µY, ce qui fut `a montrer.

2. Nous avons

Var Ye

= 1

16Var(Y₁) + 1

16Var(Y₂) +1

4 1 (n−2)²

n

X

i=3

Var(Y_i)

= 1

8σ_Y² + 1 4

(n−2) (n−2)²σ_Y²

= 1

8σ_Y² +1 4

1 (n−2)σ_Y² 3. La variance diminue avecnmais on a

n→∞lim = 1 8σ_Y².

4. Mˆeme lorsquentend vers l’infini, la variance de l’estimateur est positive.

Si on choisit un intervalle arbitrairement petit autour de la vraie valeurµ_Y, disonsµY ±, la probabilité que la valeur calculée de notre estimateur se retrouve à l’intérieur de cet intervalle ne tend pas vers un à cause de sa variance qui n’est jamais inférieure à ¹₈σ²_Y.

(8)

5. La variance de l’estimateur MCO est donn´ee par Var Y¯

= 1 n²

n

X

i=1

Var(Y_i) = 1 nσ²_Y.

Il est facile de vérifier que pourn = 4, les deux variances sont égales (dans ce cas les deux estimateurs mettent le même poids sur les deux dernières observations), et que pourn = 3etn ≥5, la variance deY¯ est plus petite.

4 Convergence et th´eor`eme de la limite centrale (40 points)

1. Je ne vais pas reproduire ici les dérivations algébriques provenant des notes de cours. La moyenne théorique est donnée par

0.3 + 1.5

2 = 0.9.

2. Encore une fois, je ne vais pas reproduire les dérivations algébriques, qui sont disponibles dans les notes de cours. La variance est donnée par

(1.5−0.3)² 12 .

3. Soitσ²_ula variance théorique calculée dans la partie précédente. SoitY_u notre variable uniforme avec un support de[0.3,1.5]. Nous avons

Var 1 n

n

X

i=1

Y_u

!

= 1

n 2 n

X

i=1

Var(Y_u)

= 1 nσ_u².

Il s’agit d’une application standard de nos règles de base pour le calcul de variances. Le résultat dépend du fait que les observations dans un

échantillon donné sont indépendantes.

(9)

4. Pour les autres parties de la question, voir le script suivant : http:

//www.er.uqam.ca/nobel/r10735/4272/tp1.2011.inp Puisqu’on sauvegarde les 500 observations pour des échantillons de taille n à la fin de chaque boucle, il est possible de générer les histogrammes de façon interactive une fois que le script a été exécuté. Même pour un

échantillon de taille 4, j’ai été capable dans certains cas d’obtenir des résultats où on ne rejetait pas l’hypothèse nulle de la normalité. Si on augmente le nombre de répétitions à 10,000 (essayez-le, il faut juste remplacer 500 par 10,000 dans chaque boucle), on rejète toujours la normalité pour des échantillons de taille 4, et à un taux marginal de significativité très faible. Par compte, on accepte la normalité pour des

´echantillons de taille 50 et de taille 500.

cr´e´e le 18/03/2011