ECO 4272 : Introduction ` a l’´ Econom´ etrie Statistique: estimation et inf´ erence
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion´ Universit´e du Qu´ebec `a Montr´eal
2018: Steve Amblerc
Hiver 2018
Objectifs du cours
1. Concept d’un estimateur.
2. Propri´et´es d´esirables d’un estimateur.
3. Estimateur de la moyenne d’une variable al´eatoire.
4. Tests d’hypoth`eses concernant l’estimateur de la moyenne.
5. Intervalles de confiance.
6. Inf´erence sur la diff´erence entre les moyennes de deux populations diff´erentes.
7. Tests d’hypoth`ese concernant la variance d’une population.
Estimateurs
I D´efinition formelle : un estimateur du param`etre inconnu θ d’un mod`ele ou loi de probabilit´e est une fonction qui fait correspondre `a une suite d’observations x1,x2, . . . , xnissues du mod`ele ou de la loi de probabilit´e, la valeur ˆθque l’on nomme estim´e ou estimation :
θˆn≡f (x1,x2, . . . ,xn).
I Ainsi, ˆθest une fonctiondes donn´ees.
I L’exemple que nous avons d´ej`a vu, la moyenne
´
echantillonnale, est ´evidemment une fonction lin´eaire des observations de l’´echantillon.
I L’estimateur nous permet de faire de l’inf´erence (tester des hypoth`eses, construire des intervalles de confiance)
concernant les propri´et´es inconnues de la variable al´eatoire qui nous int´eresse.
Propri´ et´ es d´ esirables d’un estimateur
I Nous souhaiterions que l’estimateur soit le plus pr`es possible de sa vraie valeur
1. Absence de biais: l’estimateur est en moyenne´egal `a sa vraie valeur
E ¯Y
=µY
2. Convergence en probabilit´e : un nombre suffisant
d’observations ⇒l’estimateur se retrouve avec une probabilit´e tr`es ´elev´ee `a l’int´erieur d’un intervalle arbitrairement petit autour de sa vraie valeur. Pour une s´equence de variables al´eatoires Yn et la constante µY,
n→∞lim Pr (|Yn−µY| ≥) = 0, >0 Y¯ −→p µY.
Propri´ et´ es d´ esirables d’un estimateur (suite)
3. Efficience : 2 estimateurs non biais´es, Var ¯Y
<Var Y˜
,
⇒ Y¯ est plus efficientque ˜Y. L’efficience est un concept relatif
4. Erreur moyenne quadratique : permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es. D´efinition :
EQM β˜
≡E
β˜−β2
Un estimateur peut ˆetre bais´e et n´eanmoins avoir une erreur moyenne quadratique plus petite qu’un autre.
Propri´ et´ es d´ esirables d’un estimateur (suite)
EQM est la somme de la variance plus le biais au carr´e. Pour une variable quelconqueX,
Var (X) = E X2
−(E (X))2
⇒Var β˜−β
= E
β˜−β2
− E
β˜−β2
⇒E
β˜−β 2
= Var
β˜−β
+
E
β˜−β 2
⇒E
β˜−β2
= Var β˜
+ E
β˜−β2
La moyenne ´ echantillonnale comme estimateur MCO de la moyenne
I Probl`eme : choisir un estimateurm pour pr´edire les valeurs d’une variable al´eatoire Y, minimiser la somme des erreurs au carr´e :
minm n
X
i=1
(Yi−m)2.
I La CPO pour le choix de m est
−2
n
X
i=1
(Yi −m) = 0⇒
n
X
i=1
Yi =nm ⇒m= 1 n
n
X
i=1
Yi ≡Y¯.
I La solution est tout simplement ¯Y.
I Possible de montrer que ¯Y est le plus efficient parmi tous les estimateurs lin´eaires non biais´es. (BLUE)
Gauss-Markov
Soit une variable al´eatoire tel que E (Yi) =µY, Var (Yi) =σ2Y. Soit unestimateur lin´eairequelconque
Ye =
n
X
i=1
aiYi
E
n
X
i=1
aiYi
!
=
n
X
i=1
aiE (Yi) =µY
n
X
i=1
ai
donc
E
n
X
i=1
aiYi
!
=µY ⇔
n
X
i=1
ai = 1
Gauss-Markov (suite)
Choix desai qui minimise la variance de l’estimateur Var
n
X
i=1
aiYi
!
=
n
X
i=1
Var (aiYi) =
n
X
i=1
ai2Var (Yi) =σY2
n
X
i=1
ai2
Programme :
minai,λ
" n X
i=1
ai2+λ 1−
n
X
i=1
ai
!#
CPO :
ai : 2ai−λ= 0, ∀i, i = 1. . .n λ: 1−
n
X
i=1
ai = 0.
⇒ai = λ 2 ⇒
n
X
i=1
λ
2 = 1⇒λ= 2
n ⇒ai = 1 n
⇒Ye = ¯Y
Tests d’hypoth` ese concernant la moyenne
I Statistique : une fonction de nos observations (notre
´
echantillon). Par exemple, la moyenne ´echantillonnale.
I L’hypoth`ese nullesp´ecifie que la statistique utilis´ee pour estimer un moment est ´egale `a une valeur sp´ecifique.
I Principe :nous rejetons une hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur calcul´ee de la statistique au moins aussi ´eloign´ee de sa valeur sous l’hypoth`ese nulle si l’hypoth`ese nulle est vraie.
I Statistique normalis´ee : on soustrait la moyenne sousH0, et on divise par l’´ecart type :
tact ≡ Y¯act−µY0 σY¯
σY2¯ = σY2 n ,
Tests avec hypoth` ese alternative bilat´ erale
I H0 :µY =µY0,H1 :µY 6=µY0.
I H0 :tact = 0,H1 :tact 6= 0.
I Principe :Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi ´eloign´ee de z´ero de la statistique normalis´ee, soit positif soit n´egatif.
I Si on a des observations sont i.i.d. on aura tact ∼N(0,1).
I Un exemple de l’inf´erence asymptotique.
P-value
I Lap-value de notre test est PrH0
Y¯ −µY0 σY¯
>
Y¯act−µY0 σY¯
! ,
I Soit Φ(z) la valeur de la distribution normale centr´ee r´eduite cumul´ee. La p-value serait donn´ee par :
p-value = 2Φ
−
Y¯act−µY0 σY¯
.
Tests avec hypoth` ese alternative unilat´ erale (a)
I H0 :µY =µY0,H1 µY < µY0.
I H0 :tact = 0,H1 :tact <0.
I Principe :Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi n´egative de la statistique normalis´ee.
I On a encore tact ∼N(0,1).
Tests avec hypoth` ese alternative unilat´ erale (a) (suite)
I Lap-value du test est PrH0
Y¯−µY0
σY¯
!
<
Y¯act −µY0
σY¯
!!
.
I On a
p-value = Φ
Y¯act−µY0 σY¯
,
o`u Φ(z) est encore la valeur de la distribution normale centr´ee r´eduite cumul´ee. Notez que l’on ne calcule pas la valeur absolue de la statistique.
Tests avec hypoth` ese alternative unilat´ erale (b)
I H0 :µY =µY0,H1 µY > µY0.
I H0 :tact = 0,H1 :tact >0.
I Principe :Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi positive de la statistique normalis´ee.
I On a encore tact ∼N(0,1).
Tests avec hypoth` ese alternative unilat´ erale (b) (suite)
I Lap-value de notre test est PrH0
Y¯ −µY0 σY¯
!
>
Y¯act −µY0 σY¯
!!
I On a
p-value = 1−Φ
Y¯act−µY0 σY¯
,
o`u Φ(z) est encore la valeur de la distribution normale centr´ee r´eduite cumul´ee
La notion de p-value
I P-value : probabilit´e d’obtenir une valeur calcul´ee de la statistique au moins aussi d´efavorable `a l’hypoth`ese nulle, si elle est vraie
I Seuils habituels : 10%, 5%, 1%. Pourquoi ? Arbitraire, mais on veut ˆetre conservateur
I Se limiter `a dire si un test est rejet´e ou non `a un taux de 10%, de 5% ou de 1% remonte `a l’´epoque o`u il fallait utiliser des tables de valeurs pour les diff´erents types de distribution
I Il est pr´ef´erable de donner tout simplement la p-value exacte.
Le lecteur peut d´ecider si l’´evidence est assez forte pour rejeter ou non
Taux de significativit´ e marginal
I On dit qu’une hypoth`ese nulle est rejet´ee`a un niveau de X% si la probabilit´e de la rejeter si elle est vraie est ´egale ou inf´erieure `aX/100
I Donc on rejette `aX% si lap-value du test est ´egale ou inf´erieure `a X/100
Risques de premi` ere, deuxi` eme esp` ece, puissance
I Risque de premi`ere esp`ece(probability of a type 1 error) : probabilit´e de rejeter H0 lorsqu’elle est vraie.
I Concept tr`es semblable `a celui de p-value
I Souvent appel´e α
I Risque de deuxi`eme esp`ece(probability of a type 2 error) : probabilit´e d’accepter l’hypoth`ese nulle si elle est fausse
I Souvent appel´e β
I Puissance d’un test : probabilit´e de rejeter H0 lorsqu’elle est fausse
I Si β est le risque de deuxi`eme esp`ece, alors (1−β) est la puissance du test
Tests lorsque la variance n’est pas connue
I Typiquement on ne connaˆıt pas σY2
I On peut remplacer par un estimateur convergent : sY2 = 1
(n−1)
n
X
i=1
Yi −Y¯2
I Une technique que nous allons employer `a maintes reprises dans le cours
I La convergence est cruciale. En grand ´echantillon, l’estimateur se comporte de plus en plus comme une constante
Intervalles de confiance pour la moyenne de la population
I Intervalle de confiance deX% pour ¯Y : toutes les valeurs ¯Yi
de ¯Y o`u on ne rejette pasH0: ¯Y = ¯Yi `a un taux de significativit´e de (100−X)%
I H1 : toujours bilat´erale
Intervalles de confiance (suite)
I D’abord on cherche la valeur dez >0 telle que Φ(−z) = 1−X2/100 .
I Maintenant, on a X 100 = Pr
−z ≤ Y¯−µY
ˆ σY¯
≤z
= Pr −zσˆY¯ ≤ Y¯ −µY
≤zσˆY¯
= Pr −zσˆY¯ ≤ µY −Y¯
≤zσˆY¯
= Pr ¯Y −zσˆY¯ ≤µY ≤Y¯ +zˆσY¯
,
I La probabilit´e que la moyenne de la distribution est entre Y¯−zσˆY¯
et Y¯+zσˆY¯
est ´egale `aX%.
Stat t en petit ´ echantillon
I Si nos observations suivent une loi normale, nous pouvons construire des statistiques t qui ob´eissent `a une loi t de Student, avec n−1 degr´es de libert´e o`u n est la taille de l’´echantillon.
I Il faut ´ecrire la statistique sous une forme particuli`ere :
t= Z
pW/(n−1),
I Z est une variable al´eatoire normale centr´ee r´eduite et W est une variable al´eatoire qui ob´eit `a une loiχ2 avec n−1 degr´es de libert´e
I Pour une discussion plus d´etaill´ee, voir la page 87 du manuel ou les notes de cours
Tests concernant la diff´ erence entre 2 moyennes
I (Variances connues) : Soit ¯Ym la moyenne ´echantillonnale d’une 1`ere population, ¯Yw la moyenne ´echantillonnale d’une 2e population, et H0 : µm−µw = 0
I La statistique suivante :
Y¯m−Y¯w −0 qσ2m
nm + σn2w
w
aurait une moyenne nulle est une variance unitaire sous H0 I L’´echantillonnage al´eatoire est cruciale. Il permet de calculer
la variance (pas de covariance)
I Sous H0, la statistique converge `a une normale centr´ee r´eduite
Tests concernant la diff´ erence entre 2 moyennes (suite)
I Si nous ne connaissons pas les variances, nous pouvons utiliser des estimateurs convergents :
Y¯m−Y¯w −0 qsm2
nm+ snw2
w
−→d N(0,1)
I Qu’est qui arrive en petit ´echantillon siYm et Yw sont g´en´er´ees par des lois normales ?
I On peut utiliser sm2 etsw2, mais la statistique ne satisfait pas les crit`eres pour la distributiont de Student (p.87 du
manuel), et donc la distribution qui g´en`ere la statistique n’est pas connue
Tests concernant la diff´ erence entre 2 moyennes (suite)
I Exception : si on sait queσ2m et σw2 sont identiques, on a : spooled2 = 1
(nm+nw−2)
nm
X
i=1
Ymi −Y¯m
2
+
nm
X
i=1
Ywi −Y¯w
2
!
I Dans ce cas, la statistique suivante suit une loi t de Student avec (nm+nw−2) degr´es de libert´e :
Y¯m−Y¯w−0 q
spooled2 p
1/nm+ 1/nw
∼tnm+nw−2.
Concepts ` a retenir
1. Notion d’un estimateur.
2. Les propri´et´es d´esirables d’un estimateur : a) absence de biais ; b) convergence ; c) efficience.
3. La moyenne ´echantillonnale => estimateur MCO de la moyenne.
4. Tester uneH0 concernant un moment de la population.
5. Distinction entre H1 bilat´erale etH1 unilat´erale.
6. P-value d’un test, relation avec taux de significativit´e marginal.
7. Remplacer un moment inconnu d’une statistique par un estimateur convergent.
8. Intervalle de confiance pour un estimateur d’un moment de la population.
9. D´efinition d’une statistique t.
10. Tester une hypoth`ese concernant la diff´erence de moyennes entre 2 populations.