Propri´ et´ es d´ esirables d’un estimateur

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Statistique: estimation et inf´ erence

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion´ Université du Québec à Montréal

2018: Steve Amblerc

Hiver 2018

(2)

Objectifs du cours

1. Concept d’un estimateur.

2. Propriétés désirables d’un estimateur.

3. Estimateur de la moyenne d’une variable al´eatoire.

4. Tests d’hypoth`eses concernant l’estimateur de la moyenne.

5. Intervalles de confiance.

6. Inférence sur la différence entre les moyennes de deux populations différentes.

7. Tests d’hypoth`ese concernant la variance d’une population.

(3)

Estimateurs

I Définition formelle : un estimateur du paramètre inconnu θ d’un modèle ou loi de probabilité est une fonction qui fait correspondre à une suite d’observations x1,x2, . . . , xnissues du modèle ou de la loi de probabilité, la valeur ˆθque l’on nomme estimé ou estimation :

θˆn≡f (x1,x2, . . . ,xn).

I Ainsi, ˆθest une fonctiondes donn´ees.

I L’exemple que nous avons d´ej`a vu, la moyenne

´

echantillonnale, est évidemment une fonction linéaire des observations de l’échantillon.

I L’estimateur nous permet de faire de l’inf´erence (tester des hypoth`eses, construire des intervalles de confiance)

concernant les propriétés inconnues de la variable aléatoire qui nous intéresse.

(4)

Propri´ et´ es d´ esirables d’un estimateur

I Nous souhaiterions que l’estimateur soit le plus pr`es possible de sa vraie valeur

1. Absence de biais: l’estimateur est en moyenne´egal `a sa vraie valeur

E ¯Y

=µY

2. Convergence en probabilit´e : un nombre suffisant

d’observations ⇒l’estimateur se retrouve avec une probabilité très élevée à l’intérieur d’un intervalle arbitrairement petit autour de sa vraie valeur. Pour une séquence de variables aléatoires Yn et la constante µY,

n→∞lim Pr (|Y_n−µ_Y| ≥) = 0, >0 Y¯ −→^p µ_Y.

(5)

Propri´ et´ es d´ esirables d’un estimateur (suite)

3. Efficience : 2 estimateurs non biais´es, Var ¯Y

<Var Y˜

,

⇒ Y¯ est plus efficientque ˜Y. L’efficience est un concept relatif

4. Erreur moyenne quadratique : permet de comparer deux estimateurs qui ne sont pas forcément non biaisés. Définition :

EQM β˜

≡E

β˜−β2

Un estimateur peut être baisé et néanmoins avoir une erreur moyenne quadratique plus petite qu’un autre.

(6)

Propri´ et´ es d´ esirables d’un estimateur (suite)

EQM est la somme de la variance plus le biais au carr´e. Pour une variable quelconqueX,

Var (X) = E X²

−(E (X))²

⇒Var β˜−β

= E

β˜−β2

− E

β˜−β2

⇒E

β˜−β 2

= Var

β˜−β

+

E

β˜−β 2

⇒E

β˜−β2

= Var β˜

+ E

β˜−β2

(7)

La moyenne ´ echantillonnale comme estimateur MCO de la moyenne

I Problème : choisir un estimateurm pour prédire les valeurs d’une variable aléatoire Y, minimiser la somme des erreurs au carré :

minm n

X

i=1

(Y_i−m)².

I La CPO pour le choix de m est

−2

n

X

i=1

(Y_i −m) = 0⇒

n

X

i=1

Y_i =nm ⇒m= 1 n

n

X

i=1

Y_i ≡Y¯.

I La solution est tout simplement ¯Y.

I Possible de montrer que ¯Y est le plus efficient parmi tous les estimateurs lin´eaires non biais´es. (BLUE)

(8)

Gauss-Markov

Soit une variable al´eatoire tel que E (Y_i) =µ_Y, Var (Y_i) =σ²_Y. Soit unestimateur lin´eairequelconque

Ye =

n

X

i=1

a_iY_i

E

n

X

i=1

a_iY_i

!

=

n

X

i=1

a_iE (Y_i) =µ_Y

n

X

i=1

a_i

donc

E

n

X

i=1

a_iY_i

!

=µ_Y ⇔

n

X

i=1

a_i = 1

(9)

Gauss-Markov (suite)

Choix desa_i qui minimise la variance de l’estimateur Var

n

X

i=1

a_iY_i

!

=

n

X

i=1

Var (a_iY_i) =

n

X

i=1

a_i²Var (Y_i) =σ_Y²

n

X

i=1

a_i²

Programme :

minai,λ

" _n X

i=1

a_i²+λ 1−

n

X

i=1

a_i

!#

CPO :

ai : 2ai−λ= 0, ∀i, i = 1. . .n λ: 1−

n

X

i=1

ai = 0.

⇒a_i = λ 2 ⇒

n

X

i=1

λ

2 = 1⇒λ= 2

n ⇒a_i = 1 n

⇒Ye = ¯Y

(10)

Tests d’hypoth` ese concernant la moyenne

I Statistique : une fonction de nos observations (notre

´

echantillon). Par exemple, la moyenne ´echantillonnale.

I L’hypothèse nullespécifie que la statistique utilisée pour estimer un moment est égale à une valeur spécifique.

I Principe :nous rejetons une hypothèse nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur calculée de la statistique au moins aussi éloignée de sa valeur sous l’hypothèse nulle si l’hypothèse nulle est vraie.

I Statistique normalis´ee : on soustrait la moyenne sousH0, et on divise par l’´ecart type :

t_act ≡ Y¯_act−µ_Y₀ σY¯

σ_Y²_¯ = σ_Y² n ,

(11)

Tests avec hypoth` ese alternative bilat´ erale

I H0 :µY =µY0,H1 :µY 6=µY0.

I H₀ :t_act = 0,H₁ :t_act 6= 0.

I Principe :Nous rejetons l’hypothèse nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi éloignée de zéro de la statistique normalisée, soit positif soit négatif.

I Si on a des observations sont i.i.d. on aura t_act ∼N(0,1).

I Un exemple de l’inf´erence asymptotique.

(12)

P-value

I Lap-value de notre test est Pr_H₀

Y¯ −µ_Y₀ σY¯

>

Y¯_act−µ_Y₀ σY¯

! ,

I Soit Φ(z) la valeur de la distribution normale centrée réduite cumulée. La p-value serait donnée par :

p-value = 2Φ

−

Y¯act−µ_Y₀ σY¯

.

(13)

Tests avec hypoth` ese alternative unilat´ erale (a)

I H₀ :µ_Y =µ_Y₀,H₁ µ_Y < µ_Y₀.

I H₀ :t_act = 0,H₁ :t_act <0.

I Principe :Nous rejetons l’hypothèse nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi négative de la statistique normalisée.

I On a encore t_act ∼N(0,1).

(14)

Tests avec hypoth` ese alternative unilat´ erale (a) (suite)

I Lap-value du test est PrH0

Y¯−µY0

σY¯

!

<

Y¯act −µY0

σY¯

!!

.

I On a

p-value = Φ

Y¯_act−µ_Y₀ σY¯

,

où Φ(z) est encore la valeur de la distribution normale centrée réduite cumulée. Notez que l’on ne calcule pas la valeur absolue de la statistique.

(15)

Tests avec hypoth` ese alternative unilat´ erale (b)

I H₀ :µ_Y =µ_Y₀,H₁ µ_Y > µ_Y₀.

I H₀ :t_act = 0,H₁ :t_act >0.

I Principe :Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi positive de la statistique normalis´ee.

I On a encore t_act ∼N(0,1).

(16)

Tests avec hypoth` ese alternative unilat´ erale (b) (suite)

I Lap-value de notre test est Pr_H₀

Y¯ −µ_Y₀ σY¯

!

>

Y¯act −µ_Y₀ σY¯

!!

I On a

p-value = 1−Φ

Y¯act−µ_Y₀ σY¯

,

où Φ(z) est encore la valeur de la distribution normale centrée réduite cumulée

(17)

La notion de p-value

I P-value : probabilité d’obtenir une valeur calculée de la statistique au moins aussi défavorable à l’hypothèse nulle, si elle est vraie

I Seuils habituels : 10%, 5%, 1%. Pourquoi ? Arbitraire, mais on veut ˆetre conservateur

I Se limiter à dire si un test est rejeté ou non à un taux de 10%, de 5% ou de 1% remonte à l’époque où il fallait utiliser des tables de valeurs pour les différents types de distribution

I Il est pr´ef´erable de donner tout simplement la p-value exacte.

Le lecteur peut d´ecider si l’´evidence est assez forte pour rejeter ou non

(18)

Taux de significativit´ e marginal

I On dit qu’une hypothèse nulle est rejetéeà un niveau de X% si la probabilité de la rejeter si elle est vraie est égale ou inférieure àX/100

I Donc on rejette àX% si lap-value du test est égale ou inférieure à X/100

(19)

Risques de premi` ere, deuxi` eme esp` ece, puissance

I Risque de première espèce(probability of a type 1 error) : probabilité de rejeter H0 lorsqu’elle est vraie.

I Concept tr`es semblable `a celui de p-value

I Souvent appel´e α

I Risque de deuxième espèce(probability of a type 2 error) : probabilité d’accepter l’hypothèse nulle si elle est fausse

I Souvent appel´e β

I Puissance d’un test : probabilit´e de rejeter H0 lorsqu’elle est fausse

I Si β est le risque de deuxi`eme esp`ece, alors (1−β) est la puissance du test

(20)

Tests lorsque la variance n’est pas connue

I Typiquement on ne connaˆıt pas σ_Y²

I On peut remplacer par un estimateur convergent : s_Y² = 1

(n−1)

n

X

i=1

Yi −Y¯2

I Une technique que nous allons employer `a maintes reprises dans le cours

I La convergence est cruciale. En grand ´echantillon, l’estimateur se comporte de plus en plus comme une constante

(21)

Intervalles de confiance pour la moyenne de la population

I Intervalle de confiance deX% pour ¯Y : toutes les valeurs ¯Yi

de ¯Y où on ne rejette pasH0: ¯Y = ¯Y_i à un taux de significativité de (100−X)%

I H₁ : toujours bilat´erale

(22)

Intervalles de confiance (suite)

I D’abord on cherche la valeur dez >0 telle que Φ(−z) = ^1−X₂^/100 .

I Maintenant, on a X 100 = Pr

−z ≤ Y¯−µY

ˆ σY¯

≤z

= Pr −zσˆY¯ ≤ Y¯ −µY

≤zσˆY¯

= Pr −zσˆY¯ ≤ µ_Y −Y¯

≤zσˆY¯

= Pr ¯Y −zσˆY¯ ≤µ_Y ≤Y¯ +zˆσY¯

,

I La probabilit´e que la moyenne de la distribution est entre Y¯−zσˆY¯

et Y¯+zσˆY¯

est ´egale `aX%.

(23)

Stat t en petit ´ echantillon

I Si nos observations suivent une loi normale, nous pouvons construire des statistiques t qui obéissent à une loi t de Student, avec n−1 degrés de liberté où n est la taille de l’échantillon.

I Il faut ´ecrire la statistique sous une forme particuli`ere :

t= Z

pW/(n−1),

I Z est une variable aléatoire normale centrée réduite et W est une variable aléatoire qui obéit à une loiχ² avec n−1 degrés de liberté

I Pour une discussion plus d´etaill´ee, voir la page 87 du manuel ou les notes de cours

(24)

Tests concernant la diff´ erence entre 2 moyennes

I (Variances connues) : Soit ¯Ym la moyenne échantillonnale d’une 1ère population, ¯Yw la moyenne échantillonnale d’une 2e population, et H₀ : µ_m−µ_w = 0

I La statistique suivante :

Y¯_m−Y¯_w −0 qσ²_m

nm + ^σ_n²^w

w

aurait une moyenne nulle est une variance unitaire sous H0 I L’´echantillonnage al´eatoire est cruciale. Il permet de calculer

la variance (pas de covariance)

I Sous H0, la statistique converge à une normale centrée réduite

(25)

Tests concernant la diff´ erence entre 2 moyennes (suite)

I Si nous ne connaissons pas les variances, nous pouvons utiliser des estimateurs convergents :

Y¯_m−Y¯_w −0 qs_m²

nm+ ^s_n^w²

w

−→d N(0,1)

I Qu’est qui arrive en petit échantillon siYm et Yw sont générées par des lois normales ?

I On peut utiliser s_m² ets_w², mais la statistique ne satisfait pas les crit`eres pour la distributiont de Student (p.87 du

manuel), et donc la distribution qui g´en`ere la statistique n’est pas connue

(26)

Tests concernant la diff´ erence entre 2 moyennes (suite)

I Exception : si on sait queσ²_m et σ_w² sont identiques, on a : s_pooled² = 1

(n_m+n_w−2)

nm

X

i=1

Y_mi −Y¯m

2

+

nm

X

i=1

Y_wi −Y¯w

2

!

I Dans ce cas, la statistique suivante suit une loi t de Student avec (nm+nw−2) degr´es de libert´e :

Y¯m−Y¯w−0 q

s_pooled² p

1/n_m+ 1/n_w

∼tnm+nw−2.

(27)

Concepts ` a retenir

1. Notion d’un estimateur.

2. Les propriétés désirables d’un estimateur : a) absence de biais ; b) convergence ; c) efficience.

3. La moyenne ´echantillonnale => estimateur MCO de la moyenne.

4. Tester uneH₀ concernant un moment de la population.

5. Distinction entre H1 bilat´erale etH1 unilat´erale.

6. P-value d’un test, relation avec taux de significativit´e marginal.

7. Remplacer un moment inconnu d’une statistique par un estimateur convergent.

8. Intervalle de confiance pour un estimateur d’un moment de la population.

9. D´efinition d’une statistique t.

10. Tester une hypoth`ese concernant la diff´erence de moyennes entre 2 populations.