• Aucun résultat trouvé

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

N/A
N/A
Protected

Academic year: 2022

Partager "D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal"

Copied!
44
0
0

Texte intégral

(1)

ECO 4272 : Introduction `a l’ ´ Econom´etrie Statistique: estimation et inf´erence

Steve Ambler

D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal

c 2018 : Steve Ambler Hiver 2018

Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions afin de les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a ambler.steven@uqam.ca.

(2)

Table des mati`eres

1 Introduction 4

2 Objectifs du cours 4

3 Estimateurs 5

4 Propri´et´es d´esirables d’un estimateur 5

4.1 Absence de biais . . . 6

4.2 Convergence (en probabilit´e) . . . 7

4.3 Efficience . . . 8

4.4 Erreur quadratique moyenne . . . 8

5 La moyenne ´echantillonnale comme estimateur de la moyenne de la population 10 5.1 La moyenne ´echantillonnale comme un estimateur moindres carr´es ordinaires de la moyenne . . . 12

6 Trois types d’inf´erence 16 6.1 Inf´erence asymptotique . . . 16

6.1.1 Convergence en distribution . . . 17

6.2 Inf´erence exacte . . . 17

6.3 Inf´erence par Monte Carlo ou parbootstrap . . . 18

7 Tests d’hypoth`ese concernant la moyenne 18 7.1 Principe de base pour tester une hypoth`ese nulle . . . 21

7.2 Hypoth`ese nulle et hypoth`ese alternative . . . 21

7.3 Tests avec hypoth`ese alternative bilat´erale . . . 21

7.4 P-value, taux de significativit´e marginale, risque de premi`ere esp`ece, risque de deuxi`eme esp`ece, puissance. . . 22

7.4.1 P-value . . . 22

7.4.2 Taux de significativit´e marginal . . . 23

7.4.3 Risque de premi`ere esp`ece . . . 24

7.4.4 Risque de deuxi`eme esp`ece . . . 24

7.4.5 Puissance . . . 24

7.5 Tests avec hypoth`ese alternative unilat´erale . . . 24

7.5.1 L’hypoth`ese alternative estH1 : E(Y)< µY0 . . . 24

7.5.2 L’hypoth`ese alternative estH1 : E(Y)> µY0 . . . 25

7.6 Tests lorsque la variance n’est pas connue . . . 27

7.6.1 Estimateur convergent de la variance. . . 28

7.7 La statistiquet. . . 29 8 Intervalles de confiance pour la moyenne de la population 30

9 La statistiquetde Student en petit ´echantillon 31

(3)

10 Comparaison des moyennes de populations diff´erentes 34 10.1 Tests d’hypoth`ese concernant la diff´erence entre deux moyennes . . . 35 10.2 Intervalles de confiance pour la diff´erence entre deux moyennes . . . 38

11 Donn´ees exp´erimentales et estimation de causalit´e 38

12 Tests concernant la variance de la population 39

12.1 Tests concernant la variance d’une population normale . . . 40 13 Diagrammes de dispersion, covariance ´echantillonnale et corr´elation ´echantillonnale 42

14 Concepts `a retenir 43

15 R´ef´erences 44

(4)

1 Introduction

Dans le chapitre pr´ec´edent, nous nous sommes pench´es sur la distribution ´echantillonnale de la moyenne ´echantillonnale d’un ´echantillon d’observations i.i.d. (identiquement et

ind´ependamment distribu´ees). Souvent on ne connaˆıt pas les propri´et´es de la distribution qui engendre nos observations, par exemple ses moments (moyenne, variance, etc.). Dans ce chapitre, nous allons nous pencher sur comment nous pouvonsestimerles propri´et´es de cette distribution inconnue, tester des hypoth`eses concernant ces propri´et´es, et calculer des intervalles de confiance pour nos estimateurs.

2 Objectifs du cours

1. Concept d’un estimateur.

2. Propri´et´es d´esirables d’un estimateur.

3. Estimateur de la moyenne d’une variable al´eatoire.

4. Trois types d’inf´erence statistique : inf´erence exacte, inf´erence approximative en grand

´echantillon, inf´erence par Monte Carlo.

5. Tests d’hypoth`eses concernant l’estimateur de la moyenne lorsque la variance est connue.

6. Tests d’hypoth`eses concernant l’estimateur de la moyenne lorsque la variance n’est pas connue.

7. Intervalles de confiance.

8. Inf´erence sur la diff´erence entre les moyennes de deux populations diff´erentes.

9. Estimation et tests d’hypoth`ese concernant la variance d’une population.

(5)

3 Estimateurs

• D´efinition formelle : un estimateur du param`etre inconnuθ d’un mod`ele ou loi de

probabilit´e est une fonction qui fait correspondre `a une suite d’observationsx1,x2, . . . ,xn issues du mod`ele ou de la loi de probabilit´e, la valeurθˆque l’on nommeestim´e ou

estimation:

θˆn≡f(x1, x2, . . . , xn).

• Ainsi,θˆest unefonctiondes donn´ees.

• L’estimateur nous permet de faire de l’inf´erence (tester des hypoth`eses, construire des intervalles de confiance) concernant les propri´et´es inconnues de la variable al´eatoire qui nous int´eresse.

• De fac¸on g´en´erale, un estimateur est une fonction (qui peut ˆetre lin´eaire ou non lin´eaire) des observations que nous avons dans notre ´echantillon. L’exemple que nous avons d´ej`a vu, la moyenne ´echantillonnale, est ´evidemment une fonction lin´eaire des observations de l’´echantillon.

• Le dernier point est un point important. Un estimateur est une fonction de notre

´echantillon d’observations, et donc il est bas´e sur des chosesobservables. Il ne peut jamais d´ependre de propri´et´es de la population que nous n’observons pas.

4 Propri´et´es d´esirables d’un estimateur

De mani`ere informelle, si nous estimons un moment (ou un param`etre) dans la population, nous souhaiterions que l’estimateur soit le plus pr`es possible de sa vraie valeur. Les trois propri´et´es dans cette section captent cette id´ee de fac¸on plus formelle. Nous allons parler en d´etail des trois crit`eres suivants :

• l’absencede biais d’un estimateur ;

• laconvergence en probabilit´ed’un estimateur ;

(6)

• l’efficience(relatif) d’un estimateur.

Il y a aussi une discussion (dans un encadr´e) d’un autre crit`ere,l’erreur quadratique moyenne, qui permet de comparer des estimateurs qui pourraient ˆetre biais´es.

Un autre crit`ere d´esirable dont nous n’allons pas discuter estla robustesse. Un estimateur est robuste s’il a de bonnes propri´et´es pour des donn´ees tir´ees de populations possiblement tr`es diff´erentes, surtout des populations qui ne sont pas normales.1

4.1 Absence de biais

• Un estimateur est non biais´e s’il esten moyenne´egale `a sa valeur dans la population.

• Cela ne veut pas dire, bien sˆur, qu’il esttoujours ´egal `a sa valeur dans la population dans n’importe quel ´echantillon.

• SoitµY la moyenne de la population, et soitY¯ un estimateur de cette moyenne (qui pourrait ˆetre la moyenne ´echantillonnale ou un autre estimateur comme par exemple la m´ediane de l’´echantillon). Nous allons dire queY¯ est un estimateur non biais´e deµY si

E Y¯

Y.

• Si l’estimateur est biais´e, son biais sera mesur´e par

Biais≡ E Y¯

−µY .

• Nous avons d´ej`a montr´e dans le chapitre 2 que la moyenne ´echantillonnale est un estimateur non biais´e de la moyenne de la population.

• Notez bien que l’estimateur lui-mˆeme d´epend de choses observables. Par contre, son esp´erance peut d´ependre deµY, la moyenne de lapopulation, qui n’est pas directement observable.

1. Voir l’articleWikipediaintitul´e “Robust Statistics” pour de plus amples renseignements.

(7)

4.2 Convergence (en probabilit´e)

• L’id´ee de base est tr`es simple. Si on a un nombre suffisant d’observations dans notre

´echantillon, l’estimateur se retrouve avec une probabilit´e tr`es ´elev´ee `a l’int´erieur d’un intervalle qui est arbitrairement petit autour de sa vraie valeur.

• Voici la d´efinition rigoureuse : Pour une s´equence de variables al´eatoiresYnet la constante µY,

n→∞lim Pr(|Yn−µY| ≥) = 0 pour une constante arbitrairement petite >0.

• SoitY¯, la moyenne ´echantillonnale, que nous pouvons utiliser pour estimer la moyenne dans la population,µY. Nous avons d´ej`a vu dans le chapitre 2 queY¯ est un estimateur convergent de la moyenne. Nous allons ´ecrire :

Y¯ −→p µY.

• Pour une preuve d´etaill´ee de la convergence en probabilit´e de la moyenne ´echantillonnale, voir l’Annexe 3.3 du manuel.

• Sauf pour des cas exceptionnels, un estimateur qui est non biais´e et dont la variance tend vers z´ero lorsque le nombre d’observations tend vers l’infini est un estimateur convergent.

Dans le reste du cours, si on montre qu’un estimateur est non biais´e et que sa variance tend vers z´ero lorsque le nombre d’observations tend vers l’infini, on va dire qu’il est

convergent (mˆeme si cela n’est pas une preuve rigoureuse de la convergence en probabilit´e).

• Je crois qu’il vaut la peine de r´ep´eter le dernier point. Le fait de montrer qu’un estimateur est non biais´e et que sa variance tend vers z´ero lorsque le nombre d’observations tend vers l’infinin’est pas une preuve formellede la convergence en probabilit´e, mais sauf pour des cas aberrants ces deux crit`eres sont suffisants pour montrer la convergence en probabilit´e. Il est quand mˆeme important de retenir l’id´ee qu’ilne s’agit pas d’une

(8)

preuve formelle.

4.3 Efficience

• L’efficience d’un estimateur fait r´ef´erence `a savariance.

• SoitY¯ etY˜, deux estimateurs non biais´es deµY. Nous allons dire queY¯ est plus efficient queY˜ si

Var Y¯

<Var Y˜

.

• Donc, on voit que l’efficience d’un estimateur est un conceptrelatif. Il permet de comparer deux estimateurs qui sonttous les deux non biais´es.

• Il y a aussi l’id´ee de montrer qu’un estimateur est leplus efficientdans une classe d’estimateurs donn´ee. Un exemple est le th´eor`eme Gauss-Markov, qui montre que (sous certaines conditions), l’estimateur moindres carr´es ordinaires (MCO) est le plus efficient parmi tous les estimateurslin´eaireset non biais´es. Pour un premier exemple d’un estimateur MCO, voir la section (5.1), o`u nous montrerons que la moyenne

´echantillonnale est l’estimateur MCO de la moyenne dans la population.

• Il peut y avoir un arbitrage entre le biais d’un estimateur et sa variance. Il y a des estimateurs qui sont biais´es mais qui ont des variances plus petites que certains autres estimateurs non biais´es. Comment comparer deux estimateurs qui ne sont pas forc´ement non biais´es ? Il y a le conceptd’erreur quadratique moyenne, dont je discute dans l’encadr´e qui suit. Il s’agit d’un concept un peu plus avanc´e. Je recommande de lire l’encadr´e mais il n’est pas obligatoire de retenir tous les d´etails.

4.4 Erreur quadratique moyenne

Cette sous-section est un peu plus ardue que les autres. Sa lecture est facultative. Comme je note dans le chapitre sur la r´egression simple, le concept de l’erreur quadratique moyenne

(9)

n’est pas tr`es souvent utilis´e dans le cadre du mod`ele de r´egression lin´eaire, puisque typiquement on suppose que les hypoth`eses pour obtenir un estimateur non biais´e tiennent.

• Nous avons vu que l’efficience d’un estimateur est un conceptrelatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme.

• Une autre fac¸on de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:

EQM β˜

≡E

β˜−β2 .

• Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.

• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.

• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,

EQM

β˜

=Var β˜

+ E

β˜−β2

.

• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,

Var(X) =E X2

−(E(X))2.

Cette formule s’applique aussi `a la variable al´eatoire

β˜−β

. Donc nous avons

Var

β˜−β

=E

β˜−β2

− E

β˜−β2

(10)

⇒E

β˜−β 2

=Var

β˜−β

+

E

β˜−β 2

⇒E

β˜−β2

=Var β˜

+ E

β˜−β2

,

ce qui fut `a montrer, puisque

=Var

β˜−β

=Var β˜

dˆu au fait queβn’est pas une variable al´eatoire.

• Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es.

• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances unarbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de

l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance plus faible.

5 La moyenne ´echantillonnale comme estimateur de la moyenne de la population

• SoitY une variable al´eatoire avec les propri´et´es suivantes :

E(Y) =µY, Var(Y) = σ2Y <∞.

• SoitY¯, d´efinie comme :

Y¯ ≡ 1 n

n

X

i=1

Yi.

• Il s’agit d’un estimateurraisonnable de la moyenne de la population. En fait, c’est un

(11)

exemple d’un estimateur o`u on estime un moment dans la population par le mˆeme moment

´echantillonnal.2

• Il n’est pas le seul estimateur possible. Par exemple, la m´ediane est souvent utilis´ee comme un estimateur de la moyenne de la population.3Par contre, la moyenne

´echantillonnale a les propri´et´es d´esirables suivantes.

1. Il est non biais´e :

E( ¯Y) = µY. 2. Il est convergent :

Y¯ −→p µY.

3. Parmi tous les estimateurs lin´eaires (qui sont des fonctions lin´eaires des observations de l’´echantillon) qui sont non biais´es, il a la plus petite variance. Il est donc

l’estimateur le plus efficient dans cette classe. Nous parlons d’un estimateur qui est BLUE(Best Linear Unbiased Estimator en anglais). C’est le th´eor`eme

Gauss-Markov que nous avons invoqu´e ci-dessus.

• Nous avons montr´e l’absence de biais de la moyenne ´echantillonnale comme estimateur de la moyenne de la population dans le chapitre pr´ec´edent.

• Voici encore la d´emonstration de l’absence de bais.

E( ¯Y) =E 1 n

n

X

i=1

Yi

!

= 1 n

n

X

i=1

E(Yi) = 1 n

n

X

i=1

µY = n

YY.

• Nous avons montr´e la convergence de l’estimateur dans le chapitre pr´ec´edent. Voir aussi le manuel, Annexe 3.3, pour une preuve plus rigoureuse. Nous avons montr´e que la variance de la moyenne ´echantillonnale est donn´ee par

Var Y¯

= 1 nσ2Y,

2. Voir l’articleWikipediaqui s’intitule “Method of Moments (statistics).”

3. La m´ediane est connue pour ˆetre plusrobuste`a la pr´esence d’observations extrˆemes ou aberrantes).

(12)

ce qui tend vers z´ero lorsquen→ ∞.

• L’efficience de l’estimateur d´epend de fac¸on cruciale de l’hypoth`ese que les r´ealisations de l’´echantillon proviennent d’une population avec une variance constante.

• La d´emonstration de ce r´esultat est relativement ardue. Il s’agit du th´eor`eme

Gauss-Markov. Nous verrons une preuve de ce th´eor`eme dans le chapitre sur le mod`ele de r´egression simple, et aussi dans un encadr´e un peu plus loin dans ce chapitre.

5.1 La moyenne ´echantillonnale comme un estimateur moindres carr´es ordinaires de la moyenne

• Supposons que nous voulons choisir un estimateurmpour essayer de pr´edire les valeurs d’une variable al´eatoireYi.

• Nous pouvons montrer que la moyenne ´echantillonnale est l’estimateur qui minimise la somme des erreurs de pr´evision au carr´e. Voici la preuve.

• Le probl`eme de minimisation est le suivant :

minm n

X

i=1

(Yi−m)2.

• La condition du premier ordre pour le choix demest :

−2

n

X

i=1

(Yi−m) = 0

n

X

i=1

Yi =nm

⇒m = 1 n

n

X

i=1

Yi ≡Y .¯

• La solution au probl`eme est tout simplement la moyenne ´echantillonnale.

• Pour cette raison, on va dire que la moyenne ´echantillonnale est l’estimateur moindres

(13)

carr´es ordinaires (MCO) de la moyenne de la population.

• C’est la premi`ere fois que nous rencontrons un exemple d’un estimateur MCO. Nous allons voir que pour plusieurs raisons l’estimateur MCO des param`etres du mod`ele de r´egression lin´eaire est de loin l’estimateur le plus utilis´e.

• Notez qu’il n’est pas le seul estimateur possible. Nous pourrions, par exemple, utiliser la m´ediane de l’´echantillon comme estimateur de la moyenne de la population. Nous pourrions, par exemple, minimiser la somme des erreurs de pr´evision absolues au lieu de minimiser la somme des erreurs au carr´e. Le probl`eme de minimisation s’´ecrirait

minm n

X

i=1

|Yi−m|.

• Il y a deux raisons principales pour l’utilisation fr´equente d’estimateurs MCO.

1. D’abord, comme nous avons vu, la solution au probl`eme de minimisation est facile `a trouver : la minimisation d’une expression quadratique donne une ou des conditions du premier ordre qui sontlin´eairesdans les inconnus. Trouver la solution `a une ou

plusieurs ´equations lin´eaires est normalement un jeu d’enfant.

2. Sous certaines conditions l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires non biais´es.

Nous pouvons montrer ce r´esultat assez facilement. Si vous voulez comprendre la logique du th´eor`eme Gauss-Markov, la lecture de cet encadr´e est fortement

recommand´ee. Je ne vais pas vous demander de reproduire une telle preuve dans un contexte d’examen, mais vous devriez ˆetre capable de suivre la preuve assez

facilement.

Soit un ´echantillon d’observations i.i.d. qui proviennent d’une population o`u E(Yi) = µY et Var(Yi) =σY2. Unestimateur lin´eaireconstruit `a partir den

(14)

observations i.i.d. peut s’´ecrire

Ye =

n

X

i=1

aiYi,

o`u lesai sont des constantes qui pond`erent les observations diff´erentes. Nous avons

´ecrit l’estimateur commeYe pour souligner que nous avons pas (encore) montr´e que l’estimateur le plus efficient est l’estimateur MCO, qui estY¯. Pour que l’estimateur soit non biais´e il faut que

E

n

X

i=1

aiYi

!

Y

n

X

i=1

aiE(Yi) =µY

n

X

i=1

aiµYY

⇔µY n

X

i=1

aiY

n

X

i=1

ai = 1.

Donc, pour que l’estimateur soit non biais´e il faut que la somme des coefficientsai soit ´egale `a un.

Maintenant, quel est le choix desaiqui minimise la variance de l’estimateur non biais´e ? Nous pouvons facilement trouver la r´eponse `a cette question en minimisant la variance de l’estimateur sujet `a la contrainte qu’il est non biais´e. La variance deYe peut s’´ecrire

Var

n

X

i=1

aiYi

!

=

n

X

i=1

Var(aiYi)

=

n

X

i=1

ai2Var(Yi)

(15)

Y2

n

X

i=1

ai2.

Minimiser la variance de l’estimateur revient `a minimiser la somme desaiau carr´e.

Nous pouvons ´ecrire ce probl`eme comme

min

ai

" n X

i=1

ai2+λ 1−

n

X

i=1

ai

!#

,

o`uλest un multiplicateur de Lagrange qui garantit que la contrainte soit satisfaite.

Ceux qui ne sont pas familiers avec l’optimisation sous contrainte devraient faire un peu de r´evision. Voir le livre de Chiang et Wainwright (2004) ou le livre de Hoy et al.

(2011). Les r´ef´erences d´etaill´ees sont dans le chapitre de r´ef´erences.

Les variables de choix du probl`eme sont lesai(il y en an) etλ. Les conditions du premier ordre du probl`eme sont

ai : 2ai −λ = 0, i= 1,2, . . . , n;

λ : 1−

n

X

i=1

ai = 0.

La premi`ere CPO tient pour∀i, i= 1. . . n. De cette premi`ere condition nous avons tout de suite que

ai = λ 2.

Ceci veut dire que toutes les pond´erations doivent ˆetre ´egales. De la deuxi`eme condition nous avons

n

X

i=1

λ 2 = 1

⇒λ= 2 n

⇒ai = 1 n.

(16)

Notre estimateurYe est tout simplement l’estimateur MCO. Autrement dit,

Ye = ¯Y .

Nous venons de prouver une version tr`es simple du th´eor`eme Gauss-Markov qui montre que, sous certaines conditions, l’estimateur MCO est l’estimateur le plus efficient parmi tous les estimateurs lin´eaires et non biais´es. Nous reviendrons `a ce th´eor`eme dans le contexte du mod`ele de r´egression lin´eaire.

6 Trois types d’inf´erence

6.1 Inf´erence asymptotique

• Il s’agit du type d’inf´erence privil´egi´e dans le manuel et dans le cours.

• Typiquement, nous ne connaissons pas le type de distribution (normale,t,F,χ2, Poisson, Bernoulli etc.) qui a engendr´e nos observations. Pour cette raison, nous ne connaissons pas non plus la distribution `a laquelle ob´eit notre estimateur.

• Mˆeme si les observations individuelles proviennent d’une distribution connue, notre estimateur n’est pas forc´ement engendr´e par une distribution connue. L’estimateur est une statistiqueet donc une fonction des observations individuelles. `A part des cas simples, la distribution exacte `a laquelle ob´eit une fonction de variables al´eatoires n’est pas connue.

Un de ces cas simples est la loi normale et un estimateur lin´eaire, puisqu’une combinaison lin´eaire de variables al´eatoires normales suit une distribution normale.4

• Par contre, sous certaines conditions (notamment des observations qui sont i.i.d., c’est `a dire identiquement et ind´ependamment distribu´ees, et qui ont une variance finie), et si

4. Une distribution qui a la propri´et´e qu’une combinaison lin´eaire de deux variables al´eatoires ind´ependantes suit la mˆeme distribution que chacune des deux variables al´eatoires individuellement est une distributionr´eguli`ere. Voir l’articleWikipediaqui s’intituleRegular Distribution.

(17)

notre ´echantillon est suffisamment grand, nous pouvons invoquer une version du th´eor`eme de la limite centrale afin d’obtenir une statistique ou un estimateur qui converge en

distribution vers une loi normale.

• De plus, si nous pouvons ´ecrire des statistiquesnormalis´ees(en soustrayant leurs moyennes sous l’hypoth`ese nulle et en divisant par un estimateur convergent de leurs

´ecarts types), nous pouvons cr´eer des statistiques qui suivent une distribution normale centr´ee r´eduite, ce qui rend tr`es facile les tests d’hypoth`eses et l’inf´erence statistique.

6.1.1 Convergence en distribution

• Chaque fois que nous faisons de l’inf´erence asymptotique, il s’agit de montrer que la statistique calcul´ee (souvent apr`es normalisation) satisfait les hypoth`eses d’une version du th´eor`eme de la limite centrale, afin de conclure qu’il y a convergence en distribution et, pour cette raison, si notre ´echantillon est assez grand, de conclure que notre statistique est distribu´ee de fac¸on approximativement normale.

6.2 Inf´erence exacte

• Si nous connaissons la forme de la distribution qui a engendr´e les observations de notre

´echantillon, il est parfois possible de connaˆıtre la distribution `a laquelle ob´eit notre estimateur. Par contre, ceci est relativement rare. Lorsque nos observations sont engendr´ees par une loi normale, et lorsque notre estimateur est un estimateur lin´eaire, nous savons que l’estimateur lui-mˆeme suit une loi normale (puisque, tel que nous avons vu dans le deuxi`eme chapitre, une combinaison lin´eaire de variables al´eatoires normales est une variable al´eatoire normale).

• Souvent, l’hypoth`ese que les observations sont engendr´ees par une loi normale est une hypoth`ese tr`es forte. Si notre ´echantillon est suffisamment grand, il est plus prudent de construire des statistiques qui satisfont les crit`eres qui permettent d’invoquer une des versions du th´eor`eme de la limite centrale.

(18)

6.3 Inf´erence par Monte Carlo ou par

bootstrap

• Si nous ne connaissons pas la distribution ayant engendr´e nos observations, et si notre

´echantillon est trop petit pour pouvoir invoquer le th´eor`eme de la limite centrale, l’inf´erence devient plus difficile, mais la situation n’est pas compl`etement d´esesp´er´ee.

• Il y a des techniques qui permettent d’utiliser l’´echantillon d’observations que nous avons afin de simuler la distribution qui l’a engendr´e. On parle de techniquesMonte Carloou dubootstrap.

• Nous n’allons pas ´etudier ces techniques en d´etail dans ce cours.

• Pour une introduction tr`es simple au sujet voir Davison et Kuonen (2002). L’article utilise un exemple qui est facile `a comprendre pour tous ceux qui ont suivi ce chapitre.

7 Tests d’hypoth`ese concernant la moyenne

• Le principe de base pour tester une hypoth`ese est le suivant.

Nous rejetons une hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur calcul´ee de la statistique au moins aussi ´eloign´ee de sa valeur sous l’hypoth`ese nulle si l’hypoth`ese nulle est vraie.

• En fait, tr`es souvent nous allons travailler avec des statistiquesnormalis´ees. Cela veut dire que nous allons soustraire la moyenne sousH0, et ensuite diviser par l’´ecart type, afin de cr´eer une variable al´eatoire avec une moyenne de z´ero et une variance unitaire (sous l’hypoth`ese nulle).

• Nous travaillons donc avec la statistique suivante :

tact≡ Y¯act−µY0

σY¯

o`u

σ2Y¯ = σY2 n ,

(19)

o`utactfait r´ef´erence `a l’id´ee d’une statistiquet pour des raisons que nous verrons plus loin, et o`uY¯actest la valeur calcul´ee de notre statistique ou estimateur `a partir de notre ´echantillon d’observations.5

• Nous pouvons facilement montrer que la statistique normalis´ee a une moyenne de z´ero.

Nous avons

E

act−µY0 σY¯

= 1 σY¯

E Y¯act−µY0 .

Si l’hypoth`ese nulle est vraie nous avons

E Y¯act

Y0

(puisque la moyenne ´echantillonnale est un estimateur non biais´e de la moyenne dans la population), et donc

E(tact) = 0.

Nous pouvons aussi montrer quetacta une variance unitaire. Nous avons

Var

act−µY0 σY¯

= 1

σY2¯Var Y¯act−µY0

= 1

σY2¯Var Y¯act

= 1

σ2Y¯Var 1 n

n

X

i=1

Yi

!

5. Sous certaines conditions, notamment pour des ´echantillons de donn´ees provenant d’une loi normale, la sta- tistiquet suivra la loi tde Student. Mˆeme dans des cas o`u nous ne voulons pas faire une hypoth`ese de normalit´e concernant la loi qui g´en`ere les donn´ees, nous continuerons `a parler destatistiquet.

(20)

= 1 σY2¯

1 n2

n

X

i=1

Var(Yi)

!

= 1 σY2¯

n

n2Var(Yi)

= 1 σ2Y/n

1

n2nVar(Yi)

= Var(Yi) σ2Y = 1.

• Notez que pour faire ces d´emonstrations nous avons utilis´e `a maintes reprises les r`egles de base pour le calcul d’esp´erances et de variances que nous avons vues dans le chapitre pr´ec´edent. Pour obtenir la 6e ligne, qui dit que la variance de la somme est ´egale `a la somme des variances, on utilise le fait que nos observations sont des observations ind´ependantes provenant d’une seule population.

• Notre statistique est une moyenne d’observations ind´ependantes provenant d’une seule population, et donc nous avons les hypoth`eses requises pour pouvoir invoquer le th´eor`eme de la limite centrale et dire que la statistique converge `a une variable al´eatoire qui suit une loi normale centr´ee r´eduite.

• Autrement dit, nous avons

tact −→d N(0,1).

• J’insiste beaucoup sur l’id´ee que nous sommes en train de faire ce que j’ai appel´e l’inf´erence asymptotique. Nous ne savons pas quelle est la loi statistique exacte qui a g´en´er´e les donn´ees de notre ´echantillon. Nous construisons une statistique de sorte que nous puissions utiliser le th´eor`eme de la limite centrale pour montrer que la statistique converge `a une variable al´eatoire normale.

• De cette fac¸on, si la taille de l’´echantillon est suffisamment grande, nous pouvons argumenter que notre statistique suit approximativement une loi normale.6

6. Malheureusement, ce jugement est forc´ement subjectif, mais si nous travaillons avec une base de donn´ees conte- nant plusieurs milliers d’observations nous pouvons ˆetre relativement confiants.

(21)

7.1 Principe de base pour tester une hypoth`ese nulle

• Le principe de base pour tester une hypoth`ese nulle est le suivant.

Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi ´eloign´ee de z´ero de la statistique normalis´ee.

• Je sugg`ere fortement de bien comprendre ce principe. Je le r´ep`ete. On rejette une hypoth`ese nulle lorsqu’il est suffisamment peu probable de obtenir une statistique (normalis´ee) calcul´ee aussi ´eloign´ee de z´ero si l’hypoth`ese nulle est vraie.

7.2 Hypoth`ese nulle et hypoth`ese alternative

• L’hypoth`ese nulle sp´ecifie typiquement que la vraie valeur du moment estim´e par notre statistique calcul´ee est ´egale `a une certaine valeur.

• Pourquoi une valeur sp´ecifique et non une gamme de valeurs ? Typiquement nous avons besoin, pour effectuer un test, de savoir `a quelle loi ob´eit notre statistique calcul´ee, soit exactement en petit ´echantillon (inf´erence exacte) soit approximativement en grand

´echantillon (inf´erence asymptotique). Si on sp´ecifie une gamme de valeurs comme hypoth`ese nulle, il peut ˆetre difficile sinon impossible de montrer quelle est la loi qui engendre notre statistique. Pour une discussion plus d´etaill´ee, voir l’encadr´e ci-dessous.

7.3 Tests avec hypoth`ese alternative bilat´erale

• Le principe de base devient :

Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi ´eloign´ee de z´ero de la statistique normalis´ee, soit positif soit n´egatif.

(22)

• Donc, nous travaillons avec la valeur absolue de la statistique que voici : Y¯act−µY0

σY¯

.

• Si nos observations sont i.i.d., cette statistique sera distribu´ee, sous l’hypoth`ese nulle, approximativement comme une variable al´eatoire normale centr´ee r´eduite.

L’approximation tiendra dans la mesure o`u le nombre d’observations dans notre

´echantillon est suffisamment ´elev´e.

• Lap-value de notre test est

PrH0

Y¯ −µY0 σY¯

>

act−µY0 σY¯

! ,

o`u la notation PrH0 peut se lirela probabilit´e si l’hypoth`ese nulle est vraie que . . . .

• SoitΦ(z)la valeur de la distribution normale centr´ee r´eduite cumul´ee. Lap-value (voir la sous-section ci-dessous pour une discussion plus d´etaill´ee) serait donn´ee par :

p−value= 2Φ

act−µY0 σY¯

.

7.4 P -value, taux de significativit´e marginale, risque de premi`ere esp`ece, risque de deuxi`eme esp`ece, puissance

7.4.1 P-value

• Lap-value du test est la probabilit´e d’obtenir une valeur calcul´ee de la statistique utilis´ee pour effectuer le test au moins aussi d´efavorable `a l’hypoth`ese nulle, si l’hypoth`ese nulle est vraie.

• Pour une discussion d´etaill´ee et intuitive du concept dep-value, voir Humphrey (2011). Je conseille fortement la lecture de ce texte. La notion dep-value peut ˆetre difficile `a

comprendre, mˆeme pour ceux qui ont suivi un cours pr´ealable en statistique.

(23)

• Habituellement nous voulons avoir un crit`ere assezconservateuravant de rejeter une hypoth`ese nulle. Par exemple, dans un contexte de tester l’efficacit´e d’un nouveau m´edicamment, avant de dire qu’il est efficace on voudrait constater un pourcentage plus

´elev´e de gu´erisons chez les sujets qui prennent le m´edicamment, et on voudrait que la probabilit´e soit tr`es faible que ce pourcentage ´elev´e soit dˆu au hasard si le m´edicamment est en fait inefficace.

• Pour cette raison, on d´ecide de rejeter une hypoth`ese nulle si lap-value est relativement faible. La valeur maximale de lap-value menant `a un rejet de l’hypoth`ese nulle est appel´e le taux de significativit´e marginal du test.

7.4.2 Taux de significativit´e marginal

• On dit qu’une hypoth`ese nulle est rejet´ee `a un niveau deX% si la probabilit´e de la rejeter si elle est vraie est ´egale ou inf´erieure `aX/100. Autrement dit, on rejette `aX% si la p-value du test est ´egale ou inf´erieure `aX/100.

• Le fait de se limiter `a dire si un test est rejet´e ou non `a un taux de significativit´e marginal de 10%, de 5% ou de 1% remonte `a l’´epoque o`u il fallait utiliser des tables de valeurs pour les diff´erents types de distribution. Pour certaines lois qui d´ependent d’un ou de plusieurs param`etres comme les degr´es de libert´e, il aurait ´et´e tr`es laborieux de calculer les valeurs de ces distributions cumul´ees pour toutes les valeurs possibles de ces param`etres, et tr`es volumineux de les publier.

• De nos jours, les logiciels d’´econom´etrie ont des algorithmes pour ´evaluer les valeurs de toute une s´erie de distributions cumul´ees, et pour des valeurs quelconques des param`etres qui caract´erisent ces distributions. Il est fortement conseill´e lorsqu’on publie ses r´esultats de communiquer lap-value de son test et de laisser au lecteur le choix de d´ecider si cette p-value est suffisamment petite pour rejeterH0.

(24)

7.4.3 Risque de premi`ere esp`ece

• Le risque de premi`ere esp`ece est la probabilit´e de rejeter l’hypoth`ese nulle lorsqu’elle est vraie.

• On appelle le risque de premi`ere esp`ece la probabilit´e d’unetype 1 error en anglais.

• Autrement dit, c’est un concept tr`es semblable `a celui dep-value.

• Ce risque est souvent appel´eα.

7.4.4 Risque de deuxi`eme esp`ece

• Le risque de deuxi`eme esp`ece (probability of a type 2 error en anglais) est la probabilit´e d’accepter l’hypoth`ese nulle si elle est fausse.

• Ce risque est souvent appel´eβ.

7.4.5 Puissance

• La puissance d’un test est la probabilit´e de rejeter l’hypoth`ese nulle lorsqu’elle est fausse.

• Siβ est le risque de deuxi`eme esp`ece, alors(1−β)est la puissance d’un test.

7.5 Tests avec hypoth`ese alternative unilat´erale

• Supposons une hypoth`ese nulle concernant la moyenne qui est donn´ee par :

H0 : E(Y) =µY0

• Nous distinguons entre les deux cas possibles suivants.

7.5.1 L’hypoth`ese alternative estH1 : E(Y)< µY0

• Le principe de base devient :

Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi n´egative de la statistique normalis´ee.

(25)

• Lap-value de notre test est

PrH0

Y¯ −µY0 σY¯

!

<

act−µY0 σY¯

!!

.

• Lap-value du test est donn´ee par :

p−value= Φ

act−µY0 σY¯

,

o`uΦ(z)est encore la valeur de la distribution normale centr´ee r´eduite cumul´ee.

7.5.2 L’hypoth`ese alternative estH1 : E(Y)> µY0

• Le principe de base devient :

Nous rejetons l’hypoth`ese nulle lorsqu’il serait suffisamment peu probable d’obtenir une valeur au moins aussi positive de la statistique normalis´ee.

• Lap-value de notre test est

PrH0

Y¯ −µY0 σY¯

!

>

act−µY0 σY¯

!!

.

• Lap-value du test est donn´ee par :

p−value = 1−Φ

act−µY0 σY¯

,

o`uΦ(z)est encore la valeur de la distribution normale centr´ee r´eduite cumul´ee.

Hypoth`eses nulles simples versus hypoth`eses nulles compos´ees

Cette section est un peu plus ardue que les autres. Sa lecture est facultative.

(26)

J’ai d´ej`a eu des questions d’´etudiants qui ont vu, soit dans un autre cours soit dans un manuel, une explication des tests avec hypoth`ese aalternative unilat´erale o`u on sp´ecifie l’hypoth`ese nulle comme une hypoth`esecompos´ee. Autrement dit, au lieu de sp´ecifier

H0YY0 et H1Y < µY0,

qui est une hypoth`ese nullesimple(qui ne prend qu’une seule valeur), on peut sp´ecifier

H0Y ≥µY0 et H1Y < µY0,

et au lieu de sp´ecifier

H0YY0 et H1Y > µY0

on peut sp´ecifier

H0Y ≤µY0 et H1Y > µY0.

Les deux fac¸ons de sp´ecifier l’hypoth`ese nulle sont correctes, mais l’approche o`u on sp´ecifie une hypoth`ese nulle compos´ee requiert une explication plus d´etaill´ee, surtout pour

comprendre lap-value du test. Pour une discussion d´etaill´ee des diff´erences, voir l’article de Liu et Stone (1999). Voir aussi Dukic (2007).

La raison principale pour utiliser des hypoth`eses nulles simples est qu’on doit ˆetre capable de construire une statistique normalis´ee qui suit une loi de probabilit´e connuesi l’hypoth`ese nulle est vraie. Si on soustrait la valeur de la statistique sous l’hypoth`ese nulle, si on utilise un estimateur non biais´e, et si on divise par l’´ecart type de l’estimateur, on peut invoquer le th´eor`eme de la limite centrale pour dire que la statistique normalis´ee suit (au moins

approximativement) une loi normale centr´ee r´eduite.

Si on utilise une hypoth`ese nulle compos´ee, pour calculer lap-value du test il faut bien comprendre le principe d’ˆetreconservateurlorsqu’on rejette une hypoth`ese nulle.

(27)

Il est clair que si l’hypoth`ese nulle est une hypoth`ese compos´ee, le fait de choisir un point `a l’int´erieur de l’intervalle couvert parH0 mais tr`es loin de la fronti`ere donn´ee parµY0 va r´eduire lap-value du test. En fait, on peut r´eduire de fac¸on arbitraire lap-value en ´eloignant la valeur de plus en plus de la fronti`ere. Pour cette raison, on calcule la statistique normalis´ee pour la valeur qui estsurla fronti`ere. De cette fac¸on, on maximise lap-value et on minimise la probabilit´e de rejeter l’hypoth`ese nulle si elle est vraie, ce qui revient `a choisir la strat´egie la plus conservatrice possible.

Dans le cas d’une hypoth`ese nulle compos´ee, il y a plusieurs valeurs possibles pourµY et pourchacunede ces valeurs on peut calculer lap-value du test en ´ecrivant la statistique normalis´ee habituelle (la valeur calcul´ee de la statistique moins sa valeur sousH0 divis´ee par son ´ecart type). Le principe d´ecrit dans le paragraphe pr´ec´edent peut ˆetre exprim´e de fac¸on math´ematique. Prenons le cas o`uH0Y ≥µY0. Soitαle risque de premi`ere esp`ece, le risque de rejeterH0lorsqu’elle est vraie. On va choisir la valeur deµY parmi toutes les valeurs possibles (µY ≥µY0) pour maximiserα. Autrement dit,

α= max

µY≥µY

0

P (risque de premi`ere esp`ece).

Et, en fait, pour maximiserα, on va choisirµYY0, et donc lap-value du test sera identique au cas o`uH0est une hypoth`ese simple.

7.6 Tests lorsque la variance n’est pas connue

• Si la varianceσ2Y n’est pas connue nous pouvons l’estimer.

• C’est en fait un cas beaucoup plus r´ealiste. Si nous devons estimer l’esp´erance d’une variable al´eatoire, il est difficile de concevoir des cas o`u on connaˆıtrait la variance avec exactitude.

• Nous utilisons un estimateur convergent de la variance, que nous d´efinissons dans la

(28)

sous-section suivante.

• La technique de remplacer un moment inconnu par un estimateur convergent est une technique que nous allons employer `a maintes reprises dans le cours.

• La convergence est cruciale ici. Nous avons d´ej`a vu que la convergence en probabilit´e d’un estimateur revient `a dire que la variance de l’estimateur tend vers z´ero. C’est comme l’incertitude concernant la vraie valeur de l’estimateur disparaˆıt `a toutes fins pratiques (dans la limite). Diviser par la racine carr´ee de l’estimateur de la variance revient `a toutes fins pratiques, lorsque le nombre d’observations est assez ´elev´e, `a diviser par une

constante. Nous reviendrons `a ce principe dans le chapitre suivant sur le mod`ele de r´egression simple.

7.6.1 Estimateur convergent de la variance

• L’estimateur habituel est le suivant :

s2Y = 1 (n−1)

n

X

i=1

Yi−Y¯2

,

o`uY¯ est, bien sˆur, la moyenne ´echantillonnale.

• L’estimateur est convergent. En plus, il est non biais´e.

• Voici la preuve que l’estimateurs2Y de la variance est non biais´e. Pour montrer l’absence de biais, il faut appliquer les r`egles de bases que nous avons apprises dans le chapitre 2 concernant les propri´et´es de la moyenne d’une variable al´eatoire et les propri´et´es de la variance d’une variable al´eatoire.

E s2Y

= 1

(n−1)

n

X

i=1

E Yi−Y¯2

= 1

(n−1)

n

X

i=1

E Yi2

−2E Yi

+E Y¯2

(29)

= 1 (n−1)

n

X

i=1

E σ2YY2

−2E Yi

+E Y¯2

= n

(n−1)E σ2YY2

− 2

(n−1)E Y¯

n

X

i=1

Yi

!

+ n

(n−1)E Y¯2

= n

(n−1) σY2Y2

− 2

(n−1)E Y n¯ Y¯

+ n

(n−1)E Y¯2

= n

(n−1) σY2Y2

− n

(n−1)E Y¯2

= n

(n−1) σ2YY2

− n (n−1)

Var Y¯

+ E Y¯2

= n

(n−1) σY2Y2

− n (n−1)

1

Y2Y2

= n

(n−1)σY2 − 1 (n−1)σY2

Y2,

ce qui fut `a d´emontrer.

• Tout le monde devrait ˆetre capable de suivre cette d´emonstration et, surtout, d’identifier les r`egles de base qui ont ´et´e utilis´ees pour passer d’une ligne `a l’autre.

• Nous venons de montrer l’absence de biais de notre estimateur. Nous n’avons pas encore montr´e la convergence. Il s’agirait entre autres de montrer que la variance de l’estimateur diminue avec la taille de l’´echantillon et, dans la limite, converge `a z´ero.

7.7 La statistique t

• La statistique donn´ee par

tact ≡ Y¯act−µY0 ˆ σY¯

, o`uσˆY¯ ≡p

s2/n, est habituellement appel´eela statistiquet mˆeme si, en grand

´echantillon, elle est distribu´ee approximativement selon une loi normale centr´ee r´eduite.

(30)

• En fait, nous avons encore

tact=

act−µY0 ˆ σY¯

d

→N(0,1).

• Le fait de diviser notre statistique par un estimateur (qui est une variable al´eatoire) ne change pas la convergence en distribution. C’est comme si on peut traiter le

d´enominateurde Y¯actσˆ−µY0

Y¯ dans la limite comme une constante. C’est comme si on divisait par la vraie valeurσY¯.7

• Si nous sommes prˆets `a faire l’hypoth`ese que nos observationsYisont tir´ees d’une

distribution normale, la statistique est distribu´ee selon une loitde Student, mˆeme en petit

´echantillon. La d´emonstration de ce r´esultat se trouve ci-dessous.

8 Intervalles de confiance pour la moyenne de la population

• L’intervalle de confiance deX% pour la moyenne ´echantillonnaleY¯ consiste en toutes les valeursY¯i deY¯ pour lesquelles on ne rejette pas l’hypoth`ese nulle queY¯ = ¯Yi `a un taux de significativit´e de(100−X)%, ce qui veut dire donc que le test de l’hypoth`ese nulle `a unep-value sup´erieure `a(1−X/100).

• L’hypoth`ese alternative pour ces tests est toujours l’hypoth`ese alternative bilat´erale.

• Pour calculer les deux bornes de l’intervalle de confiance deX%, d’abord on cherche la valeur dez >0telle que

Φ(−z) = 1−X/100

2 .

Donc, on cherche la valeur dez >0pour laquelle (100−X2 )% de la distribution normale centr´ee r´eduite se trouve `a gauche de−z.

• Maintenant, on a

X 100 =Pr

−z ≤ Y¯ −µY ˆ σY¯

≤z

7. Ceci est en fait un exemple de l’utilisation du th´eor`eme de Slutsky, que nous verrons en plus de d´etails dans le chapitre suivant.

(31)

=Pr −zˆσY¯ ≤ Y¯ −µY

≤zσˆY¯

=Pr −zˆσY¯ ≤ µY −Y¯

≤zσˆY¯

=Pr Y¯ −zσˆY¯ ≤µY ≤Y¯ +zσˆY¯

,

ce qui veut dire que la probabilit´e que la moyenne de la distribution est entre les bornes Y¯ −zσˆY¯

et Y¯ +zσˆY¯

est ´egale `aX%.

9 La statistique t de Student en petit ´echantillon

• Si nous sommes prˆets `a faire l’hypoth`ese maintenue8que nos observations sont engendr´ees suivant une loi normale, nous pouvons construire des statistiquestqui ob´eissent `a une loitde Student, avecn−1degr´es de libert´e o`unest la taille de l’´echantillon.

• Pour tester des hypoth`eses concernant la moyenne ´echantillonnale, nous utilisons la statistique

t= Y¯ −µY0 ps2Y/n,

o`us2Y est la variance ´echantillonnalle deY etµY0 est la valeur de la moyenne deY sous l’hypoth`ese nulle. Sous l’hypoth`ese nulle, la statistique a une esp´erance nulle.

• Pour montrer que la statistiquetsuit une loitde Student, il faut l’´ecrire sous une forme particuli`ere :

t= Z

pW/(n−1),

o`uZ est une variable al´eatoire normale centr´ee r´eduite etW est une variable al´eatoire qui ob´eit `a une loiχ2avecn−1degr´es de libert´e.

• La moyenne ´echantillonnale elle-mˆeme doit suivre une distribution normale, puisque il

8. Une hypoth`ese maintenue est une hypoth`ese que nous ne testons pas et que nous ne remettons pas en question.

(32)

s’agit d’une combinaison lin´eaire de variables al´eatoires normales. Nous avons

Y¯ ∼N

µY , σ2Y n

.

• Le probl`eme est que, typiquement, nous ne connaissons pas la valeur deσ2Y et donc nous devons l’estimer. Nous utilisons la variance ´echantillonnales2Y.

• Nous avons

t =

Y¯ −µY0 ps2Y/n

=

Y¯ −µY0

Y2/n s

σ2Y s2Y

=

Y¯ −µY02Y/n ÷

s

(n−1)s2Y2Y (n−1) .

• Nous avons

E

Y¯ −µY0

Y2/n

!

= 0

et

Var

Y¯ −µY0Y2/n

!

= 1

σY2/nVar Y¯

= 1

et donc

Z ≡ Y¯ −µY0Y2/n

est une variable normale centr´ee r´eduite.

• Nous avons que

W ≡(n−1)s2YY2

est une variable al´eatoire qui suit une distribution chi-carr´e avec(n−1)degr´es de libert´e.

La preuve est un peu longue. Je montre ce r´esultat dans l’encadr´e qui termine cette section.

(33)

• Il faut aussi montrer queZetW sont des variables al´eatoires ind´ependantes. La preuve n’est pas facile. Les preuves de ce r´esultat passent par l’utilisation de fonctions

g´en´eratrices des moments, par le th´eor`eme de Cochran ou par le th´eor`eme de Basu, des sujets qui d´epassent le cadre de ce cours.

Je montre ici que la variable al´eatoireW d´efinie ci-dessus suit une distribution chi-carr´e avec (n−1)degr´es de libert´e. Nous avons

n

X

i=1

Yi−µY

σY 2

=

n

X

i=1

Yi−Y¯ + ¯Y −µY σY

2

=

n

X

i=1

Yi−Y¯ σY

2

+

n

X

i=1

Y¯ −µY σY

2

+ 2

n

X

i=1

Yi−Y¯ σY

Y¯ −µY σY

=

n

X

i=1

Yi−Y¯ σY

2

+

n

X

i=1

Y¯ −µY σY

2

puisque

n

X

i=1

Yi−Y¯

= 0.

Donc nous avons

n

X

i=1

Yi−µY σY

2

=

n

X

i=1

Yi−Y¯ σY

2

+n Y¯ −µY2

σY2

= (n−1) σ2Y

n

X

i=1

Yi−Y¯2

(n−1) +n Y¯ −µY2

σY2

= (n−1)s2Y

σ2 + n Y¯ −µY2

σY2

(34)

⇒ (n−1)s2Y σ2Y =

n

X

i=1

Yi−µY σY

2

− n Y¯ −µY2

σY2

Nous nous int´eressons `a la distribution de (n−1)sσ2 2Y. Nous avons

Yi ∼N µY , σ2Y

⇒ Yi−µY

σY ∼N(0,1)

Yi−µY σY

2

∼χ2(1).

Donc, le premier terme `a droite de la derni`ere ´egalit´e est la somme denvariables al´eatoires χ2 ind´ependantes et suit une distributionχ2(n). Nous avons aussi

Y¯ ∼N µY , σ2Y/n

Y¯ −µY

Y/n ∼N(0,1)

⇒ n Y¯ −µY2

σY2 ∼χ2(1).

Donc, nous avons montr´e que (n−1)sσ2 2Y est ´egal `a la diff´erence entre une variable al´eatoire χ2(n)et une variable al´eatoireχ2(1). Par le th´eor`eme de Cochran, elle doit suivre une

distributionχ2(n−1). La preuve n’est pas facile. Voir par exemple Wood (2009), `a l’adresse suivante :

http://www.stat.columbia.edu/˜fwood/Teaching/w4315/Fall2009/lecture_cochran.pdf

10 Comparaison des moyennes de populations diff´erentes

• Il est souvent le cas que nous voulons tester si deux moyennes sont identiques. Par

exemple, lorsqu’on teste l’efficacit´e d’un m´edicament suite `a des essais cliniques, on teste

(35)

l’hypoth`ese que la probabilit´e de gu´erison en prenant le m´edicament (la probabilit´e ici est comme une moyenne normalis´ee) est identique `a la probabilit´e de gu´erison en prenant un placebo.

• Un autre contexte qui se pr´esente souvent en ´economique serait de tester l’´egalit´e d’une caract´eristique ´economique (par exemple le salaire moyen) entre deux populations diff´erentes.

10.1 Tests d’hypoth`ese concernant la diff´erence entre deux moyennes

• Dans le cas o`u nous connaissons les variances des deux populations, l’analyse est tr`es facile. SoitY¯m la moyenne ´echantillonnale d’une premi`ere population,Y¯wla moyenne

´echantillonnale d’une deuxi`eme population, et soit l’hypoth`ese nulleH0 : µm−µw = 0 que les moyennes des deux populations sont ´egales. La statistique suivante :

m−Y¯w−0 qσ2m

nm + σnw2

w

aurait une moyenne nulle est une variance unitaire sous l’hypoth`ese nulle, o`uσ2mest la variance de la premi`ere population,σ2west la variance de la deuxi`eme population,nmest la taille de l’´echantillon d’observations provenant de la premi`ere population, etnwest la taille de l’´echantillon d’observations provenant de la deuxi`eme population.

• J’´ecris un z´ero au num´erateur pour souligner le fait que, pour cr´eer notre statistique normalis´ee, nous soustrayons la diff´erence des moyennes sous l’hypoth`ese nulle, qui dans ce cas est z´ero.

• L’hypoth`ese de l’´echantillonnage al´eatoire est cruciale ici. Cela nous permet de dire que la covariance entre les deux populations est nulle.

• Sous des hypoth`eses standard, la statistique ci-dessus converge en distribution vers une loi

(36)

normale centr´ee r´eduite ;

m−Y¯w−0 qσ2m

nm +σnw2

w

d

→N(0,1).

• Si nous ne connaissons pas les variances de la population, nous pouvons les remplacer par des estimateurs convergents. Nous aurions :

m−Y¯w−0 qs2m

nm +ns2w

w

d

→N(0,1).

• Qu’est qui arriverait si nos deux ´echantillons ´etaient relativement petits ? Nous pouvons toujours utiliser nos estimateurs des variances, soits2m ets2w, comment est-ce que notre statistique est distribu´ee ? Il ne satisfait pas les crit`eres pour la distributiontde Student (voir la page 87 du manuel, version en anglais), et donc la distribution qui engendre notre statistique prend une forme qui est inconnue. Le seul recours possible serait de faire un exercice Monte Carlo ou bootstrap afin de simuler la distribution sous-tendante `a partir de l’´echantillon d’observations `a notre disposition.

• Ceci illustre un principe g´en´eral important. Notre estimateur n’est pas si compliqu´e que c¸a. Par contre, mˆeme si on connaˆıt les distributions qui g´en`erent nos deux ´echantillons de donn´ees, nous ne pouvons pas faire de l’inf´erence exacte.

• Il y a un cas o`u la statistique va provenir d’une distribution connue. Si nous sommes prˆets

`a supposer que les deux variancesσ2metσw2 sont identiques, nous pouvons estimer cette variance unique avec l’estimateur convergent suivant :

s2pooled = 1

(nm+nw−2)

nm

X

i=1

Ymi−Y¯m2

+

nm

X

i=1

Ywi−Y¯w2

! ,

o`us2pooledest l’estimateur de la variance unique pour l’´echantillon fusionn´e (pooled en anglais).

• Dans ce cas, nous pouvons montrer que la statistique suivante ob´eit `a une loitde Student

Références

Documents relatifs

Notez que pour r´epondre `a cette partie vous allez devoir r´eestimer le mod`ele avec des variables explicatives additionnelles qui tiennent compte de l’interac- tion entre

J’ai accept´e aussi un mod`ele avec seulement des termes d’interac- tion (donc on laisserait tomber saf rica, asiae et laam comme variables explicatives et on garderait ce que

Ajoutez la variable school au mod`ele comme proxy pour s h , avec un terme d’interaction pour les pays de l’OCDE.. Le mod`ele maintenant ´equivaut au mod`ele de Solow avec l’ajout

Vous devriez fournir avec vos r´eponses un script en R, GRETL, STATA ou dans le langage que vous avez utilis´e pour r´epondre aux questions.. Lorsque je vous demande de commenter ce

Maintenant, testez la significativit´e jointe de ces deux variables ensemble, avec et sans ´ecarts types robustes.. Expliquez ce que

Ayant construit les moyennes ´echantillonnales normalis´ees, v´erifiez que (pour chaque valeur de n) les 10 000 observations que vous avez g´en´er´ees ont une moyenne pr`es de z´ero

Si vous jouez avec cette commande, vous allez constatez qu’elle produit des nombres positifs dont la majorit´e sont inf´erieurs `a 1 λ = 0.5.. Ceci refl`ete le fait que c’est

Pour le mod`ele de r´egression (avec mv comme variable d´ependante) que vous avez estim´e, effectuez le test Breusch-Pagan pour la pr´esence de l’h´et´erosc´edasticit´e avec