• Aucun résultat trouvé

• La statistique donn´ee par

tact ≡ Y¯act−µY0 ˆ σY¯

, o`uσˆY¯ ≡p

s2/n, est habituellement appel´eela statistiquet mˆeme si, en grand

´echantillon, elle est distribu´ee approximativement selon une loi normale centr´ee r´eduite.

• En fait, nous avons encore

tact=

act−µY0 ˆ σY¯

d

→N(0,1).

• Le fait de diviser notre statistique par un estimateur (qui est une variable al´eatoire) ne change pas la convergence en distribution. C’est comme si on peut traiter le

d´enominateurde Y¯actσˆ−µY0

Y¯ dans la limite comme une constante. C’est comme si on divisait par la vraie valeurσY¯.7

• Si nous sommes prˆets `a faire l’hypoth`ese que nos observationsYisont tir´ees d’une

distribution normale, la statistique est distribu´ee selon une loitde Student, mˆeme en petit

´echantillon. La d´emonstration de ce r´esultat se trouve ci-dessous.

8 Intervalles de confiance pour la moyenne de la population

• L’intervalle de confiance deX% pour la moyenne ´echantillonnaleY¯ consiste en toutes les valeursY¯i deY¯ pour lesquelles on ne rejette pas l’hypoth`ese nulle queY¯ = ¯Yi `a un taux de significativit´e de(100−X)%, ce qui veut dire donc que le test de l’hypoth`ese nulle `a unep-value sup´erieure `a(1−X/100).

• L’hypoth`ese alternative pour ces tests est toujours l’hypoth`ese alternative bilat´erale.

• Pour calculer les deux bornes de l’intervalle de confiance deX%, d’abord on cherche la valeur dez >0telle que

Φ(−z) = 1−X/100

2 .

Donc, on cherche la valeur dez >0pour laquelle (100−X2 )% de la distribution normale centr´ee r´eduite se trouve `a gauche de−z.

• Maintenant, on a

X 100 =Pr

−z ≤ Y¯ −µY ˆ σY¯

≤z

7. Ceci est en fait un exemple de l’utilisation du th´eor`eme de Slutsky, que nous verrons en plus de d´etails dans le chapitre suivant.

=Pr −zˆσY¯ ≤ Y¯ −µY

≤zσˆY¯

=Pr −zˆσY¯ ≤ µY −Y¯

≤zσˆY¯

=Pr Y¯ −zσˆY¯ ≤µY ≤Y¯ +zσˆY¯

,

ce qui veut dire que la probabilit´e que la moyenne de la distribution est entre les bornes Y¯ −zσˆY¯

et Y¯ +zσˆY¯

est ´egale `aX%.

9 La statistique t de Student en petit ´echantillon

• Si nous sommes prˆets `a faire l’hypoth`ese maintenue8que nos observations sont engendr´ees suivant une loi normale, nous pouvons construire des statistiquestqui ob´eissent `a une loitde Student, avecn−1degr´es de libert´e o`unest la taille de l’´echantillon.

• Pour tester des hypoth`eses concernant la moyenne ´echantillonnale, nous utilisons la statistique

t= Y¯ −µY0 ps2Y/n,

o`us2Y est la variance ´echantillonnalle deY etµY0 est la valeur de la moyenne deY sous l’hypoth`ese nulle. Sous l’hypoth`ese nulle, la statistique a une esp´erance nulle.

• Pour montrer que la statistiquetsuit une loitde Student, il faut l’´ecrire sous une forme particuli`ere :

t= Z

pW/(n−1),

o`uZ est une variable al´eatoire normale centr´ee r´eduite etW est une variable al´eatoire qui ob´eit `a une loiχ2avecn−1degr´es de libert´e.

• La moyenne ´echantillonnale elle-mˆeme doit suivre une distribution normale, puisque il

8. Une hypoth`ese maintenue est une hypoth`ese que nous ne testons pas et que nous ne remettons pas en question.

s’agit d’une combinaison lin´eaire de variables al´eatoires normales. Nous avons

• Le probl`eme est que, typiquement, nous ne connaissons pas la valeur deσ2Y et donc nous devons l’estimer. Nous utilisons la variance ´echantillonnales2Y.

• Nous avons

est une variable normale centr´ee r´eduite.

• Nous avons que

W ≡(n−1)s2YY2

est une variable al´eatoire qui suit une distribution chi-carr´e avec(n−1)degr´es de libert´e.

La preuve est un peu longue. Je montre ce r´esultat dans l’encadr´e qui termine cette section.

• Il faut aussi montrer queZetW sont des variables al´eatoires ind´ependantes. La preuve n’est pas facile. Les preuves de ce r´esultat passent par l’utilisation de fonctions

g´en´eratrices des moments, par le th´eor`eme de Cochran ou par le th´eor`eme de Basu, des sujets qui d´epassent le cadre de ce cours.

Je montre ici que la variable al´eatoireW d´efinie ci-dessus suit une distribution chi-carr´e avec (n−1)degr´es de libert´e. Nous avons

n

⇒ (n−1)s2Y σ2Y =

n

X

i=1

Yi−µY σY

2

− n Y¯ −µY2

σY2

Nous nous int´eressons `a la distribution de (n−1)sσ2 2Y. Nous avons

Yi ∼N µY , σ2Y

⇒ Yi−µY

σY ∼N(0,1)

Yi−µY σY

2

∼χ2(1).

Donc, le premier terme `a droite de la derni`ere ´egalit´e est la somme denvariables al´eatoires χ2 ind´ependantes et suit une distributionχ2(n). Nous avons aussi

Y¯ ∼N µY , σ2Y/n

Y¯ −µY

Y/n ∼N(0,1)

⇒ n Y¯ −µY2

σY2 ∼χ2(1).

Donc, nous avons montr´e que (n−1)sσ2 2Y est ´egal `a la diff´erence entre une variable al´eatoire χ2(n)et une variable al´eatoireχ2(1). Par le th´eor`eme de Cochran, elle doit suivre une

distributionχ2(n−1). La preuve n’est pas facile. Voir par exemple Wood (2009), `a l’adresse suivante :

http://www.stat.columbia.edu/˜fwood/Teaching/w4315/Fall2009/lecture_cochran.pdf

10 Comparaison des moyennes de populations diff´erentes

• Il est souvent le cas que nous voulons tester si deux moyennes sont identiques. Par

exemple, lorsqu’on teste l’efficacit´e d’un m´edicament suite `a des essais cliniques, on teste

l’hypoth`ese que la probabilit´e de gu´erison en prenant le m´edicament (la probabilit´e ici est comme une moyenne normalis´ee) est identique `a la probabilit´e de gu´erison en prenant un placebo.

• Un autre contexte qui se pr´esente souvent en ´economique serait de tester l’´egalit´e d’une caract´eristique ´economique (par exemple le salaire moyen) entre deux populations diff´erentes.

10.1 Tests d’hypoth`ese concernant la diff´erence entre deux moyennes

• Dans le cas o`u nous connaissons les variances des deux populations, l’analyse est tr`es facile. SoitY¯m la moyenne ´echantillonnale d’une premi`ere population,Y¯wla moyenne

´echantillonnale d’une deuxi`eme population, et soit l’hypoth`ese nulleH0 : µm−µw = 0 que les moyennes des deux populations sont ´egales. La statistique suivante :

m−Y¯w−0 qσ2m

nm + σnw2

w

aurait une moyenne nulle est une variance unitaire sous l’hypoth`ese nulle, o`uσ2mest la variance de la premi`ere population,σ2west la variance de la deuxi`eme population,nmest la taille de l’´echantillon d’observations provenant de la premi`ere population, etnwest la taille de l’´echantillon d’observations provenant de la deuxi`eme population.

• J’´ecris un z´ero au num´erateur pour souligner le fait que, pour cr´eer notre statistique normalis´ee, nous soustrayons la diff´erence des moyennes sous l’hypoth`ese nulle, qui dans ce cas est z´ero.

• L’hypoth`ese de l’´echantillonnage al´eatoire est cruciale ici. Cela nous permet de dire que la covariance entre les deux populations est nulle.

• Sous des hypoth`eses standard, la statistique ci-dessus converge en distribution vers une loi

normale centr´ee r´eduite ;

• Si nous ne connaissons pas les variances de la population, nous pouvons les remplacer par des estimateurs convergents. Nous aurions :

m−Y¯w−0

• Qu’est qui arriverait si nos deux ´echantillons ´etaient relativement petits ? Nous pouvons toujours utiliser nos estimateurs des variances, soits2m ets2w, comment est-ce que notre statistique est distribu´ee ? Il ne satisfait pas les crit`eres pour la distributiontde Student (voir la page 87 du manuel, version en anglais), et donc la distribution qui engendre notre statistique prend une forme qui est inconnue. Le seul recours possible serait de faire un exercice Monte Carlo ou bootstrap afin de simuler la distribution sous-tendante `a partir de l’´echantillon d’observations `a notre disposition.

• Ceci illustre un principe g´en´eral important. Notre estimateur n’est pas si compliqu´e que c¸a. Par contre, mˆeme si on connaˆıt les distributions qui g´en`erent nos deux ´echantillons de donn´ees, nous ne pouvons pas faire de l’inf´erence exacte.

• Il y a un cas o`u la statistique va provenir d’une distribution connue. Si nous sommes prˆets

`a supposer que les deux variancesσ2metσw2 sont identiques, nous pouvons estimer cette variance unique avec l’estimateur convergent suivant :

s2pooled = 1

o`us2pooledest l’estimateur de la variance unique pour l’´echantillon fusionn´e (pooled en anglais).

• Dans ce cas, nous pouvons montrer que la statistique suivante ob´eit `a une loitde Student

avec(nm+nw−2)degr´es de libert´e :

m−Y¯w−0 q

s2pooledp

1/nm+ 1/nw .

• Je vous rappelle que les conditions pour qu’une variable al´eatoire ob´eisse `a une loitde Student sont r´esum´ees `a la page 87 du manuel (version en anglais). Essentiellement, il faut ˆetre capable d’´ecrire la statistique comme le ratio entre une variable normale centr´ee r´eduite et la somme den(dans ce cas-cin=nm+nw−2) variablesχ2ind´ependantes.

• Le point important ici est que, si nous ne pouvons pas faire l’hypoth`ese que les variances des deux population sont identiques, nous pouvons les estimer, mais lorsqu’on calcule la statistique normalis´ee le d´enominateurn’est pas la somme de variables al´eatoires ind´ependantesχ2. Pour cette raison, notre statistique ne satisfait pas les hypoth`eses n´ecessaires pour ˆetre distribu´ee selon une loitde Student.

• Donc, nous pouvons faire de l’inf´erence en grand ´echantillon en supposant une convergence en distribution vers une loi normale centr´ee r´eduite. Par contre, en petit

´echantillon l’inf´erence devient tr`es difficile puisque nous faisons face `a une distribution inconnue avec des propri´et´es inconnues. Les valeurs de la distribution cumul´ee qui

sous-tendent cette distribution sont donc inconnues, et nous ne pouvons calculer lap-value de notre test.

• Les seules options dans ce cas (si notre ´echantillon est petit) seraient d’´etudier les propri´et´es exactes de la variable al´eatoire qui est notre statistique, ce qui serait

math´ematiquement ardu, ou de faire de l’inf´erence statistique par le biais d’un exercice Monte Carlo, en essayant de simuler les propri´et´es de la distribution `a partir de

l’´echantillon que nous avons.

• La morale de l’histoire est que, lorsqu’il est possible de le faire, il est plus facile de supposer une convergence approximative vers une loi normale centr´ee r´eduite.

10.2 Intervalles de confiance pour la diff´erence entre deux moyennes

• Les mˆemes principes s’appliquent que pour calculer un intervalle de confiance pour une moyenne ´echantillonnale.

• L’intervalle de confiance deX% pour la diff´erence entre deux moyenne ´echantillonnales Y¯a−Y¯b ≡∆Y consiste en toutes les valeurs∆Yi de∆Y pour lesquelles on ne rejette pas l’hypoth`ese nulle que∆Y = ∆Yi `a un taux de significativit´e de(100−X)%, ce qui veut dire donc que le test de l’hypoth`ese nulle `a unep-value sup´erieure `a(1−X/100).

• L’hypoth`ese alternative pour ces tests est encore l’hypoth`ese alternative bilat´erale.

• Soits2

∆Y notre estim´e (convergent) de la variance de la diff´erence entre les deux moyennes

´echantillonnales.

• Maintenant, on ne doit que remplacerY¯ par∆Y etˆσY¯ pars∆Y ≡q s2

∆Y dans l’alg`ebre de la section8ci-dessus pour calculer notre intervalle de confiance.

11 Donn´ees exp´erimentales et estimation de causalit´e

• Souvent, lorsqu’on veut par exemple tester l’efficacit´e d’une nouvelle drogue, on le fait sur la base d’exp´eriences o`u on divise un ´echantillon d’individus en deux groupes : le groupe de contrˆole qui ne rec¸oit pas la drogue, et le groupe de traitement, qui la rec¸oit.

• L’id´ee d’echantillonnage al´eatoire est tr`es importante ici. Les deux groupes ne devraient pas ˆetre diff´erents (en moyenne) en ce qui concerne les caract´eristiques qui pourraient influencer le r´esultat de l’exp´erience.

• SiY est la variable al´eatoire qui mesure le r´esultat, on peut tester l’efficacit´e de la drogue en faisant un test sur la diff´erence entre les moyennes des deux sous-´echantillons.

• On peut utiliser la m´ethode dans la sous-section sur les tests diff´erences concernant la diff´erence entre deux moyennes.

12 Tests concernant la variance de la population

Cette section est un ajout par rapport au manuel. Elle permet en principe de souligner encore quelques diff´erences entre l’inf´erence exacte et l’inf´erence asymptotique. Elle est bas´ee sur la section 3.6 dans Hatekar (2010).

Nous avons vu (sans prouver) que la variance ´echantillonnale est un estimateur convergent de la variance de la population. Comment tester des hypoth`eses concernant la valeur de cette variance ?

En fait, l’absence de biais de la variance ´echanitillonnale n’est pas difficile `a montrer. Voici comment. Il s’agit d’une application des propri´et´es fondamentales des esp´erances et des variance. Supposons une variable al´eatoireY avec les propri´et´es

E(Y) =µY, Var(Y) = σ2Y.

= 1

n−1 nσ2Y −σY2

Y2,

ce qui fut `a montrer.

Soyez sˆurs de comprendre chaque ´etape de cette d´emonstration, qui n´ecessite l’application des propr´et´es de base des esp´erances et des variances.

12.1 Tests concernant la variance d’une population normale

Dans le cas o`u la variable al´eatoire qui g´en`ere les observations suit une loi normale, nous avons le th´eor`eme suivant.

Th´eor`eme: Si les variables al´eatoiresYi, i= 1. . . nviennent d’un ´echantillon al´eatoire d’une population qui ob´eit `a une loi normale avec varianceσY2, alors

s2Y(n−1) σ2Y

est une variable al´eatoireχ2(n−1), o`us2Y est la variance ´echantillonnale d´efinie de la fac¸on habituelle :

s2Y ≡ 1 (n−1)

n

X

i=1

Yi−Y¯

o`u bien sˆurY¯ est la moyenne ´echantillonnale. Il y a une preuve de ce th´eor`eme `a la page 136 du manuel de Hatekar (2010).9

Donc supposons qu’on a un ´echantillon de donn´ees provenant d’une population normale, et nous avons calcul´e la variance ´echantillonnales2y. Nous voulons tester l’hypoth`ese nulle suivante :

H0 : σY22Y0

9. La preuve repose sur un lemme qui dit que la diff´erence entre une variable al´eatoire χ2(n) et une variable al´eatoireχ2(1)est une variable al´eatoireχ2(n−1). Il n’y a pas une preuve de ce lemme. Ceux qui veulent aller plus loin peuvent consulterhttps://onlinecourses.science.psu.edu/stat414/book/eport/html/174.

contre l’hypoth`ese alternative

H0 : σY2 6=σ2Y0

Sous l’hypoth`ese nulle, la variable

s2Y(n−1) σY20

o`u(n−1)est le nombre d’observations suit une loiχ2(n−1).

Nous pouvons maintenant trouver la fraction de la distribution qui est `a gauche de la valeur calcul´ee de la statistique. Autrement dit, nous pouvons ´evaluer la fonction de distribution cumul´ee de la valeur calcul´ee de la statistique. Nous rejetons l’hypoth`ese nulle `a un taux de significativit´e marginal de0< ρ <1si la valeur calcul´ee est plus petite queρ/2(ce qui nous place dans l’extr´emit´e gauche de la distribution) ou plus ´elev´ee que(1−ρ/2)(ce qui nous place dans l’extr´emit´e droite de la distribution). Notez que puisque la loiχ2 n’est pas une loi sym´etrique, il faut chercher les deux valeurs dans la table appropri´ee ou utilisant l’ordinateur.

Tests concernant la variance d’une population quelconque

Qu’est-ce qui arrive si nous ne connaissons pas la loi qui engendre la variable al´eatoireY ? Nous pouvons utiliser une version du th´eor`eme de la limite centrale dans la mesure o`u nous avons un

´echantillon d’observations i.i.d. provenant d’une population avec variance finie.

Nous pouvons montrer que

√n(s2Y −σY2) σU

d

→N(0,1)

o`u

σU2 ≡Var (Y −µY)2 o`uµY ≡E(Y). Voir Omey et Van Gulck (2008) pour une preuve.

Le seul hic est queσU2 n’est pas en g´en´eral connu. Il y a un autre th´eor`eme qui dit que, encore une

fois pour un ´echantillon d’observations i.i.d. provenant d’une population avec variance finie,

Var s2Y

Y4 2

n−1 +κY n

o`uκY est l’aplatissement (normalis´e) de la distribution.10Comme d’habitude, nous pouvons toujours remplacerκY, qui est g´en´eralement inconnu, par un estimateur convergent, qui serait l’aplatissement ´echantillonnal,11

ˆ κY

1 n

Pn

i=1 Yi −Y¯4

1 n

Pn

i=1 Yi−Y¯22 −3.

Finalement, nous aurons

√n(s2Y −σY2) ˆ σU

d

→N(0,1)

o`uσˆU est une expression pour l’estimateur convergent pour Var(s2Y)qui utilise l’aplatissement

´echantillonnale et o`u on remplaceσY4 pars4Y. Ainsi, nous pouvons faire des tests d’hypoth`ese bas´ees sur la loi normale centr´ee r´eduite.

Notez qu’en utilisant cette version du th´eor`eme de la limite centrale, on fait des tests d’hypoth`ese utilisant une distribution sym´etrique. La convergence d’une moyenne de variablesχ2est lente `a cause de l’asym´etrie de la distribution, et nous avons parfois besoin de beaucoup d’observations avant d’affirmer que la statistique calcul´ee suit approximativement une loi normale centr´ee r´eduite.

13 Diagrammes de dispersion, covariance ´echantillonnale et corr´elation ´echantillonnale

• Cette section est un exercice de r´echauffement pour le mod`ele de r´egression simple.

10. Voir l’article dansWikipediasur “Variance.”

11. Voir l’article dansWikipediasur “Kurtosis.”

• On peut montrer que la covariance ´echantillonnale est un estimateur convergent de la covariance dans la population, sujet aux hypoth`eses conventionnelles. On peut ´ecrire pour deux variables al´eatoiresX etY

σbX,Y −→p σX,Y

o`uσbX,Y est la covariance ´echantillonnale etσX,Y est la covariance dans la population.

• On peut montrer que la corr´elation ´echantillonnale est un estimateur convergent de la corr´elation dans la population, sujet aux hypoth`eses conventionnelles. On peut ´ecrire pour deux variables al´eatoireX etY

ρbX,Y −→p ρX,Y

o`uρbX,Y est la corr´elation ´echantillonnale etρX,Y est la corr´elation dans la population.

• Un diagramme de dispersion (nuage de points) est un graphique qui fait ressortir graphiquement le lien entre deux variables al´eatoires. Voir la Figure 3.3 dans le manuel pour des exemples.

14 Concepts `a retenir

• La notion d’un estimateur (une fonction des observations dans notre ´echantillon).

• Les propri´et´es d´esirables d’un estimateur.

1. L’absence de biais. Comment d´emontrer qu’un estimateur n’est pas biais´e.

2. La convergence. Les hypoth`eses qui permettent d’invoquer la loi des grands nombres.

3. L’efficience. Comment d´emontrer qu’un estimateur est plus efficient qu’un autre.

• L’id´ee que la moyenne ´echantillonnale est l’estimateur MCO (moindres carr´es ordinaires) de la moyenne de la population.

• Comment tester une hypoth`ese nulle concernant un moment de la population.

• La distinction entre un test avec hypoth`ese alternative bilat´erale et un test avec hypoth`ese alternative unilat´erale.

• Le concept de lap-value d’un test.

• La relation entrep-value et taux de significativit´e marginal.

• Lorsqu’une statistique d´epend d’un moment inconnu, l’id´ee de le remplacer par un estimateur convergent de ce moment.

• Comment construire un intervalle de confiance pour un estimateur d’un moment de la population.

• La d´efinition d’une statistiquet.

• Les hypoth`eses requises pour que la statistiquetsoit distribu´ee selon une loitde Student.

• Comment tester une hypoth`ese concernant la diff´erence de moyennes entre deux populations.

• La corr´elation ´echantillonnale et la covariance ´echantillonnalle comme estimateurs convergents des moments correspondant dans la population.

15 R´ef´erences

Voir ce lien :

http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Derni`ere modification :02/03/2018

Documents relatifs