• Aucun résultat trouvé

• Une variable al´eatoire qui est le ratio de deux variables al´eatoires chi-carr´e ind´ependantes, la premi`ere avecmdegr´es de libert´e et la deuxi`eme avecndegr´es de libert´e, et o`u chacune des deux variables chi-carr´e est divis´ee par son nombre de degr´es de libert´e, est distribu´ee selon la loiF, avecm, ndegr´es de libert´e. En notation alg´ebrique :

F = W1/m W2/n.

• Nous allons utiliser la notationFm,n pour une telle variable.

• Nous aurons l’occasion d’utiliser la loiF dans le cadre de tests d’hypoth`eses jointes dans le chapitre sur le mod`ele de r´egression multiple.

• Pour une explication plus d´etaill´ee, voir le manuel.

Vous l’avez sans doute devin´e. On peut facilement cr´eer un graphique de la densit´e d’une loiF avecm, ndegr´es de libert´e avec les commandes suivantes.

R> m=5 R> n=50

R> x <- seq(0,10,by=.25) R> y <- df(x,m,n)

R> plot(x,y,main="Fig 8: F de Fisher avec 5 et 50 degr´es de libert´e")

Le r´esultat de la commandeplot(·)est donn´e par la Figure 8 ci-dessous.

Il y a aussi les fonctions pf(·), qf(·), et rf(·) qui ont des d´efinitions semblables `a pnorm(·),qnorm(·)etrnorm(·).

7 Echantillon et population ´

• Normalement, on n’observe pas toutes les r´ealisations possibles d’une variable al´eatoire.

• Dans le cas d’une variable al´eatoire continue, il est mˆemeimpossibled’observer toutes ses r´ealisations.

• On ne connaˆıt pas non plus en g´en´eral les vraies probabilit´es (densit´es) associ´ees aux r´eali-sations distinctes d’une variable al´eatoire.

• Il faut donc calculer des moments statistiques´echantillonnaux, ´etant donn´e un ´echantillon (forc´ement fini) de r´ealisations de la variable al´eatoire.

• Les moments ´echantillonnaux peuvent aussi ˆetre utilis´es afin d’estimer les moments corres-pondants dans la population et de faire de l’inf´erence statistique concernant ceux-ci (tester des hypoth`eses concernant ceux-ci).

• On peut `a partir de ces moments estimer les moments correspondants de la population sous-jacente. Le sujet de l’estimation fera l’object du chapitre suivant.

• On suppose que l’on observe des variables al´eatoires qui sont des r´ealisations tir´ees de la

mˆeme distribution.

• Moyenne ´echantillonnale:

¯

o`unest la taille de l’´echantillon. Notez bien la signification dans ce contexte den, qui est d´efini ici comme le nombre d’observations dans notre ´echantillon. Donc, il ne s’agit pas du nombre total de r´ealisations distinctes possibles d’une variable al´eatoire discr`ete.

• Variance ´echantillonnale:

¯

Il est conventionnel de diviser par n−1et non parn. On peut montrer (voir par exemple Thomas, 1973, page 76) que l’on obtient de cette fac¸on un estimateur non biais´e de la variance de la population. Nous reviendrons sur cette question (et sur la d´efinition d’un

estimateur non biais´e) dans le chapitre sur l’estimation.4

• Covariance ´echantillonnale:

Cov(ra, rb) = 1

• Puisqu’il s’agit du produit de deux variables al´eatoires, on parle de la covariance comme

´etant undeuxi`eme moment ou un moment d’ordre deux. Encore une fois, la convention est de diviser par n−1. Encore une fois, c’est pour obtenir un estimateur non biais´e du moment dans la population.

• Corr´elation ´echantillonnale:

Corr(ra, rb) = Cov(ra, rb)

¯

σ(ra)¯σ(rb)

4. Par non biais´e on veut dire que l’estimateur est ´egal en moyenne (en esp´erance) `a sa vraie valeur dans la population.

8 Distribution ´echantillonnale de la moyenne ´echantillonnale

• Tel qu’indiqu´e dans la section pr´ec´edente, la plupart du temps on ne connaˆıt pas les vrais param`etres d’une variable al´eatoire (la loi distributionnelle qui l’engendre, son esp´erance, sa variance, etc.).

• Typiquement nous allons estimer un moment de la distribution utilisant un moment ´echan-tillonnal. Ceci est le sujet du chapitre 3 du manuel.

• Pour faire le pont entre ce chapitre et le chapitre 3, nous allons d´eriver les propri´et´es de la moyenne ´echantillonnale (ses moments en fonction du nombre d’observations), qui est souvent utilis´ee pour estimer la moyenne ou l’esp´erance d’une variable al´eatoire.

• SoitY une variable al´eatoire avec E(Y) =µY et Var(Y) = σY2. La moyenne ´echantillonnale est donn´ee par :

Y¯ ≡ 1

o`u lesYi sont des r´ealisations de la variable al´eatoire lors d’une exp´erience donn´ee.

• Un rappel tr`es important — dans ce contexte, len signifie la taille de l’´echantillon et nonle nombre de r´ealisations distinctes possibles de la variable al´eatoire (une propri´et´e de la population ou de l’espace fondamental). Il est primordial de s’habituer `a interpr´eter la notation utilis´ee dans son contexte.

• Calculons les propri´et´es cl´es de cette moyenne ´echantillonnale.

• Nous avons :

Y.

• Nous avons le r´esultat queY¯ est en moyenne ´egale au moment de la distribution (l’esp´erance) que nous voulons estimer. Nous allons dire (un concept qui reviendra dans le chapitre 3) queY¯ est un estimateurnon biais´e de l’esp´erance de la variable al´eatoire.

• Notez que pour calculer ce r´esultat on a dˆu appliquer plusieurs parmi les r´esultats cl´es d´evelopp´es plus tˆot dans le chapitre. L’esp´erance de la somme de variables al´eatoires est la somme des esp´erances des variables al´eatoires. L’esp´erance du produit d’une constante fois une variable al´eatoire est la constante fois l’esp´erance de la variable al´eatoire. Etc.

• Notez que nous pouvons remplacer E(Yi) par µY puisque nous faisons l’hypoth`ese que nous obtenons les r´ealisations en tirant (pigeant)nfois dans la mˆeme distribution de fac¸on al´eatoire. Les r´ealisations sont pour cette raisoni.i.d., identiquement et ind´ependamment distribu´ees.

• Calculons maintenant la variance deY¯. Encore une fois, nous allons utiliser les r´esultats cl´es d´evelopp´es plus tˆot dans le chapitre.

Var Y¯

• Vous devriez ˆetre parfaitement `a l’aise avec l’utilisation des propri´et´es de base de la va-riance pour arriver `a ce r´esultat.

• Ce r´esultat est tr`es important. Il veut dire que, au fur et `a mesure que la taille de l’´echantillon utilis´e pour estimer l’esp´erance augmente, la variance deY¯ diminue. En fait, nous avons le

r´esultat suivant :

n→∞lim Var Y¯

= 0.

Cette propri´et´e va nous mener `a parler de laconvergencedeY¯ comme estimateur de l’esp´e-rance, le sujet de la section suivante des notes.

9 Loi des grands nombres et convergence en probabilit´e

• La loi des grands nombres dit que, sous certaines conditions, la moyenne ´echantillonnale Y¯ sera tr`es pr`es deµY lorsque la taille de l’´echantillon est grande.

• La d´efinition rigoureuse detr`es pr`es deµY :

n→∞lim Pr |Y¯ −µY|> ε

= 0, ∀ε >0.

• On parle deconvergence en probabilit´e ou tout simplement deconvergence ( consis-tency en anglais).

• Les conditions qui seront utilis´ees pour presque tous les exemples dans le cours sont les suivantes :

1. Les variablesYi , i= 1, . . . , nsont i.i.d.

2. La variance de chaqueYiest finie.

• Voir la section 17.2 du manuel pour une d´emonstration de la loi des grands nombres.

• Lorsque nous parlons de convergence en probabilit´e, nous allons ´ecrire :

Y¯ −→p µY.

10 Th´eor`eme de la limite centrale et convergence en distribu-tion

• Ce th´eor`eme dit que, sous certaines conditions, la distribution de Y¯ est bien approxim´ee par une loi normale lorsquenest grand.

• Nous avons vu comment la variance de la moyenne ´echantillonnale diminue avec la taille de l’´echantillonn. Dans le cas d’une variance constanteσY2, nous avons Var( ¯Y) = σ2/n.

Lorsque n tend vers l’infini, la variance tend vers z´ero. Si tel est le cas, Y¯ se comporte davantage dans le cas limite comme une constante plutˆot que comme une variable al´eatoire.

• Souvent, lorsqu’on veut effectuer des tests d’hypoth`ese avec Y¯, on normalise en divisant par son ´ecart type. De cette fac¸on, la variance ne tend pas vers z´ero au fur et `a mesure que la taille de l’´echantillon augmente. Et, de cette fac¸on, nous construisons une variable al´eatoire avec une variance unitaire.

• Soit Y1 , . . . , Yn des variables i.i.d. avec E(Yi) = µY et Var(Yi) = σ2Y o`u 0 < σY2 <

∞. Lorsque n → ∞ la distribution de ( ¯Y−µσ Y)

Y¯ (o`u σ2Y¯ ≡ σ2Y/n) est arbitrairement bien approxim´ee par une loi normale centr´ee r´eduite.

• On va parler de la convergence en distribution, et nous allons ´ecrire :

Y¯ −→d N

µY , σ2Y n

.

Ceci veut dire, en utilisant les r`egles habituelles, que

√n Y¯ −µY d

→N 0, σ2Y ,

ou bien √

n Y¯ −µY σY

d

→N(0, 1), qui est la loi normale centr´ee r´eduite.

Pourquoi utiliser la deuxi`eme ou la troisi`eme expression pour la convergence en distribution au lieu de la premi`ere ? Notez que dans le premier cas, la variance tend vers z´ero lorsque le nombre d’observations tend vers l’infini. Autrement dit,

n→∞lim σY2

n = 0.

Une variable al´eatoire avec une esp´erance constante (µY) et une variance qui tend vers z´ero se comporte plutˆot comme une constante que comme une variable al´eatoire. En multipliant par√

n, la variable al´eatoire√

nY¯ a une variance qui ne diminue pas avec le nombre d’ob-servations n, et donc se comporte davantage comme une variable al´eatoire dans la limite lorsque n → ∞. Nous utiliserons une normalisation semblable quand viendra le temps d’analyser les propri´et´es ´echantillonnales de l’estimateur moindres carr´es ordinaires dans le mod`ele de r´egression simple et le mod`ele de r´egression multiple.

10.1 Note sur l’importance du th´eor`eme de la limite centrale

• Quelques mots sur l’importance de ce th´eor`eme avant de passer au chapitre sur les tests d’hypoth`ese et l’inf´erence statistique.

• En statistique ou en ´econom´etrie il y a en g´en´eral trois types d’inf´erence possible.

1. Il y a ce qu’on appellel’inf´erence exacte, que l’on peut appliquer si on connaˆıt la loi qui engendre la statistique que l’on a calcul´ee. Par exemple, si on a une statistique qui est une combinaison lin´eaire de variables al´eatoires normales, on sait qu’elle doit suivre une loi normale (voir la discussion sur la loi normale multivari´ee). Si on connaˆıt la loi qui g´en`ere la statistique, on peut utiliser les valeurs tabul´ees de la distribution pour faire de l’inf´erence (effectuer des tests d’hypoth`ese).

Tel que nous allons voir en plus de d´etails dans le chapitre qui suit, une sta-tistique est une fonction des observations dans notre ´echantillon. La moyenne

´echantillonnale est une fonction assez simple de n observations ou r´ealisations d’une variable al´eatoire. Mˆeme si on connaˆıt la loi qui g´en`ere les observations, on ne connaˆıt pas forc´ement la loi qui g´en`ere la statistique, pusiqu’il s’agit d’unefonction de nos observations. Il y a certaines distributions, appel´eesdistributions stablesou lois stables, o`u une combinaison lin´eaire de variables al´eatoires ind´ependantes qui proviennent d’une loi stable ob´eit `a une loi de la mˆeme classe. Par exemple, une moyenne ´echantillonnale d’une variable normale ob´eit `a une loi normale.

Pour plus de d´etails, voir l’article “Stable Distribution” surWikipediaou “Loi sta-ble” surWikip´edia.

2. Souvent, on ne connaˆıt pas la loi qui engendre les variables al´eatoires que l’on observe.

Dans ce cas, il y a deux fac¸ons de proc´eder en ce qui concerne l’inf´erence statistique. La premi`ere fac¸on, que nous ne consid´erons `a toutes fins pratiques pas dans ce cours, est l’inf´erenceMonte Carlo, o`u on utilise l’´echantillon fini d’observations qu’on a pour essayer de simuler la distribution qui les a engendr´ees. On essaie de recr´eer, sur ordi-nateur, le processus qui a engendr´e notre ´echantillon d’observations. Nous n’allons pas trop nous pencher sur cette m´ethode dans ce cours. Pour ceux qui s’int´eressent au sujet, voir l’article “M´ethode de Monte Carlo” surWikip´ediaou “Monte Carlo Methods” sur Wikipedia.

3. L’autre m´ethode possible lorsqu’on ne connaˆıt pas la distribution qui a engendr´e les observations est d’utiliser l’inf´erence asymptotique. Comme le nom l’implique, on suppose que l’´echantillon est suffisamment grand pour pouvoir invoquer une version du th´eor`eme de la limite centrale. Dans ce cas, on peut utiliser les valeurs tabul´ees de la loi normale pour faire de l’inf´erence statistique (effectuer des tests d’hypoth`ese).

4. C’est cette derni`ere m´ethode qui sera privil´egi´ee dans ce cours, et qui est privil´egi´ee dans le manuel de Stock et Watson. C’est rarement le cas en ´econom´etrie que nous connaissons les lois (distributions de probabilit´e) quii g´en`erent les donn´ees. C’est

rare-ment le cas que (mˆeme si nous connaissons les lois qui engendrent les donn´ees de base) nous connaissons les lois qui engendrent nos statistiques, qui peuvent ˆetre des fonctions assez compliqu´ees des donn´ees de base.

5. Lorsque le nombre d’observations est tr`es grand, la loi t de Student converge `a la loi normale. Pour cette raison, nous allons surtout utiliser la loi normale pour faire des tests d’hypoth`ese simple.

6. Lorsque le nombre d’observations est tr`es grand, la loi F ne d´epend que d’un seul param`etre. Nous allons ´ecrireFm,∞. Ce sera la version la plus f´requemment utilis´ee de la loiF que nous allons voir dans le reste du cours.

Le logiciel R permet facilement de jouer avec des distributions diff´erentes. Ici, nous allons utiliserR pour g´en´erer un grand nombre de moyennes ´echantillonnales avec des ´echantillons de taille diff´erente tir´es d’une loi uniforme. Nous allons par la suite produire des graphiques de ces moyennes ´echantillonnales afin d’illustrer l’id´ee de la convergence en distribution et le th´eor`eme de la limite centrale.

Le code qui suit g´en`ere un nombre Rrep d’´echantillons de taille Rsam tir´es d’une loi uniforme avec bornesRminetRmax. Vous pouvez ex´ecuter le code de fac¸on interactive dans une fenˆetre de commandes ou vous pouvez le copier dans un fichier (script) que vous pouvez ex´ecuter avec la command source() o`u l’argument de la fonction est le nom du fichier contenant le script.

R> # Sp´ecifier le nombre de r´ep´etitions.

R> Rrep=10000

R> # Choisir la taille de l’´echantillon.

R> Rsam=1

R> # ´Etablir le support de la distribution. D’abord la borne sup´erieure.

R> Rmax=3

R> # Ensuite la borne inf´erieure.

R> Rmin=1

R> # Initialiser un vecteur pour contenir les r´eponses.

R> k <- c(rep(0,Rrep))

R> # ´Ecrire la boucle pour calculer Rrep moyennes

´

echantillonnales.

R> for(i in 1:Rrep) {

R> x <- runif(Rsam)*(Rmax-Rmin)+Rmin R> k[i] = mean(x)

R> }

R> # Fin de la boucle principale.

R> # Maintenant, cr´eer des variables normalis´ees.

R> # Cela veut dire avec moyenne nulle et variance unitaire.

R> meank = (Rmin+Rmax)/2

R> vark = (Rmax-Rmin)ˆ2/(Rsam × 12) R> kk = (k-meank)/sqrt(vark)

R> kmax = (Rmax-meank)/sqrt(vark) R> kmin = (Rmin-meank)/sqrt(vark) R> # Cr´eer les histogrammes.

R> # D’abord pour la moyenne ´echantillonnale non normalis´ee.

R> hist(k, xlim=c(min(k), max(k)), nclass=10,

probability=TRUE, col="lightblue", main="Fig 2: 10000 moyennes

´

echantillonnales uniformes de taille 1")

R> # Ensuite pour la moyenne ´echantillonnale normalis´ee.

R> hist(kk, xlim=c(kmin, kmax), nclass=10, probability=TRUE,

col="lightblue", main="Fig 3: 10000 moyennes ´echantillonnales uniformes normalis´ees de taille 1")

R> lines(density(kk,bw=1), col="red", lwd=3)

Le premier histogramme (la Figure 9 ci-dessous) est pour les moyennes ´echantillonnales de la variable uniforme avec bornes Rmin et Rmax, o`u Rsam est la taille de l’´echantillon. Le deuxi`eme histogramme (la Figure 10 ci-dessous) est pour les moyennes ´echantillonnales nor-malis´ees, lorsqu’on soustrait la moyenne des moyennes ´echantillonnales et on divise par la racine carr´ee de la variance ´echantillonnale. Les barres aux deux extr´emit´es sont moins hautes que les autres puisque les valeurs minimales et maximales sur l’axe horizontal d´epassent les valeurs minimales et maximales des moyennes ´echantillonnales normalis´ees.

Nous avons r´ep´et´e cet exercice pour des ´echantillonsRsamde taille 2, 10, 100 et 1000. Les histogrammes correspondant aux moyennes ´echantillonnales normalis´ees sont les Figures 11, 12, 13 et 14 respectivement. Notez la ressemblance de plus en plus ´etroite par rapport `a une loi normale centr´ee r´eduite. Notez aussi qu’il ne faut avoir un ´echantillon tr`es grand pour que l’approximation `a une loi normale soit relativement bonne.

Fig 2: 10000 moyennes échantillonnales uniformes de taille 1

k

Density

1.0 1.5 2.0 2.5 3.0

0.00.10.20.30.40.5

Fig 3: 10000 moyennes échantillonnales normalisées de taille 1

kk

Density

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

0.000.050.100.150.200.250.30

Fig 4: 10000 moyennes échantillonnales normalisées de taille 2

kk

Density

−2 −1 0 1 2

0.00.10.20.3

Fig 5: 10000 moyennes échantillonnales normalisées de taille 10

kk

Density

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Fig 5: 10000 moyennes échantillonnales normalisées de taille 100

kk

Density

−4 −2 0 2 4

0.00.10.20.30.4

Fig 5: 10000 moyennes échantillonnales normalisées de taille 1000

kk

Density

−3 −2 −1 0 1 2 3

0.00.10.20.3

11 Concepts `a retenir

• Les d´efinitions dedistribution de probabilit´eetvariable al´eatoire.

• La distinction entre variables al´eatoiresdiscr`etesetcontinues.

• La distinction entre l’esp´erance (ou la moyenne) d’une variable al´eatoire et la moyenne

´echantillonnale.

• De fac¸on plus g´en´erale, la distinction entre un moment de la population (o`u on pond`ere toutes les r´ealisations distinctes par leurs probabilit´es o`u leurs densit´es) et un moment

´echantillonnal, qui est typiquement une moyenne non pond´er´ee des valeurs obtenues (ou d’une fonction des valeurs obtenues) d’une variable al´eatoire lors d’une exp´erience donn´ee, ou pour un ensemble de donn´ees.

• L’id´ee que tous les moments d’une distribution `a part le premier prennent la forme de l’esp´erance d’une variable al´eatoire qui est une fonction non lin´eaire de la variable al´eatoire originale.

• La distinction entre un moment centr´e d’une variable al´eatoire et un moment brut.

• Il faut ˆetre parfaitement `a l’aise avec les r´esultats d´evelopp´es dans ce chapitre concernant les moments de fonctions lin´eaires de variables al´eatoires et de combinaisons lin´eaires de variables al´eatoires. Ces r´esultats sont r´esum´es en annexe. Il serait une bonne id´ee de faire imprimer l’annexe et de la mettre sur votre chevet ou encore mieux sur la porte de votre frigidaire. Nous allons les utiliser tout le long du cours. Lorsque je fais une d´emonstration au tableau qui d´epend d’un de ces r´esultats, je n’aurai pas le temps en g´en´eral d’en refaire l’´enonc´e ou d’en faire la d´emonstration. Vous pouvez consid´erer comme premier t.p. (non not´e) de montrertousces r´esultats explicitement `a partir des d´efinitions de l’esp´erance, de la variance et de la covariance de variables al´eatoires.

• Les concepts de distribution de probabilit´e jointe, distribution de probabilit´e condi-tionnelleetdistribution de probabilit´e marginale.

• L’id´ee qu’en g´en´eral E(XY)6=E(X)E(Y), sauf dans le cas de l’ind´ependance.

• Vous devriez commencer `a ˆetre `a l’aise avec l’utilisation d’un indice (dans les somma-tions, dans les int´egrales, etc.) qui peut avoir une signification diff´erente selon le contexte.

Par exemple, dans ce chapitre, nous avons utilis´e n tantˆot pour indiquer toutes les r´ealisations distinctes possibles d’une variable al´eatoire lorsqu’on d´efinit les moments de la variable (une propri´et´e de la variable elle-mˆeme ou de la population enti`ere, ce qui veut dire tous les membres individuels de l’espace fondamental), et tantˆot pour indiquer la taille de l’´echantillon lors d’une exp´erience donn´ee (o`u on g´en`ere un nombre limit´e de r´ealisations de la variable al´eatoire). Il faut ˆetre `a l’aise avec cette id´ee. Sinon vous allez confondre les concepts d’esp´erance et de moyenne ´echantillonnale, variance et variance ´echantillonnale, etc., tout le long du cours.

• Les propri´et´es de la moyenne ´echantillonnale d’une variable al´eatoire en fonction de la taille de l’´echantillon.

• Une id´ee des conditions qui doivent tenir pour qu’une somme (moyenne) de variables al´eatoires converge en probabilit´e, et les conditions pour qu’elle converge en distribution vers une loi normale.

• Les id´ees de base derri`ere les trois types d’inf´erence en statistique :

1. inf´erence exacte(possible seulement si on connaˆıt avec certitude la loi qui a engendr´e les r´ealisations de variables al´eatoires utilis´ees pour construire une statistique donn´ee, et

1. inf´erence exacte(possible seulement si on connaˆıt avec certitude la loi qui a engendr´e les r´ealisations de variables al´eatoires utilis´ees pour construire une statistique donn´ee, et

Documents relatifs