ECO 4272 : Introduction ` a l’´ Econom´ etrie Rappel sur la th´ eorie des probabilit´ es
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion´ Universit´e du Qu´ebec `a Montr´eal
2018: Steve Amblerc
Hiver 2018
Objectifs du cours
1. Notions primordiales.
2. Rappel pour ceux qui ont suivi ECO2272.
3. Derni`eres sections (distribution ´echantillonnale de la moyenne
´
echantillonale et th´eor`eme de la limite centrale) feront un pont avec le chapitre suivant (estimation, tests d’hypoth`ese, intervalles de confiance).
Distributions de probabilit´ es et variables al´ eatoires
I Exp´erience al´eatoire : action avec un ensemble de r´esultats possibles : le r´esultat n’est pas connu `a l’avance.
I Distribution de probabilit´e : liste exhaustive des r´esultats et les probabilit´es associ´es `a chacun des r´esultats (distributions discr`etes).
I Chaque r´esultat est associ´e `a une densit´edans le cas d’une distribution continue.
I L’ensemble de tous les r´esultats possibles estl’univers, l’espace des ´echantillons(ou l’espace fondamental).
I Ev´´ enement : sous-ensemble de l’espace des ´echantillons.
Distribution de probabilit´ e versus Variable al´ eatoire
I Variable al´eatoire : chaque r´esultat associ´e `a unnombre. Le r´esultat peut ˆetre qualitatif ou descriptif dans le cas d’une distribution de probabilit´e.
I Difficile d’imaginer une distribution continue o`u les r´esultats ne sont pas num´eriques.
I Je parlerai toujours de variables al´eatoires lorsqu’il n’y a pas d’ambigu¨ıt´e.
Distribution discr` etes
I r : variable al´eatoire.
I hi : Pr (r =ri).
I n r´esultats distincts possibles.
I Il faut
n
X
i=1
hi = 1.
Distributions continues
I r : variable al´eatoire.
I hi =f (ri)≥0 : la densit´e du r´esultatri.
I Il faut
Z rmax
rmin
hidi = 1.
I L’intervalle [rmin,rmax] est le supportde la distribution.
I On d´efinit
Z b a
hidi = Pr (a≤r ≤b).
Fonctions de distribution cumul´ ees
I On d´efinit
fdc (a)≡Pr (r ≤a).
I Un autre concept logique dans le cadre de variables al´eatoires mais non dans le cadres de distributions de probabilit´e.
I On peut d´efinir la fonction de distribution cumul´ee pour les distribution discr`etes et continues.
Esp´ erance d’une variable al´ eatoire
I Soit hi =f(ri) =Pr(r =ri).
I L’esp´eranceou la moyenne de la variable al´eatoire est d´efinie comme :
E(r)≡
n
X
i=1
hiri,
o`u il y a n r´ealisations distinctes possibles de la variable.
I Souvent, on utilise le symbole µpour la moyenne ou l’esp´erance d’une variable al´eatoire. Donc,
E(r)≡µr =
n
X
i=1
hiri,
Propri´ et´ es de l’esp´ erance
E(c0) =c0, pour une constante quelconquec0.
E(c0+c1r) =c0+c1E(r), pour des constantes quelconquesc0 etc1.
I Ces propri´et´es sontfondamentales.
Moments d’une variable al´ eatoire
I La notion de momentest reli´ee au concept du degr´e d’un polynˆome.
I Premier moment (esp´erance) : d´efini en termes de la variable elle-mˆeme.
I Deuxi`eme moment (variance) : d´efini en termes de la variable au carr´e.
I Troisi`eme moment (asym´etrie) : d´efini en termes de la variable `a la puissance 3.
I Etc.
Esp´ erance conditionnelle
I Esp´erance conditionnelle : esp´erance qui tient compte de toute l’information qu’on connaˆıt concernant sa r´ealisation.
I Exemple : on jette un d´e, et quelqu’un nous dit que le nombre obtenu n’est pas strictement inf´erieur `a trois. L’esp´erance conditionnelle du r´esultat est :
1
4×3 +1
4×4 +1
4×5 +1
4×6 = 4.5.
Esp´ erance conditionnelle (suite)
I On pond`ere chaque r´esultat distinct par la probabilit´e de l’obtenir, sachant que le r´esultat n’est pas inf´erieur `a trois.
I On peut ´ecrire ceci comme
E (r|r ≥3) =
3×Pr (r = 3|r ≥3) + 4×Pr (r = 4|r ≥3) +5×Pr (r= 5|r ≥3) + 6×Pr (r= 6|r ≥3).
I La barre verticale se lit´etant donn´e que.
Variance
I Variance d’une variable al´eatoire : Var(r)≡σ2(r)≡
n
X
i=1
hi(ri −E(r))2.
I La d´efinition de la variance contient la variable al´eatoire au carr´e =>on parle d’undeuxi`eme moment.
I On soustrait l’esp´erance de la variable al´eatoire => on parle en du deuxi`eme moment centr´e.
I Deuxi`eme moment brut:
n
X
i=1
hiri2.
Aide-m´ emoire
I La variance prend la forme de l’esp´erance d’une
transformation de la variable al´eatoire elle-mˆeme (d´eviation au carr´e de la variable al´eatoire par rapport `a sa moyenne).
I Tousles moments d’une distribution ont la forme E(z),
o`u z =f (r).
I Dans le cas de la variance,
z ≡(r−E(r))2.
I Tousles autres moments (centr´es ou bruts) sont des esp´erances de transformations non lin´eaires de la variable al´eatoire elle-mˆeme.
Propr´ et´ es de la variance
Var(r) = E(r2)−(E(r))2; Var(c0) = 0, pour une constante quelconquec0.
Var(c0+c1r) =c12Var(r), pour des constantes quelconquesc0 etc1.
I L’´ecart typed’une variable al´eatoire est la racine carr´ee de sa variance.
Variance conditionnelle
Var r|r ∈Ω¯ ⊂Ω
=X
i∈Ω¯
ri −E r|r ∈Ω¯ ⊂Ω2
Pr r =ri|r ∈Ω¯ ⊂Ω .
I Limites de la sommation modifi´ees pour tenir compte du nombre de r´ealisations r´eduit.
I Les probabilit´es sont des probabilit´es conditionnellles.
I La notation r ∈Ω¯ ⊂Ω capte l’id´ee que la variable al´eatoire r est dans un sous-ensemble ¯Ω de l’espace fondamental Ω.
Variance conditionnelle (suite)
I Pour reprendre l’exemple d’un d´e lorsqu’on sait que le r´esultat n’est pas inf´erieur `a trois :
Var (r|r ≥3) = (3−4.5)2× 1
4+ (4−4.5)2×1 4 +(5−4.5)2×1
4 + (6−4.5)2×1
4 = 1.25.
I Nous aurions pu ´ecrire :
Var (r|r ∈ {3,4,5,6} ⊂ {1,2,3,4,5,6}).
I Information pr´ealable concernant la r´ealisation =>variance conditionnelle plus petite que variance non conditionnelle.
Asym´ etrie
Skew(r) =
n
X
i=1
hi(ri −E(r))3.
I Loi normale : asym´etrie ´egale `a z´ero.
I Prend la forme de l’esp´erance d’une fonction de la variable al´eatoire :
Skew(r) = E(z) o`u
z ≡(r−E(r))3.
Aplatissement
Kurt(r) =
n
X
i=1
hi(ri −E(r))4.
I Encore une fois, nous avons
Kurt(r) = E(z), avec
z ≡(r−E(r))4.
I Aplatissement normalis´e : K(r) = 1
σ4
n
X
i=1
hi(ri −E(r))4.
I Loi normale : ´egale `a 3.
Distributions jointes
I Soit ra etrb deux variables al´eatoires discr`etes.
I Probabilit´e que les 2 variables prennent simultan´ement les valeurs rai etrbj :
hi,j ≡Pr (ra =rai,rb =rbj).
I Il faut que
k
X
i=1 n
X
j=1
hi,j = 1,
o`u ra peut prendrek valeurs distinctes etrb peut prendren valeurs distincts.
Distribution jointes (suite)
I Covariance de la population : Cov(ra,rb) =
k
X
i=1 n
X
j=1
hi,j(rai −E(ra)) (rbj −E(rb))
I Propri´et´es de la covariance :
Cov(ra,rb) = E (ra·rb)−E(ra)E(rb);
Cov (c0+c1ra,c2+c3rb) =c1·c3Cov (ra,rb).
I Cons´equences imm´ediates de la d´efinition.
I La covariance est consid´er´ee comme un moment du deuxi`eme ordre.
Distribution jointes (suite)
I Corr´elation oucoefficient de corr´elation : Corr(ra,rb)≡ρ(ra,rb)≡ cov(ra,rb)
σ(ra)σ(rb), o`u σ(ra)≡p
σ2(ra).
I Coefficient de d´etermination: le carr´e du coefficient de corr´elation.
Distribution marginale
I Distribution marginale dera : Pr (ra=rai)≡hi =
n
X
j=1
Pr (ra=rai , rb=rbj), et de rb :
Pr (rb=rbj)≡hj =
k
X
i=1
Pr (ra=rai , rb=rbj),
Distribution conditionnelle
I Distribution conditionnelle :
I On ´ecrit Pr (ra =rai|rb=rbj) qui se litla probabilit´e quera
est ´egale `arai ´etant donn´e querb est ´egale `arbj.
I Nous avons :
Pr (ra =rai|rb=rbj) =Pr (ra =rai , rb=rbj) Pr (rb=rbj)
Esp´ erance conditionnelle
I Esp´erance conditionnelle : E (ra|rb=rbj) =
k
X
i=1
raiPr (ra=rai|rb=rbj).
I Pour simplifier la notation :
E (ra|rb =rbj)≡E (ra|rb).
Loi des esp´ erances it´ er´ ees
I
E(ra) =
n
X
j=1
E (ra|rb=rbj) Pr (rb=rbj).
I En mots : l’esp´erance de ra est l’esp´erance de l’esp´erance conditionnelle dera ´etant donn´ee la valeur derb.
I Nous pouvons ´ecrire :
E(ra) = E (E (ra|rb)).
Ind´ ependance
I 2 variables al´eatoires sontind´ependantes lorsque les probabilit´es conditionnelles sont ´egales aux probabilit´es marginales pour toutes les r´ealisations possibles des 2 variables :
Pr (ra=rai|rb =rbj) = Pr (ra =rai) ∀i,j et
Pr (rb=rbj|ra=rai) = Pr (rb=rbj) ∀i,j.
I Cons´equence :
Pr (ra =rai , rb=rbj) = Pr (ra=rai) Pr (rb=rbj).
Ind´ ependance => Covariance = 0.
Cov (ra , rb)
=
k
X
i=1 n
X
j=1
(rai −E (ra)) (rbj−E (rb)) Pr (ra=rai) Pr (rb=rbj)
=
k
X
i=1
(rai −E (ra)) Pr (ra=rai)
!
n
X
j=1
(rbj−E (rb)) Pr (rb=rbj)
= k
X
i=1
raiPr (ra =rai)
!
−E (ra)
!
n
X
j=1
rbjPr (rb=rbj)
−E (rb)
= 0.
Combinaisons lin´ eaires de variables al´ eatoires
E (ara+brb)≡
k
X
i=1 n
X
j=1
hij(arai +brbj)
=a
k
X
i=1 n
X
j=1
hijrai +b
k
X
i=1 n
X
j=1
hijrbj
=a
k
X
i=1
hirai+b
n
X
j=1
hjrbj
≡aEra+bErb,
Combinaisons lin´ eaires de variables al´ eatoires (suite)
Var (ara+brb)≡
k
X
i=1 n
X
j=1
hij(arai+brbj −E (ara+brb))2
=
k
X
i=1 n
X
j=1
hij(a(rai −Era) +b(rbj−Erb))2
=a2
k
X
i=1 n
X
j=1
hij(rai−Era)2+b2
k
X
i=1 n
X
j=1
hij(rbj −Erb)2
+2ab
k
X
i=1 n
X
j=1
hij(rai−Era) (rbj−Erb)
Combinaisons lin´ eaires de variables al´ eatoires (suite)
=a2
k
X
i=1
hi(rai−Era)2+b2
n
X
j=1
hj(rbj−Erb)2
+2ab
k
X
i=1 n
X
j=1
hij(rai −Erb) (rbj −Erb)
≡a2Var (ra) +b2Var (rb) + 2·a·b·Cov (ra,rb).
Quelques lois classiques : binomiale
I Exp´erience r´ep´et´een fois. p : probabilit´e d’un succ`es.
I La variable prend la valeur du nombre de succ`es.
I Moyenne : E(X) =
n
X
i=1
(p×1) + ((1−p)×0)
!
=np.
I Variance (exercice) : np(1−p).
Quelques lois classiques : la loi uniforme
I Soit rmin la valeur minimale que peut prendre r et soitrmax la valeur maximale, et soit hi = ¯h la densit´e (constante) entre les valeurs minimale et maximale. Il faut que
Z rmax
rmin
¯hdi = 1.
I Donc
h¯= 1 rmax−rmin
.
I On peut montrer (exercice) que
E(r) = (rmax+rmin)
2 .
I On peut] aussi montrer (exercice) que Var(r) = (rmax −rmin)2
12 .
Quelques lois classiques : la loi normale
I Support : entre −∞et ∞.
I Densit´e :
f(X;µ, σ2) = 1 σ√
2πexp
− 1
2σ2(x−µ)2
.
I Densit´e sym´etrique autour de la moyenne µ=>la mesure de l’asym´etrie est 0.
I Loi normale centr´ee r´eduite :
Z ≡ (X −µ) σ
Quelques lois classiques : la loi chi-carr´ e
I Somme dem variables al´eatoires normales centr´ees r´eduites ind´ependantes au carr´e :
W =
m
X
i=1
Zi2.
I Les moments d´ependent de m(degr´es de libert´e).
I Notation : χ2m.
Quelques lois classiques : la loi t de Student
I Variable al´eatoire normale centr´ee r´eduite divis´ee par la racine carr´ee d’une variable al´eatoire ind´ependante χ2m (qui elle est divis´ee par m) :
t = Z
pW/m.
I Pour une explication plus d´etaill´ee, voir le manuel.
Quelques lois classiques : la loi F
I Ratio de deux variables al´eatoires chi-carr´e ind´ependantes, la premi`ere avecm degr´es de libert´e et la deuxi`eme avec n degr´es de libert´e, o`u chacune des deux variables chi-carr´e est divis´ee par son nombre de degr´es de libert´e :
F = W1/m W2/n.
I Notation : Fm,n.
I Pour une explication plus d´etaill´ee, voir le manuel.
I Nous utiliserons la loiF dans le cadre de tests d’hypoth`eses jointes (mod`ele de r´egression multiple).
Echantillon et population ´
I G´en´eralement, on n’observe pas toutes les r´ealisations possibles d’une variable al´eatoire.
I G´en´eralement, on ne connaˆıt pas les vraies probabilit´es (densit´es) associ´ees aux r´ealisations.
I Il faut calculer des moments statistiques´echantillonauxpour un ´echantillon fini de r´ealisations.
I Les moments ´echantillonnaux peuvent ˆetre utilis´es pour estimer les moments de la population et tester des hypoth`eses relatives `a ceux-ci.
Moyenne ´ echantillonnale
I D´efinition :
¯ r ≡ 1
n
n
X
i=1
ri
I n : taille de l’´echantillon (pasle nombre de r´ealisations distinctes possibles d’une variable al´eatoire discr`ete).
Variance ´ echantillonnale
I D´efinition :
¯
σ2(r) = 1 n−1
n
X
i=1
(ri −r¯)2.
I Conventionnel de diviser par n−1 et non par n.
I Possible de montrer que la variance ´echantillonnale est un estimateur non biais´e de la variance de la population.
I Nous reviendrons sur cette question (et sur la d´efinition d’un
estimateur non biais´e) dans le chapitre sur l’estimation.
Covariance ´ echantillonnale
I D´efinition :
Cov(ra,rb) = 1 n−1
n
X
i=1
(rai−r¯a) (rbi−r¯b).
I Produit de deux variables al´eatoires, donc c’est undeuxi`eme momentou un moment d’ordre deux.
I Encore une fois, la convention est de diviser par n−1.
I Encore une fois, c’est pour obtenir un estimateur non biais´e du moment dans la population.
I Corr´elation ´echantillonnale :
Corr(ra,rb) = Cov(ra,rb)
¯
σ(ra)¯σ(rb)
Distribution ´ echantillonnale de la moyenne ´ echantillonnale
I La moyenne ´echantillonnale est souvent utilis´e pour estimer la moyenne de la population.
I Les propri´et´es de la moyenne ´echantillonnale sont cruciales pour faire des inf´erences (tests).
I E(Y) =µY, Var(Y) =σ2Y.
I Nous avons : E ¯Y
= E 1 n
n
X
i=1
Yi
!
= 1 n
n
X
i=1
E (Yi).= 1 n
n
X
i=1
µY
= 1
n ×n×µY =µY.
I Y¯ est un estimateur non biais´e de l’esp´erance de la variable al´eatoire.
Distribution ´ echantillonnale de la moyenne ´ echantillonnale (suite)
I Calculons maintenant la variance de ¯Y. Var ¯Y
= Var 1 n
n
X
i=1
Yi
!
= 1 n2
n
X
i=1
Var (Yi) = 1 n2
n
X
i=1
σY2
= 1
n2 ×n×σ2Y = 1 nσY2.
I La variance de ¯Y diminue avecn. Nous avons :
n→∞lim Var ¯Y
= 0.
I Cette propri´et´e nous m`ene `a parler de laconvergence de ¯Y comme estimateur de µY.
Loi des grands nombres et convergence
I La loi des grands nombres dit que, sous certaines
conditions, la moyenne ´echantillonnale ¯Y sera tr`es pr`esde µY sin est grand.
I D´efinition rigoureuse detr`es pr`es deµY :
n→∞lim Pr |Y¯ −µY|> ε
= 0, ∀ε >0.
I On parle deconvergence en probabilit´eou tout simplement deconvergence.
I Les conditions : (1) les variablesYi , i = 1, . . . , n sont i.i.d. ; (2) la variance de chaque Yi est finie.
I Lorsque nous parlons de convergence en probabilit´e, nous allons ´ecrire :
Y¯ −→p µY.
Th´ eor` eme de la limite centrale
I Sous certaines conditions, la distribution de ¯Y est bien approxim´ee par une loi normale lorsque n est grand.
I Conditions : (1)Yi i.i.d. avecE(Yi) =µY ; (2) Var(Yi) =σY2 o`u 0< σ2Y <∞.
I Lorsquen → ∞on a approximativement ( ¯Y −µY)
σY¯
∼N(0,1).
o`u σ2Y¯ ≡σY2/n.
I On va parler de convergence en distribution: ( ¯Y −µY)
σY¯
−→d N(0,1).
Th´ eor` eme de la limite centrale (suite)
I Donc (utilisant les r`egles habituelles) on a Y¯ −→d N
µY , σY2 n
,
I ou √
n Y¯ −µY d
−→N 0, σY2 .
I Je pr`ef`ere la deuxi`eme formulation puisqu’on insiste sur quelque chose dont la variance ne disparaˆıt pas lorsque n → ∞.
Importance du th´ eor` eme de la limite centrale
I Dans la grande majorit´e des cas, nous ne connaissons pas la loi exacte qui g´en`ere les donn´ees qu’on utilise pour
l’estimation et pour les tests.
I Pour cette raison,nous ne connaissons pasla distribution des estimateurs (des statistiques) que nous calculons en
´
econom´etrie.
I Donc, nous ne pouvons tester des hypoth`eses.
I Par contre, si nous avons un nombre suffisant d’observations, nous pouvons ´ecrire nos statistiques sous une forme qui permet d’invoquer le th´eor`eme de la limite centrale, ce qui permet d’effectuer des tests, calculer des intervalles de confiance, etc.
Trois types d’inf´ erence
1. Inf´erence exacte. Nous connaissons la loi qui g´en`ere nos donn´ees, et nous savons la loi `a laquelle ob´eit nos statistiques.
(Une fonctionde variables al´eatoires n’ob´eit pas forc´ement `a la mˆeme loi que les variables elles-mˆemes.) Nous pouvons utiliser les propri´et´es exactes de cette loi pour effectuer des tests.
2. Inf´erence asymptotique. Nous n’avons aucune id´ee concernant la loi que g´en`ere nos donn´ees. Nous avons assez d’observations pour invoquer le th´eor`eme de la limite centrale.
Le type d’inf´erence qui est privil´egi´e dans ce cours.
3. Inf´erence Monte Carlo. Nous utilisons l’ordinateur pour simuler la loi qui g´en`ere nos donn´ees. Tr`es peu utilis´e dans ce cours.