Distribution de probabilit´ e versus Variable al´ eatoire

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Rappel sur la th´ eorie des probabilit´ es

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion´ Université du Québec à Montréal

2018: Steve Amblerc

Hiver 2018

(2)

Objectifs du cours

1. Notions primordiales.

2. Rappel pour ceux qui ont suivi ECO2272.

3. Derni`eres sections (distribution ´echantillonnale de la moyenne

´

echantillonale et théorème de la limite centrale) feront un pont avec le chapitre suivant (estimation, tests d’hypothèse, intervalles de confiance).

(3)

Distributions de probabilit´ es et variables al´ eatoires

I Expérience aléatoire : action avec un ensemble de résultats possibles : le résultat n’est pas connu à l’avance.

I Distribution de probabilité : liste exhaustive des résultats et les probabilités associés à chacun des résultats (distributions discrètes).

I Chaque résultat est associé à une densitédans le cas d’une distribution continue.

I L’ensemble de tous les r´esultats possibles estl’univers, l’espace des ´echantillons(ou l’espace fondamental).

I Ev´´ enement : sous-ensemble de l’espace des ´echantillons.

(4)

Distribution de probabilit´ e versus Variable al´ eatoire

I Variable aléatoire : chaque résultat associé à unnombre. Le résultat peut être qualitatif ou descriptif dans le cas d’une distribution de probabilité.

I Difficile d’imaginer une distribution continue où les résultats ne sont pas numériques.

I Je parlerai toujours de variables al´eatoires lorsqu’il n’y a pas d’ambigu¨ıt´e.

(5)

Distribution discr` etes

I r : variable al´eatoire.

I hi : Pr (r =ri).

I n r´esultats distincts possibles.

I Il faut

n

X

i=1

h_i = 1.

(6)

Distributions continues

I r : variable al´eatoire.

I h_i =f (r_i)≥0 : la densit´e du r´esultatr_i.

I Il faut

Z rmax

rmin

h_idi = 1.

I L’intervalle [r_min,r_max] est le supportde la distribution.

I On d´efinit

Z b a

h_idi = Pr (a≤r ≤b).

(7)

Fonctions de distribution cumul´ ees

I On d´efinit

fdc (a)≡Pr (r ≤a).

I Un autre concept logique dans le cadre de variables al´eatoires mais non dans le cadres de distributions de probabilit´e.

I On peut définir la fonction de distribution cumulée pour les distribution discrètes et continues.

(8)

Esp´ erance d’une variable al´ eatoire

I Soit hi =f(ri) =Pr(r =ri).

I L’espéranceou la moyenne de la variable aléatoire est définie comme :

E(r)≡

n

X

i=1

hiri,

o`u il y a n r´ealisations distinctes possibles de la variable.

I Souvent, on utilise le symbole µpour la moyenne ou l’esp´erance d’une variable al´eatoire. Donc,

E(r)≡µ_r =

n

X

i=1

h_ir_i,

(9)

Propri´ et´ es de l’esp´ erance

E(c₀) =c₀, pour une constante quelconquec₀.

E(c0+c1r) =c0+c1E(r), pour des constantes quelconquesc0 etc1.

I Ces propri´et´es sontfondamentales.

(10)

Moments d’une variable al´ eatoire

I La notion de momentest reliée au concept du degré d’un polynôme.

I Premier moment (espérance) : défini en termes de la variable elle-même.

I Deuxième moment (variance) : défini en termes de la variable au carré.

I Troisième moment (asymétrie) : défini en termes de la variable à la puissance 3.

I Etc.

(11)

Esp´ erance conditionnelle

I Espérance conditionnelle : espérance qui tient compte de toute l’information qu’on connaˆıt concernant sa réalisation.

I Exemple : on jette un dé, et quelqu’un nous dit que le nombre obtenu n’est pas strictement inférieur à trois. L’espérance conditionnelle du résultat est :

1

4×3 +1

4×4 +1

4×5 +1

4×6 = 4.5.

(12)

Esp´ erance conditionnelle (suite)

I On pondère chaque résultat distinct par la probabilité de l’obtenir, sachant que le résultat n’est pas inférieur à trois.

I On peut ´ecrire ceci comme

E (r|r ≥3) =

3×Pr (r = 3|r ≥3) + 4×Pr (r = 4|r ≥3) +5×Pr (r= 5|r ≥3) + 6×Pr (r= 6|r ≥3).

I La barre verticale se lit´etant donn´e que.

(13)

Variance

I Variance d’une variable al´eatoire : Var(r)≡σ²(r)≡

n

X

i=1

hi(ri −E(r))².

I La définition de la variance contient la variable aléatoire au carré =>on parle d’undeuxième moment.

I On soustrait l’espérance de la variable aléatoire => on parle en du deuxième moment centré.

I Deuxi`eme moment brut:

n

X

i=1

hiri2.

(14)

Aide-m´ emoire

I La variance prend la forme de l’esp´erance d’une

transformation de la variable aléatoire elle-même (déviation au carré de la variable aléatoire par rapport à sa moyenne).

I Tousles moments d’une distribution ont la forme E(z),

o`u z =f (r).

I Dans le cas de la variance,

z ≡(r−E(r))².

I Tousles autres moments (centrés ou bruts) sont des espérances de transformations non linéaires de la variable aléatoire elle-même.

(15)

Propr´ et´ es de la variance

Var(r) = E(r²)−(E(r))²; Var(c₀) = 0, pour une constante quelconquec₀.

Var(c₀+c₁r) =c₁²Var(r), pour des constantes quelconquesc0 etc1.

I L’écart typed’une variable aléatoire est la racine carrée de sa variance.

(16)

Variance conditionnelle

Var r|r ∈Ω¯ ⊂Ω

=X

i∈Ω¯

ri −E r|r ∈Ω¯ ⊂Ω2

Pr r =ri|r ∈Ω¯ ⊂Ω .

I Limites de la sommation modifiées pour tenir compte du nombre de réalisations réduit.

I Les probabilit´es sont des probabilit´es conditionnellles.

I La notation r ∈Ω¯ ⊂Ω capte l’id´ee que la variable al´eatoire r est dans un sous-ensemble ¯Ω de l’espace fondamental Ω.

(17)

Variance conditionnelle (suite)

I Pour reprendre l’exemple d’un dé lorsqu’on sait que le résultat n’est pas inférieur à trois :

Var (r|r ≥3) = (3−4.5)²× 1

4+ (4−4.5)²×1 4 +(5−4.5)²×1

4 + (6−4.5)²×1

4 = 1.25.

I Nous aurions pu ´ecrire :

Var (r|r ∈ {3,4,5,6} ⊂ {1,2,3,4,5,6}).

I Information pr´ealable concernant la r´ealisation =>variance conditionnelle plus petite que variance non conditionnelle.

(18)

Asym´ etrie

Skew(r) =

n

X

i=1

hi(ri −E(r))³.

I Loi normale : asymétrie égale à zéro.

I Prend la forme de l’esp´erance d’une fonction de la variable al´eatoire :

Skew(r) = E(z) o`u

z ≡(r−E(r))³.

(19)

Aplatissement

Kurt(r) =

n

X

i=1

h_i(r_i −E(r))⁴.

I Encore une fois, nous avons

Kurt(r) = E(z), avec

z ≡(r−E(r))⁴.

I Aplatissement normalis´e : K(r) = 1

σ⁴

n

X

i=1

h_i(r_i −E(r))⁴.

I Loi normale : ´egale `a 3.

(20)

Distributions jointes

I Soit ra etr_b deux variables al´eatoires discr`etes.

I Probabilit´e que les 2 variables prennent simultan´ement les valeurs r_ai etr_bj :

hi,j ≡Pr (ra =rai,r_b =r_bj).

I Il faut que

k

X

i=1 n

X

j=1

h_i_,j = 1,

o`u ra peut prendrek valeurs distinctes etr_b peut prendren valeurs distincts.

(21)

Distribution jointes (suite)

I Covariance de la population : Cov(ra,rb) =

k

X

i=1 n

X

j=1

hi,j(rai −E(ra)) (rbj −E(rb))

I Propri´et´es de la covariance :

Cov(r_a,r_b) = E (r_a·r_b)−E(r_a)E(r_b);

Cov (c₀+c₁r_a,c₂+c₃r_b) =c₁·c₃Cov (r_a,r_b).

I Conséquences immédiates de la définition.

I La covariance est considérée comme un moment du deuxième ordre.

(22)

Distribution jointes (suite)

I Corr´elation oucoefficient de corr´elation : Corr(r_a,r_b)≡ρ(r_a,r_b)≡ cov(r_a,r_b)

σ(r_a)σ(r_b), o`u σ(ra)≡p

σ²(ra).

I Coefficient de détermination: le carré du coefficient de corrélation.

(23)

Distribution marginale

I Distribution marginale der_a : Pr (ra=rai)≡hi =

n

X

j=1

Pr (ra=rai , r_b=r_bj), et de r_b :

Pr (r_b=r_bj)≡h_j =

k

X

i=1

Pr (r_a=r_ai , r_b=r_bj),

(24)

Distribution conditionnelle

I Distribution conditionnelle :

I On ´ecrit Pr (ra =rai|r_b=rbj) qui se litla probabilit´e quera

est égale àr_ai étant donné quer_b est égale àr_bj.

I Nous avons :

Pr (r_a =r_ai|r_b=r_bj) =Pr (r_a =r_ai , r_b=r_bj) Pr (rb=rbj)

(25)

Esp´ erance conditionnelle

I Esp´erance conditionnelle : E (ra|r_b=rbj) =

k

X

i=1

raiPr (ra=rai|r_b=rbj).

I Pour simplifier la notation :

E (ra|r_b =rbj)≡E (ra|r_b).

(26)

Loi des esp´ erances it´ er´ ees

I

E(r_a) =

n

X

j=1

E (r_a|r_b=r_bj) Pr (r_b=r_bj).

I En mots : l’espérance de ra est l’espérance de l’espérance conditionnelle der_a étant donnée la valeur der_b.

I Nous pouvons ´ecrire :

E(ra) = E (E (ra|r_b)).

(27)

Ind´ ependance

I 2 variables aléatoires sontindépendantes lorsque les probabilités conditionnelles sont égales aux probabilités marginales pour toutes les réalisations possibles des 2 variables :

Pr (r_a=r_ai|r_b =r_bj) = Pr (r_a =r_ai) ∀i,j et

Pr (r_b=r_bj|r_a=r_ai) = Pr (r_b=r_bj) ∀i,j.

I Cons´equence :

Pr (ra =r_ai , r_b=r_bj) = Pr (ra=r_ai) Pr (r_b=r_bj).

(28)

Ind´ ependance => Covariance = 0.

Cov (ra , rb)

=

k

X

i=1 n

X

j=1

(r_ai −E (r_a)) (r_bj−E (r_b)) Pr (r_a=r_ai) Pr (r_b=r_bj)

=

k

X

i=1

(r_ai −E (r_a)) Pr (r_a=r_ai)

!



n

X

j=1

(r_bj−E (r_b)) Pr (r_b=r_bj)





= _k

X

i=1

r_aiPr (r_a =r_ai)

!

−E (r_a)

!







n

X

j=1

r_bjPr (r_b=r_bj)



−E (r_b)





= 0.

(29)

Combinaisons lin´ eaires de variables al´ eatoires

E (ar_a+br_b)≡

k

X

i=1 n

X

j=1

h_ij(ar_ai +br_bj)

=a

k

X

i=1 n

X

j=1

h_ijr_ai +b

k

X

i=1 n

X

j=1

h_ijr_bj

=a

k

X

i=1

h_ir_ai+b

n

X

j=1

h_jr_bj

≡aEr_a+bEr_b,

(30)

Combinaisons lin´ eaires de variables al´ eatoires (suite)

Var (ar_a+br_b)≡

k

X

i=1 n

X

j=1

h_ij(ar_ai+br_bj −E (ar_a+br_b))²

=

k

X

i=1 n

X

j=1

h_ij(a(r_ai −Er_a) +b(r_bj−Er_b))²

=a²

k

X

i=1 n

X

j=1

h_ij(r_ai−Er_a)²+b²

k

X

i=1 n

X

j=1

h_ij(r_bj −Er_b)²

+2ab

k

X

i=1 n

X

j=1

hij(rai−Era) (rbj−Erb)

(31)

Combinaisons lin´ eaires de variables al´ eatoires (suite)

=a²

k

X

i=1

h_i(r_ai−Er_a)²+b²

n

X

j=1

h_j(r_bj−Er_b)²

+2ab

k

X

i=1 n

X

j=1

h_ij(r_ai −Er_b) (r_bj −Er_b)

≡a²Var (r_a) +b²Var (r_b) + 2·a·b·Cov (r_a,r_b).

(32)

Quelques lois classiques : binomiale

I Expérience répétéen fois. p : probabilité d’un succès.

I La variable prend la valeur du nombre de succ`es.

I Moyenne : E(X) =

n

X

i=1

(p×1) + ((1−p)×0)

!

=np.

I Variance (exercice) : np(1−p).

(33)

Quelques lois classiques : la loi uniforme

I Soit rmin la valeur minimale que peut prendre r et soitrmax la valeur maximale, et soit hi = ¯h la densit´e (constante) entre les valeurs minimale et maximale. Il faut que

Z rmax

rmin

¯hdi = 1.

I Donc

h¯= 1 rmax−rmin

.

I On peut montrer (exercice) que

E(r) = (r_max+r_min)

2 .

I On peut] aussi montrer (exercice) que Var(r) = (rmax −r_min)²

12 .

(34)

Quelques lois classiques : la loi normale

I Support : entre −∞et ∞.

I Densit´e :

f(X;µ, σ²) = 1 σ√

2πexp

− 1

2σ²(x−µ)²

.

I Densité symétrique autour de la moyenne µ=>la mesure de l’asymétrie est 0.

I Loi normale centr´ee r´eduite :

Z ≡ (X −µ) σ

(35)

Quelques lois classiques : la loi chi-carr´ e

I Somme dem variables aléatoires normales centrées réduites indépendantes au carré :

W =

m

X

i=1

Z_i².

I Les moments dépendent de m(degrés de liberté).

I Notation : χ²_m.

(36)

Quelques lois classiques : la loi t de Student

I Variable aléatoire normale centrée réduite divisée par la racine carrée d’une variable aléatoire indépendante χ²_m (qui elle est divisée par m) :

t = Z

pW/m.

I Pour une explication plus d´etaill´ee, voir le manuel.

(37)

Quelques lois classiques : la loi F

I Ratio de deux variables aléatoires chi-carré indépendantes, la première avecm degrés de liberté et la deuxième avec n degrés de liberté, où chacune des deux variables chi-carré est divisée par son nombre de degrés de liberté :

F = W1/m W₂/n.

I Notation : Fm,n.

I Pour une explication plus d´etaill´ee, voir le manuel.

I Nous utiliserons la loiF dans le cadre de tests d’hypothèses jointes (modèle de régression multiple).

(38)

Echantillon et population ´

I Généralement, on n’observe pas toutes les réalisations possibles d’une variable aléatoire.

I Généralement, on ne connaˆıt pas les vraies probabilités (densités) associées aux réalisations.

I Il faut calculer des moments statistiqueséchantillonauxpour un échantillon fini de réalisations.

I Les moments échantillonnaux peuvent être utilisés pour estimer les moments de la population et tester des hypothèses relatives à ceux-ci.

(39)

Moyenne ´ echantillonnale

I D´efinition :

¯ r ≡ 1

n

X

i=1

ri

I n : taille de l’échantillon (pasle nombre de réalisations distinctes possibles d’une variable aléatoire discrète).

(40)

Variance ´ echantillonnale

I D´efinition :

¯

σ²(r) = 1 n−1

n

X

i=1

(ri −r¯)².

I Conventionnel de diviser par n−1 et non par n.

I Possible de montrer que la variance ´echantillonnale est un estimateur non biais´e de la variance de la population.

I Nous reviendrons sur cette question (et sur la d´efinition d’un

estimateur non biais´e) dans le chapitre sur l’estimation.

(41)

Covariance ´ echantillonnale

I D´efinition :

Cov(ra,r_b) = 1 n−1

n

X

i=1

(r_ai−r¯a) (r_bi−r¯_b).

I Produit de deux variables al´eatoires, donc c’est undeuxi`eme momentou un moment d’ordre deux.

I Encore une fois, la convention est de diviser par n−1.

I Encore une fois, c’est pour obtenir un estimateur non biais´e du moment dans la population.

I Corr´elation ´echantillonnale :

Corr(ra,r_b) = Cov(ra,r_b)

¯

σ(r_a)¯σ(r_b)

(42)

Distribution ´ echantillonnale de la moyenne ´ echantillonnale

I La moyenne ´echantillonnale est souvent utilis´e pour estimer la moyenne de la population.

I Les propriétés de la moyenne échantillonnale sont cruciales pour faire des inférences (tests).

I E(Y) =µ_Y, Var(Y) =σ²_Y.

I Nous avons : E ¯Y

= E 1 n

n

X

i=1

Yi

!

= 1 n

n

X

i=1

E (Yi).= 1 n

n

X

i=1

µ_Y

= 1

n ×n×µY =µY.

I Y¯ est un estimateur non biaisé de l’espérance de la variable aléatoire.

(43)

Distribution ´ echantillonnale de la moyenne ´ echantillonnale (suite)

I Calculons maintenant la variance de ¯Y. Var ¯Y

= Var 1 n

n

X

i=1

Y_i

!

= 1 n²

n

X

i=1

Var (Y_i) = 1 n²

n

X

i=1

σ_Y²

= 1

n² ×n×σ²_Y = 1 nσ_Y².

I La variance de ¯Y diminue avecn. Nous avons :

n→∞lim Var ¯Y

= 0.

I Cette propriété nous mène à parler de laconvergence de ¯Y comme estimateur de µY.

(44)

Loi des grands nombres et convergence

I La loi des grands nombres dit que, sous certaines

conditions, la moyenne échantillonnale ¯Y sera très prèsde µ_Y sin est grand.

I Définition rigoureuse detrès près deµ_Y :

n→∞lim Pr |Y¯ −µ_Y|> ε

= 0, ∀ε >0.

I On parle deconvergence en probabilit´eou tout simplement deconvergence.

I Les conditions : (1) les variablesY_i , i = 1, . . . , n sont i.i.d. ; (2) la variance de chaque Yi est finie.

I Lorsque nous parlons de convergence en probabilit´e, nous allons ´ecrire :

Y¯ −→^p µ_Y.

(45)

Th´ eor` eme de la limite centrale

I Sous certaines conditions, la distribution de ¯Y est bien approxim´ee par une loi normale lorsque n est grand.

I Conditions : (1)Yi i.i.d. avecE(Yi) =µY ; (2) Var(Yi) =σ_Y² o`u 0< σ²_Y <∞.

I Lorsquen → ∞on a approximativement ( ¯Y −µ_Y)

σY¯

∼N(0,1).

o`u σ²_Y_¯ ≡σ_Y²/n.

I On va parler de convergence en distribution: ( ¯Y −µY)

σY¯

−→d N(0,1).

(46)

Th´ eor` eme de la limite centrale (suite)

I Donc (utilisant les r`egles habituelles) on a Y¯ −→^d N

µ_Y , σ_Y² n

,

I ou √

n Y¯ −µ_Y d

−→N 0, σ_Y² .

I Je prèfère la deuxième formulation puisqu’on insiste sur quelque chose dont la variance ne disparaˆıt pas lorsque n → ∞.

(47)

Importance du th´ eor` eme de la limite centrale

I Dans la grande majorité des cas, nous ne connaissons pas la loi exacte qui génère les données qu’on utilise pour

l’estimation et pour les tests.

I Pour cette raison,nous ne connaissons pasla distribution des estimateurs (des statistiques) que nous calculons en

´

econom´etrie.

I Donc, nous ne pouvons tester des hypoth`eses.

I Par contre, si nous avons un nombre suffisant d’observations, nous pouvons écrire nos statistiques sous une forme qui permet d’invoquer le théorème de la limite centrale, ce qui permet d’effectuer des tests, calculer des intervalles de confiance, etc.

(48)

Trois types d’inf´ erence

1. Inférence exacte. Nous connaissons la loi qui génère nos données, et nous savons la loi à laquelle obéit nos statistiques.

(Une fonctionde variables aléatoires n’obéit pas forcément à la même loi que les variables elles-mêmes.) Nous pouvons utiliser les propriétés exactes de cette loi pour effectuer des tests.

2. Inférence asymptotique. Nous n’avons aucune idée concernant la loi que génère nos données. Nous avons assez d’observations pour invoquer le théorème de la limite centrale.

Le type d’inférence qui est privilégié dans ce cours.

3. Inférence Monte Carlo. Nous utilisons l’ordinateur pour simuler la loi qui génère nos données. Très peu utilisé dans ce cours.