Universit´ e de Nice L1MASS, ann´ ee 2015-2016
D´ epartement de Math´ ematiques Statistique
Cours 07
Variance, covariance, corr´ elation
1 D´ efinitions et propri´ et´ es ´ el´ ementaires
D´ efinition : Soient x = (x
1, x
2, . . . , x
n) et y = (y
1, y
2, . . . , y
n) deux ´ echantillons de mˆ eme taille n et de moyenne respective ¯ x =
n1∑
ni=1
x
iet ¯ y =
n1∑
n i=1.
On appelle covariance (estim´ ee
1) de x avec y et on note cov (x, y) le nombre cov (x, y) = 1
n − 1
∑
n i=1(x
i− x)(y ¯
i− y). ¯
On appelle variance (estim´ ee) de x et on note Var (x) le nombre Var (x) = cov (x, x) = 1
n − 1
∑
n i=1(x
i− x) ¯
2,
et √
Var (x) s’appelle l’´ ecart-type de l’´ echantillon x. On appelle corr´ elation de x avec y et on note cor (x, y) le nombre
ρ = cor (x, y) = cov(x, y)
√ Var (x) √
Var (y) .
Proposition 1 Soient x,, x
′, x
′′, y, y
′, et y
′′des ´ echantillons de mˆ eme taille n. Notons x ¯ =
n1∑
n i=1x
iet
¯
y =
n1∑
ni=1
la moyenne de x et de y. Soient λ, λ
′et λ
′′des nombres. Les relations suivantes sont satisfaites : 1. cov (λ
′x
′+ λ
′′x
′′, y) = λ
′cov (x
′, y) + λ
′′cov (x
′′, y) (Bilin´ earit´ e : lin´ earit´ e ` a gauche) 2. cov (x, λ
′y
′+ λ
′′y
′′) = λ
′cov (x, y
′) + λ
′′cov (x, y
′′) (Bilin´ earit´ e : lin´ earit´ e ` a droite)
3. cov (y, x) = cov (x, y) (Sym´ etrie)
4. Var (λx) = λ
2Var (x) ≥ 0 (Homog´ en´ eit´ e de degr´ e 2)
5. Formules de Huygens :
cov (x, y) = 1 n − 1
∑
n i=1x
iy
i− n
n − 1 x¯ ¯ y ,et Var (x) = 1 n − 1
∑
n i=1x
2i− n n − 1 x ¯
2. 6. In´ egalit´ e de Cauchy-Schwarz : (cov (x, y))
2≤ Var (x)Var (y), et donc ρ
2≤ 1.
2 Relation avec la r´ egression lin´ eaire, interpr´ etation g´ eom´ etrique
Lors du cours 06 nous avons d´ etermin´ e l’´ equation y = ax+b de la droite de r´ egression lin´ eaire de l’´ echantillon y sur l’´ echantillon de mˆ eme taille x. Les valeurs de la pente a de cette droite et son ordonn´ ee ` a l’origine b sont donn´ es par a =
∑
ni=1
x
iy
i− n¯ x¯ y
∑
ni=1
x
2i− n¯ x
2et b = ¯ y − a¯ x, o` u ¯ x et ¯ y d´ esignent la moyenne de x et y. En divisant par n − 1 le num´ erateur et le d´ enominateur de l’expression donn´ ee de a et en appliquant la formule de Hygens, on voit que a = cov
(x,y)Var
(x).
Vision g´ eom´ etrique : Var (x) mesure l’inertie ∑
ni=1
(x
i− x) ¯
2des n points x
ipar rapport au point ¯ x, l’inertie
∑
ni=1
(x
i− x
′)
2par rapport ` a tout autre point x
′´ etant n´ ecessairement sup´ erieure. Cette inertie n’est nulle que si tous les x
isont ´ egaux, et ce qu’il est convenu d’appeler l’´ echantillon centr´ e
cx = x − x ¯ caract´ erise la dispersion de x, alors que la moyenne ¯ x est le nombre unique r´ esumant le mieux l’´ echantillon. L’´ ecart-type √
Var (x) mesure la dispersion
cx de l’´ echantillon, de fa¸ con homog` ene par rapport au choix de l’unit´ e utilis´ ee pour former x, puisque pour tout λ > 0, √
Var (λx) = λ √
Var (x) (en passant du m` etre au centim` etre, l’´ ecart-type est multipli´ e par le mˆ eme nombre, 100, que les mesures relev´ ees). On se d´ ebarrasse de la question du choix de l’unit´ e en consid´ erant l’´ echantillon centr´ e-r´ eduit
crx =
cx/ √
Var (x) : c’est une direction dans R
nind´ ependante des unit´ es choisies, et ρ = cor (x, y) = cor (
crx,
cry) est le cosinus de l’angle que font les deux direction
crx et
cry dans le plan de R
nqu’elles d´ eterminent. Si ρ = 1 c’est que ces deux variabilit´ es ont des directions parfaitement ´ egales (et ρ = − 1 c’est que ces deux variabilit´ es ont des directions parfaitement oppos´ ees). Dans les deux cas la connaissance de x ´ equivaut ` a la connaissance de y : les r´ esidus ϵ
i= y
i− ax
i− b pour la r´ egression de y sur x sont tous nuls !
1. Nous adoptons ici les d´efinitions pratiqu´ees par les commandesvar,sd, etcovdeRfond´ee sur l’estimateur sans biais de ces grandeurs pour un ´echantillon dont l’esp´erance (estim´ee parmean) n’est pas connue `a priori. Ceci explique que le lecteur pourra aussi trouver parfois unn`a la place du d´enominateurn−1 des d´efinitions adopt´ees ici.