Universit´ e de Nice L1MASS, ann´ ee 2015-2016

(1)

Universit´ e de Nice L1MASS, ann´ ee 2015-2016

D´ epartement de Math´ ematiques Statistique

Cours 07

Variance, covariance, corr´ elation

1 D´ efinitions et propri´ et´ es ´ el´ ementaires

D´ efinition : Soient x = (x

1

, x

2

, . . . , x

n

) et y = (y

1

, y

2

, . . . , y

n

) deux ´ echantillons de mˆ eme taille n et de moyenne respective ¯ x =

_n¹

∑

n

i=1

x

i

et ¯ y =

_n¹

∑

n i=1

.

On appelle covariance (estim´ ee

¹

) de x avec y et on note cov (x, y) le nombre cov (x, y) = 1

n − 1

∑

n i=1

(x

_i

− x)(y ¯

_i

− y). ¯

On appelle variance (estim´ ee) de x et on note Var (x) le nombre Var (x) = cov (x, x) = 1

n − 1

∑

n i=1

(x

i

− x) ¯

²

,

et √

Var (x) s’appelle l’´ ecart-type de l’´ echantillon x. On appelle corr´ elation de x avec y et on note cor (x, y) le nombre

ρ = cor (x, y) = cov(x, y)

√ Var (x) √

Var (y) .

Proposition 1 Soient x,, x

^′

, x

^′′

, y, y

^′

, et y

^′′

des ´ echantillons de mˆ eme taille n. Notons x ¯ =

_n¹

∑

n i=1

x

_i

et

¯

y =

_n¹

∑

n

i=1

la moyenne de x et de y. Soient λ, λ

^′

et λ

^′′

des nombres. Les relations suivantes sont satisfaites : 1. cov (λ

^′

x

^′

+ λ

^′′

x

^′′

, y) = λ

^′

cov (x

^′

, y) + λ

^′′

cov (x

^′′

, y) (Bilin´ earit´ e : lin´ earit´ e ` a gauche) 2. cov (x, λ

^′

y

^′

+ λ

^′′

y

^′′

) = λ

^′

cov (x, y

^′

) + λ

^′′

cov (x, y

^′′

) (Bilin´ earit´ e : lin´ earit´ e ` a droite)

3. cov (y, x) = cov (x, y) (Sym´ etrie)

4. Var (λx) = λ

²

Var (x) ≥ 0 (Homog´ en´ eit´ e de degr´ e 2)

5. Formules de Huygens :

cov (x, y) = 1 n − 1

∑

n i=1

x

i

y

i

− n

n − 1 x¯ ¯ y ,et Var (x) = 1 n − 1

∑

n i=1

x

²_i

− n n − 1 x ¯

²

. 6. In´ egalit´ e de Cauchy-Schwarz : (cov (x, y))

²

≤ Var (x)Var (y), et donc ρ

²

≤ 1.

2 Relation avec la r´ egression lin´ eaire, interpr´ etation g´ eom´ etrique

Lors du cours 06 nous avons d´ etermin´ e l’´ equation y = ax+b de la droite de r´ egression lin´ eaire de l’´ echantillon y sur l’´ echantillon de mˆ eme taille x. Les valeurs de la pente a de cette droite et son ordonn´ ee ` a l’origine b sont donn´ es par a =

∑

n

i=1

x

i

y

i

− n¯ x¯ y

∑

n

i=1

x

²_i

− n¯ x

²

et b = ¯ y − a¯ x, o` u ¯ x et ¯ y d´ esignent la moyenne de x et y. En divisant par n − 1 le num´ erateur et le d´ enominateur de l’expression donn´ ee de a et en appliquant la formule de Hygens, on voit que a = cov

(x,y)

Var

(x)

.

Vision g´ eom´ etrique : Var (x) mesure l’inertie ∑

n

i=1

(x

i

− x) ¯

²

des n points x

i

par rapport au point ¯ x, l’inertie

∑

n

i=1

(x

i

− x

^′

)

²

par rapport ` a tout autre point x

^′

´ etant n´ ecessairement sup´ erieure. Cette inertie n’est nulle que si tous les x

i

sont ´ egaux, et ce qu’il est convenu d’appeler l’´ echantillon centr´ e

^c

x = x − x ¯ caract´ erise la dispersion de x, alors que la moyenne ¯ x est le nombre unique r´ esumant le mieux l’´ echantillon. L’´ ecart-type √

Var (x) mesure la dispersion

^c

x de l’´ echantillon, de fa¸ con homog` ene par rapport au choix de l’unit´ e utilis´ ee pour former x, puisque pour tout λ > 0, √

Var (λx) = λ √

Var (x) (en passant du m` etre au centim` etre, l’´ ecart-type est multipli´ e par le mˆ eme nombre, 100, que les mesures relev´ ees). On se d´ ebarrasse de la question du choix de l’unit´ e en consid´ erant l’´ echantillon centr´ e-r´ eduit

^cr

x =

^c

x/ √

Var (x) : c’est une direction dans R

ⁿ

ind´ ependante des unit´ es choisies, et ρ = cor (x, y) = cor (

^cr

x,

^cr

y) est le cosinus de l’angle que font les deux direction

^cr

x et

^cr

y dans le plan de R

ⁿ

qu’elles d´ eterminent. Si ρ = 1 c’est que ces deux variabilit´ es ont des directions parfaitement ´ egales (et ρ = − 1 c’est que ces deux variabilit´ es ont des directions parfaitement oppos´ ees). Dans les deux cas la connaissance de x ´ equivaut ` a la connaissance de y : les r´ esidus ϵ

_i

= y

_i

− ax

_i

− b pour la r´ egression de y sur x sont tous nuls !

1. Nous adoptons ici les définitions pratiquées par les commandesvar,sd, etcovdeRfondée sur l’estimateur sans biais de ces grandeurs pour un échantillon dont l’espérance (estimée parmean) n’est pas connue à priori. Ceci explique que le lecteur pourra aussi trouver parfois unnà la place du dénominateurn−1 des définitions adoptées ici.

1

(2)

3 Matrice de variance-covariance

On appelle matrice de variance-covariance de x et y la matrice sym´ etrique

( Var (x) cov (x, y) cov (y, x) Var (y)

) . On appelle matrice de corr´ elation de x et y la matrice sym´ etrique

( 1 cor (x, y)

cor (y, x) 1 )

.

Si on a m ´ echantillons x

¹

, . . ., x

^m

de mˆ eme taille on d´ efinit leur matrice de variance-covariance Σ et leur matrice de corr´ elation R par