• Aucun résultat trouvé

Param`etres de relation entre deux variables

Dans le document Analyses statistiques multivari´ees (Page 21-26)

3.4 Param` etres de relation entre deux variables

Apr`es la description uni-dimensionnelle de la matrice des donn´ees, on s’int´eresse `a la liaison qu’il existe entre les donn´ees des diff´erentes variables. Nous les comparons deux

` a deux.

Rappelons le contexte g´en´eral. Nous avons les donn´ees X(1),· · · , X(p) de p variables observ´ees surnindividus.

3.4.1 Covariance

Pour toutietj compris entre 1 et p, on d´efinit la covariance entre les donn´eesX(i) et X(j) desi`eme etj`eme variables, not´ee Cov(X(i), X(j)), par :

Cov(X(i), X(j)) = 1

n <(X−X)(i),(X−X)(j)>= 1

n((X−X)(i))t(X−X)(j). Th´eor`eme 1 (K¨oning-Huygens) La covariance est ´egale `a :

Cov(X(i), X(j)) = 1

n < X(i), X(j)>

−X(i)X(j).

Preuve:

Par d´efinition de la matrice X, nous avons X(i) = X(i)1, o`u X(i) est la moyenne des donn´ees de lai`eme variable, et 1 est le vecteur de taille n×1, form´e de 1. Utilisant la bilin´earit´e du produit scalaire, nous obtenons :

Cov(X(i), X(j)) = 1

n < X(i)−X(i), X(j)−X(j)>

= 1

n < X(i)−X(i)1, X(j)−X(j)1>

= 1 n

< X(i), X(j) >−X(i) <1, X(j)>−X(j) < X(i),1>+X(i)X(j) <1,1>

= 1 n

< X(i), X(j) >−nX(i)X(j)−nX(j)X(i)+nX(i)X(j)

(car<1, X(j) >=nX(j)),< X(i),1>=nX(i), et <1,1>=n)

= 1

n < X(i), X(j) >

−X(i)X(j).

18 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ´EL ´EMENTAIRE

4. Dans le cas de la variance, le Th´eor`eme de K¨oning-Huygens s’´ecrit : Var(X(j)) =

1

nkX(j)k2

−X(j)2.

Exemple.Calculons la covariance entre les donn´ees des premi`ere et deuxi`eme variables de l’exemple des notes, en utilisant le Th´eor`eme de K¨onig-Huygens :

Cov(X(1), X(2)) = 1

6[11·13.5 + 12·13.5 + 13·13.5 +· · ·+ 16·13.5]−13.52 = 0.

• Matrice de covariance

Les variances et covariances sont naturellement r´epertori´ees dans la matrice de cova-riance des donn´ees X, de taillep×p, not´ee V(X), d´efinie par :

V(X) = 1

n(X−X)t(X−X).

De sorte que l’on a

Cov(X(i), X(j)) = (V(X))ij.

Remarquer que les coefficients sur la diagonale de la matrice V(X) donnent les va-riances.

Exemple.Calculons la matrice de covariance pour l’exemple des notes.

V(X) = 1

Ainsi, on retrouve :

Var(X(1)) = (V(X))11= 2.917, Var(X(2)) = (V(X))22= 0 Cov(X(1), X(2)) = Cov(X(2), X(1)) = (V(X))12= (V(X))21= 0.

3.4. PARAM `ETRES DE RELATION ENTRE DEUX VARIABLES 19

• La variabilit´e totalede la matrice des donn´ees X, est par d´efinition : Tr(V(X)) =

p

X

i=1

Var(X(i)).

Cette quantit´e est importante car elle donne en quelque sorte la quantit´e d’information qui est contenue dans la matrice X. Elle joue un rˆole cl´e dans l’ACP.

3.4.2 Corr´elation de Bravais-Pearson

La corr´elation de Bravais-Pearson entre les donn´ees X(i) et X(j) des i`eme et j`eme variables, not´ee r(X(i), X(j)), est par d´efinition :

r(X(i), X(j)) = Cov(X(i), X(j))

σ(X(i))σ(X(j)) = <(X−X)(i),(X−X)(j)>

k(X−X)(i)k · k(X−X)(j)k

= cos∠ (X−X)(i),(X−X)(j) .

Proposition 2 La corr´elation de Bravais-Pearson satisfait les propri´et´es : 1. r(X(i), X(i)) = 1,

2. |r(X(i), X(j))| ≤1,

3. |r(X(i), X(j))|= 1, si et seulement si il existe un nombre a∈R, tel que (X−X)(j) =a(X−X)(i).

Preuve:

Pour le point 1, il suffit d’´ecrire :

r(X(i), X(i)) = <(X−X)(i),(X−X)(i)>

k(X−X)(i)k · k(X−X)(i)k = k(X−X)(i)k2 k(X−X)(i)k2 = 1.

Le point 2 est une cons´equence du fait que la corr´elation est un cosinus. De plus le co-sinus de l’angle form´e par deux vecteurs vaut 1 en valeur absolue, ssi ces deux vecteurs sont colin´eaires, ce qui est exactement la condition donn´ee au point 3.

• Cons´equences

1. Le Point 3 s’´ecrit en composantes :

x1j−X(j)=a(x1i−X(i)),· · · , xnj−X(j)=a(xni−X(i)),

ainsi|r(X(i), X(j))|= 1, si et seulement si il y a une d´ependance lin´eaire entre les donn´ees X(i) etX(j) desi`eme etj`eme variables. Voir le dessin fait au tableau.

20 CHAPITRE 3. STATISTIQUE DESCRIPTIVE ´EL ´EMENTAIRE

2. Si la corr´elation est proche de 1, cela implique une relation lin´eaire entre les donn´ees, mais pas forc´ement une causalit´e. Ces deux ph´enom`enes peuvent ˆetre reli´es entre eux par une troisi`eme variable, non mesur´ee qui est la cause des deux.

Par exemple, le nombre de coups de soleil observ´es dans une station baln´eaire peut ˆetre fortement corr´el´e au nombre de lunettes de soleil vendues ; mais aucun des deux ph´enom`enes n’est la cause de l’autre.

3. Si la corr´elation est proche de 0, cela ne signifie pas qu’il n’y a pas de relation entre les donn´ees des variables, cela veut seulement dire qu’il n’y a pas de relation lin´eaire. Elle pourrait par exemple ˆetre quadratique, ou autre.

• Matrice de corr´elation

De mani`ere analogue `a la matrice de covariance, on d´efinit la matrice de corr´elation, de taille p×p, not´ee R(X), par :

(R(X))ij =r(X(i), X(j)).

Remarquer que les ´el´ements diagonaux de cette matrice sont tous ´egaux `a 1.

Exemple. La matrice de corr´elation de l’exemple des notes est : R(X) =

1 0 0 1

.

Chapitre 4

Analyse en Composantes Principales (ACP)

M´ethode factorielle, ou de type R (en anglais). A pour but de r´eduire le nombre de variables en perdant le moins d’information possible, c’est `a dire en gardant le maximum de la variabilit´e totale.

Pratiquement, cela revient `a projeter les donn´ees des variables pour les individus sur un espace de dimension inf´erieure en maximisant la variabilit´e totale des nouvelles variables. On impose que l’espace sur lequel on proj`ete soit orthogonal (pour ne pas avoir une vision d´eform´ee des donn´ees).

4.1 Etape 1 : Changement de rep` ere

Soit X la matrice des donn´ees. Pour plus de visibilit´e, on consid`ere la matrice des donn´ees centr´eesX−X. Lei`emevecteur ligne (X−X)ti repr´esente les donn´ees de toutes les variables pour lei`emeindividu. Pour simplifier les notations, on ´ecritxt= (X−X)ti.

• Repr´esentation graphique dui`eme individu On peut repr´esenter xtpar un point de Rp. Alors,

◦ chacun des axes deRp repr´esente une desp variables,

◦ les coordonn´ees dext sont les donn´ees desp variables pour lei`eme individu.

• Nouveau rep`ere

Soientq1,· · ·,qp,pvecteurs deRp, unitaires et deux `a deux orthogonaux. On consid`ere lespdroites passant par l’origine, de vecteur directeurq1,· · · ,qprespectivement. Alors

21

22 CHAPITRE 4. ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

ces droites d´efinissent un nouveau rep`ere. Chacun des axes repr´esente une nouvelle variable, qui est combinaison lin´eaire des anciennes variables.

• Changement de rep`ere pour le i`eme individu

On souhaite exprimer les donn´ees dui`eme individu dans ce nouveau rep`ere. Autrement dit, on cherche `a d´eterminer les nouvelles coordonn´ees du i`eme individu. Pour j = 1,· · ·, p, la coordonn´ee sur l’axeqj est la coordonn´ee de la projection orthogonale dex sur la droite passant par l’origine et de vecteur directeur qj. Elle est donn´ee par (voir Chapitre 2) :

<x,qj >=xtqj.

Ainsi les coordonn´ees des donn´ees dui`emeindividu dans ce nouveau rep`ere sont r´epertori´ees dans le vecteur ligne :

(xtq1 · · · xtqp) =xtQ= (X−X)tiQ,

o`u Q est la matrice de taille p ×p, dont les colonnes sont les vecteurs q1,· · · ,qp. Cette matrice estorthonormale,i.e.ses vecteurs colonnes sont unitaires et deux `a deux orthogonaux.

• Changement de rep`ere pour tous les individus

On souhaite faire ceci pour les donn´ees de tous les individus (X−X)t1,· · · ,(X−X)tn. Les coordonn´ees dans le nouveau rep`ere sont r´epertori´ees dans la matrice :

Y = (X−X)Q. (4.1)

En effet, la i`eme ligne de Y est (X −X)¯ tiQ, qui repr´esente les coordonn´ees dans le nouveau rep`ere des donn´ees du i`eme individu.

Dans le document Analyses statistiques multivari´ees (Page 21-26)

Documents relatifs