• Aucun résultat trouvé

D´efinitions et notations pour la statistique multivari´ee







u= ˆa t+ ˆb ˆ

a= cov(t, u) var(t) u= ˆa t+ ˆb La valeur minimale de ϕ s’exprime en fonction de r(t, u)

ϕ(ˆa) =var(u)[1−r2(t, u)],

ce qui permet de mesurer grˆace `ar(t, u) l’ajustabilit´e du nuage par une droite.

r = - 0.8

r = 0.9

r = 0 r = 0

Figure 11 : Ajustabilit´e d’un nuage bivari´e suivant les valeurs de r.

Remarquer que lorsque t et u sont non corr´el´es, cov(t, u) = 0, ∆ a pour ´equation u=u.

6.2.5 D´ efinitions et notations pour la statistique multivari´ ee

On dispose d’un ´echantillon de mesures de pvariables toutes mesur´ees sur les mˆemes nindividus. Ces mesures sont stock´ees dans la matrice T des donn´ees brutes. On suppose que les n individus sont munis des poids statistiques form´es par la diagonale de D.

Calcul Matriciel et Analyse Factorielle des Donn´ees

On appelle individu moyen le vecteur ligne, not´e T, form´e des moyennes de pvariables (colonnes de T).

T = [t1, . . . , tp] = 1InDT.

La matrice X obtenue par centrage des variables est d´efinie par X = (In−1In1InD)T.

Elle s’interpr`ete du point de vue des individus (lignes) comme la diff´erence entre chaque individu et l’individu moyen.

On est amen´e `a ´etudier les liens de proximit´e entre les variables prises deux `a deux : La matrice des covariances g´eom´etriques est d´efinie par

V= [Vij =cov(ti, tj)] =XDX, o`u ti est la i`eme colonne de T.

Cette matrice carr´ee d’ordre p, est sym´etrique semi d´efinie positive, rang(V) = rang(X).

Elle est d´efinie positive si rang(X) = p. Remarquer que Vii = var(ti). On appelle variance totale la somme des variances des p variables

Variance totale =trace(V).

Standardiser lespvariables, c’est `a direD-centrer r´eduire les variables sur l’´echantillon, revient `a construire

Z =XQ

o`u Q= diag(σ1−1, . . . , σp−1). La matrice des corr´elations entre les variables est R = [Rij =r(ti, tj)] =ZDZ =QV Q. 2

Remarquer que la diagonale de R est form´ee de 1 car r(t, t) = 1.

P7 Supposons Y n ×1 et X = [X1|. . .|Xp] n ×p deux matrices D-centr´ees. Soit Yb =PXY la projectionD-orthogonale deY sur ImX. Puisque X est D-centr´ee,Yb est de moyenne nulle etkYbk2D =var(Yb). Le coefficient de d´etermination entre Y et ImX d´efini dans la section 4.2.2, s’´ecrit

R2(Y, ImX) = var(Yb) var(Y).

De plus,

R2(Y, ImX) = YDYb

YDY = cov(Y,Yb)

var(Y) =r2(Y,Yb).

Preuve : C’est la cons´equence de la D-sym´etrie du projecteur PX, c’est `a dire DPX = (PX)D. Alors, kYbk2D = Y(PX)DPXY = YDPXPXY = YDYb. Il en On peut montrer, voir exercice, que

R2(Y, ImX) = max qui s’appelle le coefficient de corr´elation multiple entre Y etImX.

6.3 Exercices

Exercice 1 :R´egression lin´eaire simple de u sur t.

Dans le contexte de la propri´et´e P6 de la section 6.2.4, la r´egression lin´eaire de u sur t est pr´esent´ee sur les variables centr´ees y et x respectivement, cet exercice la pr´esente maintenant sur les variables initiales. On dispose de deux n-´echantillons, t variable ex-plicative et u variable r´eponse, dont les observations sont munies des poids statistiques {pi |i= 1, . . . , n} stock´es dans la diagonale de D.

L’objectif est de minimiser la fonctionφ de IR2 dans IR+ d´efinie par φ(a, b) =

vecteur colonne des inconnues a et b.

1) Montrer que φ(β) = ku−Xβk2D. Calculer XDX, (XDX)−1 etXDu.

solution du probl`eme. Calculer ˆβ en utilisant les r´esultats de la sec-tion 4.2.2. V´erifier que l’on retrouve les r´esultats de P6. Quelle est l’interpr´etation

Calcul Matriciel et Analyse Factorielle des Donn´ees

g´eom´etrique de ˆu=Xβˆdans (IRn, D) ? 3) Exprimer φ( ˆβ) en fonction de r(t, u).

Exercice 2 : Dans le contexte de la propri´et´e P7 de la section 6.2.5, on se propose de montrer que

R2(Y, ImX) = max

W∈ImXr2(Y, W), et que le maximum est r´ealis´e pour W =PXY.

1) Quelle est l’interpr´etation g´eom´etrique de cette propri´et´e ? 2) Calculer le vecteur gradient de l’applicationϕ deIRp dans IR

v −→ϕ(v) = (YDXv)2 kYk2D(vXDXv). Soit ∇ϕ(v) ce vecteur. Montrer que l’´equation∇ϕ(v) = 0 s’´ecrit

PXPYW =ϕ(v)W .

En d´eduire que le vecteur W =Xv optimal est vecteur propre de PXPY associ´e `a la plus grande valeur propre.

3) Si ˆY =PXY, montrer que PXPY admet une seule valeur propre non nulle ´egale `a YDYˆ

kYk2D

=R2(Y, ImX).

V´erifiez enfin que W = ˆY est le vecteur propre associ´e `a cette valeur propre.

Chapitre 7

G´ en´ eralisation de la D´ ecomposition en Valeurs Singuli` eres. Analyse en Composantes Principales du triplet (X, M, D)

La plupart des m´ethodes de l’Analyse Factorielle des Donn´ees peuvent ˆetre pr´esent´ees dans un cadre commun : celui de l’extension du th´eor`eme de la D´ecomposition en Va-leurs Singuli`eres (DVS) au cadre d’espaces Euclidiens plus g´en´eraux. La pr´esentation synth´etique qui va suivre, est bas´ee sur l’introduction de m´etriques sur les espaces Eucli-diens envisag´es. Le choix d’une m´etrique permettra d’adapter cette technique g´en´erale, appel´ee ACP du triplet (X, M, D), au probl`eme pos´e par le type de donn´ees `a traiter.

Historiquement, la premi`ere m´ethode apparue pour analyser un tableau issu de me-sures sur variables quantitatives, est l’Analyse en Composantes Principales (ACP) dite usuelle. Elle correspond au triplet

– X matrice, n×p, des variables centr´ees (´eventuellement r´eduites), – M =Ip, m´etrique usuelle sur l’espace des lignes,

– D=n−1In, m´etrique sur l’espace des variables, form´ee par la matrice diagonale des poids ´egaux pour les individus.

On verra que d’autres m´ethodes d’analyse des donn´ees n´ecessitent des choix diff´erents, en particulier lorsque les donn´ees sont issues du d´epouillement d’une enquˆete statistique.

Toutes ces m´ethodes rentrent dans le cadre de la d´ecomposition en valeurs singuli`eres du triplet (X, M, D).

7.1 D´ ecomposition en Valeurs Singuli` eres du triplet

Dans la DVS usuelle examin´ee au chapitre 2, les matrices XXp×p et XXn×n , sym´etriques, jouent un rˆole fondamental. Dans la DVS du triplet (X, M, D), ce rˆole va ˆetre attribu´e respectivement aux matrices XDXMp×p et XMXDn×n. Ces matrices ne sont pas sym´etriques, sauf dans le cas o`uM etDsont de la formekI comme dans la DVS usuelle et dans le cas de l’ACP usuelle. Elles sont respectivement M et D-sym´etriques. Il est d’autre part n´ecessaire de s’assurer que les valeurs propres de telles matrices sont non-n´egatives et que les vecteurs propres sont orthogonaux au sens de la m´etrique concern´ee.

C’est l’objectif du Lemme suivant.