D´efinitions et notations pour la statistique multivari´ee









u= ˆa t+ ˆb ˆ

a= cov(t, u) var(t) u= ˆa t+ ˆb La valeur minimale de ϕ s’exprime en fonction de r(t, u)

ϕ(ˆa) =var(u)[1−r²(t, u)],

ce qui permet de mesurer grâce àr(t, u) l’ajustabilité du nuage par une droite.

r = - 0.8

r = 0.9

r = 0 r = 0

Figure 11 : Ajustabilit´e d’un nuage bivari´e suivant les valeurs de r.

Remarquer que lorsque t et u sont non corrélés, cov(t, u) = 0, ∆ a pour équation u=u.

6.2.5 D´ efinitions et notations pour la statistique multivari´ ee

On dispose d’un échantillon de mesures de pvariables toutes mesurées sur les mêmes nindividus. Ces mesures sont stockées dans la matrice T des données brutes. On suppose que les n individus sont munis des poids statistiques formés par la diagonale de D.

Calcul Matriciel et Analyse Factorielle des Donn´ees

On appelle individu moyen le vecteur ligne, not´e T, form´e des moyennes de pvariables (colonnes de T).

T = [t₁, . . . , t_p] = 1I^′_nDT.

La matrice X obtenue par centrage des variables est d´efinie par X = (I_n−1I_n1I^′_nD)T.

Elle s’interpr`ete du point de vue des individus (lignes) comme la diff´erence entre chaque individu et l’individu moyen.

On est amené à étudier les liens de proximité entre les variables prises deux à deux : La matrice des covariances géométriques est définie par

V= [V_ij =cov(tⁱ, t^j)] =X^′DX, o`u tⁱ est la i`eme colonne de T.

Cette matrice carrée d’ordre p, est symétrique semi définie positive, rang(V) = rang(X).

Elle est d´efinie positive si rang(X) = p. Remarquer que V_ii = var(tⁱ). On appelle variance totale la somme des variances des p variables

Variance totale =trace(V).

Standardiser lespvariables, c’est à direD-centrer réduire les variables sur l’échantillon, revient à construire

Z =XQ

o`u Q= diag(σ₁⁻¹, . . . , σ_p⁻¹). La matrice des corr´elations entre les variables est R = [R_ij =r(tⁱ, t^j)] =Z^′DZ =Q^′V Q. 2

Remarquer que la diagonale de R est form´ee de 1 car r(t, t) = 1.

P7 Supposons Y n ×1 et X = [X¹|. . .|X^p] n ×p deux matrices D-centrées. Soit Yb =PXY la projectionD-orthogonale deY sur ImX. Puisque X est D-centrée,Yb est de moyenne nulle etkYbk²D =var(Yb). Le coefficient de détermination entre Y et ImX défini dans la section 4.2.2, s’écrit

R²(Y, ImX) = var(Yb) var(Y).

De plus,

R²(Y, ImX) = Y^′DYb

Y^′DY = cov(Y,Yb)

var(Y) =r²(Y,Yb).

Preuve : C’est la conséquence de la D-symétrie du projecteur PX, c’est à dire DP_X = (P_X)^′D. Alors, kYbk²D = Y^′(P_X)^′DP_XY = Y^′DP_XP_XY = Y^′DYb. Il en On peut montrer, voir exercice, que

R²(Y, ImX) = max qui s’appelle le coefficient de corr´elation multiple entre Y etImX.

6.3 Exercices

Exercice 1 :R´egression lin´eaire simple de u sur t.

Dans le contexte de la propriété P6 de la section 6.2.4, la régression linéaire de u sur t est présentée sur les variables centrées y et x respectivement, cet exercice la présente maintenant sur les variables initiales. On dispose de deux n-échantillons, t variable ex-plicative et u variable réponse, dont les observations sont munies des poids statistiques {pi |i= 1, . . . , n} stockés dans la diagonale de D.

L’objectif est de minimiser la fonctionφ de IR² dans IR⁺ d´efinie par φ(a, b) =

vecteur colonne des inconnues a et b.

1) Montrer que φ(β) = ku−Xβk²D. Calculer X^′DX, (X^′DX)⁻¹ etX^′Du.

solution du problème. Calculer ˆβ en utilisant les résultats de la sec-tion 4.2.2. Vérifier que l’on retrouve les résultats de P6. Quelle est l’interprétation

Calcul Matriciel et Analyse Factorielle des Donn´ees

géométrique de û=Xβˆdans (IRⁿ, D) ? 3) Exprimer φ( ˆβ) en fonction de r(t, u).

Exercice 2 : Dans le contexte de la propri´et´e P7 de la section 6.2.5, on se propose de montrer que

R²(Y, ImX) = max

W∈ImXr²(Y, W), et que le maximum est r´ealis´e pour W =P_XY.

1) Quelle est l’interprétation géométrique de cette propriété ? 2) Calculer le vecteur gradient de l’applicationϕ deIR^p dans IR

v −→ϕ(v) = (Y^′DXv)² kYk²D(v^′X^′DXv). Soit ∇ϕ(v) ce vecteur. Montrer que l’´equation∇ϕ(v) = 0 s’´ecrit

PXPYW =ϕ(v)W .

En déduire que le vecteur W =Xv optimal est vecteur propre de PXPY associé à la plus grande valeur propre.

3) Si ˆY =PXY, montrer que PXPY admet une seule valeur propre non nulle ´egale `a Y^′DYˆ

kYk²D

=R²(Y, ImX).

Vérifiez enfin que W = ˆY est le vecteur propre associé à cette valeur propre.

Chapitre 7

G´ en´ eralisation de la D´ ecomposition en Valeurs Singuli` eres. Analyse en Composantes Principales du triplet (X, M, D)

La plupart des méthodes de l’Analyse Factorielle des Données peuvent être présentées dans un cadre commun : celui de l’extension du théorème de la Décomposition en Va-leurs Singulières (DVS) au cadre d’espaces Euclidiens plus généraux. La présentation synthétique qui va suivre, est basée sur l’introduction de métriques sur les espaces Eucli-diens envisagés. Le choix d’une métrique permettra d’adapter cette technique générale, appelée ACP du triplet (X, M, D), au problème posé par le type de données à traiter.

Historiquement, la premi`ere m´ethode apparue pour analyser un tableau issu de me-sures sur variables quantitatives, est l’Analyse en Composantes Principales (ACP) dite usuelle. Elle correspond au triplet

– X matrice, n×p, des variables centrées (éventuellement réduites), – M =Ip, métrique usuelle sur l’espace des lignes,

– D=n⁻¹In, métrique sur l’espace des variables, formée par la matrice diagonale des poids égaux pour les individus.

On verra que d’autres méthodes d’analyse des données nécessitent des choix différents, en particulier lorsque les données sont issues du dépouillement d’une enquête statistique.

Toutes ces méthodes rentrent dans le cadre de la décomposition en valeurs singulières du triplet (X, M, D).

7.1 D´ ecomposition en Valeurs Singuli` eres du triplet

Dans la DVS usuelle examinée au chapitre 2, les matrices X^′Xp×p et XX_n×n^′ , symétriques, jouent un rôle fondamental. Dans la DVS du triplet (X, M, D), ce rôle va être attribué respectivement aux matrices X^′DXMp×p et XMX^′Dn×n. Ces matrices ne sont pas symétriques, sauf dans le cas oùM etDsont de la formekI comme dans la DVS usuelle et dans le cas de l’ACP usuelle. Elles sont respectivement M et D-symétriques. Il est d’autre part nécessaire de s’assurer que les valeurs propres de telles matrices sont non-négatives et que les vecteurs propres sont orthogonaux au sens de la métrique concernée.

C’est l’objectif du Lemme suivant.

Dans le document Éléments de Calcul Matriciel et d’Analyse Factorielle de Données (Page 96-102)