L’Analyse Factorielle des Correspondences (AFC)

(1)

Universit´ e de Bordeaux - Master MIMSE - 2` eme ann´ ee

L’Analyse Factorielle des Correspondences (AFC)

Marie Chavent

http://www.math.u-bordeaux.fr/ machaven/

2014-2015

Le but est l’analyse des relations entre deux variables qualitatives. L’AFC s’applique au tableau de contingence K obtenu ` a partir du croisement de deux variables qualitatives X 1

et X 2 sur un ´ echantillon de taille n :

1 . . . s . . . m 1

.. . .. .

K = i . . . n _is . . . n _i.

.. . .. .

q

n _.s

1 Rappels et notations

Matrice des fr´ equences F :

1 . . . s . . . m

1 .. . .. .

F = i . . . f is = ⁿ _n

^is

. . . f i.

.. . .. .

q

f _.s On note :

— r = (f _1. , . . . , f _i. , . . . , f _q. ) ^t ∈ R ^q

— c = (f _1. , . . . , f _.s , . . . , f _.m ) ^t ∈ R ^m

— D _r =diag(r)

— D _c =diag(c)

(2)

1 . . . s . . . m 1

.. .

L = i . . . f _is /f _i. . . .

.. .

c ⁰ f _.s

On a :

— L = D ⁻¹ _r F

— Profil ligne moyen : c

Matrice des profil-lignes centr´ es L :

1 . . . s . . . m

1 .. .

L = i . . . ^f

^is

^−f _f

^i.

^f

^.s

i.

. . .

.. . q

On a :

— L = D ⁻¹ _r (F − rc ^t )

— Profil-ligne moyen : origine de R ^m Matrice des profil-colonnes C :

1 . . . s . . . m r

1 .. .

C = i . . . f is /f .s . . . f i.

.. . q

On a :

— C = FD ⁻¹ _c

— Profil colonne moyen : r

(3)

Matrice des profil-colonnes centr´ es C :

1 . . . s . . . m

1 .. .

C = i . . . ^f

^is

^−f _f

^i.

^f

^.s

.s

. . .

.. . q

On a :

— C = (F − rc ^t )D ⁻¹ _c

— Profil-colonne moyen : origine de R ^q Deux nuages de points pond´ er´ es :

Le nuage des q profil-lignes centr´ es de R ^m avec :

— r comme pond´ eration,

— D r comme m´ etrique sur R ^q (m´ etrique des poids),

— D ⁻¹ _c comme m´ etrique sur R ^m (distance du χ ² ).

Le nuage des m profil-colonnes centr´ es de R ^q avec :

— c comme pond´ eration,

— D ⁻¹ _r comme m´ etrique sur R ^q (distance du χ ² ),

— D c comme m´ etrique sur R ^m (m´ etrique des poids).

Les inerties de ces deux nuages de points avec ces m´ etriques et pond´ erations v´ erifient la propri´ et´ ee suivante :

I(L) = I(C) = χ ² /n

Objectif de l’AFC et plan du cours :

Il s’agira d’analyser les deux nuages de points pond´ er´ es c’est ` a dire le nuage des profil-lignes (les lignes de la matrice L) et le nuage des profil-colonnes (les colonnes de la matrice C). On va donc analyser les lignes et les colonnes de deux matrices diff´ erentes (alors qu’en ACP, on analyse les lignes et les colonnes de la mˆ eme matrice de donn´ ees quantitatives Z).

Pour cela, on va projeter “au mieux” :

— les profil-lignes (les modalit´ es de X ₁ ) dans une sous-espace vectoriel (s.e.v.) de R ^m ,

— les profil-colonnes (les modalit´ es de X ₂ ) dans une sous-espace vectoriel (s.e.v.) de R ^q . Dans ce cours nous allons pr´ esenter l’AFC comme une double ACP (ACP de L et ACP de C).

Puis nous montrerons que les r´ esultats de cette double ACP peuvent ˆ etre obtenus ` a partir

de l’ACP d’une seule et mˆ eme matrice c’est ` a dire ` a partir de la d´ ecomposition en valeurs

(4)

r´ esultats.

2 ACP de la matrice des profil-lignes centr´ es

Les q modalit´ es de la variable X ₁ sont d´ ecrites par les lignes de la matrice des profil-lignes centr´ es L = D ⁻¹ _r (F − rc ^t ). Les profil-lignes centr´ es sont des points de R ^m :

— Ces points sont pond´ er´ es par les poids des lignes (vecteur r).

— On utilise comme m´ etrique pour comparer deux profil-ligne la distance du χ ² d´ efinie par D ⁻¹ _c .

On veut projeter “au mieux” les q modalit´ es de X ₁ sur un s.e.v. de R ^m de dimension k (pour k=2 on projette sur un plan par exemple) : on veut que les distances entre les modalit´ es projet´ ees soient “aussi proche que possible” des distances entre les modalit´ es dans leur espace d’origine. Ce s.e.v est d´ efinit par k axes ∆ ₁ , . . . , ∆ _k , tels que pour chaque axe, la variance des D ⁻¹ _c -projections (projections D ⁻¹ _c orthogonales) des profil-lignes soit maximale (D _r norme maximale). Ces axes sont engendr´ es par des vecteurs v ₁ , ..., v _k de R ^m . Ces vecteurs doivent ˆ

etre D ⁻¹ _c -norm´ es ` a 1 (v ^t _α D ⁻¹ _c v _α = 1, α = 1, . . . , k) et D ⁻¹ _c -orthogonaux (v ^t _α D ⁻¹ _c v _α

⁰

= 0,

∀α 6= α ⁰ ).

On note x ^α = LD ⁻¹ _c v _α le vecteur de R ^q des projections des q modalit´ es sur l’axe ∆ _α avec v _α qui maximise Var(x ^α ). Les vecteurs v _α sont les colonnes d’une matrice not´ ee V _k de dimension m × k. On note enfin X = LD ⁻¹ _c V _k la matrice de dimension q × k des coordonn´ ees des profil- lignes projet´ es sur ∆ ₁ , . . . , ∆ _k :

— X est la matrice des coordonn´ ees factorielles des profil-lignes.

— x ^α est la α` eme composante principale des profil-lignes.

L’ACP du triplet (L, D _r , D ⁻¹ _c ) donne les r´ esultats suivant :

a) X = LD ⁻¹ _c V _k o` u V _k est la matrice dont les colonnes sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ ₁ , . . . , λ _k de L ^t D _r LD ⁻¹ _c .

V _k est D ⁻¹ _c -orthonorm´ ee : V ^t _k D ⁻¹ _c V _k = I k . b) Var(x ^α ) = λ _α et ¯ x ^α = 0.

c) Si k = rang(L) alors I(X) = λ ₁ + . . . + λ _k = I(L) = χ ² /n.

Remarque notation : En ACP, on notait Ψ la matrice des coordonn´ ees factorielles des lignes d’une matrice quantitative Z et Φ la matrice des coordonn´ ees factorielles des colonnes de cette mˆ eme matrice. Ici X correspond ` a la matrice Ψ des coordonn´ ees factorielles de L. On ne s’interr` esse pas ` a la matrice Φ des coordonn´ ees factorielles des colonnes de L.

Exercice 1 : D´ emontrer a) b) et c) en vous aidant du poly “Rappels sur l’ACP avec m´ etrique”.

Exemple

(5)

3 ACP de la matrice des profil-colonnes centr´ es

Les m modalit´ es de la variable X ₂ sont d´ ecrites par les colonnes de la matrice des profil- colonnes centr´ es C = (F − rc ^t )D ⁻¹ _c . Les profil-colonnes centr´ es sont de points de R ^q :

— Ces points sont pond´ er´ es par les poids des colonnes (vecteur c).

— On utilise comme m´ etrique pour comparer deux profil-colonnes la distance du χ ² d´ efinie par D ⁻¹ _r .

On veut maintenant projeter “au mieux” les m modalit´ es de X ₂ sur un s.e.v. de R ^q de dimension k. Ce s.e.v est d´ efinit par k axes G ₁ , . . . , G _k , tels que pour chaque axe, la variance des D ⁻¹ _r -projections des profil-colonnes soit maximale (D _c norme maximale). Ces axes sont engendr´ es par des vecteurs u ₁ , ..., u _k de R ^q . Ces vecteurs doivent ˆ etre D ⁻¹ _r -norm´ es ` a 1 et D ⁻¹ _r -orthogonaux.

On note y ^α = C ^t D ⁻¹ _r u _α le vecteur de R ^m des projections des m modalit´ es sur l’axe G _α avec u _α qui maximise Var(y ^α ). Les vecteurs u _α sont les colonnes de la matrice U _k de dimension q × k. On note enfin Y = C ^t D ⁻¹ _r U _k la matrice de dimension m × k des coordonn´ ees des profil-lignes projet´ es sur G ₁ , . . . , G _k :

— Y est la matrice des coordonn´ ees factorielles des profil-colonnes.

— y ^α est la α` eme composante principale des profil-colonnes.

L’ACP du triplet (C, D ⁻¹ _r , D _c )) donne les r´ esultats suivant :

a) Y = C ^t D ⁻¹ _r U _k o` u les colonnes de la matrice U _k sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ ₁ , . . . , λ _k de la matrice CD _c C ^t D ⁻¹ _r .

U _k est D ⁻¹ _c -orthonorm´ ee : U ^t _k D ⁻¹ _r U _k = I k . b) Var(y ^α ) = λ _α et ¯ y ^α = 0

c) Si k = rang(C) alors I(X) = λ ₁ + . . . + λ _k = I(C) = I(L) = χ ² /n.

Remarque notation : Ici Y correspond ` a la matrice Φ des coordonn´ ees factorielles des colonnes de C. On ne s’int´ eresse pas ` a la matrice Ψ des coordonn´ ees factorielles des lignes de C.

Exemple

4 AFC : la SVD g´ en´ eralis´ ee d’une seule matrice

Les matrices X et Y des coordonn´ ees factorielles des profil-lignes et des profil-colonnes obtenus dans les deux sections pr´ ec´ edentes ` a partir de l’ACP de deux triplets, peuvent ˆ etre obtenus ` a partir de l’ACP du seul triplet (Z, N, M) avec :

— Z = D ⁻¹ _r (F − rc ^t )D ⁻¹ _c la matrice des ´ ecarts ` a l’ind´ ependance

— N = D _r

— M = D _c

On effectue donc la DVS de Z avec les m´ etriques N et M :

Z = UΛV ^t

(6)

— U est la matrice de dimension n × r dont les colonnes sont les vecteurs propres de ZMZ ^t N et U ^t NU = I r (les vecteurs propres sont N-orthonorm´ es).

— V est la matrice de dimension p × r dont les colonnes sont les vecteurs propres de Z ^t NZM et V ^t MV = I r (les vecteurs propres sont M-orthonorm´ es).

On a alors

( X = ZMV k

Y = Z ^t NU k

et on en d´ eduit

( X = U _k Λ _k Y = V _k Λ _k

En pratique, pour effectuer la SVD g´ en´ eralis´ ee d’une matrice Z avec les m´ etriques N et M, on effectue la SVD de ˜ Z = N ^1/2 ZM ^1/2 avec les m´ etriques I ⁿ et I ^p (impl´ ement´ ee dans les logiciels comme R). On trouve ˜ Z = ˜ U Λ ˜ ˜ V ^t et on a ensuite :

U = N ^−1/2 U ˜ V = M ^−1/2 V ˜

Λ = Λ ˜

5 Propi´ et´ es barycentriques

Une composante principale standardis´ ee est une composante divis´ ee par son ´ ecart-type : x _α / √

λ _α ou y _α / √

λ _α . La matrice Λ _k ´ etant la matrice diagonale des racines carr´ es des valeurs propres, les matrices X ^∗ et Y ^∗ des coordonn´ ees factorielles standardis´ es s’´ ecrivent :

( X ^∗ = XΛ ⁻¹ _k

Y ^∗ = YΛ ⁻¹ _k donc

( X ^∗ = U _k Y ^∗ = V _k On a les relations suivantes :

( X = D ⁻¹ _r (F − rc ^t )Y ^∗ Y = D ⁻¹ _c (F − rc ^t ) ^t X ^∗ Exercice 2 : Retrouvez ces relations.

Ces deux relations s’interpr` etent aussi en terme de moyennes r´ eciproques : la coordon´ ee fac- torielle d’une modalit´ e d’une variable est la moyenne (pond´ er´ ee) des coordonn´ ees factorielles (standardis´ ees) des modalit´ es de l’autre variable.

En effet on a les relations barycentriques suivantes :



 



 

 x _iα =

m

X

s=1

f _is f _i. y _sα ^∗ y _sα =

q

X

i=1

f _is f .s

x ^∗ _iα

(7)

Et on en d´ eduit les relations quasi-barycentriques suivantes :



 



 



x _iα = 1

√ λ _α

m

X

s=1

f _is f _i. y _sα y _sα = 1

√ λ _α

q

X

i=1

f _is f _.s x _iα Exercice 3 : Retrouvez ces relations.

Interpr´ etations et cons´ equences de ces relations :

— Au coefficient de dilatation ^√ ¹ _λ

α

pr` es, les coordonn´ ees factorielles d’un nuage de points sont, sur un axe, les barycentres des coordonn´ ees factorielles de l’autre nuage.

— Les relations quasi-barycentriques justifient la repr´ esentation simultan´ ee des profil- lignes et des profil-colonnes sur un mˆ eme graphique. Mais attention, la distance entre un profil-ligne et un profi-colonne sur ce graphique s’interp` ete en terme de liaison.

— La coordonn´ ee de la modalit´ e i est la moyenne des coordonn´ ees des modalit´ es s de l’autre variable, pond´ er´ ee par les fr´ equences conditionnelles de s sachant i.

Exemple

6 Interpr´ etation des r´ esultats d’une AFC

Les nuages des profil-lignes et des profil-colonnes sont repr´ esent´ es dans les plans de projection form´ es par les axes factoriels pris deux ` a deux. La lecture de ces graphiques n´ ecessite des r` egles d’interp´ etation.

6.1 Inertie et test d’ind´ ependance

En ACP norm´ ee, l’inertie totale du nuage des point-individus est ´ egale ` a p le nombre de variables. En AFC, on a vu que l’inertie totale du nuage des profil-lignes est ´ egale ` a l’inertie totale du nuage des profil-colonnes, et est ´ egale au χ ² d’ind´ ependance entre les deux variables qualitatives :

I(L) = I(C) = χ ² (X ₁ , X ₂ )/n

La valeur de l’inertie est donc un indicateur de la dispertion des nuages de points et une mesure de liaison entre les deux variables qualitatives encore appell´ ee mesure d’´ ecart ` a l’ind´ ependance.

De plus, on a vu que l’inertie des nuages de points est ´ egale ` a l’inertie des matrices des coordonn´ ees factorielles X et Y “compl` etes” (lorsque k = r). En AFC, il y a au plus r = min(q − 1, m − 1) valeurs propres non nulles et l’inertie totale vaut λ ₁ + . . . + λ _r . Chaque composante principale explique donc une partie de l’inertie mesur´ ee par :

λ _α

λ + . . . + λ ∗ 100

(8)

— la part de la liaison entre X ₁ et X ₂ expliqu´ ee par cet axe.

En pratique :

— On peut d’abord r´ ealiser un test du χ ² pour conclure ou non ` a l’ind´ ependance entre X 1 et X 2 . On ne r´ ealisera ` a priori une AFC que si l’on conclue que X 1 et X 2 ne sont pas ind´ ependantes.

— pour savoir combien d’axes retenir, on peut comme en ACP utiliser l’une des r` egles suivantes :

— On peut utiliser le pourcentage d’inertie expliqu´ ee par les k premiers axes et choisir le nombre k d’axes tel que cette inertie expliqu´ ee d´ epasse un certain seuil (75%

par exemple). Attention, il reste n´ eanmoins la n´ ecessit´ e de ne retenir que des axes principaux utiles pour l’interpr´ etation, c’est ` a dire interpr´ etable.

— On peut ne retenir que les valeurs propres sup´ erieures ` a leur moyenne (r` egle em- pirique de Kaiser)

— On peut utiliser la r` egle du coude :

i) calculer les diff´ erence premi` eres : ₁ = λ ₁ − λ ₂ , ₂ = λ ₂ − λ ₂ , ...

ii) calculer les diff´ erence secondes : δ ₁ = ₁ − ₂ , δ ₂ = ₂ − ₂ , ...

iii) retenir le nombre k tel que δ ₁ , . . . , δ k−1 soient toutes positives et que δ _k soit n´ egative.

D’autres crit` eres peuvent ˆ etre trouv´ es p.209 du livre de G. Saporta (2006).

Remarque : les valeurs propres sont toujours inf´ erieures ou ´ egales ` a 1.

Exemple

6.2 Contributions

La contribution d’une modalit´ e i de X ₁ et d’une modalit´ e s de X ₂ ` a l’inertie de l’axe α sont :



 

 

Ctr _α (i) = f _i. x ² _iα λ _α Ctr _α (s) = f _.s y ² _sα

λ _α

La contribution Ctr α (i) est la part de la variance de l’axe α expliqu´ ee par la modalit´ e i. Ce coefficient permet de connaˆıtre les modalit´ es responsables de la construction de l’axe α, et permet de trouver une eventuelle signification aux axes.

Attention : En AFC, les points les plus excentr´ es sur les axes ne sont pas n´ ecessairement ceux qui contribuent le plus (` a cause des poids f _i. et f _.s ).

Exercice 4 : Dans l’exemple, retrouvez le calcul de la contribution de la modalit´ e marron ` a

l’axe 1.

(9)

6.3 Cosinus carr´ es

Le cosinus carr´ e de l’angle entre le profil-ligne l i et l’axe ∆ α mesure la qualit´ e de la projection de ce profil sur cet axe :

cos ² _α (i) = x ² _iα d ² (l _i , c) o` u d ² (l _i , c) = P m

s=1 1

f

.s

(f _is /f _i. − f _.s ) ² est la distance du χ ² entre le profil-ligne l _i et le profil- ligne moyen c.

De mˆ eme pour les modalit´ es s de la variableX ₂ , on calcule le cosinus carr´ e de l’angle entre le profil-colonne c _s et l’axe G _α pour mesurer la qualit´ e de la projection de ce profil sur cet axe :

cos ² _α (s) = y _sα ² d ² (c _i , r) o` u d ² (c _i , r) = P m

s=1 1

f

i.

(f _is /f _.s − f _i. ) ² est la distance du χ ² entre le profil-ligne c _i et le profil- colonne moyen r.

Pour analyser les proximit´ es entre les points sur les graphiques factoriels, on s’int´ eresse surtout aux points bien projet´ es (ayant un cos2 ´ elev´ e) car les proximit´ es entre ces points observ´ ee sur le graphique est “proche” de celle dans l’espace d’origine.

Exercice 5 : Dans l’exemple, retrouvez le calcul du cos2 de la modalit´ e marron sur l’axe 1.

Attention : Pour interp´ eter des proximit´ es entre deux points sur un graphique il faut prendre des pr´ ecautions :

— Si deux modalit´ es d’une mˆ eme variable sont proches et bien projet´ ees (bien repr´ esent´ ees), cela signifie que leurs profils sont semblables.

— Par contre, la proximit´ e entre une modalit´ e d’une variable et une modalit´ e de l’autre, est plus d´ elicate ` a interpr´ eter. Elle s’interpr` ete avec les relations barycentriques.

7 R´ ef´ erences

— “Statistique exploratoire multidimensionnelle”, Lebart & al., Dunod.

— “Probabilit´ e, analyse des donn´ ees, statistique”, G. Saporta, Technip.

L’Analyse Factorielle des Correspondences (AFC)

Universit´ e de Bordeaux - Master MIMSE - 2` eme ann´ ee

L’Analyse Factorielle des Correspondences (AFC)

Marie Chavent

http://www.math.u-bordeaux.fr/ machaven/

2014-2015

Le but est l’analyse des relations entre deux variables qualitatives. L’AFC s’applique au tableau de contingence K obtenu ` a partir du croisement de deux variables qualitatives X 1

et X 2 sur un ´ echantillon de taille n :

1 . . . s . . . m 1

.. . .. .

K = i . . . n is . . . n i.

.. . .. .

q

n .s

1 Rappels et notations

Matrice des fr´ equences F :

1 . . . s . . . m

1

.. . .. .

F = i . . . f is = n n

. . . f i.

.. . .. .

q

f .s On note :

— r = (f 1. , . . . , f i. , . . . , f q. ) t ∈ R q

— c = (f 1. , . . . , f .s , . . . , f .m ) t ∈ R m

— D r =diag(r)

— D c =diag(c)

1 . . . s . . . m 1

.. .

L = i . . . f is /f i. . . .

.. .

c 0 f .s

On a :

— L = D −1 r F

— Profil ligne moyen : c

Matrice des profil-lignes centr´ es L :

1 . . . s . . . m

1 .. .

L = i . . . f

−f f

f

. . .

.. . q

On a :

— L = D −1 r (F − rc t )

— Profil-ligne moyen : origine de R m Matrice des profil-colonnes C :

1 . . . s . . . m r

1 .. .

C = i . . . f is /f .s . . . f i.

.. . q

On a :

— C = FD −1 c

— Profil colonne moyen : r

Matrice des profil-colonnes centr´ es C :

1 . . . s . . . m

1 .. .

C = i . . . f

−f f

f

. . .

.. . q

On a :

— C = (F − rc t )D −1 c

— Profil-colonne moyen : origine de R q Deux nuages de points pond´ er´ es :

Le nuage des q profil-lignes centr´ es de R m avec :

— r comme pond´ eration,

— D r comme m´ etrique sur R q (m´ etrique des poids),

— D −1 c comme m´ etrique sur R m (distance du χ 2 ).

Le nuage des m profil-colonnes centr´ es de R q avec :

— c comme pond´ eration,

— D −1 r comme m´ etrique sur R q (distance du χ 2 ),

— D c comme m´ etrique sur R m (m´ etrique des poids).

Les inerties de ces deux nuages de points avec ces m´ etriques et pond´ erations v´ erifient la propri´ et´ ee suivante :

I(L) = I(C) = χ 2 /n

Objectif de l’AFC et plan du cours :

Pour cela, on va projeter “au mieux” :

— les profil-lignes (les modalit´ es de X 1 ) dans une sous-espace vectoriel (s.e.v.) de R m ,

— les profil-colonnes (les modalit´ es de X 2 ) dans une sous-espace vectoriel (s.e.v.) de R q . Dans ce cours nous allons pr´ esenter l’AFC comme une double ACP (ACP de L et ACP de C).

Puis nous montrerons que les r´ esultats de cette double ACP peuvent ˆ etre obtenus ` a partir

K = i . . . n _is . . . n _i.

n _.s

F = i . . . f is = ⁿ _n

f _.s On note :

— r = (f _1. , . . . , f _i. , . . . , f _q. ) ^t ∈ R ^q

— c = (f _1. , . . . , f _.s , . . . , f _.m ) ^t ∈ R ^m

— D _r =diag(r)

— D _c =diag(c)

L = i . . . f _is /f _i. . . .

c ⁰ f _.s

— L = D ⁻¹ _r F

L = i . . . ^f

^−f _f

^f

— L = D ⁻¹ _r (F − rc ^t )

— Profil-ligne moyen : origine de R ^m Matrice des profil-colonnes C :

— C = FD ⁻¹ _c

C = i . . . ^f

^−f _f

^f

— C = (F − rc ^t )D ⁻¹ _c

— Profil-colonne moyen : origine de R ^q Deux nuages de points pond´ er´ es :

Le nuage des q profil-lignes centr´ es de R ^m avec :

— D r comme m´ etrique sur R ^q (m´ etrique des poids),

— D ⁻¹ _c comme m´ etrique sur R ^m (distance du χ ² ).

Le nuage des m profil-colonnes centr´ es de R ^q avec :

— D ⁻¹ _r comme m´ etrique sur R ^q (distance du χ ² ),

— D c comme m´ etrique sur R ^m (m´ etrique des poids).

I(L) = I(C) = χ ² /n

— les profil-lignes (les modalit´ es de X ₁ ) dans une sous-espace vectoriel (s.e.v.) de R ^m ,

— les profil-colonnes (les modalit´ es de X ₂ ) dans une sous-espace vectoriel (s.e.v.) de R ^q . Dans ce cours nous allons pr´ esenter l’AFC comme une double ACP (ACP de L et ACP de C).

Les q modalit´ es de la variable X ₁ sont d´ ecrites par les lignes de la matrice des profil-lignes centr´ es L = D ⁻¹ _r (F − rc ^t ). Les profil-lignes centr´ es sont des points de R ^m :

— On utilise comme m´ etrique pour comparer deux profil-ligne la distance du χ ² d´ efinie par D ⁻¹ _c .

etre D ⁻¹ _c -norm´ es ` a 1 (v ^t _α D ⁻¹ _c v _α = 1, α = 1, . . . , k) et D ⁻¹ _c -orthogonaux (v ^t _α D ⁻¹ _c v _α

∀α 6= α ⁰ ).

— x ^α est la α` eme composante principale des profil-lignes.

L’ACP du triplet (L, D _r , D ⁻¹ _c ) donne les r´ esultats suivant :

a) X = LD ⁻¹ _c V _k o` u V _k est la matrice dont les colonnes sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ ₁ , . . . , λ _k de L ^t D _r LD ⁻¹ _c .

V _k est D ⁻¹ _c -orthonorm´ ee : V ^t _k D ⁻¹ _c V _k = I k . b) Var(x ^α ) = λ _α et ¯ x ^α = 0.

c) Si k = rang(L) alors I(X) = λ ₁ + . . . + λ _k = I(L) = χ ² /n.

Les m modalit´ es de la variable X ₂ sont d´ ecrites par les colonnes de la matrice des profil- colonnes centr´ es C = (F − rc ^t )D ⁻¹ _c . Les profil-colonnes centr´ es sont de points de R ^q :

— On utilise comme m´ etrique pour comparer deux profil-colonnes la distance du χ ² d´ efinie par D ⁻¹ _r .

— y ^α est la α` eme composante principale des profil-colonnes.

L’ACP du triplet (C, D ⁻¹ _r , D _c )) donne les r´ esultats suivant :

a) Y = C ^t D ⁻¹ _r U _k o` u les colonnes de la matrice U _k sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ ₁ , . . . , λ _k de la matrice CD _c C ^t D ⁻¹ _r .

U _k est D ⁻¹ _c -orthonorm´ ee : U ^t _k D ⁻¹ _r U _k = I k . b) Var(y ^α ) = λ _α et ¯ y ^α = 0

c) Si k = rang(C) alors I(X) = λ ₁ + . . . + λ _k = I(C) = I(L) = χ ² /n.

— Z = D ⁻¹ _r (F − rc ^t )D ⁻¹ _c la matrice des ´ ecarts ` a l’ind´ ependance

— N = D _r

— M = D _c

Z = UΛV ^t

— U est la matrice de dimension n × r dont les colonnes sont les vecteurs propres de ZMZ ^t N et U ^t NU = I r (les vecteurs propres sont N-orthonorm´ es).

— V est la matrice de dimension p × r dont les colonnes sont les vecteurs propres de Z ^t NZM et V ^t MV = I r (les vecteurs propres sont M-orthonorm´ es).

Y = Z ^t NU k

( X = U _k Λ _k Y = V _k Λ _k

En pratique, pour effectuer la SVD g´ en´ eralis´ ee d’une matrice Z avec les m´ etriques N et M, on effectue la SVD de ˜ Z = N ^1/2 ZM ^1/2 avec les m´ etriques I ⁿ et I ^p (impl´ ement´ ee dans les logiciels comme R). On trouve ˜ Z = ˜ U Λ ˜ ˜ V ^t et on a ensuite :

U = N ^−1/2 U ˜ V = M ^−1/2 V ˜

Une composante principale standardis´ ee est une composante divis´ ee par son ´ ecart-type : x _α / √

λ _α ou y _α / √

λ _α . La matrice Λ _k ´ etant la matrice diagonale des racines carr´ es des valeurs propres, les matrices X ^∗ et Y ^∗ des coordonn´ ees factorielles standardis´ es s’´ ecrivent :

( X ^∗ = XΛ ⁻¹ _k

Y ^∗ = YΛ ⁻¹ _k donc

( X ^∗ = U _k Y ^∗ = V _k On a les relations suivantes :

( X = D ⁻¹ _r (F − rc ^t )Y ^∗ Y = D ⁻¹ _c (F − rc ^t ) ^t X ^∗ Exercice 2 : Retrouvez ces relations.

 x _iα =