Universit´ e de Bordeaux - Master MIMSE - 2` eme ann´ ee
L’Analyse Factorielle des Correspondences (AFC)
Marie Chavent
http://www.math.u-bordeaux.fr/ machaven/
2014-2015
Le but est l’analyse des relations entre deux variables qualitatives. L’AFC s’applique au tableau de contingence K obtenu ` a partir du croisement de deux variables qualitatives X 1
et X 2 sur un ´ echantillon de taille n :
1 . . . s . . . m 1
.. . .. .
K = i . . . n is . . . n i.
.. . .. .
q
n .s
1 Rappels et notations
Matrice des fr´ equences F :
1 . . . s . . . m
1
.. . .. .
F = i . . . f is = n n
is. . . f i.
.. . .. .
q
f .s On note :
— r = (f 1. , . . . , f i. , . . . , f q. ) t ∈ R q
— c = (f 1. , . . . , f .s , . . . , f .m ) t ∈ R m
— D r =diag(r)
— D c =diag(c)
1 . . . s . . . m 1
.. .
L = i . . . f is /f i. . . .
.. .
c 0 f .s
On a :
— L = D −1 r F
— Profil ligne moyen : c
Matrice des profil-lignes centr´ es L :
1 . . . s . . . m
1 .. .
L = i . . . f
is−f f
i.f
.si.
. . .
.. . q
On a :
— L = D −1 r (F − rc t )
— Profil-ligne moyen : origine de R m Matrice des profil-colonnes C :
1 . . . s . . . m r
1 .. .
C = i . . . f is /f .s . . . f i.
.. . q
On a :
— C = FD −1 c
— Profil colonne moyen : r
Matrice des profil-colonnes centr´ es C :
1 . . . s . . . m
1 .. .
C = i . . . f
is−f f
i.f
.s.s
. . .
.. . q
On a :
— C = (F − rc t )D −1 c
— Profil-colonne moyen : origine de R q Deux nuages de points pond´ er´ es :
Le nuage des q profil-lignes centr´ es de R m avec :
— r comme pond´ eration,
— D r comme m´ etrique sur R q (m´ etrique des poids),
— D −1 c comme m´ etrique sur R m (distance du χ 2 ).
Le nuage des m profil-colonnes centr´ es de R q avec :
— c comme pond´ eration,
— D −1 r comme m´ etrique sur R q (distance du χ 2 ),
— D c comme m´ etrique sur R m (m´ etrique des poids).
Les inerties de ces deux nuages de points avec ces m´ etriques et pond´ erations v´ erifient la propri´ et´ ee suivante :
I(L) = I(C) = χ 2 /n
Objectif de l’AFC et plan du cours :
Il s’agira d’analyser les deux nuages de points pond´ er´ es c’est ` a dire le nuage des profil-lignes (les lignes de la matrice L) et le nuage des profil-colonnes (les colonnes de la matrice C). On va donc analyser les lignes et les colonnes de deux matrices diff´ erentes (alors qu’en ACP, on analyse les lignes et les colonnes de la mˆ eme matrice de donn´ ees quantitatives Z).
Pour cela, on va projeter “au mieux” :
— les profil-lignes (les modalit´ es de X 1 ) dans une sous-espace vectoriel (s.e.v.) de R m ,
— les profil-colonnes (les modalit´ es de X 2 ) dans une sous-espace vectoriel (s.e.v.) de R q . Dans ce cours nous allons pr´ esenter l’AFC comme une double ACP (ACP de L et ACP de C).
Puis nous montrerons que les r´ esultats de cette double ACP peuvent ˆ etre obtenus ` a partir
de l’ACP d’une seule et mˆ eme matrice c’est ` a dire ` a partir de la d´ ecomposition en valeurs
r´ esultats.
2 ACP de la matrice des profil-lignes centr´ es
Les q modalit´ es de la variable X 1 sont d´ ecrites par les lignes de la matrice des profil-lignes centr´ es L = D −1 r (F − rc t ). Les profil-lignes centr´ es sont des points de R m :
— Ces points sont pond´ er´ es par les poids des lignes (vecteur r).
— On utilise comme m´ etrique pour comparer deux profil-ligne la distance du χ 2 d´ efinie par D −1 c .
On veut projeter “au mieux” les q modalit´ es de X 1 sur un s.e.v. de R m de dimension k (pour k=2 on projette sur un plan par exemple) : on veut que les distances entre les modalit´ es projet´ ees soient “aussi proche que possible” des distances entre les modalit´ es dans leur espace d’origine. Ce s.e.v est d´ efinit par k axes ∆ 1 , . . . , ∆ k , tels que pour chaque axe, la variance des D −1 c -projections (projections D −1 c orthogonales) des profil-lignes soit maximale (D r norme maximale). Ces axes sont engendr´ es par des vecteurs v 1 , ..., v k de R m . Ces vecteurs doivent ˆ
etre D −1 c -norm´ es ` a 1 (v t α D −1 c v α = 1, α = 1, . . . , k) et D −1 c -orthogonaux (v t α D −1 c v α
0= 0,
∀α 6= α 0 ).
On note x α = LD −1 c v α le vecteur de R q des projections des q modalit´ es sur l’axe ∆ α avec v α qui maximise Var(x α ). Les vecteurs v α sont les colonnes d’une matrice not´ ee V k de dimension m × k. On note enfin X = LD −1 c V k la matrice de dimension q × k des coordonn´ ees des profil- lignes projet´ es sur ∆ 1 , . . . , ∆ k :
— X est la matrice des coordonn´ ees factorielles des profil-lignes.
— x α est la α` eme composante principale des profil-lignes.
L’ACP du triplet (L, D r , D −1 c ) donne les r´ esultats suivant :
a) X = LD −1 c V k o` u V k est la matrice dont les colonnes sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ 1 , . . . , λ k de L t D r LD −1 c .
V k est D −1 c -orthonorm´ ee : V t k D −1 c V k = I k . b) Var(x α ) = λ α et ¯ x α = 0.
c) Si k = rang(L) alors I(X) = λ 1 + . . . + λ k = I(L) = χ 2 /n.
Remarque notation : En ACP, on notait Ψ la matrice des coordonn´ ees factorielles des lignes d’une matrice quantitative Z et Φ la matrice des coordonn´ ees factorielles des colonnes de cette mˆ eme matrice. Ici X correspond ` a la matrice Ψ des coordonn´ ees factorielles de L. On ne s’interr` esse pas ` a la matrice Φ des coordonn´ ees factorielles des colonnes de L.
Exercice 1 : D´ emontrer a) b) et c) en vous aidant du poly “Rappels sur l’ACP avec m´ etrique”.
Exemple
3 ACP de la matrice des profil-colonnes centr´ es
Les m modalit´ es de la variable X 2 sont d´ ecrites par les colonnes de la matrice des profil- colonnes centr´ es C = (F − rc t )D −1 c . Les profil-colonnes centr´ es sont de points de R q :
— Ces points sont pond´ er´ es par les poids des colonnes (vecteur c).
— On utilise comme m´ etrique pour comparer deux profil-colonnes la distance du χ 2 d´ efinie par D −1 r .
On veut maintenant projeter “au mieux” les m modalit´ es de X 2 sur un s.e.v. de R q de dimension k. Ce s.e.v est d´ efinit par k axes G 1 , . . . , G k , tels que pour chaque axe, la variance des D −1 r -projections des profil-colonnes soit maximale (D c norme maximale). Ces axes sont engendr´ es par des vecteurs u 1 , ..., u k de R q . Ces vecteurs doivent ˆ etre D −1 r -norm´ es ` a 1 et D −1 r -orthogonaux.
On note y α = C t D −1 r u α le vecteur de R m des projections des m modalit´ es sur l’axe G α avec u α qui maximise Var(y α ). Les vecteurs u α sont les colonnes de la matrice U k de dimension q × k. On note enfin Y = C t D −1 r U k la matrice de dimension m × k des coordonn´ ees des profil-lignes projet´ es sur G 1 , . . . , G k :
— Y est la matrice des coordonn´ ees factorielles des profil-colonnes.
— y α est la α` eme composante principale des profil-colonnes.
L’ACP du triplet (C, D −1 r , D c )) donne les r´ esultats suivant :
a) Y = C t D −1 r U k o` u les colonnes de la matrice U k sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ 1 , . . . , λ k de la matrice CD c C t D −1 r .
U k est D −1 c -orthonorm´ ee : U t k D −1 r U k = I k . b) Var(y α ) = λ α et ¯ y α = 0
c) Si k = rang(C) alors I(X) = λ 1 + . . . + λ k = I(C) = I(L) = χ 2 /n.
Remarque notation : Ici Y correspond ` a la matrice Φ des coordonn´ ees factorielles des colonnes de C. On ne s’int´ eresse pas ` a la matrice Ψ des coordonn´ ees factorielles des lignes de C.
Exemple
4 AFC : la SVD g´ en´ eralis´ ee d’une seule matrice
Les matrices X et Y des coordonn´ ees factorielles des profil-lignes et des profil-colonnes obtenus dans les deux sections pr´ ec´ edentes ` a partir de l’ACP de deux triplets, peuvent ˆ etre obtenus ` a partir de l’ACP du seul triplet (Z, N, M) avec :
— Z = D −1 r (F − rc t )D −1 c la matrice des ´ ecarts ` a l’ind´ ependance
— N = D r
— M = D c
On effectue donc la DVS de Z avec les m´ etriques N et M :
Z = UΛV t
— U est la matrice de dimension n × r dont les colonnes sont les vecteurs propres de ZMZ t N et U t NU = I r (les vecteurs propres sont N-orthonorm´ es).
— V est la matrice de dimension p × r dont les colonnes sont les vecteurs propres de Z t NZM et V t MV = I r (les vecteurs propres sont M-orthonorm´ es).
On a alors
( X = ZMV k
Y = Z t NU k
et on en d´ eduit
( X = U k Λ k Y = V k Λ k
En pratique, pour effectuer la SVD g´ en´ eralis´ ee d’une matrice Z avec les m´ etriques N et M, on effectue la SVD de ˜ Z = N 1/2 ZM 1/2 avec les m´ etriques I n et I p (impl´ ement´ ee dans les logiciels comme R). On trouve ˜ Z = ˜ U Λ ˜ ˜ V t et on a ensuite :
U = N −1/2 U ˜ V = M −1/2 V ˜
Λ = Λ ˜
5 Propi´ et´ es barycentriques
Une composante principale standardis´ ee est une composante divis´ ee par son ´ ecart-type : x α / √
λ α ou y α / √
λ α . La matrice Λ k ´ etant la matrice diagonale des racines carr´ es des valeurs propres, les matrices X ∗ et Y ∗ des coordonn´ ees factorielles standardis´ es s’´ ecrivent :
( X ∗ = XΛ −1 k
Y ∗ = YΛ −1 k donc
( X ∗ = U k Y ∗ = V k On a les relations suivantes :
( X = D −1 r (F − rc t )Y ∗ Y = D −1 c (F − rc t ) t X ∗ Exercice 2 : Retrouvez ces relations.
Ces deux relations s’interpr` etent aussi en terme de moyennes r´ eciproques : la coordon´ ee fac- torielle d’une modalit´ e d’une variable est la moyenne (pond´ er´ ee) des coordonn´ ees factorielles (standardis´ ees) des modalit´ es de l’autre variable.
En effet on a les relations barycentriques suivantes :
x iα =
m
X
s=1
f is f i. y sα ∗ y sα =
q
X
i=1
f is f .s
x ∗ iα
Et on en d´ eduit les relations quasi-barycentriques suivantes :
x iα = 1
√ λ α
m
X
s=1
f is f i. y sα y sα = 1
√ λ α
q
X
i=1
f is f .s x iα Exercice 3 : Retrouvez ces relations.
Interpr´ etations et cons´ equences de ces relations :
— Au coefficient de dilatation √ 1 λ
α