• Aucun résultat trouvé

L’Analyse Factorielle des Correspondences (AFC)

N/A
N/A
Protected

Academic year: 2022

Partager "L’Analyse Factorielle des Correspondences (AFC)"

Copied!
9
0
0

Texte intégral

(1)

Universit´ e de Bordeaux - Master MIMSE - 2` eme ann´ ee

L’Analyse Factorielle des Correspondences (AFC)

Marie Chavent

http://www.math.u-bordeaux.fr/ machaven/

2014-2015

Le but est l’analyse des relations entre deux variables qualitatives. L’AFC s’applique au tableau de contingence K obtenu ` a partir du croisement de deux variables qualitatives X 1

et X 2 sur un ´ echantillon de taille n :

1 . . . s . . . m 1

.. . .. .

K = i . . . n is . . . n i.

.. . .. .

q

n .s

1 Rappels et notations

Matrice des fr´ equences F :

1 . . . s . . . m

1

.. . .. .

F = i . . . f is = n n

is

. . . f i.

.. . .. .

q

f .s On note :

— r = (f 1. , . . . , f i. , . . . , f q. ) t ∈ R q

— c = (f 1. , . . . , f .s , . . . , f .m ) t ∈ R m

— D r =diag(r)

— D c =diag(c)

(2)

1 . . . s . . . m 1

.. .

L = i . . . f is /f i. . . .

.. .

c 0 f .s

On a :

— L = D −1 r F

— Profil ligne moyen : c

Matrice des profil-lignes centr´ es L :

1 . . . s . . . m

1 .. .

L = i . . . f

is

−f f

i.

f

.s

i.

. . .

.. . q

On a :

— L = D −1 r (F − rc t )

— Profil-ligne moyen : origine de R m Matrice des profil-colonnes C :

1 . . . s . . . m r

1 .. .

C = i . . . f is /f .s . . . f i.

.. . q

On a :

— C = FD −1 c

— Profil colonne moyen : r

(3)

Matrice des profil-colonnes centr´ es C :

1 . . . s . . . m

1 .. .

C = i . . . f

is

−f f

i.

f

.s

.s

. . .

.. . q

On a :

— C = (F − rc t )D −1 c

— Profil-colonne moyen : origine de R q Deux nuages de points pond´ er´ es :

Le nuage des q profil-lignes centr´ es de R m avec :

— r comme pond´ eration,

— D r comme m´ etrique sur R q (m´ etrique des poids),

— D −1 c comme m´ etrique sur R m (distance du χ 2 ).

Le nuage des m profil-colonnes centr´ es de R q avec :

— c comme pond´ eration,

— D −1 r comme m´ etrique sur R q (distance du χ 2 ),

— D c comme m´ etrique sur R m (m´ etrique des poids).

Les inerties de ces deux nuages de points avec ces m´ etriques et pond´ erations v´ erifient la propri´ et´ ee suivante :

I(L) = I(C) = χ 2 /n

Objectif de l’AFC et plan du cours :

Il s’agira d’analyser les deux nuages de points pond´ er´ es c’est ` a dire le nuage des profil-lignes (les lignes de la matrice L) et le nuage des profil-colonnes (les colonnes de la matrice C). On va donc analyser les lignes et les colonnes de deux matrices diff´ erentes (alors qu’en ACP, on analyse les lignes et les colonnes de la mˆ eme matrice de donn´ ees quantitatives Z).

Pour cela, on va projeter “au mieux” :

— les profil-lignes (les modalit´ es de X 1 ) dans une sous-espace vectoriel (s.e.v.) de R m ,

— les profil-colonnes (les modalit´ es de X 2 ) dans une sous-espace vectoriel (s.e.v.) de R q . Dans ce cours nous allons pr´ esenter l’AFC comme une double ACP (ACP de L et ACP de C).

Puis nous montrerons que les r´ esultats de cette double ACP peuvent ˆ etre obtenus ` a partir

de l’ACP d’une seule et mˆ eme matrice c’est ` a dire ` a partir de la d´ ecomposition en valeurs

(4)

r´ esultats.

2 ACP de la matrice des profil-lignes centr´ es

Les q modalit´ es de la variable X 1 sont d´ ecrites par les lignes de la matrice des profil-lignes centr´ es L = D −1 r (F − rc t ). Les profil-lignes centr´ es sont des points de R m :

— Ces points sont pond´ er´ es par les poids des lignes (vecteur r).

— On utilise comme m´ etrique pour comparer deux profil-ligne la distance du χ 2 d´ efinie par D −1 c .

On veut projeter “au mieux” les q modalit´ es de X 1 sur un s.e.v. de R m de dimension k (pour k=2 on projette sur un plan par exemple) : on veut que les distances entre les modalit´ es projet´ ees soient “aussi proche que possible” des distances entre les modalit´ es dans leur espace d’origine. Ce s.e.v est d´ efinit par k axes ∆ 1 , . . . , ∆ k , tels que pour chaque axe, la variance des D −1 c -projections (projections D −1 c orthogonales) des profil-lignes soit maximale (D r norme maximale). Ces axes sont engendr´ es par des vecteurs v 1 , ..., v k de R m . Ces vecteurs doivent ˆ

etre D −1 c -norm´ es ` a 1 (v t α D −1 c v α = 1, α = 1, . . . , k) et D −1 c -orthogonaux (v t α D −1 c v α

0

= 0,

∀α 6= α 0 ).

On note x α = LD −1 c v α le vecteur de R q des projections des q modalit´ es sur l’axe ∆ α avec v α qui maximise Var(x α ). Les vecteurs v α sont les colonnes d’une matrice not´ ee V k de dimension m × k. On note enfin X = LD −1 c V k la matrice de dimension q × k des coordonn´ ees des profil- lignes projet´ es sur ∆ 1 , . . . , ∆ k :

— X est la matrice des coordonn´ ees factorielles des profil-lignes.

— x α est la α` eme composante principale des profil-lignes.

L’ACP du triplet (L, D r , D −1 c ) donne les r´ esultats suivant :

a) X = LD −1 c V k o` u V k est la matrice dont les colonnes sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ 1 , . . . , λ k de L t D r LD −1 c .

V k est D −1 c -orthonorm´ ee : V t k D −1 c V k = I k . b) Var(x α ) = λ α et ¯ x α = 0.

c) Si k = rang(L) alors I(X) = λ 1 + . . . + λ k = I(L) = χ 2 /n.

Remarque notation : En ACP, on notait Ψ la matrice des coordonn´ ees factorielles des lignes d’une matrice quantitative Z et Φ la matrice des coordonn´ ees factorielles des colonnes de cette mˆ eme matrice. Ici X correspond ` a la matrice Ψ des coordonn´ ees factorielles de L. On ne s’interr` esse pas ` a la matrice Φ des coordonn´ ees factorielles des colonnes de L.

Exercice 1 : D´ emontrer a) b) et c) en vous aidant du poly “Rappels sur l’ACP avec m´ etrique”.

Exemple

(5)

3 ACP de la matrice des profil-colonnes centr´ es

Les m modalit´ es de la variable X 2 sont d´ ecrites par les colonnes de la matrice des profil- colonnes centr´ es C = (F − rc t )D −1 c . Les profil-colonnes centr´ es sont de points de R q :

— Ces points sont pond´ er´ es par les poids des colonnes (vecteur c).

— On utilise comme m´ etrique pour comparer deux profil-colonnes la distance du χ 2 d´ efinie par D −1 r .

On veut maintenant projeter “au mieux” les m modalit´ es de X 2 sur un s.e.v. de R q de dimension k. Ce s.e.v est d´ efinit par k axes G 1 , . . . , G k , tels que pour chaque axe, la variance des D −1 r -projections des profil-colonnes soit maximale (D c norme maximale). Ces axes sont engendr´ es par des vecteurs u 1 , ..., u k de R q . Ces vecteurs doivent ˆ etre D −1 r -norm´ es ` a 1 et D −1 r -orthogonaux.

On note y α = C t D −1 r u α le vecteur de R m des projections des m modalit´ es sur l’axe G α avec u α qui maximise Var(y α ). Les vecteurs u α sont les colonnes de la matrice U k de dimension q × k. On note enfin Y = C t D −1 r U k la matrice de dimension m × k des coordonn´ ees des profil-lignes projet´ es sur G 1 , . . . , G k :

— Y est la matrice des coordonn´ ees factorielles des profil-colonnes.

— y α est la α` eme composante principale des profil-colonnes.

L’ACP du triplet (C, D −1 r , D c )) donne les r´ esultats suivant :

a) Y = C t D −1 r U k o` u les colonnes de la matrice U k sont les k vecteurs propres associ´ es aux k plus grandes valeurs propres λ 1 , . . . , λ k de la matrice CD c C t D −1 r .

U k est D −1 c -orthonorm´ ee : U t k D −1 r U k = I k . b) Var(y α ) = λ α et ¯ y α = 0

c) Si k = rang(C) alors I(X) = λ 1 + . . . + λ k = I(C) = I(L) = χ 2 /n.

Remarque notation : Ici Y correspond ` a la matrice Φ des coordonn´ ees factorielles des colonnes de C. On ne s’int´ eresse pas ` a la matrice Ψ des coordonn´ ees factorielles des lignes de C.

Exemple

4 AFC : la SVD g´ en´ eralis´ ee d’une seule matrice

Les matrices X et Y des coordonn´ ees factorielles des profil-lignes et des profil-colonnes obtenus dans les deux sections pr´ ec´ edentes ` a partir de l’ACP de deux triplets, peuvent ˆ etre obtenus ` a partir de l’ACP du seul triplet (Z, N, M) avec :

— Z = D −1 r (F − rc t )D −1 c la matrice des ´ ecarts ` a l’ind´ ependance

— N = D r

— M = D c

On effectue donc la DVS de Z avec les m´ etriques N et M :

Z = UΛV t

(6)

— U est la matrice de dimension n × r dont les colonnes sont les vecteurs propres de ZMZ t N et U t NU = I r (les vecteurs propres sont N-orthonorm´ es).

— V est la matrice de dimension p × r dont les colonnes sont les vecteurs propres de Z t NZM et V t MV = I r (les vecteurs propres sont M-orthonorm´ es).

On a alors

( X = ZMV k

Y = Z t NU k

et on en d´ eduit

( X = U k Λ k Y = V k Λ k

En pratique, pour effectuer la SVD g´ en´ eralis´ ee d’une matrice Z avec les m´ etriques N et M, on effectue la SVD de ˜ Z = N 1/2 ZM 1/2 avec les m´ etriques I n et I p (impl´ ement´ ee dans les logiciels comme R). On trouve ˜ Z = ˜ U Λ ˜ ˜ V t et on a ensuite :

U = N −1/2 U ˜ V = M −1/2 V ˜

Λ = Λ ˜

5 Propi´ et´ es barycentriques

Une composante principale standardis´ ee est une composante divis´ ee par son ´ ecart-type : x α / √

λ α ou y α / √

λ α . La matrice Λ k ´ etant la matrice diagonale des racines carr´ es des valeurs propres, les matrices X et Y des coordonn´ ees factorielles standardis´ es s’´ ecrivent :

( X = XΛ −1 k

Y = YΛ −1 k donc

( X = U k Y = V k On a les relations suivantes :

( X = D −1 r (F − rc t )Y Y = D −1 c (F − rc t ) t X Exercice 2 : Retrouvez ces relations.

Ces deux relations s’interpr` etent aussi en terme de moyennes r´ eciproques : la coordon´ ee fac- torielle d’une modalit´ e d’une variable est la moyenne (pond´ er´ ee) des coordonn´ ees factorielles (standardis´ ees) des modalit´ es de l’autre variable.

En effet on a les relations barycentriques suivantes :

 

 

 

 

 x =

m

X

s=1

f is f i. y y =

q

X

i=1

f is f .s

x

(7)

Et on en d´ eduit les relations quasi-barycentriques suivantes :

 

 

 

 

x = 1

√ λ α

m

X

s=1

f is f i. y y = 1

√ λ α

q

X

i=1

f is f .s x Exercice 3 : Retrouvez ces relations.

Interpr´ etations et cons´ equences de ces relations :

— Au coefficient de dilatation 1 λ

α

pr` es, les coordonn´ ees factorielles d’un nuage de points sont, sur un axe, les barycentres des coordonn´ ees factorielles de l’autre nuage.

— Les relations quasi-barycentriques justifient la repr´ esentation simultan´ ee des profil- lignes et des profil-colonnes sur un mˆ eme graphique. Mais attention, la distance entre un profil-ligne et un profi-colonne sur ce graphique s’interp` ete en terme de liaison.

— La coordonn´ ee de la modalit´ e i est la moyenne des coordonn´ ees des modalit´ es s de l’autre variable, pond´ er´ ee par les fr´ equences conditionnelles de s sachant i.

Exemple

6 Interpr´ etation des r´ esultats d’une AFC

Les nuages des profil-lignes et des profil-colonnes sont repr´ esent´ es dans les plans de projection form´ es par les axes factoriels pris deux ` a deux. La lecture de ces graphiques n´ ecessite des r` egles d’interp´ etation.

6.1 Inertie et test d’ind´ ependance

En ACP norm´ ee, l’inertie totale du nuage des point-individus est ´ egale ` a p le nombre de variables. En AFC, on a vu que l’inertie totale du nuage des profil-lignes est ´ egale ` a l’inertie totale du nuage des profil-colonnes, et est ´ egale au χ 2 d’ind´ ependance entre les deux variables qualitatives :

I(L) = I(C) = χ 2 (X 1 , X 2 )/n

La valeur de l’inertie est donc un indicateur de la dispertion des nuages de points et une mesure de liaison entre les deux variables qualitatives encore appell´ ee mesure d’´ ecart ` a l’ind´ ependance.

De plus, on a vu que l’inertie des nuages de points est ´ egale ` a l’inertie des matrices des coordonn´ ees factorielles X et Y “compl` etes” (lorsque k = r). En AFC, il y a au plus r = min(q − 1, m − 1) valeurs propres non nulles et l’inertie totale vaut λ 1 + . . . + λ r . Chaque composante principale explique donc une partie de l’inertie mesur´ ee par :

λ α

λ + . . . + λ ∗ 100

(8)

— la part de la liaison entre X 1 et X 2 expliqu´ ee par cet axe.

En pratique :

— On peut d’abord r´ ealiser un test du χ 2 pour conclure ou non ` a l’ind´ ependance entre X 1 et X 2 . On ne r´ ealisera ` a priori une AFC que si l’on conclue que X 1 et X 2 ne sont pas ind´ ependantes.

— pour savoir combien d’axes retenir, on peut comme en ACP utiliser l’une des r` egles suivantes :

— On peut utiliser le pourcentage d’inertie expliqu´ ee par les k premiers axes et choisir le nombre k d’axes tel que cette inertie expliqu´ ee d´ epasse un certain seuil (75%

par exemple). Attention, il reste n´ eanmoins la n´ ecessit´ e de ne retenir que des axes principaux utiles pour l’interpr´ etation, c’est ` a dire interpr´ etable.

— On peut ne retenir que les valeurs propres sup´ erieures ` a leur moyenne (r` egle em- pirique de Kaiser)

— On peut utiliser la r` egle du coude :

i) calculer les diff´ erence premi` eres : 1 = λ 1 − λ 2 , 2 = λ 2 − λ 2 , ...

ii) calculer les diff´ erence secondes : δ 1 = 12 , δ 2 = 22 , ...

iii) retenir le nombre k tel que δ 1 , . . . , δ k−1 soient toutes positives et que δ k soit n´ egative.

D’autres crit` eres peuvent ˆ etre trouv´ es p.209 du livre de G. Saporta (2006).

Remarque : les valeurs propres sont toujours inf´ erieures ou ´ egales ` a 1.

Exemple

6.2 Contributions

La contribution d’une modalit´ e i de X 1 et d’une modalit´ e s de X 2 ` a l’inertie de l’axe α sont :

 

 

Ctr α (i) = f i. x 2 λ α Ctr α (s) = f .s y 2

λ α

La contribution Ctr α (i) est la part de la variance de l’axe α expliqu´ ee par la modalit´ e i. Ce coefficient permet de connaˆıtre les modalit´ es responsables de la construction de l’axe α, et permet de trouver une eventuelle signification aux axes.

Attention : En AFC, les points les plus excentr´ es sur les axes ne sont pas n´ ecessairement ceux qui contribuent le plus (` a cause des poids f i. et f .s ).

Exercice 4 : Dans l’exemple, retrouvez le calcul de la contribution de la modalit´ e marron ` a

l’axe 1.

(9)

6.3 Cosinus carr´ es

Le cosinus carr´ e de l’angle entre le profil-ligne l i et l’axe ∆ α mesure la qualit´ e de la projection de ce profil sur cet axe :

cos 2 α (i) = x 2 d 2 (l i , c) o` u d 2 (l i , c) = P m

s=1 1

f

.s

(f is /f i. − f .s ) 2 est la distance du χ 2 entre le profil-ligne l i et le profil- ligne moyen c.

De mˆ eme pour les modalit´ es s de la variableX 2 , on calcule le cosinus carr´ e de l’angle entre le profil-colonne c s et l’axe G α pour mesurer la qualit´ e de la projection de ce profil sur cet axe :

cos 2 α (s) = y 2 d 2 (c i , r) o` u d 2 (c i , r) = P m

s=1 1

f

i.

(f is /f .s − f i. ) 2 est la distance du χ 2 entre le profil-ligne c i et le profil- colonne moyen r.

Pour analyser les proximit´ es entre les points sur les graphiques factoriels, on s’int´ eresse surtout aux points bien projet´ es (ayant un cos2 ´ elev´ e) car les proximit´ es entre ces points observ´ ee sur le graphique est “proche” de celle dans l’espace d’origine.

Exercice 5 : Dans l’exemple, retrouvez le calcul du cos2 de la modalit´ e marron sur l’axe 1.

Attention : Pour interp´ eter des proximit´ es entre deux points sur un graphique il faut prendre des pr´ ecautions :

— Si deux modalit´ es d’une mˆ eme variable sont proches et bien projet´ ees (bien repr´ esent´ ees), cela signifie que leurs profils sont semblables.

— Par contre, la proximit´ e entre une modalit´ e d’une variable et une modalit´ e de l’autre, est plus d´ elicate ` a interpr´ eter. Elle s’interpr` ete avec les relations barycentriques.

7 R´ ef´ erences

— “Statistique exploratoire multidimensionnelle”, Lebart & al., Dunod.

— “Probabilit´ e, analyse des donn´ ees, statistique”, G. Saporta, Technip.

Références

Documents relatifs

Cours préparatoire (CP) : 15 filles et 14 garçons Cours élémentaire 1 ère année (CE1) : 12 filles et 14 garçons Cours élémentaire 2 ème année (CE2) : 15 filles et 12

Nomenclature : le nom est form´e d’un pr´efixe d´ecrivant la chaˆıne carbon´ee suivi de l’indice de position du groupe hydroxyle plus la terminaison ”ol”.. Les compos´

Pour cela, on définit une analyse factorielle qui décrit la «forme de l’association», mesurée par un coefficient choisi dans une famille infinie de

Les qualités de représentation dans la dimension choisie et les contributions des modalités de X ou de Y se déduisent aisément de celles de l’ACP Ces quantités sont utilisées à

Prendre notes des 4 cas de facteurs

~ Activité : Faire placer deux points A et B de coordonnées entières, construire le milieu M de [AB] et en lire les coordonnées. Chercher une formule permettant d’obtenir

Soient, dans un plan, deux courbes S, S' entre les points desquelles existe comme ci-dessus une correspondance (AT, A'). On considère un connexe C du même plan, c'est-à-dire une

L’accès aux archives de la revue « Nouvelles annales de mathématiques » implique l’accord avec les conditions générales d’utilisation ( http://www.numdam.org/conditions )..