Correspondances Multiples
R ´evisions
S ´ebastien Gadat
Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
Interpr ´etation
Quatri `eme partie IV
Analyse Factorielle des Correspondances Multiples
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
Tableau disjonctif complet
G ´en ´eralisation de l’AFC pourp>2observ ´ees surnindividus Parfois utilis ´ee pour la construction de ”scores” afin d’effectuer une m ´ethode de classification
Xvariable `acmodalit ´es, on d ´efinit lavariable indicatricecomme
∀k∈ {1. . .c} X(k)(i) =1 si X(i) =Xk et 0 sinon
On notenkl’effectif deXk
La matrice des indicatrices deXest donn ´ee par son terme g ´en ´eral
xki =X(k)(i)
n
X
i=1
xki =nk
c
X
k=1
xki =1
Interpr ´etation
Tableau disjonctif complet
On consid `erepvariables not ´eesX1, . . .Xp cjest le nombre de modalit ´es deXj
Le nombre de modalit ´es totalcest donn ´e par c=c1+· · ·+cp
Letableau disjonctif completXde taillen×cest obtenue par concat ´enation
X=|X1|. . .|Xp|
Chaque sous-matriceXjest obtenue comme pr ´ec ´edemment Xv ´erifie
n
X
i=1 p
X
k=1
xki =np
p
X
k=1
xki =p
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
Tableau de Burt
On construit `a partir deXletableau de Burt: B=X0X
Ba pour taillec×c
On peut ´ecrireB= (Bj,l),j,l=1. . .p La taille deBj,lestcj×cl
Bj,l=X0jXl
Sij6=l,Bj,lest latable de contingencecroisantXjavecXl Sij=l,Bj,jestdiagonalev ´erifiant
Bj,j=diag(nj1, . . .njcj)
Bestsym ´etrique, d’effectifs marginauxnljpet d’effectif totalnp2
Interpr ´etation
D ´emarche
On s’int ´eresse aux r ´esultats fournis par l’AFC r ´ealis ´ee sur|X1|X2| (table de contingence relative `a 2 variables qualitatives)
On g ´en ´eralise les propri ´et ´es obtenues dans ce cas `a un nombre plus important de variables (p)
On d ´efinit ainsi l’AFCM
On noteraAetBles profils lignes et profils colonnes standards en AFC (croisement de 2 variables)
D1etD2d ´esignent les matrices de m ´etriques standards en AFC.
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
D ´emarche
T=X=|X1|X2| rvaleurs pourX1etcpourX2
Matrice despoidsP¯=1/nIn(cas ´equipond ´er ´e) La matrice de lam ´etriqueD¯ est donn ´ee par
D¯ =1 2
D1 0
0 D2
=1 2∆
Le tableau des profils lignes est donn ´e par PL¯ =1/2nT0P¯−1= 1
2X0 Le tableau des profils colonnes est donn ´e par
PC¯ =1/2nTD¯−1=1 nX∆−1
Interpr ´etation
ACP du Profil Ligne
L’ACP du profil ligne issue de l’AFC r ´ealis ´ee surTconduit `a l’analyse spectrale dePL¯ ×PC¯ avecPL¯ ×PC¯ =
Ir B A Ic
Lesr+cvaleurs propres sont
µk= 1+√
λk
2 o `u Sp(A×B) = (λk)k≥0 M=diag(µ1, . . . µr+c) Les vecteursD¯ norm ´es se mettent sous la forme
1 2
U V
o `uUetV vecteurs propres obtenus en diagonalisantABetBA.
Dans la pratique, on ne garde queinf(r−1,c−1)axes La matrice des composantes principales vaut
C¯r= 1
2(X1Cr+X2Cc)∆−1/2 Cr etCccomposantes principales de l’AFC classique
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
ACP du Profil Colonne
On obtient des r ´esultats similaires en op ´erant une AFC sur les profils colonnes
On diagonalise la matricePC¯ ×PL¯
Lesr+cvaleurs propres non nulles sont lesµk
Les vecteurs propres associ ´es se mettent sous la forme
U= 1 n
C¯rM−1/2
Les composantes principales s’ ´ecrit C¯c=1
2 Cr
Cc
∆−1/2M1/2
On obtient ainsi la repr ´esentation des modalit ´es des variables
Interpr ´etation
AFC du tableau de Burt
On effectue une AFC sur le tableau de BurtB=X0Xqui peut ˆetre ´egalement consid ´er ´e comme une table de contingence.
Best une matrice sym ´etrique.
B=
nD1 T
T0 nD2
L’ACP issue de l’AFC du tableau de Burt conduit `a l’analyse spectrale de
PL˜ ×PC˜ = [ ¯PL×PC]¯ 2 Les valeurs propres associ ´ees v ´erifientνk=µ2k Les composantes principales s’ ´ecrit
Cr
Cc
∆−1/2M
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
AFC du tableau de Burt
X=|X1|. . .|Xp|tableau disjonctif complet B=X0XTableau de Burt
L’AFCM est l’AFC effectu ´ee sur le tableau de Burt On d ´efinitDj=diag(nj1, . . .njcj)/net∆ =diag(D1, . . .Dp) On reprend les notations
T=X P¯=In/n D= ∆/p PL¯ =X0/p PC¯ =X∆−1/n On effectue l’ACP des Profils Lignes via l’analyse spectrale de
PL¯ ×PC¯ = 1 nB∆−1
On effectue l’ACP des Profils Colonnes via l’analyse spectrale de PC¯ ×PL¯ = 1
npX∆−1X0
On effectue l’ACP du tableau de Burt via l’analyse spectrale de [ ¯PL×PC]¯ 2
Interpr ´etation
Interpr ´etation
L’interpr ´etation se fait de fac¸on comparable aux AFC On interpr `eteles proximit ´es et les oppositionsentre les modalit ´es des diff ´erentes variables
On privil ´egie les interpr ´etations sur les modalit ´essuffisamment
´eloign ´ees du centre du graphique
Les rapports de valeurs propres ne sont pas interpr ´etables mais on regarde lad ´ecroissancedes valeurs propres pour choisir la dimension
Seules les contributions des modalit ´es `a l’inertie selon les axes sont interpr ´etables
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
Interpr ´etation
Donn ´ees : trois centres hospitaliers (Boston, Glamorgan, Tokyo) sur des patientes atteintes d’un cancer du sein. ´Etudier la survie de ces patientes, trois ans apr `es le diagnostic. En plus de cette information, quatre autres variables sont connues pour chacune des patientes :
le centre de diagnostic, la tranche d’ ˆage,
le degr ´e d’inflammation chronique, l’apparence relative (b ´enigne ou maligne).
L’objectif de cette ´etude est une analyse descriptive de cette table en recherchant `a mettre en ´evidence les facteurs de d ´ec `es.
Interpr ´etation
Donn ´ees
TAB.:Donn ´ees sous la forme d’une table de contingence compl `ete
Histologie
Inflammation minime Grande inflammation Centre Ageˆ Survie Maligne B ´enigne Maligne B ´enigne
Tokyo <50 non 9 7 4 3
oui 26 68 25 9
50−69 non 9 9 11 2
oui 20 46 18 5
>70 non 2 3 1 0
oui 1 6 5 1
Boston <50 non 6 7 6 0
oui 11 24 4 0
50−69 non 8 20 3 2
oui 18 58 10 3
>70 non 9 18 3 0
oui 15 26 1 1
Glamorgan <50 non 16 7 3 0
oui 16 20 8 1
50−69 non 14 12 3 0
oui 27 39 10 4
>70 non 3 7 3 0
oui 12 11 4 1
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
R ´esultats
C b o s
C g l a
C t o k A < 5 0 A > - <
A > 7 0 S n o n
S o u i
I g r a
I p e t
T b e n
T m a l
A x e 2
- 0 . 7 - 0 . 6 - 0 . 5 - 0 . 4 - 0 . 3 - 0 . 2 - 0 . 1 0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0
A x e 1
- 1 0 1 2
FIG.:Cancer du sein : analyse des donn ´ees brutes.
La variable survie, qui joue en quelques sortes le r ˆole de variable `a expliquer, est tr `es proche de l’axe 2 et semble li ´ee `a chacune des autres variables.
Interpr ´etation
R ´esultats
Les variables ”centre” et ” ˆage” sont crois ´ees, pour construire une variable ”c x ˆage”, `a 9 modalit ´es.
Les variables ”inflam” et ”appar” sont ´egalement crois ´ees pour d ´efinir la variable ”histol”, `a 4 modalit ´es.
Une nouvelle analyse est alors r ´ealis ´ee en consid ´erant comme actives les deux variables nouvellement cr ´e ´ees, ainsi que la variable
”survie”, et comme illustratives les variables initiales : ”centre, ˆage, inflam, appar”. Les r ´esultats sont donn ´es dans la figure suivante.
S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples
Interpr ´etation
R ´esultats
S n o n S o u i
H g - b
H g - m
H p - b
H p - m X B < 5
X B > - X B > 7
X G < 5
X G > - X G > 7 X T < 5
X T > - X T > 7
C b o s C g l a C t o k
A < 5 0 A > - <
A > 7 0 I g r a
I p e t T b e n
T m a l
A x e 2
- 2 - 1 0 1 2
A x e 1
- 2 - 1 0 1 2
FIG.:Cancer du sein : analyse des interactions.