Correspondances
R ´evisions
S ´ebastien Gadat
Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
Repr ´esentations graphiques
Deuxi `eme partie II
Analyse Factorielle des Correspondances
Repr ´esentations graphiques
Donn ´ees Qualitatives
Notations
On suppose donn ´es 2 variablesXetYqualitatives.
On suppose donn ´esnindividus d ´ecrits par ces chacune de ces 2 variables.
Les r ´ealisations desnindividus sont not ´eesx1, . . .xnety1, . . .yn. Xposs `edem1modalit ´es,Y en poss `edem2.
Les modalit ´es deXsont not ´eesi1, . . .im1
Les modalit ´es deYsont not ´eesj1, . . .jm2
Repr ´esentations graphiques
Donn ´ees Qualitatives
Objectifs
Recherche de lad ´ependanceentre les diff ´erentes modalit ´es de XetY.
Y a-t-il des modalit ´es corr ´el ´ees entreXetY?
Pourquoi comparer les modalit ´es deXpose probl `eme ? Idem pour Y ?
Comment r ´esumer les donn ´ees ?
Repr ´esentations graphiques
Tableau de contingence, nuage associ ´es
D ´efinition
On construit une table de contingence associ ´ee `a ces observations
La dimension de la table estm1×m2
La table est souvent not ´eeTouN
Son ´el ´ement g ´en ´erique estn`h, effectif conjoint n`h=Card{i | xi=i` et yi=jh}
Repr ´esentations graphiques
Tableau de contingence, nuage associ ´es
Elle se pr ´esente sous la forme suivante :
j1 · · · jh · · · jm2 sommes
i1 n11 · · · n1h · · · n1c n1+
... ... ... ... ...
i` n`1 · · · n`h · · · n`c n`+
... ... ... ... ...
im1 nr1 · · · nrh · · · nrc nm1+
sommes n+1 · · · n+h · · · n+m2 n
Les effectifsn`+etn+hsont d ´efinis par n`+=
m2
X
h=1
n`h et n+h=
m1
X
`=1
n`h
Repr ´esentations graphiques
Effectifs Marginaux
On note parD1 etD2les matrices diagonales des effectifs marginaux des variablesXetY:
D1=
n1+ . . . 0 . . . 0
... . .. . . ...
0 . . . ni+ . .. 0
... . . .. ... ...
0 . . . 0 . . . nm1+
D2=
n+1 . . . 0 . . . 0
... . .. . . ...
0 . . . n+j . .. 0
... . . .. ... ...
0 . . . 0 . . . n+m2
La taille deD1estm1×m1alors queD2est de taillem2×m2.
Repr ´esentations graphiques
Profils Lignes
On construit `a partir deT un tableau de fr ´equences marginales pour la variableX.
Tableau desProfils Lignesest compos ´e des ´el ´ements ni,j
ni+
C’est la fraction des individus ayant la modalit ´eX=iqui ont la
´egalement modalit ´eY =j
PropositionCe tableau des profils lignes est donn ´e par la multiplication matricielle
PL=D−11 ×T
Repr ´esentations graphiques
Profils Colonnes
On construit `a partir deT un tableau de fr ´equences marginales pour la variableY.
Tableau desProfils Colonnesest compos ´e des ´el ´ements ni,j
n+j
C’est la fraction des individus ayant la modalit ´eY =jqui ont la
´egalement modalit ´eX=i
PropositionCe tableau des profils colonnes est donn ´e par la multiplication matricielle
PC=D−12 ×T0
Repr ´esentations graphiques
Positionnement dimensionnel Profils Lignes
On consid `ere les Profils Lignes commem1 points dansRm2. On le note
PLi=
ni,1
ni+
...
ni,m2
ni+
Chacun de ces points est affect ´e d’un poids proportionnel `a sa fr ´equence marginale nni+
Centre de gravit ´e du nuage de points :
gl=1
n(D−11 T)0D11=
n+1/n
... n+m2/n
Repr ´esentations graphiques
Positionnement dimensionnel Profils Colonnes
On consid `ere les Profils Colonnes commem1points dansRm1. On le note
PCj=
n1j n+j
...
nm1j
n+j
Chacun de ces points est affect ´e d’un poids proportionnel `a sa fr ´equence marginale nn+j
Centre de gravit ´e du nuage de points :
gc=
n1+/n
... nm1+/n
Repr ´esentations graphiques
Positionnement dimensionnel
Lesm1 profils lignes appartiennent `a un sous-espace affineW2
deRm2.
W2est de dimensionm2−1d ´efini par :
∀i∈ {1, . . .m1}
m2
X
j=1
PLi(j) =1
Lesm2 profils colonnes appartiennent `a un sous-espace affine W1deRm1.
W1est de dimensionm1−1d ´efini par :
∀j∈ {1, . . .m2}
m1
X
i=1
PCj(i) =1
Repr ´esentations graphiques
M ´etrique du χ
2, Ind ´ependance
Dans le cas de l’ind ´ependance statistique entre la modalit ´eide Xet la modalit ´ejdeY, on a
P(X=i,Y=j) =P(X=i)P(Y=j) Proposition :Le pendant empirique de cette relation est :
nij=ni+n+j
n
Pourcalculer la distance entre deux profils lignesieti0, on utilise la formule :
d2χ2(i,i0) =
m2
X
j=1
n n+j
nij
ni+
− ni0j
ni0+
2
=DMl(PLi,PLi0)
PropositionLa m ´etriqueMlest donn ´ee parMl=nD−12
Cette m ´etrique revient l `a-encore `a donner autant d’importance `a
Repr ´esentations graphiques
M ´etrique du χ
2, Ind ´ependance
Pourcalculer la distance entre deux profils colonnesjetj0, on utilise la formule :
d2χ2(j,j0) =
m1
X
i=1
n ni+
nij n+j
− nij0 n+j0
2
=DMc(PCj,PCj0)
PropositionLa m ´etriqueMcest donn ´ee parMc=nD−11
Cette m ´etrique revient l `a-encore `a donner autant d’importance `a chacune des modalit ´es deX.
Repr ´esentations graphiques
M ´etrique du χ
2, Ind ´ependance
D ´efinition :La quantit ´eϕ2mesure l’ ´ecart `a l’ind ´ependance :
ϕ2= 1 n
m1
X
i=1 m2
X
j=1
nij−ni+nn+j2 ni+n+j
n
Proposition :L’inertie des Profils Lignes et l’inertie des Profils Colonnes co¨ıncident et valent leϕ2.
Repr ´esentations graphiques
Propri ´et ´es de la distance du χ
2Proposition :Etant donn ´ees deux colonnes de´ T,jetj0 ayant le m ˆeme profil, si l’on regroupe ces 2 colonnes en une seule d’effectifnij+nij0 pour chacune des lignesi, alors les distances entre profils lignes est inchang ´ee.
Proposition :Etant donn ´ees deux lignes de´ T,ieti0ayant le m ˆeme profil, si l’on regroupe ces 2 lignes en une seule d’effectif ni0j+nijpour chacune des colonnesj, alors les distances entre profils colonnes est inchang ´ee.
Cette propri ´et ´e est-elle vraie pour la m ´etrique euclidienne ?
Repr ´esentations graphiques
Analyse en composantes principales des deux nuages de profils
ACP profils lignes Donn ´eesX=D−11 T M ´etriqueM=nD−12 PoidsD= Dn1
ACP profils colonnes Donn ´eesX=D−12 T0 M ´etriqueM=nD−11 PoidsD= Dn2
Nous verrons que ces deux ACP am `enent `a des r ´esultats parfaitement duaux l’un de l’autre.
Repr ´esentations graphiques
ACP non centr ´ees et facteur trivial
Proposition0glest orthogonal `aW1 pour la m ´etrique duχ2. Propositionkglkχ2=1
Proposition :g(glougc) est vecteur propre associ ´e `a la valeur propre1pour les deux ACPs.
Il est donc `a chaque fois inutile de pr ´eciser ce r ´esultat dans les AFC, ainsi que la valeur propre 1.
Quelle ACP choisir ?
Repr ´esentations graphiques
ACP non centr ´ees et facteur trivial
Th ´eor `eme : ACP profils lignes Facteurs Principaux
VP de D−12 T0D−11 T
Composantes principales VP de D−11 TD−12 T0
Normalis ´es par
a0D1
n a=λ
ACP profils colonnes Facteurs Principaux
VP de D−11 TD−12 T0
Composantes principales VP de D−12 T0D−11 T
Normalis ´es par b0D2
n b=λ
Repr ´esentations graphiques
ACP non centr ´ees et facteur trivial
Th ´eor `eme :
Les 2 analyses conduisent aux m ˆemes valeurs propres.
Les facteurs principaux de l’une sont les composantes principales de l’autre.
Les coordonn ´ees des points-lignes et points-colonnes
s’obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils
Repr ´esentations graphiques
Contributions
Cercle de corr ´elation : aucun int ´er ˆet dans le contexte de variables qualitatives
On a la relation entre les valeurs propresλet les vecteurs propres :
λ=1 n
m1
X
i=1
ni+a2i =1 n
m2
X
j=1
n+jb2j
On d ´efinit la contribution des profils lignes et colonnes par : CTR(i) =
ni+
n a2i
λ CTR(j) =
n+j
n b2j λ
Repr ´esentations graphiques
Formules de transition
Th ´eor `eme :
b= 1
√λD−12 N0a a= 1
√λD−11 Nb C’est- `a-dire :
bj= 1
√λ
m1
X
i=1
nij
nj+
ai ai= 1
√λ
m2
X
i=1
nij
n+i
aj
Repr ´esentations graphiques
Reconstitution des donn ´ees
Sim1<m2, en ´eliminant la valeur propre 1, on a :
ϕ2=
m1−1
X
k=1
λk
Les pourcentages de variance sont ´egaux `a :
%Vark=λk ϕ2 La formule de reconstitution est :
nij=ni+n+j
n 1+X
k
akibkj
√λk
!
Repr ´esentations graphiques
Donn ´ees AGR concernent les exploitations agricoles de la r ´egion Midi-Pyr ´en ´ees.
Elles proviennent des ”Tableaux Economiques de Midi-Pyr ´en ´ees”, publi ´es par la Direction R ´egionale de Toulouse de l’INSEE, en 1996 (donn ´ees relatives `a l’ann ´ee 1993 ; chiffres arrondis `a la dizaine pr `es).
Les 73 000 exploitations ont ´et ´e ventil ´ees dans une table de
contingence selon le d ´epartement (en lignes, 8 modalit ´es) et la SAU (Surface Agricole Utilis ´ee, en colonnes, 6 classes).
D ´epartements : ARIE = Ari `ege ; AVER = Aveyron ; H.G. =
Haute-Garonne ; GERS = Gers ; LOT = Lot ; H.P. = Hautes-Pyr ´en ´ees ; TARN = Tarn ; T.G. = Tarn-et-Garonne.
SAU : inf05 = moins de 5 hectares ; s0510 = entre 5 et 10 hectares... ; sup50 = plus de 50 hectares.
Repr ´esentations graphiques
Repr ´esentations graphiques
arie
aver h.g.
gers
lot
h.p.
tarn t.g.
SINF1
S1_5
S5_10 S10_20
S20_50 S50_99S_100 A
x e 2
-0.2 -0.1 0.0 0.1 0.2 0.3 0.4
Axe 1
-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
FIG.:Biplot isom ´etrique des donn ´ees AGR.
Repr ´esentations graphiques
Interpr ´etation
Quelles sont les variables qui sont crois ´ees entre elles ? Que met en ´evidence le premier axe ?
Que met en ´evidence le second axe ?