R EVUE DE STATISTIQUE APPLIQUÉE
B RIGITTE E SCOFIER
Une représentation des variables dans l’analyse des correspondances multiples
Revue de statistique appliquée, tome 27, n
o4 (1979), p. 37-47
<http://www.numdam.org/item?id=RSA_1979__27_4_37_0>
© Société française de statistique, 1979, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
37
UNE REPRÉSENTATION DES VARIABLES
DANS L’ANALYSE DES CORRESPONDANCES MULTIPLES Brigitte ESCOFIER*
RESUME
Nous proposons ici une
représentation
des variables à l’issue de l’analyse des correspon- dances d’un tableau disjonctif complet. En effet, dans les programmes classiques, seules les modalités des variables apparaissent, mais la variable elle-même, prise globalement, n’apparaît pas.Pour cela, nous associons à chaque variable V un
opérateur SZV,
l’opérateur de projec-tion orthogonale sur le sous espace des indicatrices de la variable V, et nous associons à cha-
que facteur F l’opérateur de projection orthogonale sur
F, 03A9F.
L’espace desopérateurs
étantmuni d’une
métrique
euclidienne, nous pouvonsprojeternv
sur lesopérateurs
associés auxfacteurs.
Cette représentation met en évidence, à la fois les liaisons entre une variable et un fac- teur et les liaisons entre les variables. En effet, la coordonnée de l’opérateur
03A9V
surl’opérateur nif
est proportionnelle à la contribution de l’ensemble des modalités de la variable V à l’inertie de F. Et, le cosinus de l’angle entre les opérateursny etny,
associés à deux variables V et V’est une mesure de la liaison entre V et V’.
Un exemple commenté illustre la technique que nous proposons.
1 - LES
DONNEES,
LE TABLEAU DISJONCTIF COMPLET ET SON ANA- LYSE(cf. [1] ] et [4])
Pour
analyser
un ensemble de variables définissant chacune unepartition
d’un ensemble
d’individus,
on lui associe souvent un tableaudisjonctif complet
que l’on traite par
l’analyse
descorrespondances.
Ces variablespeuvent
être des variablesqualitatives
àplusieurs modalités,
desquestions
avecplusieurs réponses possibles
ou bien encore des variablesquantitatives
codées par classe.Le tableau
disjonctif complet
associé à l’ensemble de variablesVl , ..., Vq
est le tableau des indicatrices des
partitions
définies par ces q variables. Il croise donc l’ensemble des individusI,
et l’ensemble J des modalités des q variables. Ilse compose
uniquement
de 0 et de 1. La valeur 1 au croisement de laj-ième
co-lonne
indique
que l’individu i a la modalitéj.
Dans le groupe de colonnes associéaux modalités d’une même
variable,
il y a sur uneligne
un 1 et un seul. Le ta-bleau a donc la forme suivante :
* Département de
Mathématiques -
I.N.S.A., B.P. 14A - 35031 RENNES CEDEX.Revue de Statistique Appliquée, 1979, vol. XXVII, n° 4
Mots-clés:
Correspondances multiples - Disjonctif complet -
Liaison -Opéra-
38
Dans
l’analyse
descorrespondances
de ce tableaudisjonctif complet,
onobtient des
couples
de facteurs définisrespectivement
sur l’ensemble 1 des indi- vidus et l’ensemble J des modalités de toutes les variables.Mais,
les variables elles-mêmes
n’apparaissent
pas dans les résultats.Ceux
qui appliquent l’analyse
descorrespondances
aux tableauxdisjonctifs complets
savent que pourinterpréter
les résultats il est nécessaire de connaître les relations entre un facteur et une variable. Comme ils nedisposent
pas de techni- quessystématiques,
ils fontquelques
calculssimples.
Parexemple,
ils mesurentl’importance
d’une variable V pour un facteur F en calculant la contribution de l’ensemble des modalités de V à l’inertie de F. Oubien, puisqu’une
variable estune
partition
de l’ensemble 1 enclasses,
ilscalculent,
pour ces classes l’inertie interclasse du facteur F.Jusqu’à présent
les résultats del’analyse
descorrespondances
n’étaient pas utilisés pour estimer les liaisons entre lesvariables,
seules les liaisons entre les modalités de ces variables étant mises en évidence.II - OPERATEUR n v ASSOCIE A LA VARIABLE V
(cf.[2]et[5])
Les variables que nous considérons définissent une
partition
de l’ensemble I.La donnée d’une
partition
de 1 en s éléments estéquivalente
à la donnée des s fonc- tions indicatrices de cettepartition.
Ces s fonctions sont des éléments del’espace
vectoriel des fonctions
numériques
définiessur 1,
espace notéRI.
Ellesengendrent
un sous espace vectoriel
êy
deR I de
dimension s. Et ce sousespace ëy
détermineles s fonctions indicatrices.
La somme de toutes les fonctions indicatrices est la fonction constante sur
I, égale
à 1. Le sous espaceli>v
contient donc cette fonction notée10 .
Il suffit donc de connaître le sous espaceEv de S y orthogonal
à1 Â
pour connaître lapartition
de I. La notion
d’orthogonalité
dansR I
est celle de lamétrique
usuelle.Un sous espace est caractérisé par
l’opérateur
deprojection orthogonale
surce sous espace. A une variable V on
peut
donc associer par uneapplication injec- tive, l’opérateur
deprojection orthogonale
sur le sous espaceEv
que nous venonsde définir. Nous notons cet
opérateur 03A9V.
*Revue de Statistique Appliquée, 1979, vol. XXVII, no 4
III -
OPERATEUR n F
ASSOCIE AU FACTEUR FUn facteur
F
sur 1 est un élément del’espace RI,
ilengendre
donc un sousespace
{FJ
deRI de
dimension 1. A un facteurF,
nous associonsl’opérateur
deprojection orthogonale
sur ce sous espace, et nous noterons cetopérateur 03A9F.
IV - PRODUIT SCALAIRE DE DEUX OPERATEURS
SYMETRIQUES
La trace du
composé
de deuxopérateurs symétriques
définit unproduit
scalaire sur
l’espace
desopérateurs symétriques
de R(cf. [2]).
Rappelons
que si E et F sont deux sous espaces deRI,
leproduit
scalairedes
opérateurs
deprojection orthogonale
sur ces sous espaces est la somme des cosinus carrés desangles canoniques
entre E et F. Le carré de la norme d’unopé-
rateur de
projection
est doncégal
à la dimension de sonimage.
V - PROJECTION DE
n v / 112 v Il SUR 03A9F.
LIENS ENTRE F ET VNous proposons de
projeter
lesopérateurs
normés associés aux variables surles
opérateurs 03A9F.
Nous montrons dans ceparagraphe
que la coordonnée de03A9F/~ ny Il sur fl F
met en évidence les liens entre F et V.Puisque n F
etnv
sont desprojecteurs,
leurproduit
scalaire estégal
à lasomme des carrés des corrélations
canoniques
entrel’espace {F}
etl’espace Ev
*La dimension de
{F } étant égale
à1,
il y a un seul coefficient de corrélation cano-nique qui
est le cosinus del’angle 8
entre F etEv
»La dimension
de Ev
étantégale
às-1,
où s est le nombre de modalités deV,
ona 11 n v 11 = B/s 2013 1.
Laprojection
del’opérateur
normé03A9V/~03A9V Il I
surSZ F
est donc
égale
à :puisque
F étant de dimension1, Il QF Il =
1.Relation avec l’inertie des modalités de la variable
Dans
l’analyse
factorielle descorrespondances
du tableaudisjonctif complet,
le nuage de
points représentant
les modalités des variables est situé dansl’espace RI,
dual deRI.
Ces deux espaces sont munis de lamétrique
usuelle aux coeffi-cients
1/cardl
et cardIprès.
Cesmétriques
induisent unisomorphisme
entreRI
et
RI
140
L’image
du facteur F par cetisomorphisme
est un axe d’inertie f du nuage des modalités. Etl’image
d’une fonction indicatrice de la variable V est un vecteur pro-portionnel
au vecteurjoignant l’origine
à la modalité enquestion
de la variable V.Le sous
espace S y
des fonctions indicatrices de V a donc pourimage
le sous espaceengendré
parl’origine
et les modalités de V.L’angle
entre Fet êy
est doncégal
àl’angle
entre l’axe d’inertie f associé à F et le sous espaceengendré
par les modalités de V. Orl’angle
entre Fet0y
est aussiégal
àl’angle e
entre F etEv puisque
F estorthogonal
au sous espace1 ô
des fonc-tions constantes sur I.
Les vecteurs
joignant l’origine
aux modalités de V sontorthogonaux.
Si q est le nombre total de variablesétudiées, l’inertie,
parrapport
àl’origine,
dechaque
modalité est
1/q. Donc,
l’inertie desprojections
des modalités de la variable V dansune direction
quelconque
du sous espacequ’elles engendrent
est constante etégale
à
1/q.
Dans une directionquelconque
deRI, elle
seraégale
auproduit
par1/q
ducosinus carré de
l’angle
entre cette direction et leur sous espace.Pour la direction
f,
ce seracos2 () /q.
La contribution de la variable V à l’inertie du facteur F estdonc,
enpourcentage
de l’inertie totale À deF, cos2 () /(Àq).
Cepourcentage
se calcule facilement avec les résultats del’analyse
des correspond-dances,
car lespourcentages
d’inertie fournis parchaque
modalitéfigurent
sur leslistings.
Cecipermet
de calculercos28
et la coordonnée de03A9V/~03A9V~
sur03A9F.
Cette coordonnée est liée aussi au
pourcentage,
extrait parF,
de l’inertie de l’ensemble des modalités de V. L’inertie de ces smodalités,
par rapport au centre degravité
du nuage -qui
est aussi leur centre degravité -
estégale
à(s - 1), puisqu’elles engendrent
un sous espace de dimension s - 1. Lepourcentage
d’inertieextrait par la
projection
sur f est donccos 20/(S 1 ).
Autres
interprétations
La variable V définit des classes sur I. Pour ces
classes,
l’inertie interclasse dufacteur, quotienté
par son inertie totale est exactementcos28. Lorsque cos2e
vaut1,
l’inertie interclasse estégale
à l’inertietotale,
tous les éléments d’une même classe sont confondus sur le facteur F.Donc, plus
la coordonnée de 03A9V ~03A9V~ny
s’approche
desont confondus sur le facteur F.
Donc, plus
la coordonnéede -s’approche
de1/vs-=! plus
les éléments de ces classes se retrouventgroupés. Notons
que cosest aussi le
rapport
de corrélation de F parrapport
à V.En résumé
Coordonnée de
03A9V ~03A9V~
sur2 F
= cos(2v, f2F)
=
cos203B8/s - 1
= Contribution de V à F x q s - 1
=
Pourcentage
d’inertie de V extrait par Fx s- 1
1 Inertie interclasse de F
= s - 1
Inertie de FRevue de Statistique Appliquée, 1979, vol. XXVII, n° 4
VI - LIAISON ENTRE 2 VARIABLES. SA REPRESENTA’TION SUR LES
GRAPHIQUES
Rappelons
d’abordquelques
mesuresclassiques
de la liaison entre deux varia- bles définissant chacune unepartition
d’un même ensemble I. Cette liaison est dé- crite par le tableau decontingence
croisant les deuxpositions.
Elle est
généralement
mesurée par le’112
de ce tableau decontingence,
ou lecP 2 qui
estégale
auX2
divisé par le cardinal de l’ensemble I. Ou bien encore par le T deTchuprov qui,
si les variables V etV’
ontrespectivement
s et tmodalités,
vaut
~2/(s - 1)(t - 1).
Ce
dernier,
leT2
estcompris
entre 0 et 1. Il vaut 1si,
et seulementsi,
les deuxpartitions
sontidentiques.
Le tableau decontingence
est alors carré etdiagonal.
Il vaut 0lorsque
ces deux variables sontindépendantes.
PlusT2 est grand, plus
les variables sontdépendantes.
LeT2
mesure ladépendance
de deux variablesqualitatives,
comme le coefficient de corrélation linéaire mesure la liaison entre deux variablesquantitatives.
Dans
l’espace
desopérateurs,
on retrouvele ~2
et leT2
des deux variables V etV’.
léproduit
scalaire desopérateurs 03A9V
et03A9V,
associés à V etV’ est égal
àleur ~2.
Et leproduit
scalaire desopérateurs normés y
et03A9Vl 03A9Vl
estégal
àleur T2 . nv, Il
Les
opérateurs
associés à deux facteurs distincts sontorthogonaux.
Eneffet,
la
métrique
induite surRI
par un tableaudisjonctif complet
est, à un coefficientprès,
lamétrique
usuelle. Deux facteurs distincts sont doncorthogonaux
pour lamétrique
usuelle et lescomposés
desopérateurs qui
leur sont associés sont doncnuls.
La
projection
sur deuxopérateurs S2F
et03A9F,
associés à deux facteurs F etF’
donne donc laprojection
sur leplan qu’ils engendrent.
Nous obtenons ainsi unereprésentation graphique plane
desopérateurs
associés aux variables.Comme il y a une
bijection
entre les facteurs et lesopérateurs qui
leur sontassociés,
onpeut représenter
directement les variables sur lesgraphiques
del’analyse
des
correspondances. Mais,
nous proposonsplutôt
de tracer desgraphiques
annexescar la
projection
des modalités d’une variable et laprojection
de la variable elle- même sont de natures différentespuisqu’elles
se font dans des espaces différents.En
résumé,
le cosinus del’angle
entre lesopérateurs
normésreprésentant
lesvariables V et
V’
dansl’espace S
desopérateurs symétriques
estégal
auT2 entre
cesdeux variables. Et nous
projetons
cesopérateurs
sur lesopérateurs
associés aux fac-teurs
qui
forment une baseincomplète
orthonormée de S.Si deux variables V et
V’
sont bienreprésentées
par leurprojection, l’angle
entre les
opérateurs nv
et03A9V’,
et donc leT2
entre les variables V etV’
séra visible directement sur lesgraphiques,
de la mêmefaçon qu’en analyse
en com-posantes principales,
on voit la corrélation entre deux variablesquantitatives
bien
représentées
sur lescomposantes principales.
La
qualité
dereprésentation
d’une variable sur un sous espace est mesurée par lalongueur
de saprojection, puisque l’opérateur
associé que l’onprojette
estnorme.
42
Mais,
nous avons montré auparagraphe précédent
que la coordonnée de03A9V ~03A9V~
sur03A9F
étaitégale
àcos203B8/s - 1.
Il faudra donc considérer un nombre de facteurs au moinségal
à s - 1 pour quel’opérateur 03A9V ~03A9V~ puisse
être bienrepré-
IIQyll
senté. Ceci
s’explique bien, puisque l’opérateur
associé à un facteur est de rang 1 alors quel’opérateur
associé à la variable est de rang s - 1. Mais celaimplique
que pour des variablesayant plus
de 3modalités,
nous devrons consulterplusieurs
gra-phiques plans
pourjuger
de leurproximité.
VII - LIAISON ENTRE UNE VARIABLE ET UN PLAN FACTORIEL On
peut
se demander si lareprésentation
de la variable V dans leplan
{03A9F, 03A9F’} permet
aussi de visualiser une liaison entre V et leplan
factoriel{F , FI.
C’est ce que nous étudions ici.La liaison entre V et
{F , F’} peut
se mesurer par despourcentages
d’inertie : lepourcentage,
extrait par leplan {F , F’}de
l’inertie des s modalités de Vqui
vautcos203B8
+cos203B8’
;
s - 1 oubien,
lepourcentage cos
8 +cos2e’ d’inertie
fourni par ces modalités à l’iner-tie du
plan {F F’}, qui
vautcos203B8 + cos203B8’ q(03BB + 03BB’);
ou bien encore, par lepourcentage
d’inertie interclasse - pour les classes de V - dans l’inertie duplan {F, F’} :
À cos2e
+À’ cos26’
À+
À’
Toutes ces notions font intervenir
plus
ou moins directement la somme descos203B8 cos26’
coordonnées, cos203B8 s - 1
t , de V. Ellesn’apparaissent
donc pas sur legraphique plan.
La liaison entre V et
{F , F’} peut
aussi être mesurée par la liaison entre desous espace
Ev
et le sousespace {F, F’}. Donc,
par le cosinus del’angle
entre lesopérateurs 03A9V
etl’opérateur
deprojection orthogonale
sur{F , F’}. L’opérateur
de
projection orthogonale
sur{F.F] est
la somme desopérateurs 2F
et03A9F’.
Ilest donc situé dans le
plan {03A9F, e
sur lapremière
bissectrice. Le cosinus del’angle
entre03A9V
et cetopérateur
est doncégal
à lalongueur
de laprojection
de03A9V
sur lapremière
bissectrice duplan.
En
conclusion,
certains liens entre une variable V et leplan {F, F’}
sontvisibles sur les
graphiques,
mais ce ne sont sans doute pas lesplus
faciles à inter-prèter.
VIII -
REMARQUES
La
description
des variablesqualitatives
est tout à faitanalogue
à cellequi
estobtenue dans
[2]
et[5]
par uneanalyse
encomposantes principales
desopérateurs
associés aux variables.
Revue de Statistique Appliquée, 1979, vol. XXVII, n° 4
Mais les
opérateurs
surlesquels
onprojette
lesopérateurs représentant
les va-riables ne sont pas les mêmes. Dans
[2]
et[5],
ce sont lescomposantes principales
obtenues en
diagonalisant
la matrice deT2.
Alorsqu’ici,
ce sont lesopérateurs
associés aux facteurs de
l’analyse
descorrespondances.
Le but de cettetechnique
n’est pas de décrire au mieux les
T2 , mais d’apporter
une aide àl’interprétation
desrésultats de
l’analyse
des tableauxdisjonctifs complets.
Cette
comparaison
amènecependant
une remarque. Dansl’analyse
en compo- santesprincipales
desopérateurs,
lapremière composante
C maximise laquantité :
L’opérateur
attaché aupremier
facteur del’analyse
descorrespondances
pos-sède aussi une
propriété
extrémale. Eneffet,
F est le vecteur de R maximisant :où 03B8i
estl’angle
entre F et le sous-espace associé à la variableVi. Donc, l’opérateur
03A9F
associé à F estl’opérateur symétrique
de rang 1 maximisant laquantité :
IX - EXEMPLE
L’exemple
que nous avons choisi est un tableaudisjonctif complet
de 15 va-riables
quantitatives
transformées en variablesqualitatives
par division en 4 classes.Ces variables sont diverses mesures
prises
sur 120plantes.
Nous donnons dans le tableau 1 les valeurs des 5
premiers
facteurs pour les 60 modalités des 15 variables. Les modalités sontdésignées
par une lettre caracté- risant la variable suivi d’un chiffreindiquant
la classe de la variable.Nous avons calculé les
"projections
des variables" sur les 4premiers facteurs,
à
partir
de ce tableau et des valeurs propres. Commentons maintenant lesgraphi-
ques obtenus.
Plan
[F1,F2]
Les variables
ayant
chacune 4modalités,
la coordonnée d’une variable V sur un facteur estégale
àcos203B8/3. L’angle 0
est celui défini au§V
etcos203B8
estégal
au
pourcentage
d’inertie inter-classe.Chaque
coordonnée est donccomprise
entre 0 et1/3.
Nous avons faitfigurer,
sur leplan [F1, F21 ] le
carré de côté1/3.
Quand
une variable estproche
d’un côté extérieur de cecarré, cos203B8
estproche
de 1. Cette variable est liée au facteur : les éléments de chacune de sesclasses sont bien
regroupés,
le facteur estproche
du sous-espaceengendré
par ses fonctionsindicatrices,
et lepourcentage
d’inertie que leur extrait ce facteur est presque1/3.
44 Tableau 1
RESULTATS DE L’ANALYSE DES CORRESPONDANCES : LES MODALITES DES VARIABLES
Revue de Statistique Appliquée, 1979, vol. XXVII, n° 4
46 C’est le
cas
pour lepremier
facteur pour les variables(I, B, H, G, F, K, C)
pour
lesquels cos203B8
estsupérieur
à0,78.
C’est aussi le cas, à undegré
moindre pour les variablesS, T, A, (cos20 c--- 0.71).
Pour le deuxième facteur ceci est encore vérifié par le groupe de variables
(J, K, H, B, G).
Par contre, les variables
L,
M et N sont trèsproches
del’origine.
Cequi
meten évidence leur
indépendance
avec les 2premiers
facteurs. Il sera donc inutile d’étudier laposition
de leurs modalités sur lesgraphiques d’Analyse
des correspon- dances. D’autrepart, S, T, A,
P sont un peu liées aupremier facteur,
mais absolu-ment pas au second.
Sur ce
graphique,
on lit aussi très bienl’importance
des variables dans la détermination des facteurs. Eneffet,
les coordonnées des variables sur un facteur sont aussiproportionnelles
aupourcentage
d’inertie fourni par les variables à cefacteur. Les 2
premiers
facteurs sont donc essentiellement déterminés par le groupe de variables situées en haut à droite.Certaines variables sont très
proches
sur leplan (1 - 2).
Mais cetteproximité
n’est pas suffisante pour conclure sur leur distance réelle. En
effet,
leplan
des 2premiers
facteurs nepeut
suffir pour bienreprésenter
des variablesqui
ont 4 moda-lités,
etqui
sont donc associées à desopérateurs
de rang 3. Pourcela,
il faudra aumoins
l’espace
des 3premiers
facteurs.Pour conclure à leur
sujet,
nous considérerons donc les 2graphiques
desplans
[F1, F et
desplans [F3, F4].
Pour faciliter lalecture,
nous avons tracé dans cesdeux
plans,
le cercle de rayon1/2 :
une variable sera bienreprésentée
dans lesous-espace des 4
premiers
facteurs si sesprojections
dans chacun des deuxplans
est
proche
de ce cercle.Plan [F 31F41
Le
graphique
montreimmédiatement que
les variablesimportantes
pour le3"’
facteur sont les mêmes que cellesqui
déterminent les 2premiers.
Et que les variables
L, M,
Napparaissent
au niveau du4 ème facteur,
et le déterminentquasiment
à elles seules. Les variables A et T ne sont pascomplète-
ment
indépendantes
de ce4 ème
facteur.D’autre
part,
onpeut maintenant,
à l’aide de ces 2graphiques,
affirmer que les variablesG, B, J,
Hqui
sont très bienreprésentées
dans[F1, F 21 F ]
sontréellement très
proches.
Et que le sous-espace deRI engendré par leurs
4 modalitésest
pratiquement
le même et trèsproche
du sous-espace[F1, F F ].
En
conclusion,
unsimple
coup d’oeil sur cesgraphiques permet
d’orienter ledépouillement
del’analyse. L’interprétation
des 3premiers
facteurs devras’appuyer
sur les groupes de variables
(G, B, J, H)
et aussi(K, I, C, F).
Lepremier
groupe est sihomogène qu’il
est vraisemblablement inutile d’en différencier les éléments. Il n’est pas étonnant de retrouver sur lesgraphiques
del’analyse
un effet Guttmanndans les
plans
1 - 2 et 1 - 3 pour les variablesqui
sont concernées.Par contre, le
4ème
facteur estindépendant
des 3premiers,
on doit doncl’interpréter séparément
en se basant sur les variablesL,
M et N.Vraisemblablement,
une étudepoussée
desgraphiques
auraitpermis
d’aboutiraux même
conclusions,
maisaprès
unlong
travail.Revue de Statistique Appliquée, 1979, vol. XXV 11, n" 4
BIBLIOGRAPHIE
[1] BENZECRI
et collaborateurs. -"L’analyse
des données" -Dunod,
1973.[2]
CAILLIEZ F. PAGES J.P. - "Introduction àl’analyse
des données".SMASH, 1976,
[3]
LEBART L. et FENELON J.P. -"Statistique
etinformatique appliquées".
Dunod,1973.
[4]
LEBART L. MORINEAUA.,
TABARD N. -"Technique
de ladescription statistique".
[5]
PAGESJ.P.,
ESCOUFIER Y. CAZES P. -"Opérateur
etanalyse
des tableauxde