R EVUE DE STATISTIQUE APPLIQUÉE
A. L ECLERC
L’analyse des correspondances sur juxtaposition de tableaux de contingence
Revue de statistique appliquée, tome 23, n
o3 (1975), p. 5-16
<http://www.numdam.org/item?id=RSA_1975__23_3_5_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
L’ANALYSE DES CORRESPONDANCES
SUR JUXTAPOSITION DE TABLEAUX DE CONTINGENCE(1)
A. LECLERC
INSERM, Division de la Recherche Médico-Sociale
On sait que
l’analyse
descorrespondances
estparticulièrement adaptée
à l’étude des tableaux de
contingence ;
ellepermet
alors d’étudier les relations entre deux variablesqualitatives.
Si l’on cherche à étudier les relations entre deux groupes de variablesqualitatives,
et que l’ondispose
des valeursprises
par chacune de ces variables sur les mêmes
sujets,
onpeut
former un tableau"juxtaposition
de tableaux decontingence"
croisant l’ensemble des modalités des variables dupremier
groupe avec l’ensemble des modalités des variables du second groupe.Nous nous demandons ici
quelles propriétés possède l’analyse
des corres-pondances
effectuée sur un tableau de ce genre, et comment on peutinterpréter
au mieux ses résultats.
1 - ANALYSE D’UN TABLEAU DE CONTINGENCE
1 / Rappel
surl’analyse
descorrespondances
Pour un
exposé complet
surl’analyse
descorrespondances,
il faut seréférer à
(1)
ou(2).
Mais onpeut
icirappeler
lesgrandes lignes
de laméthode,
en
adoptant
uneprésentation
assezsimple.
Soit 1 x J un tableau que l’on suppose être ici un tableau de
contingence,
et que l’on cherche à
analyser.
On notera :*
nu
l’effectif de la case(i , j)
* ni
etnj
les effectifsmarginaux :
somme des éléments d’uneligne
oud’une colonne.
* n la somme des éléments du tableau : c’est ici le nombre de
sujets
*
fij = nij/n
lafréquence
associée à la case(i , j)
*
fi
etfj
lesfréquences marginales : ni /n
etnj/n fi = fu/fi et f;
=fu/fj
lesfréquences
conditionnellesPour
simplifier,
onappellera
aussi 1 et J le nombre delignes
et le nombrede colonnes.
(1) Article remis en Décembre 1973, révisé en Octobre 1974.
6
On
imagine
dans un espaceRJ (espace
à Jdimensions),
muni de lamétrique
1/fj,
le nuage despoints
"i"représentés
par des vecteurs de coordonnéesfil 1
auxquels
sont associés des massesfi. L’analyse
descorrespondances
seral’analyse
de ce nuage parrapport
à son centre degravité.
Il revient absolument au même de munir
RJ
de lamétrique
euclidienneclassique
etd’analyser alors,
par rapport à leur centre degravité,
despoints
"i" de coordonnées
fij/fifj, toujours
munis de massesf;, (analyse
en compo- santesprincipales classique).
L’analyse
fournira des fonctionsprojection
sur les axes factoriels d’inertie(directions d’allongement
dunuage).
On réservera le nom de "facteurs" auxfonctions
s’appliquant,
non pas aux vecteurs decomposantes fii/fiv/’17
mais auxvecteurs
f1
decomposantes fu/fi = fij, représentant
une loi deprobabilité
surJ,
connaissant i. Onappellera ~Jq
une fonction de cetype, correspondant
quq-ème
axe
factoriel,
et~jq
unecomposante
de cette fonction :Une démarche
parallèle peut
êtreappliquée
àl’analyse
depoints "j"
dans un espace
RI.
Onappellera
defaçon analogue ~Iq
une fonctions’appliquant
aux vecteurs
"j"
de composantesfij/fj,
et~iq
une composante de cette fonction.Les valeurs propres des deux
analyses
sont les mêmes : on les noteraXq
On
appellera Q
l’ensemble des indices q caractérisant descouples
de facteurs(~Iq, ~Jq) correspondant
aux valeurs propresÀq rangées
dans l’ordre décroissant.2/ Quelques propriétés
del’analyse
descorrespondances
Les
caractéristiques
de laméthode, rappelées ici,
serviront de référence pourl’analyse
d’unejuxtaposition
de tableaux decontingence.
Toutes les for- mulesprésentées
sont vérifiées en effetquelque
soit la nature du tableauanalysé.
Seule leur utilisation en vue del’interprétation
peut différer.Signification
de l’inertie totaleLes deux nuages de
points évoqués plus
haut ont même inertie par rapport à leur centre degravité.
Pour lespoints
"i" de coordonnéesfij,
de massesfi,
dans
l’espace R J
muni de lamétrique 1/fp
cette inertie s’écrit :(le
centre degravité
est lepoint
de coordonnéesfj)
L’inertie s’écrit sous une formeplus symétrique :
La
quantité
de droiterappelle
uneexpression
connue. C’est ce que l’on calcule habituellement sur un tableau decontingence,
etqui
suit un Khi -2 sous certaines
hypothèses,
d’où le résultat :Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
Dans
l’analyse
descorrespondances appliquée
à un tableau de contin- gence, n fois l’inertiesuit,
sousl’hypothèse d’indépendance
entrelignes
etcolonnes,
et à condition que les effectifs ne soient pastrop petits,
un Khi -2 à
(I - 1) (J - 1) degrés
de liberté.Propriétés
desfacteurs
Ce
qui
peut s’écrire en notations condensées :ou :
ou :
Ceci entraîne que dans une
représentation graphique, l’origine
est centre degravité
despoints représentant
les variables "i" affectés des massesfi,
comme des
points représentant
les variables"j"
affectés des massesfj.
8
* La formule de
décomposition :
associée aux conditions
ci-dessus, permet
de démontrer facilement :* que toute reconstitution du tableau par un sous ensemble
Q’
de facteurs res-pectera les marges et l’effectif total du tableau :
(on
caractérise ce sousensemble par le sous ensemble
Q’
des indicescorrespondants)
en notant :
* que l’inertie du tableau
s’exprime
comme somme de termesdépendant
chacund’un facteur :
ceci permettra de tester
l’hypothèse :
"un sous ensembleQ’
de facteurs est suffisant pourexpliquer
le tableau dedépart".
* On pourra étudier
l’apport
d’unevariable j (ou
d’une variablei)
auniveau’
de
l’explication
du tableau par un facteur :Puisque
cette
quantité
pourra êtrecomparée
àXq (c’est
ce que l’onappelle parfois
la contribution absolue d’une variable à un
facteur)
* D’autre
part,
on peut démontrer facilement :On pourra donc comparer
l’apport
d’unevariable j
au niveau d’un facteur q àl’apport
de cette variable dans l’inertie du tableau(contribution relative).
II - ANALYSE D’UNE JUXTAPOSITION DE TABLEAUX DE CONTINGENCE
Nous allons voir si les
propriétés précédentes
del’analyse
des correspon- dances sonttransposables
àl’analyse
d’unejuxtaposition
de tableaux de contin- gence, et si certaines notions fructueuses pourl’interprétation (part
d’inertieRevue de Statistique Appliquée, 1975 vol. XXIII N° 3
expliquée,
contributions absolues etrelatives)
ont deséquivalents
pour letype
de tableauqui
nous intéresse.1 /
Notation etexemple
I x J sera le tableau
global,
avec :1 x J sera
juxtaposition
de L. M tableaux decontingence
sur les mêmessujets.
Nousappellerons
encorenij
l’effectif en(i , j) ;
ni etnj
serontnous noterons K la somme des éléments du tableau.
Nous noterons :
Il faut remarquer que ces
quantités, qui
avaient un sens trèssimple quand
il
s’agissait
d’un tableau decontingence (effectifs, fréquences),
n’ontplus
iciune
signification
évidente.Pour
reprendre
les notationshabituelles,
nousparlerons
de variable iou j ;
un ensemble
Il
ouJm
seraappelé
groupe de variables bienqu’il représente
en fait l’ensemble des modalités d’une variable
qualitative
m ou 1.Exemple de tableau de ce type
Le tableau
précédent
est lajuxtaposition
de 6 tableaux decontingence
réalisés sur le même échantillon de 1 558ménages.
Ici L =2,
M = 3. L’inter-section d’une
ligne
et d’une colonnereprésente
un effectif. Parexemple,
lacase
(3, 6)
contient le nombre deménages (262) qui
à la fois :10
- ont un dentiste
habituel,
-
appartiennent
à laprofession
2(cadres supérieurs).
2/
Inertie du tableauglobal
L’analyse
du tableauglobal
sera basée sur ladécomposition
d’une inertiecalculée formellement comme si I x J était un tableau de
contingence,
mais dont lasignification
ici reste àpréciser.
L’inertie du tableau
global
s’écrit :On va montrer que la
quantité :
est
L - 1 M
fois l’inertie tellequ’elle
serait calculée si on considérait le tableauIl
xJm
seul.Il faut pour cela
exprimer fi’
;f; ; f;j ; fréquences
calculées sur le tableauIl
1 xJm ,
etK1 m ,
1 somme des termes de cetableau,
en fonction desquantités
fi ’ fj , fij , K :
KIm
est l’effectif du tableauIl
xJm.
C’est le nombre desujets
concernés.Or ces
sujets
ont étécomptés
L. M. fois dans le tableau 1 xJ,
d’où :donc
f’i est
lepourcentage
desujets
concernés par la modalité i.Le nombre de
sujets
concernés par la modalité i estni/M ;
en effet dans laligne
i de 1 xJ,
de somme ni, ces personnes ont étécomptées
M fois. D’où :Revue.de Statistique Appliquée, 1975 vol. XXIII N° 3
De même
*
Il s’ensuit :
Soit le résultat :
L’inertie du tableau
global
est la moyenne des inerties des tableaux decontingence qui
le composent.Ce
premier point est
encourageant quant à l’étude parl’analyse
descorrespondances
d’unejuxtaposition
de tableaux decontingence :
laquantité qui
seradécomposée
par les facteurs -l’inertieglobale-
a aussi unesignifica-
tion
précise
pour notre tableau.3/
Test sur la reconstitution du tableauglobal
Non seulement l’inertie du tableau
global
est la moyenne des inertiesdes tableaux
qui
le composent, mais encore, sousl’hypothèse d’indépendance
entre les groupes de variables
11
etJm ,
K fois cettequantité
suit une loi dukhi-2 à
(I - L) (J - M) degrés
de liberté.K fois l’inertie
s’écrit, d’après
la formuleprécédente :
Soit la somme de I.J termes de la forme : ,
(effectif
observé - effectifthéorique)2
effectif
théorique
les effectifs observés étant liés aux effectifs
théoriques
par un certain nombre de relation linéairesindépendantes.
La
propriété (7)
des facteurs :expression
de l’inertie du tableauglobal
comme somme des valeurs propres est encore valable ici. On pourra donc tester,
comme on le fait
habituellement,
et avec les mêmesréserves, l’apport
d’unfacteur dans
l’explication
du tableauglobal :
on pourra se demandersi, après explication
par un ouplusieurs facteurs,
K fois l’inertie restantepeut
être con- sidérée comme la réalisation d’un Khi-2 à(I - L) (J - M) degrés
de liberté.On
conçoit
que ce test n’est passuffisant,
nitoujours
très intéressant : le choix des variablesqualitatives
introduites dans le tableaupeut
être assezarbitraire,
et on aimerait en savoirplus
surl’explication
par les facteurs des relationspouvant
exister au niveau de groupes devariables I1
ouJm
prises séparément.
12
4/ Moyenne
des facteurssur I1
ouJm
La
plupart
despropriétés
vérifiées sur 1 ou J par les facteurscpâ ou
ne sont pas vérifiées
sur I1
ouJm
par des.restrictions ~I1q
oucpqm
des facteursà Il
ouJm .
Enparticulier,
les facteurs~’I1q
1 que l’on obtiendrait parl’analyse des
xJ ,
ne sont pas des restrictions~I1q
1 des facteurs del’analyse globale.
Parmi les
propriétés (1)
à(4)
desfacteurs,
seule lapropriété (3)
a unéquivalent
pour les restrictions des facteurs :Une
fonction ~I1q est de
moyenne nulle pour lamétrique fi
Une
fonction ~Jmq
est de moyenne nulle pour lamétrique fJ
soit :
(on
aurait aussi bien puremplacer fi
etfj par f’i
etf’ fréquences
calculéessur I1 x Jm ).
Démonstration
(Pour
une fonction’PlI)
Soit
RJ l’espace
des lois deprobabilité
sur J. Les élémentsrJ
sont despoints
de cet espace et~Jq ,
facteur del’analyse
desfiJ
est un élément deR J.
Comme élément de
RJ , ~Jq
est combinaison linéaire des03B4Jj,
fonctionsqui
à unpoint
deRJ
fontcorrespondre
la coordonnée d’ordrej.
Pour toutes les fonctions
8/
on a :Cette
expression
vaut en effet :j appartient
au groupe de variablesJm
et dans le tableau decontingence
I1 x Jm , on a :
Ce
qui
s’écrit enexprimant û , 1 f , 1 , f’j
j en fonction defij , fi , fj :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
On a donc :
qui
entraîne :Or
~Jq (f J )
= 0d’après
lapropriété (3)
des facteurs DoncCe
qui
s’écrit aussi :.
D’après
lapropriété (2)
des facteursConséquence
sur lareprésentation
des résultatsLes variables sont en
général représentées
par despoints
de coordonnéeLa
représentation
de résultatsd’analyse
descorrespondances
sur unejuxtaposition
de tableaux decontingence possède
donc laqualité
suivante :L’origine
est centre degravité pondéré
non seulement dechaque
en-semble de
variables,
I ouJ,
mais encore dechaque sous-ensemble Il
ouJm .
Il revient au même de
pondérer
une variable par sonpoids
dans l’ensembledu
tableau,
ou par sonpoids
parrapport
aux autres variables du groupeauquel
elleappartient.
51 Apport
d’un groupe devariables Il
ouJm
On sait que dans un tableau de
correspondances,
onpeut
isolerl’apport
d’une
variable j (ou i)
dansl’explication
du tableau par un facteur.Ici on isolera la
quantité :
(ou
sonéquivalent
pourIl)
On pourra comparer cette
quantité
àXq, puisque
lapropriété (8)
estvérifiée sur le tableau
global :
On
parlera
de contribution absolue d’un groupe de variables à un facteur.14
On pourra aussi comparer
l’apport
d’un groupeJm
de variables àl’expres-
sion :
et l’on
parlera
alors de contribution relative d’un facteur à un groupe de variables.On a en effet
(propriété (9)
desfacteurs)
Donc aussi :
La contribution relative
présente l’avantage
depouvoir
donner lieu à untest : .
la
quantité
est en
effet,
dansl’hypothèse d’indépendance
entreJm
etchaque
groupe de variablesI1,
une variablequi
suit une loi du Khi - 2 à(I - L) (Jm - 1) degrés
de liberté. La démonstration estanalogue
à celleévoquée
en 11-3.On pourra donc comparer la
quantité :
(où Q’ représente
un sous-ensemble defacteurs)
à un Khi-2 à(I - L) (Jm - 1 )
dd 1Ceci pourra permettre de
juger
del’apport
d’un sous-ensembleQ’
defacteurs à
l’explication
des relations entreJm
et tous les groupes de variablesIl prises
dans leur ensemble.Ce
procédé présente
des défautsanalogues
au testglobal
sur 1 x J : lechoix arbitraire de groupes de
variables I1 peut
enlever de lasignification
à l’inertie de 1 xJm ;
le test nerenseigne
pas sur lafaçon
dont un sous-ensembleQ’
de facteursexplique
chacun destableaux 1,
1 xJm .
Deplus,
on saitqu’en
analyse
decorrespondances,
lacomparaison
de 1"‘inertie restante" à un Khi- - 2 dont le nombre de ddl est celui du tableau dedépart, prête
à lacritique.
Néanmoins,
les tests au niveau de groupes devariables I1
ouJm
pourrontpréciser
la structure du tableau :Des groupes de variables
Jm
etJm, expliqués
par des facteurs différentspourront être considérés comme dissemblables vis-à-vis des variables 1.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
Un tableau I x
Jm
pourra resterinexpliqué
par lespremiers facteurs,
alorsmême que ces facteurs
expliquent
bien le tableau 1 x J dans son ensemble.61
Reconstitution d’un tableauIl
xlm
par un ouplusieurs
facteursVenons-en maintenant à un tableau de
contingence Il
xJm
et démontronsla
propriété
suivante :Toute reconstitution de I x J par un sous-ensemble
Q’ de facteurs
conserveles marges des tableaux
Il
xJm
Démonstration
soit
et
(formule
dedécomposition)
On aura :
car la sommation
sur Il
de termes de la forme :est nulle
puisque ~Iq
restreinteà Il
est de moyenne nulle.On a évidemment un résultat
analogue
pour une sommation surJm .
Ainsi la reconstitution par un ou
plusieurs
facteurs redonne des tableauxIl
xJm qui
ne diffèrent des tableaux dedépart
que parcequ’ils expriment
des relations différentes
entre 1,
1 etJ.,
avec les mêmes effectifsmarginaux,
et en conservant évidemment le nombre de
sujets
’initial. Ceci nous permet de comparer un tableau reconstitué au tableau dedépart correspondant.
Nous pouvons considérer le tableau de
départ (Il
xJm )
comme notrehypothèse nulle,
tableau de référenceindiquant
un certaintype
de relationentre 1,
1 etJm , éloigné
del’indépendance :
la reconstitution d’un tableauqui n’exprimerait
pas de relationentre Il
etJm
ne nous intéresse pas.Nous calculerons alors :
gij
étant le résultat de la reconstitution par un sous ensembleQ’
de facteurs et comparerons cettequantité
à un Khi-2 à(Il - 1) (Jm - 1)
ddlCeci permet
d’apprécier,
pourchaque
tableau(Il
xJ m)’
sa reconstitution par un ouplusieurs
facteurs. On pourra baserl’interprétation
des facteurs sur16
les tableaux
qu’ils expliquent
le mieux. On pourraparler
de tableaux "sem- bables" s’ils sont bien reconstitués par les mêmes facteurs ou groupes de fac- teurs, et isoler les tableaux malexpliqués
par lespremiers
facteurs del’analyse . (Le procédé
ne sejustifie
pas si l’effectif est tropfaible,
letableau Il
xJm
pouvant être difficilement considéré comme tableau de
référence).
Il faut noter que, l’inertie de
(Il
xJm )
n’étant pasdécomposable
en unesomme de termes
positifs dépendant
chacun d’unfacteur,
il peut se faire que l’introduction d’un facteursupplémentaire
n’améloiore pas la reconstitution du tableau.Remarques
sur les testsproposés
Les tests visant à
juger
del’apport
des facteurs àl’explication
du tableauprètent
tous à la mêmecritique : l’hypothèse
nullequ’ils
testents’exprime
en fonction des facteurs
(sous
la forme : tel sous-ensemble de facteurs est suf- fisant pourexpliquer
les relationsobservées),
les facteurs étant eux-mêmes directement construits àpartir
des observations. Or unehypothèse
nulle devraittoujours
être définie avant examen des données.Dans
l’explication
d’un sous-ensemble dutableau,
dutype Il
xJ,
ouIl
1 xJm ,
on peut nuancer lacritique :
les facteurspeuvent
être assez peudépen-
dants du sous-ensemble
considéré ;
il peut se fairequ’une analyse
refaite enenlevant les
sous-ensemble Il
ouJm
donnerait des facteursayant
à peuprès
même
signification.
C’est cequi
se passequand
onanalyse
un tableau degrandes
dimensions avec des variables redondantes.Dans tous les cas, il convient de donner aux seuils de
signification
observésune valeur
plutôt
indicatrice de distance entre les données et certaineshypothèses.
BIBLIOGRAPHIE
(1)
BENZECRI(J.P.) - L’analyse
des données(II : l’analyse
des correspon-dances) Dunod, Paris,
1973.(2)
LEBART(L.),
FENELON(J.P.) - Statistique
etinformatique appliquées Dunod, Paris,
1973.(3)
LECLERC(A.) -
Etude de certains types de tableaux parl’analyse
des cor-respondances
Thèse 3èmecycle,
Université ParisVI,
1973.(4)
DAVIDSON(F.), CHOQUET (M.),
DEPAGNE(M.) -
Leslycéens
devantla
drogue
et les autresproduits psychotropes, monographie
de l’INSERM.1974
(exemple d’application)
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3