R EVUE DE STATISTIQUE APPLIQUÉE
A. Z ÁRRAGA B. G OITISOLO
Méthode factorielle pour l’analyse simultanée de tableaux de contingence
Revue de statistique appliquée, tome 50, n
o2 (2002), p. 47-70
<http://www.numdam.org/item?id=RSA_2002__50_2_47_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MÉTHODE FACTORIELLE
POUR L’ANALYSE SIMULTANÉE
DE TABLEAUX DE CONTINGENCE
A.
ZÁRRAGA
et B. GOITISOLO Departamento de EconomiaAplicada
III,Universidad del Pais Vasco-Euskal Herriko Unibertsitatea, Bilbao, España
RÉSUMÉ
L’objectif
de ce travail est dedévelopper
une méthode factorielle pourl’analyse conjointe
des tendances
générales
deplusieurs
tableaux decontingence qui
permette, de manière similaire àl’analyse
descorrespondances,
l’étude des ressemblances entre l’ensemble deslignes,
des colonnes, et les relations entre les deux ensembles, sans permettre que l’un des tableaux ait uneprépondérance
sur les autres. Avec la méthodeproposée,
il estpossible d’analyser conjointement plusieurs
tableaux decontingence,
comme parexemple
ceuxqui correspondent
à une même
enquête
effectuée dans différents pays ou à différentesépoques,
ou à desenquêtes
différentes effectuées sur une même
population.
La méthodeproposée
peut s’étendre àl’analyse
d’un ensemble
d’enquêtes quand
les données des différents groupes d’individus sont codifiéesen tables
disjonctives complètes juxtaposées
pour les mêmes modalités.Mots-clés :
Analyse factorielle,
Juxtaposition de Tableaux deContingence, Analyse
desCorrespondances.
ABSTRACT
The aim of this work is to
develop
a factorial method for thejoint analysis
ofgeneral
tendencies in various
contingency
tables so that thesimilarity
between the set of rows and of columns, and therelationships
between them can be studied in a way similar tocorrespondence analysis,
withoutallowing
any one table to bepreponderant
over the rest. With the methodproposed
it ispossible
toanalyse
severalcontingency
tables in the true sense of the termjointly, along
with tablescorresponding,
for instance, to the same survey carried out in different countries or for different timeperiods,
and those for surveys on differenttopics
carried out onthe same
population.
The methodproposed
can be used for theanalysis
of a set of surveys when data from different groups of individuals are coded incomplete disjunctive
tables andthose tables are
juxtaposed
for the same modalities.Keywords :
FactorAnalysis, Contingency
Tables Juxtaposition,Correspondence Analysis.
1. Introduction
La nécessité
d’analyser
simultanémentplusieurs
tableaux de données a en-gendré
de nombreuses méthodes factorielles.Toutefois,
lamajorité
d’entre elles48 A. ZÁRRAGA, B. GOITISOLO
requièrent
des tableaux de variablesquantitatives
et/ouexigent
que les différents tableaux de données fassent référence au même ensembled’individus, (comme
par ex-emple
Cazes(1980a),
Cazes(1981 a)), l’analyse canonique (Hotelling (1936),
Carroll(1968)), l’analyse procrustéenne (Tucker (1958),
Gower(1975),
Gower(1984)),
lesmodèles INDSCAL
(Carroll
&Chang (1970))
et IDIOSCAL(Tucker (1972)).
Parmiles méthodes
supportant
des variables différentes et l’introduction d’unepondération
sur les
tableaux,
on trouvel’analyse
factoriellemultiple (Escofier
&Pages (1984))
et la méthode statis :
(Structuration
des TableauxA
Trois Indices de laStatistique (L’Hermier
des Plantes(1976)).
Pour
analyser conjointement
des tableaux decontingence, quelques-unes
desméthodes mentionnées consistent à
analyser
le tableau somme des tableaux decontingence séparés
ou le tableau obtenu commejuxtaposition
des tableaux dedépart (Cazes (1980b),
Cazes(1981b)
et Leclerc(1973)).
Citons aussil’analyse
non
symétrique (Lauro
& D’Ambra(1984)
et D’Ambra & Lauro(1989)), l’analyse
intra
(Escofier (1983))
etplus
récemmentl’analyse
factoriellemultiple
intra-tableaux(Bécue-Bertaut
&Pagès (2000)). Pourtant, au §
2 on voitqu’il
existe des situationsoù aucune de ces méthodes ne permet une
analyse
des ressemblances entre leslignes qui
maintienne la similitude existant dans lesanalyses
des tableauxséparés.
L’objectif
de ce travail est dedévelopper
une méthode factorielle pourl’analyse conjointe
deplusieurs
tableaux decontingence qui
permette, de manière similaire àl’analyse
descorrespondances,
l’étude des ressemblances entre l’ensemble deslignes,
des
colonnes,
et les relations entre les deux ensembles.La méthode
proposée permet
de fairel’analyse quelque
soit le nombre de tableaux decontingence
ou de tableaux de nombrespositifs susceptibles
d’êtreanalysés
parl’analyse
descorrespondances.
Nousdévelopperons, cependant,
laméthode en faisant référence aux tableaux de
contingence.
2. Problèmes
Dans
l’analyse
factorielle simultanée deplusieurs
tableaux decontingence,
une série de
problèmes surgissent,
comme l’effectif différent destableaux,
des totaux différents de la mêmeligne
dans les différents tableauxqui supposent
que leslignes
ont des
poids différents,
et deplus l’analyse conjointe
sera influencée par les inerties des différents tableaux surchaque
axe.Un
problème apparaît quand
le total dechaque
tableau(nombre d’individus)
est différent. Cela influence
l’analyse
de lajuxtaposition
des tableaux decontingence.
Le tableau de
plus grand
effectif aura une contributionplus grande
sur la création desaxes.
En
analysant
lajuxtaposition
des tableaux onpourrait
obtenir que lespremiers
axes ne montrassent
plus
que les ressemblances et différences entre lesprofils
dutableau
ayant
leplus grand
effectif.Donc, la
première étape
pouréquilibrer
l’influence destableaux,
avant de passer àl’analyse conjointe,
sera de transformer chacun d’eux enfréquences.
Un autre aspect déterminant dans
l’analyse conjointe
de tableaux decontingence
est la différence entre les
marginales
de deux tableaux. Les relations existant à l’intérieur dechaque
tableau se verront altérées si dansl’analyse chaque
tableaune conserve pas ses
poids
et samétrique.
Cet inconvénient nous induit à chercher une méthode
d’analyse
factorielleconjointe
de tableaux decontingence
danslaquelle
on maintienne pourchaque
tableaules
poids
ainsi que lamétrique.
Enfin,
la différence d’ordre degrandeur
de l’inertieprojetée
sur lepremier
axe pour chacun des tableaux
peut
amener à uneanalyse conjointe
dominée par les différences d’un des tableaux.Ce
problème
a étédéjà
considéré parl’analyse
factoriellemultiple
et la méthodestatis, quand
les tableaux sont de variables continues. Afind’équilibrer
l’influence quechaque
tableau exerce dansl’analyse conjointe
et de ne paspermettre
que celle-ci soit dominée par un tableauparticulier,
ces méthodes introduisent unepondération
sur les tableaux. Une
analyse
simultanée deplusieurs
tableaux dont lespremiers
axesseraient
engendrés
par un seul d’entre eux neprésenterait
en effet que peu d’intérêt.Dans
l’analyse conjointe
des tableaux decontingence
on introduira aussi unepondération
surchaque
tableau.3.
Analyse
desCorrespondances
d’un tableau decontingence
Soit un tableau de
contingence
où l= {1,..., z,..., I} et = {1, ... , j,
... ,
J} représentent
l’ensemble deslignes
et des colonnes du tableauqui
corre-spondent
aux modalités de deux variablesqualitatives.
Soitfii
lafréquence
relatived’appartenir
aux modalités i E let j
EV, fi.
-03A3j~J fij, f.j
=03A3i~I fij
lesmarges associées.
À chaque ligne
i du tableau est associé unprofil-ligne, {fij fi| j
E71,
affectéd’un
poids fi..
L’ensemble desprofils-lignes
sereprésentent
dansl’espace RJ,
muni de la
métrique
duX 2 . L’analyse
descorrespondances
recherche les directionsprincipales d’allongement, appelées
axesfactoriels,
du nuageAf (1)
desprofils-lignes,
centré sur son centre de
gravité.
Laprojection
duprofil-ligne
i sur le s-ième axefactoriel est notée
FS (i)
etFs désigne
le s-ième facteur sur l’ensemble I.Étant
donné que dans un tableau de
contingence
leslignes
et colonnesjouent
des rôlessymétriques
l’étude desprofils-colonnes {fij fj |
i E1 il
avec lespoids f.j peut
êtreréalisée de
façon analogue. Gs désignera
le s-ième facteur sur l’ensembley.
L’obtention de ces facteurs peut être réalisée de
plusieurs façons différentes, largement
décrites dans de nombreusespublications,
dont enparticulier (Benzécri
&collaborateurs
(1973)).
Dans le but d’introduire le lecteur auxexpressions employées
au § 4,
onprésente
dans la suite une manièrepossible
d’obtention des facteurs ainsi que les relations entre les facteurs sur l et surJ.
50 A.
ZÁRRAGA,
B. GOITISOLOEn
diagonalisant
la matriceXT*X*,
où le termegénéral
deX*
est :on obtient les valeurs propres
03BB*s, s ~ S,
inertieprojetée
sur le s-ième axefactoriel,
et les vecteurs propres
us
ERJ, s E S,
normalisés pour lamétrique
euclidienne. Eten
diagonalisant
la matriceX*XT*,
on obtient les valeurs propres03BC*s
et les vecteurspropres vs
ERI, s E S,
normalisés pour lamétrique
euclidienne.Si
P*
etM* désignent
les matricesdiagonales qui
contiennent lespoids
desprofils-lignes
etprofils-colonnes, fi.
etf,j, respectivement,
onpeut
obtenir lesprojections
desprofils
de la manière suivante :puisque
la relation entre les valeurs propres et vecteurs directeurs des deuxanalyses
est :
4. Traitement simultané de
plusieurs
tableaux decontingence
Au §
2 nous avons pu vérifierl’importance
de conserver dans uneanalyse
factorielle
conjointe
de tableaux decontingence
aussi bien lespoids
que lamétrique
de chacun des tableaux et la nécessité
d’équilibrer
l’influence des tableaux enajustant
l’effectif de chacun et en introduisant une
pondération
sur chacun d’eux. Dans lasuite,
nous proposons uneanalyse conjointe
de tableaux decontingence respectant
ces conditions.
Soit 9 = {1,...,
g, ... ,G}
l’ensemble des tableaux decontingence
àanalyser.
Chacun d’entre eux classifie les
réponses
dekg..
individus à deux variablesqualitatives
codifiées en modalités. Tous les tableaux ont une des variables
(dont
lesmodalités,
I = {1, ... , i, ... , I},
se retrouvent dans leslignes)
en commun. L’autre variable dechaque
tableau decontingence peut
être la même oudifférente,
codifiée de la même manière ou d’une manière différente. Les modalités de la seconde variable dechaque tableau g
sontJg = {1, ... , j,..., Jg 1.
Enjuxtaposant
tous ces tableaux decontingence,
on obtient un ensembleJ = {1, ... , j, ... , J}
de colonnes.L’élément
kgij, correspond
au nombre total d’individusqui
choisissent simul- tanément les modalités i e l de lapremière
variableet j
E.:1g
de la seconde variable(appartenant
autableau g
EG).
Nous avons vu que
l’ajustement
des effectifs des tableaux est lepremier
pas pouréquilibrer
l’influence des tableaux(§ 2).
Pourcela,
chacun des tableaux decontingence
esttransformé,
en le divisant parkg,
total dug-ième tableau, g
EG,
enun tableau de
fréquences
relatives.On notera :
Au § 2,
nous avons conclu à la nécessité d’introduire unepondération,
quenous
appelons ag, g
E9,
sur chacun des groupes(ici
les tableaux decontingence)
avec
l’objectif d’équilibrer
l’influence des tableaux. Cettepondération dépendra
desinerties
qui
résultent d’uneanalyse
descorrespondances simples
de chacun des tableaux traitésséparément.
Ces inerties pour le tableau g, g~ G,
seront notéesAg 8 (l’inertie projetée
sur l’axes, s E S)
et03BBgTOT (l’inertie totale).
Lapondération peut
êtreéquivalente
à celle del’analyse
factoriellemultiple
pour variables continues(1/03BBg1),
celleéquivalente
à la méthode statis(L’ Hermier
des Plantes(1976)), 1/03BBgTOT
pour
privilégier
des groupes dedispersion minimale, 1
si on ne veut pas depondération
sur les
tableaux,
etc.Si l’on considère oz -
1/03BBg1, g
EG, pondération adoptée
dansl’exemple d’application (§ 5),
lapremière
valeur propre del’analyse
factorielle de l’ensemble des tableaux decontingence
seracomprise
entre 0 et G. Si on veut rester dans le cadre del’analyse
descorrespondances
et que lapremière
valeur propre del’analyse
de l’ensemble des tableaux soit
comprise
entre 0 et1,
il suffirad’adopter 03B1g/03B1
commepondération
aveca - EGEG
03B1g.4.1.
Analyse
des colonnesÀ
chacun des g, g E9,
tableaux decontingence
est associé un sous-nuage,N(Jg),
deJg profils-colonnes
centrés :avec les
poids f j
EJ9’
et lamétrique
de matrice associée la matricediagonale
des 1/fgi, i ~ I, 9 E g.
Pour
analyser
les tableauxensemble,
noussur-pondérons chaque
sous-nuage par03B1g, g ~ G
et comme ils sont tous situés dans le même espace,RI,
nous considérons le nuageglobal, N(J), qui englobe
les Jprofils-colonnes.
Dans ce nuage, lesmétriques
sont différentes pour
chaque
sous-nuage deprofils
du mêmetableau,
cequi peut
semblerempêcher l’analyse conjointe.
On
peut
transformer lesprofils-colonnes
de chacun des tableaux pour considérer leurs distances euclidiennes. Dansl’analyse conjointe
celasignifie
considérer les52 A. ZÁRRAGA, B.GOITISOLO
profils-colonnes :
avec les
poids fg.j, j
EJ,
et lamétrique
euclidienne usuelle.Dans cette
analyse,
les distances euclidiennes entreprofils-colonnes
du mêmesous-nuage
respectent
les distances du~2
dans le sous-nuageoriginal.
4.2.
Analyse
deslignes
Dans chacun
des g, g
EG,
tableaux decontingence
on définit lesprofils-lignes centrés,
avec les
poids fgi.,
i ET,
et lamétrique
de matrice associée la matricediagonale
des1/fg.j, j ~ Jg, g ~ G.
Puisque
l’on cherche àanalyser
ensemble les g, g Eg,
tableaux et que lesprofils-lignes
dechaque
tableau sontreprésentés
dans des espacesdistincts,
chacun dans un espace de dimensionJg,
il faut chercher un espace commun danslequel
onpuisse
effectuerl’analyse.
Cet espace commun estRJ,
où l’onreprésente
lesprofils- lignes
de chacun destableaux, appelés profils-lignes partiels.
Les coordonnées de cespoints correspondent
à celles définies en(2),
encomplétant
le reste des coordonnées par 0. Leprofil-ligne partiel Z’9,
i eI, 9 E 9
a alors pour coordonnées :L’ensemble des
profils-lignes partiels
d’un même tableau forment un sous-nuage depoints
que nous noteronsN(I9).
Afin d’effectuer
l’analyse conjointe,
on cherche pourchaque ligne
unrepré-
sentant, que nous noterons
iC,
i EI,
dit« compromis », qui représente
le sous-nuage deprofils-lignes
formé par tous lespoints
de la mêmeligne
dans les différentstableaux. L’ensemble de tous les
représentants
surRJ,
muni de lamétrique
de matriceassociée la matrice
diagonale
des a9/fg.j, j
EJ9
CJ,
forme le nuageN(Ic).
Lecompromis
est choisi avecl’objectif
que son inertiepuisse s’exprimer
comme unesomme
pondérée
des inerties desprofils-lignes partiels :
et que, par
conséquent,
l’inertie du nuagecompromis s’exprime
comme sommepondérée
des inerties des nuagespartiels.
Pour cela on définit lecompromis comme
moyenne
pondérée
desprofils-lignes partiels
avec lespoids
pic , i EI : 1
En
effet,
pour levérifier,
commençons par obtenir ladistance,
aucarré,
ducompromis à l’origine :
D’après
la définition duprofil-ligne partiel
vu en(3),
la seconde sommecorrespond
à la
distance,
aucarré,
d’unprofil-ligne partiel
au centre degravité
du sous-nuage formé par tous lesprofils-lignes partiels correspondants
au même tableau que nousnoterons
d2(ig, 0).
De cettemanière,
ladistance,
aucarré, peut
s’écrire :et en
multipliant
par lepoids
ducompromis,
Pic, on obtient la relation cherchée(4)
entre l’inertie du
compromis
et desprofils-lignes partiels.
4.3. Obtention
des facteurs
Afin de chercher la relation entre les
analyses
deslignes
et des colonnes dans lesdéveloppements suivants, l’analyse
factorielle de l’ensemble des tableaux decontingence
s’effectue en recherchant les valeurs propres(03BBs)
et les vecteurs propres(us), s E S,
issus de ladiagonalisation
de la matrice A =X T
X où le termegénéral
de la matrice X est :
1 Avec
03A3i~I
Pic = p ~ 1. Si l’on considèrepi
= pic/p
(avec03A3i~Ip*ic
= 1), les résultats factoriels ne se verront altérés que dans la proportion1/p.
On a considéré pic dans la mesure où cela rend les formules plus claires.54 A. ZÁRRAGA, B. GOITISOLO
De
plus,
on utilisera les matricesdiagonales
R d’ordre I x I et N d’ordre J xJ,
determes
généraux respectivement :
On définit aussi la matrice
Y, diagonale
parblocs,
oùchaque
bloc de ladiagonale
estla matrice
Xg
d’ordre(I
xJg) qui
se compose des coordonnées de la matrice X pour l’ensemble des colonnesJg
du tableau g, g EQ,
et on définit la matriceQ, diagonale
par blocs
aussi,
oùchaque
bloc est, demême,
une matricediagonale
d’ordre(I
xI)
et de terme
général if,
i EI, 9
EG.
4.4. Relation entre les vecteurs propres des deux
analyses
Puisque
dansl’analyse
deslignes
ondiagonalise
la matriceXT X
et dans celle des colonnes la matriceXXT
la relation entre les valeurs propres et vecteurs directeurs desanalyses
deslignes (Às
et us ERJ)
et colonnes(03BCs
et vs ERI)
est :4.5.
Projections
desprofils
On calcule les
projections
sur l’axe s,s E S,
desprofils-lignes partiels Fs (ig),
des
compromis Fs(ic),
i EI,
et desprofils-colonnes Gs ( j), j
~J.
Lesprojections
de tous les
profils-lignes partiels
etcompromis
sontrespectivement Fs(IG)
avecIQ == {Ig/g ~ G
etFs(Ic)
et de toutes les colonnesGs(J).
Lesprojections
surl’axe s,
s ~ S,
deslignes
et colonnes sont calculées en sachantqu’il
est nécessaired’éliminer l’effet de l’introduction des
poids
et lesprofils-lignes partiels
sontprojetés
comme
supplémentaires
en éliminant aussi l’effet de l’introduction dupoids :
4.6.
Propriétés
desfacteurs
Les
projections
desprofils-colonnes
ainsi que celles desprofils-lignes partiels
sont
centrées,
danschaque
tableaupartiel,
pour leurspoids.
e
À partir
de la relation(10)
on obtient lesprojections
sur l’axes, s E S,
d’une colonnedéterminée j, j
EJ, G, (j) :
où V si est la i - ième coordonnée du vecteur directeur vs, s E S.
Le
barycentre
de cesprojections
pour le tableaupartiel g
est :c’est-à-dire,
lesprojections
des colonnes sont centrées parce que les colonnes dechaque tableau,
et donc del’ensemble,
ont été centrées.e La
projection
sur l’axe s,s ~ S,
pour unprofil-ligne partiel
est,d’après
larelation
(11) :
avec Usj
la j -
ième coordonnée du vecteur directeur Us, s E S.D’où,
lebarycentre
desprojections
desprofils-lignes partiels correspondant
augroupe g, g E
9,
est :2022 La
projection
sur l’axes, s E S,
d’uncompromis
vient de(9) :
56 A. ZÁRRAGA, B. GOITISOLO
En
conséquence,
lesprojections
descompromis
ne sont pas centrées pour leurspoids,
Pic.a Les
profils
dechaque
tableau(profils-lignes partiels
etprofils-colonnes)
ontété centrés pour conserver les relations à l’intérieur de
chaque
tableau et parconséquent
leursprojections
sont aussi centrées. Lescompromis
sont unemoyenne
pondérée
desprofils-lignes partiels
avec despondérations
différentes despoids
desprofils-lignes partiels
et donc ne sont pascentrées,
et leursprojections
nonplus.
4.7. Relations entre
Fs (ig), Fs (ic)
etGs (j)
De même que dans
l’analyse
descorrespondances simples,
il y a des relations de transition entre lesprojections
deslignes (compromis)
et colonnes. Onpeut
deplus
les mettre en relation avec lesprojections
desprofils-lignes partiels.
1. Relation entre
Fs (iC)
etFs (ig)
La
projection
d’uncompromis
obtenue en(14) peut
êtreexprimée
àpartir
del’expression (13) :
Dans la
projection,
de même que dansl’espace,
lecompromis
est une moyennepondérée
desprojections
desprofils-lignes partiels.
2. Relation entre
Fs(ig)
etGs(j)
En
pré-multipliant
la relation(7)
parQ-1/2
Y et enexprimant
le résultat enfonction des
projections
sur l’axes, SES,
on obtientcompte
tenu de(10)
et(11) :
La
projection
sur l’axes, sES,
pour unprofil-ligne partiel
est, en fonctiondes
projections
des colonnes :Comme la seconde somme est,
d’après (12),
nulle :À part
lapondération
du groupe03B1g
et le coefficientÀs -1/2,
laprojection
d’un
profil-ligne partiel
sur l’axe s,sES,
est, comme dansl’analyse
descorrespondances classique
d’untableau,
lebarycentre
desprojections
desprofils-colonnes correspondant
au tableauauquel
ilappartient.
3. Relation entre
Fs (ic)
etGs (j)
En
exprimant
laprojection
sur l’axes, s ~ S,
ducompromis
en fonction desprojections
sur le même axe desprofils partiels (15)
et ceux-ci en fonction desprojections
des colonnes(16),
on obtient :La
projection
ducompromis
estdonc,
aux coefficients03B1g
etÀs -1/2 près,
la moyenne
pondérée
desprojections
desbarycentres
desprofils-colonnes correspondant
àchaque
tableau.4. Relation entre
G, (j)
etFs(ic)
ouFs(ig)
En
pré-multipliant
la relation(8)
parN-1/2 X T ,
etcompte
tenu de(9)
et(10),
nous obtenons les
projections
sur l’axes, s E S,
des colonnes en fonction descompromis :
58 A.
ZÁRRAGA,
B. GOITISOLOLa projection sur l’axe s, ~ S,
duprofil-colonne j
dugroupe g, j
EJg, 9
Eg,
peut donc être
exprimée
de la manière suivante :Une colonne se situe du côté des
compromis auxquels
elle s’associeplus qu’elle
ne le ferait dans
l’hypothèse d’indépendance
et du côtéopposé
de ceuxauxquels
elle s’associe moins que dans
l’hypothèse d’indépendance.
La même
projection
en fonction desprofils-lignes partiels :
4.8. Aides à
l’interprétation
Dans
l’analyse proposée,
onpeut
obtenir les mêmes aides àl’interprétation
quedans les
analyses
factorielles habituelles.4.8.1. Contributions des
points
à laformation
des axesLes contributions des
points
à la formation de l’axes, s ~ S,
sont calculées de la manière habituelle en divisant l’inertieprojetée
d’unpoint (poids
par coordonnéeau
carré)
par la somme des inerties de tous lespoints
du nuage sur l’axe s, c’est-à-dire :puisque :
4.8.2.
Qualité
dereprésentation
despoints
sur les axesLa
qualité
dereprésentation
d’unpoint
sur l’axes, s E S,
se mesure par lescontributions relatives. On les calcule par le
quotient
de l’inertieprojetée
dupoint
surl’axe s,
s ~ S,
sur l’inertie totale dupoint
ou par le carré de laprojection
sur l’axes, s E S,
sur ladistance,
aucarré,
dupoint
àl’origine :
avec pour
distance,
aucarré,
de lacolonne j, j E J
àl’origine :
et pour la
distance,
aucarré,
ducompromis
àl’origine
celle trouvée en(5).
4.9.
Cas particulier : fgi
nedépend
pas du tableau gUn cas
particulier
de laprésente analyse
seprésente quand f 9,
i EI, 9 E g,
coïncide dans
les g tableaux, fgi.
=fi.,
seul casenvisagé
pourl’analyse
factoriellemultiple
par Escofier &Pagès (1998).
Alors
l’analyse
descorrespondances
du tableaupondéré :
où le tableau de
fréquence fi J , g E 9 (correspondant
autableau g E 9
et dont leterme
général
estfgij,
i eT, j E :19
CJ, g
Eg)
a étépondéré
par le coefficient03B2g, g ~ 9,
est similaire àl’analyse proposée
dans cet article si ona 03B2g03B2 =
ag, avec(3 = 03A3g~G (3g,
ce que nous supposerons dans la suite de ceparagraphe.
L’étude
théorique
des relations entre les deuxanalyses
est facilitée si l’on considérel’analyse
descorrespondances
dans la formespécifiée au § 3,
la matriceX*
définie àpartir
de(1)
pour le tableau03B4IJ
étantidentique
à la matrice X donnée par(6).
Dans
l’analyse
que nous proposons, lecompromis
est ici iCG g~Gig,
i E
T,
avec lepoids 2
pi= G2fi., tandis
que dansl’analyse
descorrespondances
du tableau
8IJ,
cecompromis qu’on
noterasimplement i, correspond
à la i-èmeligne (en
fait à sonprofil)
de81 J
avec lepoids fi..
Le
profil partiel
ig de i dansl’analyse
descorrespondances
de03B4IJ correspond
àla
ligne
i de03B4IJ
dont on ne conserve que les termes{03B4ij| j
EJg},
les autres termes étantannulés, ligne
dont onprojette
leprofil
ensupplémentaire.
Notons
F’s(i), F,(ig)
etG’s (j)
lesprojections
dei,
iget j ( j
~Jg)
sur le s-ièmeaxe factoriel issu de
l’analyse
descorrespondances
de81 J .
2 voir note au bas de la page 53.
60 A. ZÁRRAGA, B. GOITISOLO On a, en conservant les notations
du §
4.5 :Dans
l’analyse
descorrespondances
de03B4IJ,
i est lebarycentre
des igpondérés
parles ag
(puisque L
a9 =1)
tandis que dans notreanalyse ic
est le centre degravité
9EQ
des ig affectés des masses
1/G.
Les différences entre notre
analyse
etl’analyse
descorrespondances
de81 J proviennent
essentiellement du fait que dans cette dernière l’introduction de lapondération 03B2g
maintient lespoids
duprofils-lignes
mais modifie lespoids
desprofils-
colonnes
(dans
le tableau03B4IJ
parrapport
aux tableauxfgIJg).
5.
Exemple d’Application
Pour
appliquer
la méthodeproposée,
dans cetravail,
méthode que nousappellerons analyse simultanée,
et la comparer à certaines des méthodesexistantes,
notamment dans ce cas
l’analyse
dela juxtaposition
etl’analyse intra,
on a sélectionné les données del’exemple Shoplifting
1977/1978 d’Israëls(1987).
Dans cet
exemple
on considère les deux tableaux decontingence,
un pour les hommes et un autre pour lesfemmes,
dérivés de la table ternairequi répartit
unepopulation
desuspects
de voler suivant les critères du sexe, del’âge
des personnes et dutype
d’article volé.Les
catégories d’âge
considérées pour les deux sexes sont : 12(moins
de12
ans), 12-14, 15-17, 18-20, 21-29, 30-39, 40-49, 50-64,
65+(65
ans ouplus).
Lestypes
d’articles volés sont identifiés comme : CLOT : articlesd’habillement,
CLAC : accessoiresd’habillement,
TOBA :tabac,
WRIT : matérield’écriture,
BOOK :livres,
RECO :disques-musique,
HOUS :appareils ménagers,
SWEE :bonbons,
TOYS :jouets,
JEWE :bijoux,
PERF :parfum,
HOBB :hobbies,
et OTHE : autres.Tableau concernant les hommes
Tableau concernant les femmes
5.1.
Analyses séparées
de deux tableaux :type
d’article volé parâge
Afin d’étudier les relations existantes entre les deux variables
nominales,
type d’article volé etâge,
selon le sexe, on aappliqué l’analyse
decorrespondances
àchaque
tableaupris séparément.
Sur lafigure 1,
on montre lesplans
factoriels formés par les deuxpremiers
axes del’analyse
du tableau des hommes et del’analyse
dutableau des femmes. Les deux
plans représentent
88.55% et 91.15% desinerties,
0.3952 et0.4244,
des tableauxrespectifs,
lapremière
valeur propre de lapremière analyse
valant0.3047,
tandis que celle de la seconde vaut0.3231,
l’inverse de cesvaleurs propres servant de
pondération
dansl’analyse
simultanéeprésentée au §
5.3.En
guise
de brèveinterprétation,
onpeut
dire que dans les deuxplans
on observe que lescatégories d’âge
seprojettent
suivant unetrajectoire curviligne.
62 A. ZÀRRAGA, B. GOITISOLO
Le
premier facteur,
dans les deuxanalyses,
montre comment les personnes lesplus jeunes, jusqu’à
14 ans, sontattirées, fondamentalement,
par le vol dejouets (TOYS),
de bonbons(SWEET)
et de matériel d’écriture(WRIT)
paropposition
auxpersonnes
d’âge intermédiaire, qui
se sententplus attirées,
au moment devoler,
par des articles d’habillement(CLOT).
Le second
facteur,
dans le cas du tableau deshommes,
montre fondamentale- ment que l’intérêt pour le vol debijoux (JEWE)
et dedisques (RECO)
est faibleparmi
les enfants de moins de 12 ans et les adultes deplus
de 65 ans et élevé chez lesadolescents de 15 à 17 ans.
Dans le cas de
l’analyse
du tableau desfemmes,
le second facteur met enévidence la forte attirance que le vol de tabac
(TOBA)
exerceparmi
les femmes deplus
de 65 ans, alors quecelles-ci,
à leur tour, ne sont nullement attirées par le vol d’articles d’ habillement(CLOT)
et debijoux (JEWE) plus
propre aux femmes ayantentre 15 et 17 ans.
5.2.
Analyse de la juxtaposition
des deux tableaux et de leur sommeÀ
cepoint
nous renvoyons le lecteur àl’ouvrage
cité d’Israëls(1987)
pourl’interprétation
del’analyse
du tableau 13 x 18 résultant de lajuxtaposition
des deuxtableaux. Nous mentionnerons brièvement que le
premier
facteur discrimine entre lescatégories d’âge,
mettant enopposition
les mineurs de moins de 14 ans et les personnesd’âge
intermédiaire et le second entre les modalités de la variable sexe, associant aux femmes les vols d’habillement et debijoux
et montrant que les vols de hobbies sont fondamentalement commis par les hommes.Il est bien connu que, dans cette
analyse,
l’inertie totale du tableaujuxtaposé
peut se
décomposer
en une inertie inter-niveauxd’âge
et intra-niveauxd’âge,
ainsiqu’en
une inertie inter-tableaux et intra-tableaux.Bien que dans
l’exemple analysé chaque
axecorresponde
fondamentalement àun
type
d’inertie(intra-tableaux
sur l’axe 1 et inter-tableaux sur l’axe2),
il est courant de trouver des axesqui prennent
encompte
les deuxtypes d’inertie,
encompliquant
leur
interprétation. L’analyse
de l’inertie inter-tableauxpeut
être réalisée parl’analyse
du tableau somme. En ce cas, il
correspond
à un tableau 13(articles volés)
x 2(hommes
et
femmes) qui
neprésente
pas d’intérêt.L’analyse
du tableau13x9,
somme des deux tableaux des hommes et desfemmes,
avec ces deux derniers tableaux commesupplémentaires,
nerépond
pasà
l’objectif
que recherche la méthodeproposée
dans ce travail.Toutefois,
sachantqu’il s’agit
d’une méthodeclassique
dans lacomparaison
de tableauxbinaires,
nousnous livrerons à un bref commentaire la concernant. Cette
analyse permet
d’étudier l’inertieinter-catégories d’âge
étant donnée que l’onanalyse
le nuage moyen desprofils-colonnes correspondant
à la mêmecatégorie d’âge.
L’interprétation
des deuxpremiers
axes est très similaire àl’interprétation
réalisée dans
l’analyse
du tableau des hommes(et
coïncide avecl’interprétation
del’analyse
du tableau des femmes sur lepremier axe).
Ces résultats montrent comment le tableau deshommes,
dont l’effectif est environ le double de celuicorrespondant
au tableau des
femmes,
exerce uneplus grande
influence dansl’analyse
du tableausomme, situation que l’on essaie d’éviter avec la méthode
proposée.
La
projection,
comme élémentssupplémentaires,
desprofils-lignes
et desprofils-colonnes
des tableaux des hommes et des femmes met en évidence desgrandes
différences entre les
projections
deprofils homologues.
Les différences entre les tableaux ne sont pas nettement mises en évidence par cettetechnique.
5.3.
Analyse
Intra etAnalyse
SimultanéeDans le but d’étudier la
partie
intra de l’inertie du tableaujuxtaposé,
on voitsurgir l’analyse
intra(Escofier (1983)).
Dans cetteanalyse,
lapartie
inter de l’inertie s’élimine pour considérerchaque
sous-nuage deprofils-colonne
du même tableau(sous-nuage
de colonnes deshommes,
d’unepart,
et sous-nuage desfemmes,
d’autrepart)
centré sur son propre centre degravité.
Le nuage ainsi formé maintient les distances intra entre colonnes. Il faut noter,
toutefois,
que cette distance est calculée àpartir
de lamétrique
définie par lamarginale
du tableau
juxtaposé,
et ne coïncide pas avec les distances calculées dansl’analyse
dechaque
tableaupris séparément.
Deplus,
lespoids assignés
à cesprofils
ne coïncidentpas non
plus
dansl’analyse
intra(égaux
auxpoids
utilisés dansl’analyse
du tableaujuxtaposé)
avec ceuxassignés
dansl’analyse
dechaque
tableaupris séparément.
Laconséquence
en est que l’identité dechaque
tableau seperd
si l’on réalisel’analyse
sur les
marginales
du tableaujuxtaposé.
Dans
l’analyse simultanée,
en dehors du fait que les sous-nuages sont centrés parrapport
à leur propre centre degravité, chaque
tableauparticipe
avec ses proprespoids
et sa propremétrique.
Cette méthodeprend
encompte
les effectifs différents dechaque
tableau et lesmarginales
différentes que lestypes
d’articles volés ont pour les hommes et les femmes.La
figure
1 montre aussi lespremiers plans
factoriels des deuxanalyses (intra
et
simultanée)
danslesquels
lespourcentages
d’inertie sontrespectivement
82.55%et 83.79%. La
ligne
continuereprésente
latrajectoire d’âge
des femmes et laligne
discontinue celle des hommes. On observe que dans le
plan
factoriel del’analyse
simultanée se maintiennent avec une fidélité non
négligeable
les relations internes à chacun des tableaux.Les différences
qui s’apprécient
entre les deuxplans
sont dues àl’utilisation,
ainsiqu’il
a étédit,
demétriques
et depoids
différentsqui
influent entre autres choses dans le calcul des distances et, parconséquent,
des inerties despoints.
Dans
l’exemple,
les différencess’apprécient
sur le second facteur. Dansl’analyse intra,
ce facteur met en évidence l’attirance des femmes de 21 à 39 ans, pour le vol d’ habillement(CLOT).
Le second facteur del’analyse
simultanée met enévidence l’inclination au vol de tabac
(TOBA)
de la part des femmes deplus
de 65ans et non vers celui des
bijoux (JEWE)
etdisques-musique (RECO), plus
propre des femmes de 12 à 17 ans, ce dernier fait étant observé dansl’analyse séparée
du tableaurelatif aux femmes.
64 A. ZÁRRAGA, B. GOITISOLO
FIGURE 1