R EVUE DE STATISTIQUE APPLIQUÉE
J. P AGÈS
Analyse factorielle de données mixtes
Revue de statistique appliquée, tome 52, n
o4 (2004), p. 93-111
<http://www.numdam.org/item?id=RSA_2004__52_4_93_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE DE DONNÉES MIXTES
J.
PAGÈS
Laboratoire de
mathématiques appliquées
Pôle
d’Enseignement Supérieur
et de RechercheAgronomique,
35042 Rennes cedexemail :
pages@agrorennes.educagri.fr
RÉSUMÉ
Une
méthodologie
factorielle permettant d’inclure à la fois des variablesquantitatives
et
qualitatives
en tantqu’éléments
actifs d’une mêmeanalyse
a étéproposée
par B. Escofier (1979) dans le cadre de l’ACM. Il est montré ici que cetteapproche
se confond d’une part avec laméthodologie esquissée
parSaporta
(1990a) dans le cadre de l’ACP, et d’autre part avec uneAFM dans
laquelle chaque
variable constitue un groupe à elle seule. L’ensemble de ces troispoints
de vue confère à la méthodeproposée
par B. Escofier le statut d’une méthode à part entière dotée deplusieurs
bonnespropriétés
et facile à mettre en oeuvre. En combinant cette méthode avec l’AFM, il estpossible
de réaliser une AFM sur des groupes de variables mixtesce
qui
est unepossibilité
nouvelle. Uneapplication
de cette extension de l’AFM estprésentée.
Mots-clés :
Analyse
en composantesprincipales, Analyse
descorrespondances multiples, Analyse factorielle multiple,
Données mixtes.ABSTRACT
In the framework of
multiple correspondence analysis,
B. Escofier (1979)proposed
afactor
analysis
in which bothquantitative
andqualitative
variables can intervene as active ones.Here it is shown that this
approach
isequivalent
to the one outlinedby Saporta
(1990a) in theprincipal
componentsanalysis
framework and to amultiple
factoranalysis
(MFA) in which each set of variables iscomposed by only
one variable. All theseequivalences
lead to a method (factoranalysis
for mixed data : FAMD)having
severalgood properties
and easy toperform.
Combining
FAMD and MFA, it ispossible
to extend the field of MFA to mixed sets of variables.An
application
of such an extension of MFA is described.Keywords : Principal
componentsanalysis, Multiple correspondence analysis, Multiple factor analysis,
Mixed data.L’introduction simultanée de variables
quantitatives
etqualitatives (données
dites
mixtes)
en tantqu’éléments
actifs d’une mêmeanalyse
factorielle est uneproblématique fréquente.
Laméthodologie
usuelle consiste à transformer les variablesquantitatives
enqualitatives
endécoupant
en classes leur intervalle de variation età soumettre le tableau
homogène
ainsi obtenu à uneanalyse
descorrespondances
multiples (ACM).
Cetteméthodologie
est relativement facile à mettre en oeuvre etéprouvée
dès lors que les individus sont un tant soit peunombreux,
disons au delà d’une centaine pour fixer lesidées,
limite endeçà
delaquelle
l’ACM donne des résultats peu stables.L’intérêt de conserver telles
quelles
les variablesquantitatives reprend
ses droitsdans deux cas :
2022
lorsque
le nombre de variablesqualitatives
est trèspetit comparé
à celui desvariables
quantitatives : ainsi, peut-on
hésiter à recodervingt
variablesquanti-
tatives dans le seul but de
pouvoir
introduire une seule variablequalitative;
2022
lorsque
le nombre d’individus est faible.Plusieurs
propositions d’analyse
factorielle de données mixtes ontdéjà
étéfaites : on en trouvera une
synthèse
concise dansSaporta (1990a). Beaucoup
de travaux
reposent
sur la notion de«codage optimal »
c’est-à-direl’affectation,
satisfaisant un certaincritère,
de valeursnumériques
aux modalités. Ainsicodées,
les variablesqualitatives peuvent
être traitées comme des variablesquantitatives (Young, 1981;
Tenenhaus &Young, 1985)
cequi conduit, lorsque
les variables sont toutesqualitatives,
à desméthodologies
dont l’intérêt n’est pas évident pour un utilisateur de l’ACM. Mais ceci ouvre naturellement la voie à un traitement simultanée des deux types de variables(Tenenhaus, 1977; Young et al., 1978). Adoptant
lepoint
de vue de
l’ACM,
Escofier(1979)
aproposé
d’introduire des variablesquantitatives (moyennant
uncodage approprié)
dans une ACM : elle décritplusieurs propriétés
decette
méthodologie
ainsiqu’une application.
Il est
possible,
moyennant unemétrique judicieusement choisie,
de réaliser une ACP sur un tableaujuxtaposant
des variablesquantitatives
réduites et des variablesqualitatives
codées sous formedisjonctive complète.
Cettepossibilité
estesquissée
dans
Saporta (1990a)
sous le nom d’extension de l’ACP et de l’ACM maisl’auteur, après
avoir mentionné les insuffisances desreprésentations
des variablesauxquelles
cette extension
conduit,
ne conclut pas à un intérêtpratique
de la méthode.Enfin, lorsque
les variables constituent des groupeshomogènes (i. e.
les variables d’un même groupe sont de mêmetype),
uneanalyse
factoriellemultiple (AFM)
peut être réalisée(Escofier
&Pagès, 1998,
p.173; Pagès, 2002).
Dans cet
article,
nous reprenons les idées de B. Escofier( 1979)
et les transposons dans le cadre de l’ACP. On obtient ainsi une nouvellepossibilité
de mettre enoeuvre la méthode
qu’elle
proposa,possibilité qui
se confond avec l’extension citée parSaporta (1990a).
Enregroupant
lespropriétés
induites par les deuxpoints
devue, on obtient une méthode assez riche que nous
appelons Analyse
Factorielle de Données Mixtes(AFDM).
L’AFDM est ensuitecomparée
à lapratique empirique qui
consiste à introduire directement des indicatrices dans une ACP. On montre enfinson
équivalence
avec une AFM danslaquelle chaque
groupe est réduit à unevariable, quantitative
ouqualitative.
En
conjuguant
la variante ACP de la méthode de B. Escofier etl’AFM,
on obtient une méthode factorielleprenant
en compte des groupes de variablesmixtes,
c’est-à-direpouvant
inclure des variables des deuxtypes.
Lespossibilités
de l’AFMsont ainsi enrichies. La mise en oeuvre de cette extension
peut-être
réalisée avec unprogramme usuel d’AFM. Un
exemple
illustre cettepossibilité.
1.
Données,
notationsNous
disposons
de I individus.Usuellement, chaque
individu i est muni dupoids
pi tels queEipi
= 1. Poursimplifier,
nous supposons les individus de mêmepoids,
soit pi -1/I
Vi. Ces individus sont décrits par :2022
Ki
variablesquantitatives {k = 1, Ki 1;
ces variablesseront toujours supposées
centrées-réduites;
ceci n’est pas une commodité mais une nécessité due à laprésence
des deuxtypes
devariables;
2022
Q
variablesqualitatives lq - 1, Q};
laqe
variableprésente Kq
modalités{kq
=1, K.1;
l’ensemble des modalités a pourcardinal ’E qK q == K2 ;
on notepkq
laproportion
des individuspossédant
la modalitékq.
Soit K =
KI
+K2
le nombre total de variablesquantitatives
et de variablesindicatrices.
Ces notations
peuvent
être rassemblées dans le tableau de lafigure
1 danslequel
les variables
qualitatives apparaissent
à la fois sous leur forme condensée et sous leur formedisjonctive complète.
FIGURE 1
Structure des données
et principales
notationsxik : valeur de i pour la variable
(centrée-réduite)
kXiq : modalité de i pour la variable q
Xikq :
1 si ipossède
la modalitékq
de la variable q et 0 sinon2.
Représentation
des variables dansRI
Soit
RI l’espace
des fonctions sur I. Cet espace est muni de lamétrique diagonale
despoids
des individus notée D : D(i, j)
= 0si j ~
i= pi si j = i
Généralement les individus ont le même
poids :
D =(1/I )Id (en
notantId
lamatrice identité de dimension
convenable).
Comme en ACP
normée,
les variablesquantitatives
sontreprésentées
par des vecteurs delongueur
1.Comme en
ACM,
lavariable q
estreprésentée
par le nuageNq
de sesKq
indicatrices centrées. Ce nuage
engendre
le sous-espaceEq
de dimensionKq - 1,
ensemble des fonctions sur I centrées et constantes sur les classes de la
partition
définie par q. Pour que
Nq ait,
dans une ACP nonnormée,
les mêmespropriétés
inertielles que dans une
ACM,
il faut affecter à l’indicatricekq
lepoids 1/pkq (en
toute
rigueur,
obtenir exactement l’inertie de l’ACM nécessite lepoids 1/Qpkq,
cequi
« moyenne » les inerties par le nombre devariables, propriété
indésirable ici où les variablesqualitatives
sont confrontées à des variablesquantitatives
dont les inertiesne sont pas «
moyennées »).
Comme les programmes d’ACP usuels nepermettent
pas l’introduction directe de
poids
decolonnes,
onpréfèrera
diviser les valeurs de l’indicatricekq
parpkq.
Onparlera
alors decodage
ACM de l’indicatricekq.
En
procédant ainsi,
on obtient enparticulier
lapropriété
fondamentale suivante de l’ ACM : l’inertieprojetée
deNq
sur une variablecentrée y
estégale
au carré durapport
de corrélation7]2 ( q, y)
entre q et y. Eneffet,
en notant11 k q
la moyenne de y pour les individuspossédant
la modalitékq
ets2y
la variance de y, on a,puisque
lacolonne
kq
codée ACM a pour moyennepkq
et que y est centré :Si l’on choisit y dans
Eq,
on obtient~2(q, y) = 1 :
dansEq,
l’inertie deNq
estisotrope, propriété classique
de l’ACM.En recherchant la direction v de
RI qui
rend maximum l’inertieprojetée
du nuage
NK (comportant
les variablesquantitatives
et lesindicatrices),
on rendmaximum le critère :
point
dedépart
de laproposition
deSaporta (1990a p.66).
Géométriquement,
les variables k étantréduites, r(k, v) = cos03B8kv,
en notant03B8kv l’angle
entre les vecteurs k et v. Demême,
v étantcentrée, ~2(q, v) = COS2 Bqv
en notant
()qv l’angle
entre v et saprojection
surEq (cette propriété
estgénéralement
établie avant le
centrage
desindicatrices, cf. Saporta
1990bp.149;
elle vaut aussiaprès
cecentrage).
Le critère s’écrit alorspoint
dedépart
de laprésentation
de l’AFDM par Escofier(1979).
Dans sa
présentation
del’AFDM,
Escofier(1979) adopte
unpoint
de vuetechnique symétrique
de celui choisi ici : elle seplace
dans le cadre de l’ACM etcode la variable
quantitative
defaçon
à obtenir un tableau traitable dans ce cadre.Il
s’agit
donc bien de la mêmeméthode,
dont les résultatspeuvent
être obtenus de différentesfaçons.
Remarque
surl’influence
des deux types de variables Dansl’espace RI :
2022 une variable
quantitative
estreprésenté
par un vecteur associé à une inertie de1 ;
2022 une variable
qualitative
àKq
modalités estreprésenté
parKq
vecteurs engen-drant un sous-espace
Eq
de dimensionKq - 1,
l’ensemble étant associé à une inertie deKq -
1.Comme en
ACM,
l’inertie totale d’une variablequalitative
est d’autantplus grande qu’elle présente beaucoup
demodalités;
mais enprojection
sur une directionquelconque
deEq,
cette inertie vaut 1. En ce sens, les variables des deuxtypes
sontéquilibrées
dans la recherche de directions d’inertiemaximum,
cequi
est bien traduit par l’une ou l’autre des deux écritures du critère ci-dessus.3.
Représentation
des individus dansRK
L’espace RK
a pour dimensions lesK1
variablesquantitatives
et lesK2
indicatrices. Il est muni de lamétrique
euclidienne usuelle.La distance entre les individus i et s’écrit :
avec comme cas
particulier important,
la distance entre un individu et le centre degravité
du nuage. Ce centre degravité
est confondu avecl’origine
0 dès lors que les variables sont centrées ce que nous avonssupposé
d’emblée pour les variablesquantitatives;
pour les indicatricescodées ACM, compte
tenu de la divisionpar pkq,
la moyenne de la colonne
kq
vautpkq.
On obtient finalement :
en notant
q(i)
la modalité de lavariable q possédée pari
etPq(i)
laproportion
associée.Les variables
quantitatives
contribuent à cette distance exactement commeelles le font dans l’ACP
portant
sur ces seulesvariables;
les variablesqualitatives
contribuent à cette distance
(au
coefficient1 /Q près)
comme elles le font dans l’ ACM de ces seules variables.Il reste à s’assurer de
l’équilibre
entre les influences des deuxtypes
de variables dans ces relations. Il est naturel de mesurer l’influence d’une variable parsa contribution à l’inertie de l’ensemble des
points.
Les considérations établies dansRI
setransposent
dansRK
par dualité. Enparticulier,
dans le sous-espace deRK engendré
par lesKq
modalités de la variable q, laprojection
du nuage des individusa une inertie de
Kq -
1répartie
defaçon isotrope
dans toutes les directions de cesous-espace.
4.
Graphiques
Comme dans toute
analyse
factorielle onreprésente :
2022 le nuage des individus par sa
projection
sur ses axes d’inertie(on
noteFs (i)
laprojection
de l’individu z sur l’axe de rangs);
2022 les variables
quantitatives
par leur coefficient de corrélation avec les facteursFs;
2022 les modalités de variables
qualitatives
par les centres degravité
des individuscorrespondant (on
noteFs (kq)
laprojection,
sur l’axe de rang s, du centre degravité
des individuspossédant
la modalité k de la variableq).
Il
peut
être commode dereprésenter
les indicatrices comme des variablesquantitatives.
Le coefficient de corrélation entre une indicatricekq
et le facteurFs
peut
s’écrire,
en utilisant le fait que le facteurFS
est centré(Dagnélie, 1998,
tome1, p. 133) :
Il est
égal
aurapport
de corrélation entreFs
et la variablequalitative
à deuxmodalités associée à
kq.
Parrapport
à lareprésentation
des centres degravité,
onécarte les
points correspondant
à un effectif fort.5. Relations de transition
On
applique
ici les formulesgénérales
de l’ ACP au tableau codé commeindiqué
en 2.
5.1. Relations de
RI
versRK
Soit
Gs (k)
la coordonnée de la colonne k sur l’axe de rang s.Cas d’une variable
quantitative :
Cas d’une modalité
kq
de lavariable q ayant
lafréquence
relativepkq.
On a,puisque Fs
est centré :La
représentation
des indicatrices transformées(Gs(kq))
ne semble pasprésenter d’avantages
parrapport
à celle des centres degravité (Fs (kq)).
5.2. Relation de transition de
RK
dansRI
Cette relation est fondamentale en ACM où elle
exprime
laposition
d’unindividu par
rapport
aux modalitésqu’il possède.
Elle est rarementexplicitée
enACP mais est
sous-jacente
auxinterprétations.
Pourl’AFDM,
elle s’écrit :Le
premier
membre est celui de l’ACP usuelle. Ilexprime qu’un
individu setrouve
globalement
du côté des variables pourlesquelles
il a une valeur au-dessus de la moyenne et àl’opposé
des variables pourlesquelles
il a une valeur au-dessous de la moyenne.Le second
peut
s’écrire en fonction deFs(kq), grâce
à la seconde relation du§5.1:
Il
exprime qu’un
individu est, au coefficientA g près,
aubarycentre
des modalitésqu’il possède. Finalement,
un individu se trouve à la fois du côté des variables pourlesquelles
il a une forte valeur et du côté des modalitésqu’il possède.
6.
Comparaison
avec l’ACP avec indicatrices(ACPi)
On
peut
songer à introduire directement des variablesqualitatives
codées endisjonctif complet
dans une ACP(normée), technique
que nous notons ACPi. Unecomparaison
entre l’ACPi et l’AFDMpeut
être réaliséerapidement
au travers dunuage des indicatrices
qu’une
même variableV, présentant
mmodalités,
induit(dans
RI )
dans les deux cas.Ces indicatrices
engendrent
le même sous-espaceEv
à(m - 1)
dimensionsdans les deux méthodes. Leur inertie totale vaut m
(ACPi)
ou m - 1(AFDM) :
cesinerties diffèrent donc surtout pour m faible.
La
répartition
de cette inertie dansEv
estisotrope
dans l’AFDM etirrégulière
dans l’ACPi. On
peut approcher
intuitivement cetterépartition
au travers du coefficient de corrélationr(a, b)
entre les indicatrices de deux modalités a et b d’une même variable. En notant Pa(resp. Pb)
lafréquence
relative de la modalité a(resp. b),
on a :Si toutes modalités ont le même
effectif, r (a, b) = -1/(m - 1).
Cette valeur constante, combinée avec la dimension m - 1 deEv,
assurel’isotropie
de l’inertie dansEv, propriété
fondamentale de l’ACM(démonstration
enannexe).
Il en résulteque,
lorsque
les modalités d’une même variablepossèdent
le même effectif :2022 si en outre les
Q
variablesprésentent
le même nombre m demodalités,
l’ACPiconduit,
à un coefficientprès,
aux mêmes valeurs propres et aux mêmes composantesprincipales
que l’ACM. Dans ce cas, l’inertie totale des nuagesanalysés
vautQm en
ACPi et m - 1 en ACM : on passe donc des valeurs propres de l’ ACPi à celle de l’ACM par le coefficient(m - 1) /Qm;
2022 si les variables ne
possèdent
pas le même nombre demodalités,
l’ACPiéquivaut
à une ACM
pondérée (Cazes, 1980; Pagès 2002) particulière
danslaquelle chaque
variable(ayant
mmodalités)
est, par rapport àl’ ACM, surpondérée
parm/ (m - 1).
Enpratique,
rien nejustifie
cettepondération.
En
ACPi,
la coordonnée de la modalité a lelong
de l’axe s(notée G s (a))
estégale
au coefficient de corrélation entre l’indicatrice de a et lacomposante principale
vs noté
r(vs, a).
Ce coefficient est relié à la coordonnée(le long
de l’axe de rangs)
du centre degravité
des individuspossédant
a(noté Fs (a))
par la relation :Dans le cas ci-dessus de
l’équivalence
entre ACPi et ACM(lorsque
toutes lesmodalités ont le même
effectif),
lareprésentation
des modalités estidentiques
à cellede l’ACM
(au
coefficient1/(m - 1) près). Sinon,
parrapport
à lareprésentation
de
l’ ACM,
les modalités sont d’autantplus éloignées
del’origine qu’elles possèdent
un effectif
important.
Lorsque
les effectifs des modalités d’une même variablediffèrent,
le relationplus
hautexprimant r(a, b)
montre que les modalités de faible effectif sontproches
de
l’ orthogonalité
et les modalités de fort effectif ont tendance às’opposer.
Ceci peut être illustrégéométriquement
dans le cas de variables à 3 modalitéspuisque
dans cecas ces modalités
appartiennent
à unplan
deRI (figure 2).
La modalité c est fixée sur l’axe horizontal. Les secteurs en
pointillés
montrentles domaines de variation de a et b selon leur effectif. Il en résulte que l’ACPi fait
jouer,
dans la construction despremiers
axes un rôleplus grand
aux modalités ayantun fort effectif.
Conclusion. L’ACP sur tableau
disjonctif complet (ACPi)
n’est évidemment pas unepratique
à recommander. Ellepeut
néanmoins conduire à des résultatsempiriquement
FIGURE 2
Représentation
de l’ensemblela, b, cl
des indicatrices des trois modalités d’une variablequalitatives
dans le sous-espace(de RI) qu’elles engendrent.
La modalité c
est fixée
sur l’axehorizontal;
les secteurspointillés
montrentles domaines de variation de a et b selon leurs
effectifs
exploitables
du fait de sonéquivalence
avec l’ACMlorsque
toutes les modalités ont le même effectifquelle
que soit la variable.7.
Equivalence
avecl’analyse
factoriellemultiple (AFM)
En
AFM,
les groupes de variables sontpondérés
defaçon
à rendreégale
à 1 leurinertie axiale maximum. En introduisant un tableau de données mixtes dans
lequel chaque variable, quantitative
ouqualitative,
constitue un groupe, on obtient donc les résultats de l’AFDM :- les variables
quantitatives
sontcentrées-réduites ;
- les variables
qualitatives
sont codées comme en ACM.L’idée
d’appliquer
l’AFM à des groupes constitués chacun d’une seule variablequantitative
ouqualitative
àdéjà
étéproposée (Abascal-Fernandez
et al.2003).
8.
Analyse
FactorielleMultiple
pour groupes de Données Mixtes L’AFM usuellepermet
de traiter simultanément des groupes de variablesquantitatifs
ouqualitatifs (Escofier
etPagès 1998; Pagès 2002).
En combinantl’AFDM et
l’AFM,
il estpossible
d’étendre l’AFM au cas de groupes de variables pouvant inclure chacun des variables des deuxtypes.
Ces groupes sont codées defaçon
à ce que leur ACP non normée conduise aux résultats de
l’AFDM;
dansl’AFM,
ilssont alors déclarés comme
quantitatifs.
Enprocédant ainsi,
onéquilibre
à la fois lesgroupes entre eux et les variables au sein de
chaque
groupe. On retrouve ici un casparticulier d’analyse
factoriellemultiple hiérarchique (Le
Dien etPagès 2003).
9. Mise en 0153uvre concrète AFDM à
partir
d’un programme d’AFC(Escofier 1979)
C’est la
technique originelle.
Les variablesqualitatives
sont introduites selon lecodage disjonctif complet. Chaque
variablequantitative
k est codée sur deux colonnesayant
pour l’individu irespectivement
les valeurs(1 - xik)/2
et(1 + xik)/2.
AFDM à
partir
d’un programme usuel d’ACPLes variables
quantitatives
doivent être aupréalable
centrées et réduitespuisque
l’on utilise l’ACP non normée. Les variables
qualitatives apparaissent
au travers deleurs indicatrices dans
laquelle Xikq (=
0 ou1)
est divisé parpkq (il
n’est pas utilede centrer
puisque
les programmes usuels d’ACP lefont).
L’ACP fournit directement les
représentations
des individus et des variablesquantitatives.
Pour obtenir lareprésentation
des centres degravité
desmodalités,
onintroduit aussi les variables
qualitatives
déclarées comme telles ensupplémentaire (lorsque
cela estpossible,
cas dulogiciel
SPAD parexemple).
AFDM à
partir
d’un programme d’AFMLes variables
quantitatives
sont introduites brutes et les variablesqualitatives
sous leur forme condensée.
Chaque
variable constitue un groupe.AFM sur groupes mixtes
Les groupes mixtes sont codés comme pour une AFDM via une ACP et sont déclarés comme
quantitatifs
non réduits. Les autres groupes sont codés commeusuellement.
10.
Application
10.1.
Données, problématique
La
méthodologie proposée
ici seraappliquée
aux données deRusset,
popu- larisées en France par Tenenhaus(1998, 1999), qui
les emprunta à Gifi(1990),
pour illustrerl’approche
PLS. Ces donnéescomportent plusieurs
groupes de variables maisun seul de ces groupes sera
pris
encompte
ici.On
dispose
pour 47 pays dequatre
mesures de l’instabilitépolitique
que Tenenhaus décrit ainsi :2022 La variable INST est une fonction du nombre de
responsables
dupouvoir
exécutif et du nombre d’années
pendant lesquelles
le pays a étéindépendant
entre 1945 et 1961. Cet indice varie entre 0
(très stable)
et 17(très instable).
2022 La variable ECKS est l’indice d’ Eckstein calculé sur la
période
1946-1961. Ilmesure le nombre de conflits violents entre communautés sur cette
période.
2022 La variable DEAT est le nombre de personnes tuées lors de manifestations
violentes sur la
période
1950-1962.w La variable DEMO classe les pays en trois groupes : démocratie
stable,
démocratie instable et dictature.Dans son
application,
Tenenhaus utilise la transformation des données intro- duites par GIFI(transformation
que nousadopterons aussi) : Exp (Inst-16,3),
Ln(Ecks
+
1) et Ln (Deat + 1).
La variable Demo est introduite au travers de ses indicatrices : démocratie
stable,
démocratieinstable,
dictature.L’objet
del’application
est de comparer les deuxcodages :
d’unepart
l’introduction des indicatrices comme des variablesquantitatives
usuelles comme lefait
Tenenhaus,
c’est à dire centrées-réduites et, d’autrepart,
l’introduction des indi- catrices codées ACM commeindiqué
au§2. Concrètement,
les données seprésentent
sous la forme d’un tableau
rectangulaire (cf. Figure 3) ayant
47lignes (les pays)
etdeux blocs de 6 colonnes
comprenant
chacun les mêmes variables(les
trois variablesquantitatives auxquelles s’ajoutent
les troisindicatrices)
mais codées différemment.Le
premier bloc,
notéA,
contient les variables brutes et les indicatrices usuelles(0
ou
1) :
il sera centré-réduit dansl’analyse.
Lesecond,
notéB,
contient les variablesquantitatives
centrées-réduites et les indicatrices codées ACM : dansl’analyse,
il nesera que centré.
FIGURE 3
Structure du
fichier
soumis à l’AFMDans
l’analyse,
le tableau A =[A1|A2]
sera réduit tandis que le tableau B -[B1|B2] ne
le sera pas; d’où la réductionpréalable
deBI.
10.2.
Méthodologie
Pour comparer les résultats de l’ACP du tableau A d’une
part
et du tableau B d’autrepart (cette
seconde ACP estéquivalente
à uneAFDM),
une AFM danslaquelle
chacun de ces deux tableaux constitue un groupe actif est réalisée.Ainsi,
on illustre en outre l’ AFM de groupes mixtes.Dans cette
analyse,
le groupe A estcentré-réduit;
le groupe B est seulementcentré,
d’où lecentrage-réduction préalable
des variablesquantitatives. Ainsi,
d’ungroupe à un autre : les variables
quantitatives
sont exactement lesmêmes;
lesindicatrices
engendrent
le même sous-espace mais avec des contributions à l’inertie totale(et
unerépartition
de cetteinertie)
différentes.Ce cas
particulier
necomportant qu’une
seule variablequalitative,
la contribu- tion à l’inertie des indicatrices dans le tableau B estparticulièrement simple :
nombred’ indicatrices -1.
10.3.
Analyses séparées
TABLEAU 1
Inerties
respectives
des deux tableauxF1 + F2 (%) :
% de l’inertie dupremier plan
dû aux indicatrices. Ex : .58 -(1.26
+1.27)/[6(.453 +.277)]
Du fait du faible nombre de
modalités,
l’influence apriori
des indicatrices(inertie totale)
est sensiblementplus
élevée dans l’ACPi(cf.
Tableau1).
Du fait des effectifs voisins des
modalités, (15, 12, 20),
larépartition
de l’inertiedans le sous-espace
qu’elles engendrent
est assezrégulière
dans l’ACPi(elle
varieau maximum de 1.609 à
1.391).
La différence entre les résultats des deuxanalyses
devrait
provenir
essentiellement de l’influence relative de la variablequalitative.
TABLEAU 2
Corrélation entre
les facteurs
desanalyses séparées
-.08 :
coefficient
de corrélation entre lepremier facteur
de l’ACPi et le second de l’AFDM.Le tableau 2 montre une
grande parenté
entre les deuxanalyses.
Toutefois lesanalyses
ne coïncident pas : leurcomparaison
fine se fera à l’aide de l’AFM.10.4 Indicateurs
globaux
de l’AFMComme
attendu,
l’AFM met en évidence lagrande parenté
entre les deuxanalyses.
Ses deuxpremiers
facteurs sont trèsproches
de leurshomologues
dansles
analyses séparées.
TABLEAU 3
Quelques
indicateursglobaux
de l’AFM10.5
Interprétation générale
dupremier plan
de l’AFM(figures
4 et5)
Le
premier plan
faitapparaître
les 3pôles correspondant
aux modalités de lavariable
qualitative.
Le nombre de conflits violents est faible dans les démocraties sta-bles ;
le nombre de tués estplus
élevé dans lesdictatures ;
le nombre degouvernements
est élevé dans les démocraties instables.
FIGURE 4
Représentation
des variablesquantitatives
et des indicatrices Les deuxcodages
des indicatrices conduisent aux mêmescoefficients
de corrélation avec
les facteurs
FIGURE 5
Représentation
des individusDu
point
de vue des pays, parexemple,
la Suède esttypique
des démocratiesstables,
la Francetypique
des démocraties instables et Cubatypique
des dictatures.Ces
interprétations
se retrouvent facilement dans les données(cf.
tableau4).
TABLEAU 4
Données des
quelques
pays commentés dans le texte.Les variables
quantitatives
sont centrées-réduites10.6.
Représentation superposée
des nuagespartiels
Tous les pays ont leurs deux
images partielles proches
l’une del’autre, conséquence
de la forte structure commune entre les deuxanalyses.
Lesplus
fortesdifférences
(Taiwan
et Inde pour l’axe1; Libye
etArgentine
pour l’axe2)
sontreprésentées figure
6.La différence attendue entre les 2
méthodologies
est la suivante : le rôle de la variablequalitative
estplus important
dans l’ACPi(inertie
totale :3)
que dansFIGURE 6
AFM :
représentation
des individus moyens etpartiels.
Seuls les pays commentés dans le texte sont
identifiés.
1 :ACPi;
2 : AFDMl’AFDM
(inertie
totale :2). Concrètement,
dans les données soumises àl’AFM,
celase traduit par des valeurs différentes pour une même indicatrice d’un bloc à l’autre : l’indicatrice k a une variance de 1 dans le bloc associé à l’ACPi et
(1 - Pk)
dans lebloc associé à l’ AFDM.
Ainsi,
dansl’AFM,
un individupartiel
du groupe ACPi aura ses coordonnéesplus
influencées par la variablequalitative
que sonhomologue
dugroupe AFDM.
Les
plus
forts écarts entrepoints partiels homologues
lelong
de l’axe 1 sont ob-servés pour l’Inde et Taiwan. Ces deux pays
occupent
uneposition
intermédiaire entreles
pôles
dictature et démocratie stable car ilspossèdent
chacun descaractéristiques
des deux
pôles :
Taiwan est classée dictature maisprésente
lescaractéristiques
d’unedémocratie stable
(faibles
valeurs des trois indicateursquantitatifs; cf.
tableau4) :
parrapport
aupoint partiel
Taiwan -AFDM,
lepoint
Taiwan - ACPi estplus proche
dupôle
dictature du fait de laplus grande
influence de la variablequalitative
dans l’ACPi.L’Inde
possède
descaractéristiques
presqueopposées :
elle est classée démocratie stable maisprésente
un nombre de tués et surtout un nombre de conflits violents élevé.Le
long
de l’axe2,
lesplus
forts écarts entre individuspartiels homologues
sont observés pour la
Libye
etl’Argentine.
Ces deux paysoccupent
uneposition
intermédiaire entre les deux
pôles
dictature et démocratie instable car ilspossèdent
chacun des
caractéristiques
de ces deuxpôles :
laLibye,
classéedictature,
a euun nombre très élevé de gouvernements
pendant
lapériode
1945-1961;
au contrairel’Argentine,
classée démocratieinstable,
a eu un nombre peu élevé de gouvernementspendant
lapériode
1945-1961. A titred’exemple,
pour ces deux pays, on peut tenirun raisonnement
analogue
à celui illustré à propos de l’Inde et de Taiwan. Lepoint Libye-ACPi
estplus proche
dupôle
dictature que lepoint Libye-AFDM,
du fait duplus grand
rôlejoué
par la variablerégime politique
dans l’ACPi.Dans cet
exemple
onpeut
relier aisément lareprésentation superposée
de l’AFMet celles des
analyses séparées.
Eneffet,
les deuxanalyses séparées,
conduisent à des facteurs très voisins de ceux de l’AFM(le
coefficient de corrélation entre un facteur de l’AFM et le facteur de même rang de l’unequelconque
des deuxanalyses séparées
est
toujours supérieur
à.99; cf.
tableau3).
Ainsi pour les huit pays dont les
images partielles
sontreprésentées,
la confi-guration
sur leplan
de l’AFM desimages partielles
d’un groupe se retrouve presqueparfaitement
sur leplan
issu del’analyse séparée
de ce groupe(cf. figures
7 et8).
Cetexemple
illustrebien,
dans un cas defigure
nouveau(présence
d’un groupemixte),
ce que l’on attend de la
représentation superposée
issue de l’AFM : des indicationssur la structure des nuages associés à chacun des groupes.
FIGURE 7
ACPi :
représentation
des individus(pays)
10.7. Conclusion
quant
àl’exemple
Cet
exemple
montre lagrande parenté
entre les résultats issus de l’ACPi et de l’AFDM dans un cas où cetteparenté
est attendue : une seule variablequalitative,
deseffectifs peu différents d’une modalité à l’autre.
FIGURE 8
AFDM :
représentation
des individus(pays)
Les
plus grande
différences entre ces deuxanalyses
concernent des individusprésentant
descaractéristiques opposées
selon que l’on considère les variablesquantitatives
ouqualitatives :
c’est pour ces individus que la différence depondération
des variables
qualitatives
entre les deuxanalyses
se fait leplus
sentir.La
présence
de groupes incluant les deuxtypes
de variables dans une AFM nesemble pas
engendrer
d’artefacts et conduit à desgraphiques interprétables
avec lesrègles
usuelles.11. Conclusion
La
méthodologie proposée
initialement par Escofier(1979)
pour introduire simultanément des variablesquantitatives
etqualitatives
dans uneanalyse
factorielleprésente
suffisamment de bonnespropriétés
et depotentiel d’application pour justifier
le statut d’une méthode à
part
entière :l’Analyse
Factorielle de Données Mixtes(AFDM).
Elle
prend
encompte
les variablesquantitatives
comme une ACP normée et lesvariables
qualitatives
comme une ACM.L’équilibre
entre les deuxtypes
de variables est assuré au sens de l’inertie axiale maximum dechaque
variable.Les résultats
qu’elle produit
peuvent êtreinterprétés
avec lesrègles
usuelles de l’ACP et de l’ACM.Sa mise en oeuvre
peut
être réalisée facilement avec un programme d’ACP ou d’AFC et très facilement à l’aide d’un programme d’AFM.En combinant l’AFDM et
l’AFM,
onpeut
étendre l’AFM au cas de groupes mixtes : une telle AFM traite les groupesquantitatifs
comme une ACP(normée
ounon)
les groupesqualitatifs
comme uneACM,
et les groupes mixtes comme une AFDM.Annexe
Structure de l’inertie associée à une variable
qualitative
dans l’ACPilorsque
ses m modalités sont
équiprobables (cf. §6).
On
adopte
lepoint
de vue de l’ACPi des modalités d’une seule variable. La matrice àdiagonaliser,
notéeC,
comporte des 1 sur ladiagonale
et a= -1/(m - 1)
partout
ailleurs.1 étant le vecteur dont les m composantes sont
égales
à 1 etId
la matriceidentité. On a alors :
Ainsi,
1 est vecteur propre de C relatif à la valeur propre 0.Si u est un vecteur
perpendiculaire
à 1 : l’u = 0Ainsi, l’hyperplan orthogonal
à 1 est un espace propre associé à la valeur propre[m/(m - 1)]
Il en résulte que, pour une variable
ayant
une distributionuniforme,
l’inertie du nuage de ses m modalités estrépartie
defaçon isotrope
dans un sous-espace de dimension m - 1.Références
ABASCAL-FERNANDEZ
E.,
LANDALUCE-CLUOM.I.,
GARCIA-LAUBE I.(2003), Multiple
factoranalysis
of mixed tables : aproposal
foranalysing problematic
metric variables.Proceeding cf
CARME 2003meeting. Barcelona, june
2003.CAZES P.
(1980), L’analyse
de certains tableauxrectangulaires décomposés
en blocs.Les cahiers de
l’analyse
desdonnées,
5(1)
9-23 et 5(2)
133-154.DAGNELIE P.
(1998), Statistique théorique
etappliquée.
De Boeck Université Ed.ESCOFIER
B.(1979),
Traitement simultané de variablesquantitatives
etqualitatives
en
analyse
factorielle. Les cahiers del’analyse
desdonnées,
4(2)
137-146.ESCOFIER B. et PAGES J.
(1998), Analyses factorielles simples
etmultiples.
3e ed.Dunod.
GIFI A.
(1990),
Non linear multivariateanalysis.
JohnWiley
&Sons,
Chichester.LE DIEN S. ET PAGES J.
(2003), Analyse
factoriellemultiple hiérarchique.
Revuede
statistique appliquée,
LI(2),
47-73.PAGES J.
(2002), Analyse
factoriellemultiple appliquée
aux variablesqualitatives
etaux données mixtes. Revue de
statistique appliquée,
L(4), 5-37.
SAPORTA G.
(1990a),
Simultaneousanalysis
ofqualitative
andquantitative
data.Atti della XXXV riunione
scientifica;
società italiana distatistica,
63-72.SAPORTA G.
(1990b), Probabilités, analyse
des données etstatistique. Technip,
Paris.
SPAD
(2002),
Diffusé parDECISIA,
30 rue VictorHugo,
92532 Levallois-Perret cedex.TENENHAUS M.
(1977), Analyse
encomposantes principales
d’un ensemble devariables nominales ou
numériques.
Revue deStatistique Appliquée,
XXV(2),
39-56.
TENENHAUS M.
(1998), Régression
PLS : Théorie etPratique. Technip,
Paris.TENENHAUS M.
(1999), « L’approche PLS »,
Revue deStatistique Appliquée, 47, 2,
5-40.TENENHAUS
M.,
YOUNG F.(1985),
Ananalysis
andsynthesis
ofmultiple correspondance analysis, optimal scaling,
dualscaling, homogeneity analysis
and other methods for
quantifying categorical
multivariate data.Psychometrika, 50 (1),
91-119.YOUNG F. W.
(1981), Quantitative analysis
ofqualitative
data.Psychometrika,
46(4), 357-388.
YOUNG F.