R EVUE DE STATISTIQUE APPLIQUÉE
J. P AGÈS
Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes
Revue de statistique appliquée, tome 50, n
o4 (2002), p. 5-37
<http://www.numdam.org/item?id=RSA_2002__50_4_5_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE MULTIPLE
APPLIQUÉE AUX VARIABLES QUALITATIVES
ET AUX DONNÉES MIXTES
J.
PAGÈS
Laboratoire de
mathématiques appliquées
Pôle
d’Enseignement Supérieur
et de RechercheAgronomique,
35042 Rennes cedex email :pages@agrorennes.educagri.fr
RÉSUMÉ
L’Analyse
FactorielleMultiple
(AFM)s’applique
à des tableaux danslesquels
unensemble d’individus est décrit par
plusieurs
ensembles de variables. Le cas des variablesquantitatives
est bien connu et les nombreusesapplications
réalisées en font une méthodeéprouvée.
Leprincipe
de l’extension de la méthode au cas des variablesqualitatives
et à celuiincluant les deux types de groupes de variables a
déjà
étéprésenté
mais sansenvisager
tousles aspects
techniques impliqués
par ces extensions. Il est montré ici defaçon approfondie
comment l’AFM
s’applique
à ces deux cas. Unexemple d’application
sur des données depetite
taille illustre lespropriétés
de la méthode.Mots-clés :
Analyse
FactorielleMultiple, Analyse
desCorrespondances Multiples, Analyse
enComposantes Principales.
ABSTRACT
Multiple
FactorAnalysis
(MFA)applies
to tables in which a set of individuals is describedby
several sets of variables. The case of thequantitative
variables is well-known and manyapplications
have been carried out. Theprinciple
of the extension of MFA to the case ofqualitative
variables and to thatincluding
the two types of groups of variables wasalready presented
but withoutconsidering
all the technical aspectsimplied by
these extensions. It is shown herethoroughly
how MFAapplies
to these two cases. Anexample
ofapplication
on asmall data set illustrates the
properties
of the method.Keywords : Multiple
FactorAnalysis, Multiple Correspondence Analysis, Principal Compo-
nents
Analysis.
1. Introduction
L’analyse exploratoire
de tableaux danslesquels
un ensemble d’individus est décrit par un ensemble de variablesqualitatives
estclassiquement
réalisée parl’analyse
descorrespondances multiples (Lebart et
al.1977).
Unexemple typique
de ces données est fourni par les
enquêtes;
les variables sont alors desquestions
comportant plusieurs
modalités deréponse parmi lesquelles chaque enquêté
en choisitune et une seulement.
En
pratique,
lesquestionnaires
sonttoujours
structurés en thèmesqui
définissent autant de groupes devariables,
parexemple
un ensembled’opinions,
un ensemble decomportements,
un ensemble derepères sociaux,
etc. Unepremière façon d’analyser
les données consiste à focaliser l’attention sur un
thème,
en introduisant dansl’analyse
les variables
correspondantes
enactif,
les autres étant introduites ensupplémentaire.
Cette
méthodologie
est excellente etéprouvée (Cazes 1982,
Lebart1989,
Morineau1993).
Si l’on souhaiteanalyser plusieurs
thèmes simultanément enactif, plusieurs problèmes apparaissent,
lepremier
d’entre eux étantl’équilibre
entre les groupes de variables. Eneffet,
que dire d’uneanalyse
réalisée àpartir
deplusieurs
thèmes maisdont par
exemple
les deuxpremiers
facteurs ne seraient dusqu’à
l’un d’entre eux?Une solution à ce
problème
est fournie parl’Analyse
FactorielleMultiple (AFM) (Escofier
etPagès 1983, 1998).
Cette méthode a étédéveloppée
initialement pour les variablesquantitatives.
Elles’applique
aussi aux variablesqualitatives,
cequi
est montré ici defaçon
détaillée. La même méthodes’appliquant
à la fois auxvariables
quantitatives
etqualitatives,
il est naturel del’appliquer
à des données ditesmixtes,
danslesquelles
un ensemble d’individus est décrit à la fois par des groupes de variablesqualitatives
et des groupes de variablesquantitatives.
Lespropriétés
del’AFM dans le traitement de telles données sont décrites ici.
Dans un
premier temps,
les notations sont introduites enrappelant quelques
relations de
l’Analyse
Factorielle Générale(AFG),
termedésignant
la recherche desaxes
principaux
d’inertie des deux ensembles duaux depoints pondérés
associésaux
lignes
et aux colonnes d’un tableaunumérique (Lebart et
al.1999).
Lesméthodes
usuelles, Analyse
enComposantes Principales (ACP), Analyse
Factorielle desCorrespondances (AFC)
etAnalyse
desCorrespondances Multiples (ACM)
sontalors
présentées
comme casparticulier
de l’ AFG.Dans un second
temps,
l’ACMpondérée (ACMP),
introduite initialement par(Cazes 1980),
est détaillée enprésentant
despropriétés
inédites de cette méthode.La troisième
partie
est consacrée à l’AFM de variablesqualitatives.
Lesprincipales caractéristiques
de la méthode sontrappelées
ettransposées
au cas devariables
qualitatives.
La
quatrième partie présente
lespropriétés
de la méthodeappliquées
à destableaux mixtes.
Enfin,
unexemple numérique
mixte illustre la méthode.2.
Analyse
factoriellegénérale
2.1.
Notations; principales
relations del’analyse factorielle générale
2.1.1. Deux nuages
Soit X le tableau
analysé, ayant
Ilignes
et K colonnes. Son termegénéral
estXik. Pour fixer les
idées,
enACP,
leslignes
sont des individus et les colonnes des variablesnumériques.
On affecte :
2022 le
poids
pi à laligne i;
cespondérations
sontregroupées
dans une matricediagonale
de dimension I notéeD; D(i, i)
= pi ; par commodité :03A3ipi
=1;
2022 la
pondération
mk à lacolonne k;
cespoids
sontregroupés
dans une matricediagonale
de dimension K notéeM ; M(k, k)
= mk ;2022 l’ensemble des
lignes
estreprésenté
par un ensemble depoints,
notéNI,
dansl’espace
à Kdimensions,
notéRK,
dontchaque
dimension est associée à unecolonne. La matrice M induit une
métrique
euclidienne dansRK ;
2022 l’ensemble des colonnes est
représenté
par un ensemble depoints,
notéNK,
dans
l’espace
à Idimensions,
notéRI,
dontchaque
dimension est associée àune
ligne.
La matrice D induit unemétrique
euclidienne dansRI.
L’analyse
factoriellegénérale
fournit les axesprincipaux
d’inertie des ensem-bles NI
etNK.
2.1.2.
Analyse
du nuage deslignes
Dans RK, le
vecteur unitaire de l’axeprincipal
de rang s deNI,
noté Us, vérifie :X’DXMus = Àsus il U@112 m = usM26s
= 1avec Às
valeur propre de rang s de X’ DX M .Les coordonnées des
lignes (points
deNI)
lelong
de us sontregroupées
dansFs
de dimension(7,1) : Fs
=X Mus ; Fs
est dit « facteur sur I de rang s »(en ACP, Fs
est lacomposante principale
de rangs). Fs
est un vecteur deRI
de norme :2.1.3.
Analyse
du nuage des colonnesDans
RI,
le vecteur unitaire de l’axeprincipal
de rang s deNK,
noté vs, vérifie :Les coordonnées des colonnes
(points
deNK )
lelong
de vs sontregroupées
dans
Gs
de dimension(K, 1) : Gs
=X’Dvs ; Gs
est dit « facteur sur K de rang s ».Gg
est un vecteur deRK
de norme :Le vecteur vs vérifie aussi :
La matrice X MX’ rassemble les
produits
scalaires entre individus. Elle est usuellement notée W.En outre, les directions
principales
deNI
sont liées auxprojections
deNK
par :2.1.4. Relations de transition
Les coordonnées des
lignes (Fs)
et celle des colonnes(G s)
sont liées par les relations dites de transition :Soit,
pour laligne
i :En outre :
Soit,
pour la colonne k :Il est ainsi
possible d’interpréter
laposition
d’uneligne (resp. colonne)
enfonction de la
position
de l’ensemble des colonnes(resp. lignes).
Cecouple
derelations est connu sous cette forme surtout dans le cadre de l’AFC.
2.2. Trois cas
particuliers
2.2.1.
Analyse
en composantesprincipales
En ACP le tableau X est
toujours
centré. En ACPnormée,
X est centré etréduit.
Les
poids
pi sont définis par l’utilisateur. Engénéral :
pi =1/1
Vi.Les
logiciels
usuelsimposent
mk =1~k.
2.2.2.
Analyse
descorrespondances
Bien que
présentée
presquetoujours
àpartir
desprofils
et de lamétrique
dux2 (Benzécri 1973), l’analyse
descorrespondances peut
être introduite demultiples façons (Cazes et
al.1977;
Cazes et al.1988).
Les données sont rassemblées dans un tableau dont les
lignes représentent
lesI modalités d’une variable
Q 1
et les colonnes les K modalités d’une variableQ2.
On considère le tableau de
fréquence,
notéF,
dont le termegénéral,
notéfik,
est lafréquence
relative observée des individuspossédant
à la fois la modalité i deQ 1
et kde
Q2.
En outre :L’analyse
descorrespondances peut
être vue comme une AFG telle que :Le tableau de terme
général
Xik est centré parligne
et par colonne cequi
assureun rôle
symétrique
auxlignes
et aux colonnes.On
peut
aussi réaliser l’AFG suivante :Cette seconde
analyse
fournit exactement les résultats de lapremière
à conditiond’écarter le facteur associé à la
première
valeur proprequi
vauttoujours
1. Sontableau X étant
plus simple,
nous utilisons par la suite cette secondeprésentation
del’AFC.
En notant D et M les matrices
diagonales
rassemblantrespectivement
lespoids
des
lignes ( f i. )
et des colonnes(f.k),
la matrice X de cette seconde AFG s’écrit :D-’FM-1.
2.2.3.
Analyse
descorrespondances multiples
L’ACM
peut
aussi êtreprésentée
demultiples façons
à telpoint
que, selon les pays, elleporte
un nom différent(Tenenhaus
etYoung 1985).
Lepoint
de vueadopté
ici est celui introduit initialement par
(Benzécri 1973), (Lebart et
al.1977).
I individus sont décrits par J variables
qualitatives
totalisant K modalités. Lavariable j possède Kj
modalités.Les données sont
regroupées
dans un tableaudisjonctif complet,
notéY,
dontle terme
général
Yik vaut 1 si l’individu ipossède
la modalité k et 0 sinon. On a :en notant
Ik
le nombre d’individuspossédant
la modalité k.L’ACM est, en
France,
usuellementprésentée
comme une AFC sur le tableaudisjonctif complet,
soit comme l’AFG suivante :en
appelant :
. E la matrice
diagonale
de dimension Kregroupant
les effectifs des modalités :E(k, k) = Ik.
.
IdI
la matrice identité de dimension I.2.3. L’ACM vue comme une ACP
particulière
Les résultats de l’ACM
peuvent
aussi être obtenus enappliquant
une ACP à unTableau
Disjonctif Complet (TDC).
En ACM la distance entre deux individus s’écrit :
On obtient la même distance en considérant le TDC comme un tableau de variables
quantitatives
non réduites et en affectant lapondération I/(J7k)
à l’indicatrice k. Demême,
on obtient la même distance en centrant et en réduisant le TDC à condition d’affecter lapondération (I - Ik)/IJ
à l’indicatrice k. En effet :Rappel :
la variance de l’indicatrice k vaut :(7 2013 Ik)Ik/I2
Ainsi,
les résultats d’une ACMpeuvent
être obtenus à l’aide d’une ACPpondérée
du TDC. Cetteéquivalence
étantexploitée
enAFM,
il est utiled’apporter quelques précisions quant
à lapratique
de cette ACP.En ce
qui
concerne lesmodalités,
une telle ACP conduit à lareprésentation
des indicatrices par leurs coefficients de corrélation avec les facteurs. Bien que cette
représentation
soitinterprétable,
il estpréférable
de construireplutôt
celle des centresde
gravité
des individusqui possèdent
une mêmemodalité, homothétique
axe par axede la
représentation
usuelle de l’ACM. Soit gk le centre degravité
des individusqui possèdent
la modalité k. Les relations de transition de l’ ACMdeviennent,
d’unepart :
ce
qui indique qu’une
modalitéapparaît
aubarycentre
des individusqui
lapossèdent (par définition),
et d’autrepart :
ce
qui indique
que lelong
de l’axe de rang s, un individuapparaît
aubarycentre
desmodalités
qu’il possède,
au coefficientÀs près (et
non sa racine comme en ACMusuelle).
Remarque
sur leslogiciels.
Dans les programmes d’AFM inclus dans leslogiciels
SPAD(2000)
et LADDAD(1997),
les indicatrices sont initialementcentrées,
réduites et munies de lapondération
décrite ci-dessus.3. ACM
pondérée
3.1.
Définition
Dans une
ACM,
si l’onduplique
unevariable,
on lui attribue un rôle apriori
deux fois
plus important.
Il est donc aisée de concevoir une ACM danslaquelle
on affecte une
pondération
aux variables. Lapossibilité
depondérer
des variablesen ACM a
déjà
étéexploitée
par(Cazes 1980). Concrètement,
onpeut
mettre enoeuvre une telle
analyse
enappliquant
un programme d’AFC à un TDCpondéré
danslequel Yik (=
0 ou1),
valeur duTDC,
estremplacé
par Yik Cj(avec k
une indicatriceappartenant
à lavariable j
et cj lapondération
de lavariable j).
Ce TDCpondéré
aune marge colonne constante et
égale
à c =03A3cj
D’après 2.2.2,
l’AFC d’un tel tableau revient à réaliser l’AFG suivante :L’ACM
pondérée (ACMP)
ne diffère de l’ACM usuelle tellequ’elle
estprésentée
en
2.2.3,
que par lapondération
des modalités. Lapondération
de la modaliték, appartenant
à lavariable j peut
être vue comme leproduit
de lapondération
de lamodalité dans la
variable j (Ik II)
par lapondération
de lavariable j
dans l’ensembledes variables
(1/J
dans le cas de l’ACMusuelle, cj Ic
dans le cas del’ACMP).
Lorsque
cj est un nombreentier,
il revient au même de réaliser l’ACMP ou l’ACM usuelle sur le tableaudisjonctif complet
dont les modalités de lavariable j
ont été
dupliquées
cj fois.3.2.
Nuage
des modalités enACM pondérée
En
ACM,
le nuage des modalitéspossède
despropriétés remarquables (Lebart
et al.
1977).
Lesprincipales caractéristiques
de ce nuage en ACM et en ACMpondérée
sont
regroupées
dans le tableau1,
danslequel
l’ACM(resp.
l’ ACMpondérée)
est vuecomme une AFC
appliquée
au TDC(resp.
TDCpondéré).
TABLEAU 1
Quelques propriétés comparées
de l’ACM et de l’ACMpondérée
Ces relations montrent que l’on passe de l’ACM à l’ACM
pondérée
en rem-plaçant
lapondération
de lavariable j (égale
à1/J
enACM)
parcj/c. Remarquons
que, bien
qu’ayant
introduit initialement lapondération
cj, lapondération
d’une vari- able vaut finalementcj Ic :
en ACMpondérée (comme
enACM),
la somme despondérations
des variables vautautomatiquement
1.3.3.
Analyse
du TDCpondéré
et du tableau de Burtpondéré
En
ACM, l’équivalence
entrel’analyse
du TDC et celle du tableau de Burt(Lebart et
al.1977) joue
un rôleimportant
aussi bien au niveau de lajustification
dela méthode que de
l’interprétation
des résultats.Le tableau de
Burt,
notéB,
croise l’ensemble des modalités avec lui-même.Son terme
général,
à l’intersection de laligne
h(appartenant
à la variablel )
et de lacolonne k
(appartenant
à la variablej)
vaut :B (h, k) == Ihk
en notantIhk
le nombred’individus
possédant
à la fois la modalité h(de
la variablel)
et la modalité k(de
la variable
j).
Matriciellement : B = Y’Y. Nous examinons ce que devient cetteéquivalence
dans le caspondéré.
L’ACM
pondérée peut
aussi être vue comme une AFC du tableau de Burtpondéré.
Dans cetableau,
notéBp,
on trouve, à l’intersection de laligne h (appartenant
à la variable
l)
et de la colonne k(appartenant
à la variablej) Bp(h, k) = 1khCjCl’
Ce tableau s’obtient en
multipliant
àgauche
le TDCpondéré
par sontransposé.
Ildérive du tableau de Burt usuel en
multipliant chaque
terme du sous-tableau croisant lesvariables j
et1 par
cj cl .Les deux marges de
Bp
sontidentiques
et ont pour ke terme(la
modalité kappartenant
à lavariable j) : Ik cj c;
la somme de tous les termes du tableau vaut :Ic 2
Considérons les AFC du TDC
pondéré (TDCP)
et du tableau de Burtpondéré (Bp).
Defaçon
strictementanalogue
à l’ACMusuelle,
on vérifie lespropriétés
suivantes :
2022 les
profils-lignes
deBp
sont dans le même espace euclidien que lesprofils lignes
du
TDCP;
2022 le
profil-ligne k
deBp
est lebarycentre
desprofils-lignes
du TDCPqui possèdent
la modalité
k ;
2022 ces deux AFC conduisent aux mêmes facteurs sur les
modalités, chaque
valeurpropre de la
première
étantégale
au carré de la valeur propre de même rang de la seconde.L’équivalence
entre ces deux AFCapparaît
au tableau2, qui explicite l’analyse
factorielle
générale (les pondérations
deslignes - respectivement
des colonnes - constituent lamétrique
dansl’espace
des colonnes -respectivement
deslignes;
cf.§ 2.1 )
dans le cas de ces deuxanalyses.
Ce tableau montre que l’ACM
pondérée possède
lapropriété
trèsimportante
del’ACM usuelle selon
laquelle
il revient au mêmed’analyser
le nuage des individus et celui de l’ensemble des centres degravité
chacun associé à une modalité.TABLEAU 2
Comparaison
entrel’analyse
du TDC et celle du T. de Burtdans le cas usuel et dans le cas
pondéré
La
première
colonnerappelle
les notations et les formules del’analyse
factoriellegénérale
(Cf. § 2.1 ). Y : tableaudisjonctif complet;
E : matricediagonale
contenant les effectifs des modalités; Id : matrice identité de dimension I; C : matricediagonale (K, K)
contenant lespondérations
des variables affectées àchaque
modalitéC(k, k) =
cj si k e variable j.TABLEAU 2bis
Relations de transition associées aux
analyses
du tableau 23.4. Relations de transition en
ACM pondérée
Ces
relations,
sous leur formematricielle,
sont rassemblées dans le tableau 2 bis.3.4.1. Relations usuelles découlant de
l’analyse
du TDCPour
appliquer
directement les relationsdel’AFG(§ 2.1 ), 03BBs, Fs et G s désignent
ici alternativement les résultats d’une ACM et ceux d’une ACM
pondérée.
En ACM et en ACM
pondérée,
une modalité est(à
un coefficientprès)
aubarycentre
des individusqui
lapossèdent :
En ACM un individu est
(à
un coefficientprès)
aubarycentre
des modalités(affectées
chacune de la mêmepondération) qu’il possède :
En ACM
pondérée,
un individu est(à
un coefficientprès)
aubarycentre
desmodalités
(affectées
chacune de lapondération
de la variable àlaquelle
elleappartient) qu’il possède :
3.4.2. Relation découlant de
l’analyse
du tableau de BURT Onpeut
utiliser la relation de transition issue de l’AFC de B.En ACM
usuelle,
cette relation esttrop
peu souvent citée.Soit,
en notantFs (9k)
la coordonnée de la modalité k sur l’axe de rang s et
Ikl
le nombre d’individuspossédant
à la fois les modalités k et 1 :Au coefficient
Às près,
la modalité kapparaît
aubarycentre
de l’ensemble desmodalités, chaque
modalité 1 étant affectée de lapondération Ikl(03A3Ik = IkJ).
l
Ainsi,
une modalitéapparaît
du côté des modalitésauxquelles
elle s’associe leplus, propriété
exacteplus
facile àexploiter,
lors d’uneinterprétation,
que lesprojections
de distances entre indicatrices induites par
l’analyse
du TDC.Dans l’ACM
pondérée
cette relation devient :Cette relation est fondamentalement la même que la
précédente,
en affectant àla
variable j
nonplus
lapondération 1/J
maisCj / c.
3.5.
ACM pondérée
et ACPDe même que l’ACM
usuelle,
l’ACMpondérée peut
être obtenue enappliquant
une ACP sur le
TDC,
l’indicatrice k(appartenant
à lavariable j ) ayant
lapondération :
I Ik cj c
si FACP est nonnormée; I -Ik I cj c
si FACF est normée.Ce résultat découle directement de la distance entre deux individus donnée tableau 1.
Si l’on réalise l’ACMP à l’aide d’un programme d’AFC
(appliquée
au TDCpondéré),
lespondérations
des variables ne sontprises
encompte qu’au
traversdu rapport
cj/c puisque,
dansl’AFC,
les termes du tableau étudié sont «d’abord»divisés par leur somme. Autrement
dit,
la somme despondérations qui
interviennent effectivement vautautomatiquement
1.Si l’on réalise une ACM
pondérée
à l’aide d’un programmed’ACP,
alors il estpossible
d’introduire despondérations
dont la somme c est différente de1,
cequi
revient à faire
l’analyse
avec lespoids
cj et non cj/c.
Soient
{ Fs, G s, 03BBs}
les résultats de cette ACM avec lespoids
Cj et{Frs, Grs, 03BBrs}
les résultats de l’ACM
pondérée
deréférence,
c’est-à-dire avec lespoids cj/c.
Dansl’ACM avec les
pondérations
cj, parrapport
à l’ACM de référence :. le nuage des indicatrices est
inchangé : G s == Grs;
lespondérations
de cesindicatrices étant
multipliées
par c, on a;As
=c03BBrs;
2022 le
changement
demétrique
dansRK peut
être vu comme une homothétie dunuage des individus de
rapport c;
d’oùFs
=cFrs,
cequi
conduitégalement à 03BB = c03BBrs;
. cette homothétie du nuage d’individus
rejaillit
sur lareprésentation
desmodalités en tant que centre de
gravité
des individus :Fs (gk)
_cFrs(gk);
2022 la relation liant la coordonnée d’un individu et celle des modalités
(en
tant quecentres de
gravité) peut s’exprimer
comme dans l’ACM de référence(i.e.
avec03BBrs et cj/c) :
Ainsi,
si l’on s’intéresse aux modalités en tant quebarycentres
d’individus(et
non en tant
qu’indicatrices),
les deux relations de dualité entre ces deuxtypes
depoints,
individus etmodalités,
et donc leurspositions relatives,
sontinchangées
que l’on considère lespondérations
cj oucj/c.
Cettepropriété
sera utilisée enAFM,
enintroduisant des
pondérations
cjayant
de bonnespropriétés
tout en conservant les relations de l’ACM de référence.4. AFM de variables
qualitatives
4.1. Notations
Au sein du
TDC,
dont le termegénéral
esttoujours
noté Yik, les indicatrices sont maintenant rassemblées en groupesqui
incluentplusieurs
variables. Les indi- catrices d’une même variableappartiennent toujours
à un même groupe : onparle
indifféremment de groupe d’indicatrices ou de groupe de variables. Comme dans toute
AFM,
nous réservons lalettre j
aux groupes(groupe j ;
J : nombre degroupes);
la
lettre q
est réservée aux variables(variable
q;Q :
nombre devariables).
En résumé :
Kj :
nombre de modalités dugroupe j ;
K : nombre total de modalités(K = 03A3Kj);
Qj :
nombre de variables dugroupe j ; Q :
nombre total de variables(Q EO.).
4.2. AFM et
analyse factorielle
4.2.1.
Principe
de lapondération
des groupes de variablesLa
problématique qui
découle de laprise
encompte
de groupes dans un en- semble de variables estidentique
que les variables soientquantitatives
ouquali-
tatives :
équilibrer
l’influence apriori
des différents groupes, étant entenduqu’un
groupe
présentant
de nombreuses dimensionsinfluencera,
dans uneanalyse globale, plus
d’axesqu’un
autreprésentant
peu de dimensions(voire
uneseule).
La solutionchoisie par l’AFM - harmoniser les inerties axiales maximum des nuages associés aux différents groupes -
présentée classiquement
dans le cadre de variablesquantitatives,
n’est pas
spécifique
de ces variables ets’applique
aux variablesqualitatives.
4.2.2. L’AFM de variables
qualitatives
repose sur une ACMpondérée
L’analyse
factorielle usuelle d’un ensemble de variablesqualitatives
étantl’ACM,
il est naturel de faire reposer l’AFM de J groupes de variablesqualitatives
sur une ACM
pondérée.
Dans cette ACMpondérée,
lespondérations
desvariables,
induites par
l’égalisation (à 1)
des inerties maximums des sous-nuages, découlent du raisonnement suivant.Dans le
groupe j
avant lapondération (i.e.
dans l’ ACM de cegroupe),
la distance entre deux individus i et l s’écrit :en notant
ij
l’individu i considéré dupoint
de vue des variables du seulgroupe j (appelé
« individupartiel »
enAFM).
Pour rendre
égale
à 1 l’inertie maximum du nuage associé au groupej,
ondivise la
pondération
dechaque
modalité dugroupe j
par03BBj1 (première
valeur proprede l’ACM du
groupe j).
A l’issue de cetteharmonisation,
la distanceentre ij et li
s’écrit :Ces distances induisent la distance suivante entre les
points
i et deNI :
Cette relation montre que l’AFM d’un ensemble de variables
qualitatives
struc-turées en groupes doit reposer sur une ACM
pondérée
danslaquelle
lapondération
des variables du
groupe j
est1/Qj03BBj1.
Le
poids 1/QjAi
de la variable V dugroupe j provient
de la successionsuivante :
2022 considérer que la variable V
appartient
augroupe j auquel
cas sapondération
vaut
1/Qj
dans l’ACM de ce groupe;. rendre
égale
à 1 l’inertie axiale maximum des nuages de l’ACM dugroupe j
en divisant par
À{ (première
valeur propre de cetteACM)
lapondération
desvariables
précédente.
Cette ACM
pondérée
fournit desreprésentations
des individus et des modalités conformes à laproblématique,
en ce sens que le rôle apriori
des différents groupes estéquilibré.
La discussion des conditions de cetéquilibre -
harmoniser les inerties axiales maximumsplutôt
que, parexemple,
les inerties totales -peut
être faite dans les mêmes termes que pour les variablesquantitatives.
Remarques
Lorsque chaque
groupe estcomposé
d’une seule variable~jQj =
1 eta i
=1;
l’AFM est alors confondue avec l’ACM.
La somme des
pondérations
des variables ne vaut pas 1. Cettecaractéristique
est induite par le fait que l’on
impose
àchaque
groupe une inertie maximum de 1.Même pour les variables
qualitatives,
les calculs d’une AFM doivent reposer sur une ACP et non une AFC.4.3. AFM et
analyse multicanonique
4.3.1. Mesure Fg et
variablesqualitatives
L’AFM
peut
être vue comme uneanalyse multicanonique
au sens de(Carroll 1968)
à condition de mesurer la liaison entre une variable z et un groupe de variablesK = {uk; k
=1, Kj}
par la mesurefg,
inertieprojetée
des variables du groupeKj
le
long
de z. Soit :inertie de la
projection
de vk sur z.Dans le cas où le groupe de
variables j
estcomposé
des indicatrices d’une seule variableV,
cette mesures’applique
et vaut(z
estcentré) :
en notant
~2 (z, V)
lerapport
de corrélation entre z et la variable V.Si le
groupe j comprend Q.1
variablesqualitatives Vq
cette mesure devient :Cette mesure est
proportionnelle
à la moyenne desrapports
de corrélation entre la variable z et les variablesqui composent
legroupe j.
Cette moyenne estrapportée
à sa valeur maximum
compte
tenu des données du groupej,
à savoir lapremière
valeur propre de l’ ACM de ce
groupe j.
Eneffet,
enACM,
la valeur propre de rangs est
égale
à la moyenne desrapports
de corrélation entre le facteurFs
et lesQ
variables
qualitatives. Finalement,
la mesurevaut
0 si la variable z a unrapport
de corrélation nul avecchaque
variable dugroupe j ;
elle vaut 1 si z coïncide avec la directionprincipale
d’inertie dugroupe j.
Ces commentaires sont
analogues
à ceux faits à propos des variablesquanti-
tatives. Ils montrent que
fg
estadaptée
pour servir de mesure de liaison dans uneanalyse multicanonique
de variablesqualitatives
et que, par voie deconséquence,
l’AFM
peut
être considérée comme une telleanalyse.
Remarques.
Dans la dernièrerelation, fg(z, Kj)
vérifie lapropriété
suivante :si l’on
duplique chaque
variable dugroupe j,
l’ACM de ce groupe, et enparticulier
Ai,
estinchangée;
le coefficient1/Qj permet
d’obtenir la même valeur defg(z, Kj)
dans les deux cas.
Le fait que l’ACM
puisse
être vue comme uneanalyse multicanonique partic-
ulière a été vu
depuis longtemps
par(Saporta 1975).
4.3.2. Recherche des variables
générales
La variable
générale
de rang s(notée zs)
de cetteanalyse multicanonique
rendmaximum :
avec les contraintes usuelles de norme et
d’ orthogonalité :
4.4.
Représentation
des individusUn des
concepts importants
de l’AFM est celui d’individupartiel,
c’est-à-dire considéré dupoint
de vue d’un groupe seulement. On adéjà
notéij,
l’individu i « vu »par le
groupe j.
Leprincipe géométrique
dereprésentation
de ces individuspartiels
est
identique
dans le cas des variablesqualitatives
et celui des variablesquantitatives (Escofier
etPagès
1998p.152) :
dansl’espace RK,
l’individupartiel ij,
déduit de ien
remplaçant
par 0 ses valeurs pour les variables(centrées)
des groupes autres quej,
estprojeté
sur les axes d’inertie deNI.
La
représentation
des individuspartiels jouit
d’unepropriété importante :
une relation de transition
«partielle»,
déduite de la relation usuelleexprimant
lacoordonnée d’un individu en fonction de celles des
variables,
en se limitant à un seul groupe de variables. Nousprésentons
ces deux relations dans le cas des variablesqualitatives.
En AFM sur variables
qualitatives,
lareprésentation
deNI
vérifie lespropriétés
de l’ACM
pondérée (cf. § 3.5.). Ainsi,
un individu est(à
un coefficientprès)
aubarycentre
des modalités(affectées
chacune de lapondération
de la variable àlaquelle
elle
appartient) qu’il possède.
Soit :où
Às
est la valeur propre obtenue dans l’ACP avec lespondérations
cj =1/03BBj1
etnon
cj/c.
La
représentation
de l’individupartiel ij
vérifie la relation de transitionprécédente
enrestreignant
la sommation aux variables dugroupe j (relation
detransition
«partielle»).
Soit :A un coefficient
près, ij
est aubarycentre
des modalités(du
groupej) qu’il possède.
Cette relationpermet
de comparer directement lespositions
despoints
d’unmême nuage
Ni (e.g. ij
etlj).
Enrevanche,
lacomparaison
depoints
de nuages différents(e.g. ij
etl h)
est indirecte : elle consiste à comparer lespositions
relativesde ces
points
dans leurs nuagesrespectifs (NI
etNhI)
cequi
ne semble véritablement utile que si les facteurs étudiés sont bien des facteurs communs.Remarque.
Enpratique,
on dilate le nuageN-Il
par une homothétie derapport
J afin de situer l’individu i au centre degravité
de sespoints partiels {ij; j
=1, J}.
La relation
précédente
devient :4.5.
Représentation
des modalitéspartielles
Une modalité étant
représenté
par un centre degravité d’individus,
onpeut imaginer
unconcept
de modalitépartielle calqué
sur celui d’individupartiel.
DansRK,
la modalitépartielle gjk
est déduitede gk
enremplaçant
par 0 ses valeurs pour les variables(centrées)
des groupes autresque j.
Il résulte de cette définitionqu’en AFM,
une modalité
partielle
est au centre degravité
des individuspartiels qui
lapossèdent.
Soit,
enprojection
sur l’axe de rang s :En
remplaçant,
dans cetterelation, Fs ( ij)
par sonexpression
en fonction desmodalités,
on obtient :Cette
expression
est la restriction augroupe j
de la relation de transition de l’ACMpondérée
en tantqu’analyse
du tableau de Burtpondéré (cf.§ 3.4.1).
A uncoefficient
près,
la modalité kpartielle
augroupe j
est aubarycentre
des modalités l(affectés
despoids Ikl; 03A3 Ikl = l k Q j)
dugroupe j.
On retrouve, limitée àleK,
un groupe, la
règle
selonlaquelle
une modalité se trouveglobalement
du côté des modalitésauxquelles
elle s’associe leplus.
Remarque.
Leconcept
de modalitépartielle
est trèsimportant
dans lapratique
des variables
qualitatives.
Dans ce cas, les individus sontgénéralement
nombreux : on ne les considère donc pas un par un mais au travers dessous-populations
induites par les modalités. C’est leconcept
de « modalitépartielle » qui justifie
dereprésenter
enAFM les modalités par les
barycentres
d’individus et non par les indicatrices(ou,
cequi
revient aumême,
par lesbarycentres
dilatés axe par axe par le coefficient1 / as )
comme cela est fait usuellement en ACM
(tout
au moins dans leslogiciels français
tels SPAD et
LADDAD).
4.6.
Analyse
dansRI2
4.6.1.
Nuage
des groupes de variablesDans
RI2 ,
le cas des variablesqualitatives
ne sedistingue
que très peu de celui des variablesquantitatives. Chaque
groupe de variablesKj
estreprésenté
parWjD’- XjMjX’jD.
L’ensemble de cespoints
constitue le nuage des groupes devariables,
notéNJ.
Le nuage
NJ
estprojeté
sur le sous-espace induit par lescomposantes princi- pales
Zs. La coordonnées dugroupe j
lelong de zs
estégale
à la mesure de liaisonfg(zs, Kj) qui
est aussi la contribution dugroupe j
à l’inertie de l’axe de rang s(cf. § 4.3.2).
A la différence des groupes de variablesquantitatives,
cette mesure estfondée sur le
rapport
de corrélation et non le coefficient de corrélation.4.6.2.
Interprétation
duproduit
scalaire entre deux groupesRappelons
que, dans cet espace, leproduit
scalaire entre deux groupes de variablesquantitatives KI
etK2 s’interprète
comme une mesure de liaison(Escoufier 1973) :
COVV dans le casgénéral,
RV si les groupes sont normés et,lorsque
les inerties axiales maximum des nuages associés aux groupes sontégales
à1, fg(K1, K2)
(Escofier
etPagès
1998p.166).
Cettepropriété
s’étend aux variablesqualitatives (Cailliez
etPagès 1976), (Cazes et
al.1976).
e Si
K1
etK2
sontcomposés
chacun d’une seule variablequalitative (respective-
ment
VI
etV2):
Dans ce cas
particulier
on retrouve la mesure de liaison usuelle.. Si
Kl
estcomposé
d’une seule variableVI
etK2
deQ2
variables notéesVq :
Les deux groupes sont d’autant
plus
liés que la variable du groupe 1 estliée,
au sens du
X2,
à chacune des variables du groupe 2. Lapondération par B 2 1 ( 1 e
valeur propre de l’ACM du groupe
2) appelle
des remarquesanalogues
à celles faites dans le cas de variablesquantitatives.
La liaison entreVi
etK2
est d’autantplus grande
que les indicatricesde V1
sontproches
desprincipales
directions d’inertie deK2 . Remarquons
que, si l’onduplique
toutes les variables du groupeK2, 03BB21
estinchangée
et c’est le coefficientQ2 qui
assure l’invariance de la mesure de liaison.e Si
Ki
etK2 comportent respectivement Q1
etQ2
variables(notées Vh
pour le groupeKi
etVq
pour le groupeK2 ) :
Les deux groupes sont d’autant
plus
liés quechaque
variable du groupe 1 estliée,
au sens du