R EVUE DE STATISTIQUE APPLIQUÉE
J.-P. P AGES
F. C AILLIEZ
Y. E SCOUFIER
Analyse factorielle : un peu d’histoire et de géométrie
Revue de statistique appliquée, tome 27, n
o1 (1979), p. 5-28
<http://www.numdam.org/item?id=RSA_1979__27_1_5_0>
© Société française de statistique, 1979, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE :
UN PEU D’HISTOIRE ET DE GÉOMÉTRIE
J.-P.
PAGES*,
F.CAILIIEZ**,
Y.ESCOUFIER***
Cet article
reprend
enpartie
un travail mené avec P. CAZES et coll.(Bibl. [14])
etcomplété
avec R. TOMASSONE(Communication
aucolloque
CNRS sur l’Elaboration et la Justification des Modèles en
Biologie, 1978).
SOMMAIRE 0. Introduction
1. Fragments d’histoire
2. Grands types de tableaux de données et classification sommaire des techniques d’analyse
factorielle
2.1. Types principaux de tableaux se prêtant directement à une analyse factorielle 2.2. Classification sommaire des techniques
3. Géométrie en analyse factorielle 3.1. Le langage du schéma de dualité
3.1.1. Le triplet (X, M,
Dp)
3.1.2. Un bien joli
schéma :
le schéma de dualité 3.1.3. Quelques acrobaties3.1.3.1.
Opérateurs
de projection3.1.3.2. Visions sur l’analyse en composantes principales 3.1.3.3. Jeux de
métriques
3.1.4. Comparaison de tableaux et
opérateurs
3.2.
Stratégies
rI et S3.2.1. Positions relatives de deux sous-espaces vectoriels 3.2.2.
Stratégie
ri et variables quantitatives3.2.3.
Stratégie
S et variables quantitatives3.3. Sur le caractère universel de l’analyse factorielle des correspondances 3.3.1.
Représentation
des variables qualitatives : codage et dualité3.3.2.
Stratégie
n : analyse factorielle des correspondances sur tableau de contingence 3.3.3.Stratégie
I; : vers l’analyse factorielle des correspondances sur tableau disjonctifcomplet 3.3.4. L’Universalité
3.3.4.1. Deux variables qualitatives 3.3.4.2. k variables qualitatives
3.3.4.3. Autres utilisations de l’analyse factorielle des correspondances : combi- naison des stratégies n et E.
3.3.5. Conclusion sur l’analyse factorielle des correspondances
(*) L.S.E.E.S.
Département
de Protection, Centre d’Etudes Nucléaires de Fointenayaux Roses.
(**) Centre Technique Forestier Tropical, Nogent sur Marne.
(***) Université des Sciences et Techniques du Languedoc, Montpellier.
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 1
Mots-clés :
Analyses factorielles,
schéma dedualité, opérateurs, analyse
des corres-pondances,
tableaux decontingence,
tableauxdisjonctifs complets.
6
0. - INTRODUCTION
On considère en France que
l’analyse
des données recouvreprincipalement
deux ensembles de
techniques :
lespremières, qui
relèvent de lagéométrie
eucli-dienne et conduisent à l’extraction de valeurs et de vecteurs propres, sont
appelées
"analyses factorielles" ;
lessecondes,
dites de "classificationautomatique"
sontcaractérisées par le choix d’un indice de
proximité
et d’unalgorithme d’agrégation
ou de
désagrégation qui permettent
d’obtenir unepartition
ou un arbre de classification.On s’efforcera ici de décrire les
grands
traits de la nouvelle écolefrançaise d’analyse factorielle ;
cetteécole,
où existent des tendances[8] [ 11 ] [30],maisqui
est dominée incontestablement par la
personnalité
de J.P. BENZECRI[6] [7] est
caractérisée :
e par une
grande
méfiance vis-à-vis de lastatistique
inférentielleclassique :
remise en cause du modèle
probabiliste
apriori
et enparticulier
du modèle gaus-sien ;
priorité
aux données etparticulièrement
aux données multidimensionnelles.e par un retour à la
géométrie :
abandon dulangage
de lastatistique
mathé-matique, position critique
àl’égard
dulangage matriciel ; exploitation systématique
de la dualité.
. par la diversité des
problèmes
abordés : hier instrumentprivilégié
du cher-cheur en sciences
sociales, l’analyse
factorielle est devenue un outild’investigation
ordinaire
qui
est utilisé sansdifficulté, grâce
aux programmes existants, par le mé-decin, l’ingénieur,
levendeur,
legestionnaire,
lejournaliste,
etc.e par la
place privilégiée occupée
par certainestechniques d’analyse
facto-rielle :
l’analyse
factorielle descorrespondances
trèsprisée
en France n’estpratique-
ment pas utilisée dans les autres pays et cela
particulièrement
dans les paysanglo-
saxons
(malgré
un article de M.O. HILL[21 ]) ;
on ne faitguère plus appel
à l’ana-lyse
factorielle au sens de SPEARMAN.e par certaines
pratiques particulières :
recourssystématiques
à la"pratique
des
points supplémentaires" qui permet
enparticulier
d’effectuer desrégressions graphiques
au moindre coût ; utilisation d’indicespermettant
dejuger
de la stabi- lité desanalyses
ou de l’influence de certainséléments,
etc.Après
un récit bref sur l’évolution des idées et destechniques
enanalyse
factorielle
qui permettra
de bien différencierl’analyse
factorielle au sens de SPEARMAN(école psychométrique américaine)
destechniques
relevant de l’ana-lyse
encomposantes principales
ou del’analyse canonique,
on propose, ens’ap- puyant
sur lestypes
de tableauxqu’il
est courant de leur soumettre, une classifi- cation sommaire de ces dernières. On introduit alors lelangage géométrique
duschéma de
dualité, langage qui permet
deprésenter
defaçon élégante
et conciseles
principales stratégies
et lestechniques qui
s’endéduisent,
utilisées à l’heureactuelle en
analyse
factorielle.Revue de Statistique Appliquée, 1979, vol. XXVII, n° 1
7
1. - FRAGMENTS D’HISTOIRE
Etant donnée une matrice de corrélation
(p
xp) R,
existe-t-il defaçon unique
deux matrices(p
xp) VI
etV2 ,
oùVI
estsymétrique
semi-définiepositive
de rang k(inférieur
àp)
etV2
estdiagonale
à coefficientspositifs,
telles que :R=V1
1+V2(1)
C’est sur ce
problème
dedécomposition
d’une formequadratique
définiepositive qu’est
tombé C. SPEARMAN en 1904[40] quand
il a cherché àexprimer
de
façon mathématique
saconception
unidimensionnelle del’intelligence.
PourSPEARMAN le
"degré
dedépendance" [5]
entre les variablesqu’il
considérait(les réponses
à différentstests), qui
n’est autre que le rang deVI,
devait êtreégal
à1 ;
aussi cette
décomposition
de R n’était-ellepossible
que si tous les déterminantsinternes,
sans termesprovenant
de ladiagonale
deR,
d’ordre 2 étaient nuls(diffé-
rences
tétrades).
Ainsi s’est trouvée fondée lapremière
écolepsychométrique
amé-ricaine d’analyse factorielle.
Le
problème
que seposait
SPEARMAN et que se sontposé après
lui sesnombreux
disciples [1] [19] [25] [28] [42]
entre dans lacatégorie
desproblèmes
que l’on
peut
se poserquand
on désire résumer à l’aide d’unpetit
nombre de dimen- sions une informationmultidimensionnelle ;
la réduction recherchée "réduire le rang de R" se faisait dans une certaineoptique :
"reconstituer au mieux les corré- lations entre les tests"compte
tenu d’idées apriori
bien affirmées sur lephéno-
mène étudié.
Karl PEARSON en 1901
[34] puis
Harold HOTELLING en 1933[22]
ontabordé de
façon
différente la recherche de cepetit
nombre de dimensionspermet-
tant de reconstituer l’information
initiale ;
* lepremier
article de K. PEARSON s’intitulait "On lines andplanes
of closest fit tosystems
ofpoints
inspace" :
lesindividus-colonnes du tableau à
analyser
étant considérés comme des vecteurs d’un espace à pdimensions,
onproposait
de réduire la dimension del’espace
en pro-jetant
le nuage despoints
individus sur le sous-espace de dimension k(k petit fixé) permettant d’ajuster
au mieux le nuage. Ainsi était inventée1"analyse
en compo- santesprincipales ".
La recherche
géométrique
queproposait
K.PEARSON, qui
ne faisait aucunehypothèse,
au contraire deSPEARMAN,
sur la nature de la distribution associéeaux variables considérées
(le
modèlegaussien
quepostulent
SPEARMAN et ceuxqui
l’ont suivi leurpermet
à lafois,
raisonnant sur deséchantillons,
d’inférer et detraduire covariances et corrélations en termes de
dépendance
oud’indépendance statistique),
etqui conduit, si
les variables sontréduites,à
extraire les valeurs et vecteurs propres de la matrice descorrélations,
ne conduit pas engénéral
à la solu-tion,
k étantfixé,
auproblème
de SPEARMAN.(1) On consultera avec intérêt l’article de A. KOBILINSKY publié dans ce même numéro.
Revue de Statistique Appliquée,1979, vol. XXVI I, n° 1
8
On pourra s’en convaincre aisément en traitant du modèle à corrélations
égales (distribution cylindrique
despoints
individus dansl’espace
à pdimensions).
Si tous les coefficients de corrélation sont
égaux
à r, la matrice(p
xp)
R s’écrit :où j
est le vecteur(colonne)
dont toutes les coordonnées sontégales
à1, Ip
dési-gnant
la matrice identité de rang p.Si r est
positif,
la matriceV 2 = (1 - r) Ip
étant biendiagonale,
ledegré
dedépendance k, qui
n’est autre que le rang de la matriceV1 - r j j’,
estégal
à1 ; la
seule
décomposition
dutype
R =Vi
1 +V2 respectant
les conditions de SPEARMAN est, si p est au moinségal
à3,
ladécomposition précédente.
Il existedonc bien un "facteur
général" :
une seule dimension suffit pourexpliquer
lescorrélations constatées entre les variables considérées.
Le sous-espace propre associé à la valeur
propre Xi
1 +(p - 1)
r de Rn’est autre que la droite
engendrée par 1 ;
la valeur propreX2
= 1 - r, dont l’ordre demultiplicité
estégal
à p -1,
admet pour sous-espace proprel’hyperplan
ortho-gonal à j.
Aussil’analyse
encomposantes principales
fournit-elle ladécomposition
R =
V + V2 ,
où les matrices :représentent
les formesquadratiques
d’inertie des nuages obtenus enprojetant
lespoints
individus sur l’axeengendré par j
etl’hyperplan orthogonal à j respective-
ment ;V2
est ici de rang p - 1.- -
Pour PEARSON l’axe
engendré par j
n’est lepremier
axeprincipal
que si r estpositif (À1
>X2) ;
mêmesi,
r étantpositif,
on se contente d’unereprésentation unidimensionnelle,
le meilleurajustement
du nuage conduit à unedécomposition
de R
qui
n’est pas celle que proposel’analyse
de SPEARMAN.Même si les
problèmes respectivement posés
par SPEARMAN et PEARSON sontdifférents, l’analyse
encomposantes principales
fournit engénéral
une excel-lente
approximation
de ce que l’on recherche en"analyse factorielle
au sens deSPEARMAN",
et celaquoique
la solution dePEARSON,
où la somme des rangs deV
1 etV2
estégale
à p, nepuisse théoriquement pratiquement jamais (il
faudraitque
V2
soit de rang p -k)
coïncider avec une solution auproblème
deSPEARMAN. La similitude des
objectifs (réduire),
laproximité
entre les résultats obtenus ont conduit à bien des controverses. Le succès que connaitparticulière-
ment à l’heure actuelle la solution de PEARSON résulte de sa
simplicité ;
elle nepose pas de
problème
d’unicité[ 1 ]
et est obtenue sans avoir recours à d’autresitérations que celles
exigées
par l’extraction des valeurs et vecteurs propres.Si on
dispose
non pas de variablesquantitatives
mais de variables dicho-tomiques (variables qualitatives
à deuxmodalités)
onpeut
aborder avec les "struc- tures latentes" introduites par P. LAZARSFELD[29]
unproblème
tout à faitanalogue
à celuiqu’avait posé
SPEARMAN : existe-t-il une variablequalitative (ses
modalités définiront les classeslatentes)
telle que, conditionnellement à cettevariable,
les variablesdichotomiques
considérées soientindépendantes ? Opérant
ici directement sur les
probabilités,
l’existence et l’unicité de la solution créentencore bien des difficultés.
Revue de Statistique Appliquée, 1979. vol. XXVI 1, n° 1
9
K. PEARSON et H. HOTELLING n’ont vu
l’analyse
encomposantes princi- pales
que sous sonaspect
leplus
restrictif : lespoints
individus étaient tous munis des mêmespoids ;
la distance euclidienneclassique
était considérée. Lejour
où l’ona
pris
conscience que l’onpouvait jouer
à la fois sur lespoids
et sur lamétrique
- en France l’influence de J.P. BENZECRI a été à ce niveau déterminante
[6] -
on s’est aperçu
qu’en
faitl’analyse
encomposantes principales
recouvrait tout unensemble de
techniques,
que nous dironsd’analyse factorielle, répondant
à desobjectifs apparemment
différents[ 11 ].
C’est à cesanalyses
factorielles que désor- mais nous nous intéresserons.L’étude
géométrique
despositions
relatives de deux sous-espaces d’un espace euclidien que nousappelons analyse canonique [11]
a été introduite par H. HOTELLING[23]
en1936 ; l’objectif
initial étaitd’exprimer
au mieux à l’aided’un
petit
nombre decouples
de variables la liaison entre deux ensembles de carac-tères
quantitatifs. Compte
tenu des moyens de calcul dont ondisposait
et des ten-dances dominantes de
l’époque
dans le domaine de lastatistique (on
était àl’apo- gée
de lastatistique
inférentielleanglo-saxonne)
l’accent a été mis fortlongtemps
en
analyse canonique,
non pas sur lesprocédés graphiques qu’elle
offrait à la statis-tique descriptive (et
l’on sait combien cesprocédés
sont utilisés maintenant enanalyse
desdonnées),
mais sur les cosinus(les
coefficients de corrélation cano-nique, généralisations
des coefficients de corrélation et de corrélationmultiple) qu’elle permettait
de calculer etqui
fournissaient un moyen, connaissant la distri- bution duplus grand
d’entre eux[35] [20], de juger
de lasignificativité
des liaisonsentre les deux
paquets
de variables considérées soushypothèse
de normalité des distributions.C’est à ce même
problème géométrique
que fait référencel’analyse factorielle
discriminante
[18] [36] [37] qui permet
de décrire la liaison entre une variablequalitative
et un ensemble de variablesquantitatives ;
ici les cosinus sont traduitsen termes de
rapport
de corrélation.L’analyse factorielle
descorrespondances
sur tableau decontingence qui
aété introduite en 1962 par J.P. BENZECRI
[6] [7] peut
être encore considéréecomme une variante de
l’analyse canonique ;
ici les sous-espaces dont ils’agit
depréciser
lespositions
relatives sontcaractéristiques
des deux variablesqualitatives
dont on se propose
d’analyser
les liaisons.L’originalité
en 1962 despropositions
de J.P. BENZECRI ne résidait que très
partiellement
dans latechnique qui
étaitproposée ;
ils’agissait beaucoup plus
d’une remise en cause radicale des schémas depensée
et despratiques ayant
cours à cetteépoque
enFrance.
En effet le livrede chevet du statisticien
qui analysait plus
de deux variables étant alors le fameux"Introduction to multivariate
analysis"
de T.W. ANDERSON[2], l’analyse
desdonnées multidimensionnelles ne se concevait
pratiquement
alors que dans le cadre de lastatistique
inférentielle en universgaussien.
Ce fut àproprement parler,
etles
aveugles
del’époque (nous
enfûmes)
l’ont ressentiplus
que tout autre, une révolution dans lepetit
monde de lastatistique française :
le modèlegaussien
et au-delà le modèleprobabiliste
devinrent lessymboles
d’unepratique
où l’on dé- clare vert ce que l’on saitpertinemment
ne pasl’être,
où l’ons’interroge
sur desproblèmes
annexes d’existence(x
est-il lié à y?)
sansjamais regarder
finement cequi
est(comment
x est-il lié à y?)
où l’on discute doctement sur despréalables (échantillonnage)
en hésitant àprendre
le taureau par les cornes(manipuler
lesdonnées
existantes)...
etc. Laposition positiviste
de la nouvelle vague aparfois choqué :
affirmait-on sa naïveté ou voulait-on lapolémique ?
Elle a eu le méritede provoquer un salutaire retour aux sources
qui s’imposait
d’ailleurscompte
tenu des
possibilités
nouvellesqu’offraient
les moyens destockage
et de calculpuissants.
Revue de Statistique Appliquée, 1979, vol. XXVI 1, n° 1
10
L’extension du
problème
de HOTELLING à l’étude despositions
relativesde k sous-espaces vectoriels
[12] [26]
a conduit à despratiques particulières
dontl’analyse factorielle
descorrespondances
sur tableaudisjonctif
est, dans le cas des variablesqualitatives,
une illustration. Ce fait quel’analyse
factorielle des corres-pondances permette
detraiter,
defaçon
tout à faitjustifiée,
aussi bien les tableauxde
contingence
que les tableauxlogiques (ils
sont considérés dansl’analyse
commes’ils étaient des tableaux de
contingence)
et de faire face encore à d’autres situa- tions[ 14],
a pu faire dire à certainsqu’elle
était "universelle".C’est en 1969
[16] qu’Y.
ESCOUFIER proposa demanipuler
les tableauxde données comme on
manipule
leslignes
et les colonnes de ces tableaux en leur associant desopérateurs
considérés comme vecteurs d’un espaceeuclidien ;
il est intéressant de noterqu’ESCOUFIER
ne s’est aperçu que bienaprès
de lagénéra-
lité de sespropositions simplement
par le fait que, raisonnant dansl’espace
desvariables aléatoires du second ordre
(espace L2),
il utilisait àl’époque
lelangage
du calcul des
probabilités.
Lejour
où il aadopté
le "schéma de dualité"[11]
comme instrument clef
d’expression,
c’est-à-dire lejour
où il est revenu à lagéo-
métrie en se donnant la
possibilité
dejouer
sur lesmétriques
dans les deux espacesen dualité où "individus" et "caractères" sont
respectivement représentés
commedes
points,
il s’est renducompte
que sesopérateurs, qui permettaient
de comparer différentstypes
de tableaux de données dans unegrande
diversitéd’optiques,
constituaient une sorte de méta
langage
pour discuter fortsimplement
de toutes lestechniques d’analyse
factorielle(on
neparle
pas ici del’analyse
au sens deSPEARMAN)
et que leproduit
scalairequ’il
avait introduit pour mesurer lesangles
entre
opérateurs généralisait
les différents indices que l’on trouve enstatistique
pour mesurer des
angles, (coefficients
etrapports
decorrélations ; chi-deux) [33].
Signalons
que lapsychométrie
américaine a connu,plus tôt,
une évolutioncomparable
par certains côtés(remise
en causeimplicite
du modèleprobabiliste
a
priori)
à celle de lastatistique
multidimensionnellefrançaise.
Dans ses écritsW.S. TORGERSON
[42] ] indique
commentprocéder
pour effectuer uneanalyse
factorielle directement sur un tableau de distances ou
plus généralement
de dissi-milarités ;
nousappelons
cettetechnique, qui répond
à unproblème posé depuis longtemps
chez lespsychométriciens [46], "analyse factorielle
sur tableau de distances"[11].
On met icil’accent, exploitant
la dualité entre espace des obser- vations(individus)
et espace des variables[45],
sur le faitqu’il
estpossible
d’ex-traire,
defaçon hiérarchique,
desdescripteurs quantitatifs
de la seule information constituée par un tableau décrivant desproximités
entreobjets ;
on mesure toutl’intérêt de la méthode
proposée
si cesobjets
sont"caractéristiques"
duphéno-
mène
étudié,
c’est-à-dire sil’explication
duphénomène peut
être recherchée dans les différences entreobjets.
Unproblème
de même nature a été abordé par J.D. CARROLL[13] :
les tableaux de dissimilaritésDl, D2 , ... , Dk
de taille(n
xn),
caractérisant lesperceptions
que manifestent kjuges
à propos de n ob-jets, peuvent-ils
être considérés comme résultant demétriques
différentesappli- quées
sur une même batterie dedescripteurs (variables) quantitatifs ?
Ce pro-blème, qu’il
est facile de traiter en termesd’opérateurs,
fait référence à uneéqui-
valence entre tableaux de dissimilarités
identique
à cellequi
est considérée enanalyse canonique.
La manière d’aborderl’analyse
desproximités
a fait un pasen avant en 1962 avec R.N. SHEPARD
[38] [39] qui
a montré que l’information contenue dans un tableau de dissimilarités résidait pour l’essentiel dans l’ordre danslequel
serangent
cesdissimilarités ; l’équivalence qui
en résultejoue
un rôle fondamental en classificationautomatique [24]. Empruntant
aux idées deSHEPARD,
J.B. KRUSKAL[27]
a alorsproposé
unetechnique
nouvelle pourRevue de Statistique Appliquée, 1979, vol. XXVII, n° 1
11
construire une
image
euclidienne àpartir
d’un tableau de dissimilarités neprenant
en
compte
que l’ordre sur lesdissimilarités ;
cettetechnique
connaît à l’heure actuelle auxEtats-Unis, particulièrement
dans le domaine des études demarché,
un succès considérable. Il faut encore citer
parmi
ceuxqui
ont faitbeaucoup
pour l’évolution des
pratiques statistiques
aux Etats-Unis J.W. TUKEY[43] qui
est l’auteur d’un ensemble de
propositions originales
etsimples
concernant ladescription
desdonnées ;
le titre de l’un de ses derniers ouvrages"Exploratory
data
analysis" [44] indique
clairementquel
est le rôle dansl’esprit
de TUKEYdes
techniques descriptives d’analyse
de données(et
aussi destechniques rapides d’estimation)
dont fontpartie
lesanalyses
factorielles : si ellespermettent
des’interroger
sur lesphénomènes étudiés,
et cela dans un certainordre,
les faits misen
évidence, quand
on ne travaille que sur desfragments (échantillons)
et non surdes totalités
(populations),
nepermettent
en touterigueur
que d’émettre deshypo-
thèses
qu’il
reste encore àvalider ;
valider leshypothèses
est le rôle dévolu aux tech-niques
dites "confirmatoires"(confirmatory
dataanalysis) qui,
si elles consistent souvent à refaire les calculs sur des sous-échantillons ou sur des échantillons simulés(on peut
citer parexemple
lesépreuves
de validationproposées
par L. LEBART enanalyse
factorielle descorrespondances [6] [31]),
laissentmalgré
tout uneplace beaucoup plus grande
auxenseignements
de lastatistique mathématique.
2. - GRANDS TYPES DE TABLEAUX DE DONNEES ET CLASSIFICATION SOMMAIRE DES
TECHNIQUES
D’ANALYSE FACTORIELLE(RAPPEL)
Nous nous
restreignons
ici auxtechniques d’analyse
factorielle relevant del’analyse
encomposantes principales
ou del’analyse canonique
et conduisant à des solutions en termes de valeurs et de vecteurs propres.2.1. -
Types principaux
de tableaux seprêtant
directement à uneanalyse
factorielle Onpeut distinguer
troistypes principaux :
2022 Les tableaux "individus x caractères"
Ces tableaux à p
lignes (caractères)
et n colonnes(individus)
serontanalysés
différemment suivant que les caractères sont :
.
quantitatifs,
.
dichotomiques (caractères qualitatifs
à deuxmodalités),
.
qualitatifs.
Dans le dernier cas le tableau "individus x caractères" est construit en em-
pilant
les unes sur les autres les variables indicatrices associées aux modalités(va-
riables valant 1 ou 0 suivant que l’individu
prend
ou neprend
pas lamodalité) ;
ce tableau
"disjonctif"
est dit"complet"
si toutes les modalités sont considérées.e Les mesures
définies
sur unproduit
cartésienIci les
lignes
ou lescolonnes, qui jouent
des rôlessymétriques, peuvent
être réunies parsommation,
les nombrespositifs
constituant ces tableauxpouvant
êtreinterprétés
comme des masses. Les tableaux decontingence, qui
résultent du croi-sement de deux variables
qualitatives, appartiennent
à cette famille.Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 1
12
2022 Les tableaux de dissimilarités ou de distances
Ces tableaux carrés
symétriques
décrivent lesproximités
entre nobjets ;
si ona affaire à des
dissimilarités,
l’indice d considéré nevérifie,
pour tout i et pour toutcouple (i , i’),
que les deuxpropriétés :
2.2
Classification
sommaire destechniques
Avec les
techniques d’analyse
factorielle ondispose
de moyens decontrôle,
et de réduction efficaces des données
analogues
auxhistogrammes
en universunidimensionnel : une formule
simple permet
de reconstituer defaçon approxi-
mative le tableau initial à
partir
des dimensions retenues, dimensionsqui
donnentsouvent un
éclairage
nouveau sur lephénomène
étudié.Contrôler, réduire,
extraire les dimensionsprincipales sous-jacentes
auphé-
nomène
peuvent
donc être considérés comme desobjectifs
communs auxanalyses
factorielles.
Les
graphiques
issus desanalyses
factorielles offrent desdescriptions simples
des
lignes
ou des colonnes des tableauxconsidérés ;
en se référant aux notions d"’individu"(ou objet,
ouobservation...)
et de "caractère"(ou variable,
ou di-mension...), qui
induisent deséquivalences
de naturedifférente,
onpeut
doncdistinguer
les deuxobjectifs
suivants :(a) :
décrire au mieux lesproximités
entre individus(b) :
décrire au mieux les liaisons entre caractères.Si on
adopte
lessigles :
A.C.P. pour
analyse
encomposantes principales
A.C. pour
analyse canonique
A.F.D. pour
analyse
factorielle discriminante A.F.C. pouranalyse
factorielle descorrespondances
A.F.T.D. pour
analyse
factorielle sur tableau de distancesla classification suivante des
techniques usuelles, qui
ne reflète que de loin lespratiques, peut
être alorsproposée :
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 1
13
Bien des transformations
peuvent
être effectuées sur lesdonnées,
on passera très souvent parexemple,
pourexplorer
des liaisonsplus générales
que les liaisons linéaires oufonctionnellés,
duquantitatif
auqualitatif.
3. GEOMETRIE EN ANALYSE FACTORIELLE
Cette
partie reprend
trèslargement
unexposé
effectué àUppsala [17] :
ils’agit
de bien mettre en évidence en utilisant lelangage
de lagéométrie
lesrapports
entre les différentes
analyses.
Une attentionplus particulière
estportée
surl’analyse
factorielle des
correspondances.
3.1 Le
langage
du schéma de dualité 3. 1. 1 Letriplet (X, M, Dp )
La donnée d’un tableau individus x caractères X va
toujours
depair
en ana-lyse
factorielle avec la donnée de deuxmétriques
euclidiennes : =- la
première, représentée
par la matrice définiepositive
M(p
xp) permet
demesurer les
proximités
entre les n individuscolonnes ;
-
ayant
muni les individus despoids pi(pi
>0 ; E
pi =1), la
seconde estreprésentée
par la matricediagonale
définiepositive Dp (n
xn)
dont les élémentsdiagonaux
sont les pi. Lesproduits
scalaires et les cosinus desangles
entre les carac-tères centrés
(de
moyennenulle)
ne sont autres alors que les covariances et les corrélations.Nous
parlerons
leplus
souvent non pas du tableauX,
mais dutriplet
(X, M, Dp).
3.1.2 Un bien
joli
schéma : le schéma de dualitéVoici un tableau "individus x caractères"
X(p
xn) :
=Notons
{êj/j
=1,.., p}
et{fi/i
=1,.., n}
les basescanoniques
des espaces euclidiens E(métrique M)
et F(métrique Dp)
de dimensionsrespectives
p et n.Les caractères
peuvent
êtrereprésentés,
si on note{e*j/j
=1,.., p} la
baseduale du dual
E*
de E :- dans F par les vecteurs
xj
dont les coordonnées sont les donnéesxji
;- dans E par les vecteurs
de
baseej ;
- dans E* par les vecteurs de base
e*j.
Revue de Statistique Appliquée, 1979, vol. XXVI 1, n° 1
14
De même les individus
peuvent
êtrereprésentés,
si on note{fi /i
=1,.., n}
la base duale du dual F* de F :
- dans E par les vecteurs
x’
dont les coordonnées sont lesxi ;
- dans F par les vecteurs de base
fi ;
dans F* par les vecteurs de base
fi*.
Au
triplet (X , M , Dp)
onpeut
donc associer le schéma suivant dit "de dualité"[ 11 ] :
Le tableau de données X est ici considéré comme la matrice d’une
appli-
cation linéaire
qui
associe les deuxreprésentations if
et xi d’un mêmeindividu,
la
transposée X’
associant lesreprésentations et et xj d’un
même caractère.La
métrique
Mapparaît
dans le schéma sous la forme d’unisomorphisme :
si u est un vecteur- normé de
E,
la forme linéaire M u fournit les coordonnées parrapport
à u desprojections
sur la droite0394u engendrée
paru.A
l’application
W =X’
M X est associé un "écart" euclidien(la
matrice Wn’est en
général
que semi définiepositive) qui permet
de mesurer dans F* desangles
et des distances entre vecteurs
fi identiques
à ceux que l’on mesure dans E entre vecteurs xi avec lamétrique
M.De
façon symétrique
lamétrique Dp apparaît
sous la forme d’un isomor-phisme,
elle induit sur E* l’écart euclidienreprésenté
dans le schéma parl’appli-
cation V = X
Dp X’ qui permet
de calculer dans E* desproduits
scalaires et desdistances
identiques
à celles que l’on calcule dans F. Si les caractères sontcentrés,
la matrice V n’est autre que la matrice des variances-covariances.3.1.3
Quelques
acrobaties3.1.3.1
Opérateurs
deprojection (projecteurs)
Le projecteur
A sur le sous-espaceX(E*)
des combinaisons linéaires des carac-tères ’ s’écrit,
s’il est de dimension p :Si on
prend
pourmétrique
M lamétrique
de "Mahalanobis" M =V-1, l’opé-
rateur W
Dp
n’est autre que A.Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 1
15
3.1.3.2
Aperçu
surl’analyse
en composantesprincipales
Les axes
principaux Lluj,
axes lesplus proches
du nuage des individus xi ausens de la
métrique M,
sont définis par leséquations :
Ces axes définissent une base M orthonormée et
V-1 orthogonale (si
V estinversible)
dansl’espace E ;
la valeur propreÀj
estégale
au moment d’inertie parrapport
àl’hyperplan orthogonal
à0394uj.
Les
facteurs principaux Xj
= Muj, qui permettent
de calculer les coordonnées dans lesystème
des axesprincipaux,
vérifient leséquations :
Ces facteurs définissent dans E* une base
M-1 orthonormée
etV-orthogonale.
Les composantes
principales ci
=X’:£j
=X’Muj,
dont les coordonnées ne sont autres que celles des individus xi dans la base des axesprincipaux,
vérifient leséquations :
Les
composantes principales
définissent unebase Dp-othogonale
dans le sous-espace
X’(E*)
de F.Remarque :
versl’analyse factorielle
sur tableau de distancesLa matrice W
peut
être calculée directement àpartir
des distancesdii, = ~xi - xi, 11
et despoids
pi à l’aide de la formule[42] :
àvec :
Si on note D le tableau
(n
xn)
des distancesdii’
cette formule montre quepour effectuer
l’analyse
encomposantes principales
la donnée dutriplet (X, M, Dp)
est
équivalente
à la donnée ducouple (D , Dp).
3.1.3.3 Jeux de
métriques
L’analyse en
composantesprincipales
sur variablesréduites, qui
conduit à ladiagonalisation
de la matrice des corrélationsR, correspond
au choix pourM,
X étantcentré,
de la matriceDliQ2
des inverses des carrés desécarts-types.
En
analyse
factorielle au sens deSPEARMAN,
la variante de JORESKOG[25],
choisissant pour M la matricediagonale diag (V-1)
dont ladiagonale
n’estautre que celle de
V-1,
revient à uneanalyse
encomposantes principales.
L’espace
E étant muni de lamétrique
de Mahalanobis M =V-1, l’analyse
factorielle discriminante n’est autre
qu’une analyse
encomposantes principales
effectuée sur un nuage de centres de
gravité
muni despoids
associés aux groupes d’individus considérés[11]
etc.Revue de Statistique Appliquée, 1979, vol. XXVII, n° 1
16 3.1.4
Comparaison
de tableaux etopérateurs
L’opérateur
U = WDp, caractéristique
dutriplet (X, M, Dp)
et ducouple
(cf. 3.1.3.2) (D, Dp),
a été introduit par Y. ESCOUFIER[16]
pour comparer destriplets (X, M, Dp)
ou descouples (D, Dp).
Le sous-espace G desapplications
linéaires
Dp-symétriques
de F dans F étant muni duproduit
scalaire P défini àpartir
de la trace(Tr) :
U E G V~G ~
P (U , V) = Tr (UV)
On
peut
alorsmanipuler
lesopérateurs,
donc lestriplets (X, M, Dp)
ou lescouples (D, Dp),
comme onmanipule
leslignes
ou les colonnes destableaux,
à l’aide del’analyse
factorielle[11] [33].
3.2
Stratégies
II et E3.2.1 Positions relatives de deux sous-espaces vectoriels
L’étude des
positions
relatives de deux ou de k sous-espaces vectoriels est unproblème géométrique
central enanalyse
factorielle.FIGURE 1
Pour caractériser les
positions
relatives de deux sous-espaces vectorielsHl
etH2
d’un espace euclidien F(les
sous-espacesqui
leur sontorthogonaux
sont respec- tivement notésH i-
etH2 )
ondispose
de deuxstratégies :
Revue de Statistique Appliquée, 1979, vol. XXVII, n° 1
17
STRATEGIE 03A0 : chercher
respectivement
dansHl
etH2
les vecteurs03BE1
et~1
normés faisant un
angle minimum ; puis chercher, toujours
dans cessous-espaces,
les vecteurs
normés 03BE2
et!J.2, orthogonaux
auxprécédents,
faisant unangle minimum,
etc.STRATEGIE Y, : chercher dans
F,
le vecteur norméel équidistant
deHl
etH2
faisant
unangle
minimum avec ces deuxsous-espaces ; puis chercher a2
dansF,
normé et
orthogonal à 03B21, équidistant
deHl
etH2,
faisant unangle
minimum avecces deux sous-espaces,
etc.
Si les
projecteurs (cf. 3.1.3.1)
associés aux sous-espacesHl
etH2
sontnotés
Al
etA2,
lastratégie
n conduit auxéquations :
Les valeurs propres
X ne
sont autres que les carrés des cosinus desangles
entre
les
et lesni.
La
stratégie 03A3
conduit auxéquations :
En tirant les vecteurs
propres 0
del’opérateur Al
+A2
on obtient en réalité(figure 1)
unsystème
orthonormé de vecteurs situés :- soit dans
H1 ~ H2 ;
la valeur propre Il est alorségale
à2 ;
- soit à
égale
distance deHl
etH2, l’angle
formé avec ces sous-espaces étant inférieur à 45degrés ; homothétiques
aux vecteurs(03BE + il
leur est associé unevaleur propre Il
comprise
entre 1 et 2(03BC
= 1 +;
- soit dans
H-L 1 n H2
ouH1
nH2,
la valeur propre associée estégale
à1 ;
- soit à
égale
distance deHl
etH2, l’angle
formé avec ces deux sous-espaces étantsupérieur
à 45degrés ; homothétiques
aux vecteurs(03BE - ~),
il leur est associéune valeur propre Il
comprise
entre 0 et 1(jn
= 1 -03BB) ;
- soit dans
Ht n H1 2 ;
la valeur propre M associée est alors nulle.En
analyse factorielle,
lesstratégies
n et Scorrespondent
à deuxoptiques différentes ; l’optique "analyse canonique"
pour lapremière, l’optique "analyse
encomposantes principales"
en cequi
concerne la seconde.La
stratégie
E segénéralise
immédiatement.Pourquoi
ne pas caractériser lespositions
relatives de k sous-espaces vectorielsHi
par les vecteursnonnés 0
obtenusen
diagonalisant
la somme desprojecteurs
EAi ?
Nousappellons,
nesuivant
en celani CARROLL ni
KETTENRING, analyse
en composantesprincipales (et
non ana-lyse canonique)
réduitegénéralisée
latechnique
conduisant àdiagonaliser
03A3Ai [12] [26].
Pratiquement
toutes lestechniques d’analyse
factorielle conduisant à des solutions en terme de vecteurs et de valeurs proprespeuvent
être considéréescomme découlant des deux
stratégies précédentes.
Revue de Statistique Appliquée, 1979, vol. XXVI I, n° 1