R EVUE DE STATISTIQUE APPLIQUÉE
J. F INE
Problèmes d’indétermination en analyse en facteurs et analyse en composantes principales optimale
Revue de statistique appliquée, tome 41, n
o4 (1993), p. 45-72
<http://www.numdam.org/item?id=RSA_1993__41_4_45_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PROBLÈMES D’INDÉTERMINATION
EN ANALYSE EN FACTEURS ET ANALYSE
EN COMPOSANTES PRINCIPALES OPTIMALE
J. Fine
Laboratoire de
Statistique
et Probabilités, URA CNRS D0745 Université Paul Sabatier, 31062 Toulouse cedex, FranceRÉSUMÉ
Pour un même type de données (observations de p variables
quantitatives
sur n individus)deux
analyses
sont couramment utilisées :l’Analyse
enComposantes Principales
(A.C.P.) etl’Analyse
en Facteurs (A.F.).L’A.F.
présente
troisproblèmes
d’indétermination que nous décrivons, leplus important
étant l’indétermination des facteurs.
Par ailleurs,
plusieurs
études ontpermis
de montrerqu’une légère
modélisation de l’A.C.P. (par le modèle à effets fixes) conduit à un choixoptimal
de lamétrique
M surl’espace
des individus.
Nous montrons alors que la seule
approximation
communément admise des facteurscommuns de l’A.F. est obtenue à
partir
de l’A.C.P. définie ci-dessus.Mots-clés :
Analyse
enComposantes Principales, Analyse
en Facteurs, Modèle àeffets fixes,
Indétermination
des facteurs, Métrique optimale.
SUMMARY
For the same data matrix (observations
of p quantitative
variables on n statistical units)two
analyses
arecurrently
used :Principal Component Analysis
(P.C.A.) and FactorAnalysis
(F.A.).F.A. presents three indetermination
problems
that we expose, the mostimportant
of thembeeing
the factor score indetermination.Besides, several studies show that a
light
modelization of P.C.A.(using
the fixed effect model) leads to anoptimal
choice for the metric Af on unit space.Finally,
we show that theonly
onecommonly accepted approximation
of F.A. commonfactors is obtained from the P.C.A. defined above.
Key-words :
Principal Component Analysis,
FactorAnalysis,
Fixedeffect
model, Factor score lndetermination, Metric choice.1. Introduction
Soit Y une matrice n x p de données dont les éléments sont les valeurs
prises
par n individus sur p variables
quantitatives.
Pour traiter ces données etlorsqu’aucune
information auxiliaire n’est
disponible,
deux méthodes sont couramment utilisées :l’Analyse
enComposantes Principales (A.C.P.)
etl’Analyse
en Facteurs(A.F.).
Nousprésentons
ces deuxanalyses
et nous exposons les débatsqui opposent
lesadeptes
dechacune de ces deux méthodes.
Le
paragraphe
2 concerne l’A.F. : le modèle de l’A.F. et les différentstypes
d’indétermination. Leplus
sévère est l’indétermination desfacteurs,
c’est-à-dire que,quelque
soient les contraintesutilisées,
le modèle d’ l’A.F. admet une infinité de solutions. Lapratique
consiste à fournir un seulprédicteur
pour l’ensemble dessolutions, prédicteur
obtenu àpartir
d’une A.C.P..Dans le
paragraphe
3 nousprésentons
l’A.C.P.classique (Hotteling, 1933)
etl’A.C.P.
descriptive
avec choix arbitraire de lamétrique
M surl’espace
des individus.Plusieurs études ont
permis
de montrerqu’une légère
modélisation de l’A.C.P.(par
le modèle à effets
fixes)
conduit à un choixoptimal
pour M.En conclusion nous montrons que la seule
approximation
communément admise des facteurs communs de l’A.F. est obtenue àpartir
de l’A.C.P.optimale
définie ci- dessus.2. Le modèle de
l’analyse
en facteurs2.1
L’Analyse
en FacteursL’Analyse
en Facteurs(Communs
etSpécifiques)
est introduite parSpearman
en 1904 pour un seul facteur commun et
généralisée
par Garnett en 1919 pourplusieurs
facteurs communs. A
partir
de1936, Thurstone, qui
sembleignorer
les travaux desanglais qui
l’ontprécédé, popularise l’analyse
en facteurs communsmultiples grâce
à la revue
Psychometrika.
Cf. aussiThurstone, 1935,
1947.Soit
L2 l’espace
des variables aléatoires réelles(v.a.r.)
admettant des momentsd’ordre 2. C’est un espace de Hilbert pour le
produit
scalairequi
à(f, g)
associeE( f g).
Dans lasuite,
toutes les v.a.r. sontsupposées appartenir
àL2.
Soit y =
(y 1 ... yP)
un vecteur aléatoire de IRP. On confond le vecteur et la matrice colonne de ses coordonnées dans la basecanonique.
Le modèle de l’A.F. est alors le suivant :On a alors
E(y)
= Jl.On pose : x - y - 03BC, 03A3 =
E(xx’), 03A6
=E(ff’)
et 03A8 =E(ee’).
On déduit du modèle de
l’Analyse
en Facteurs(2.1)
la relation suivante entreles matrices de
covariance, appelée
dans la suite modèle de stucture de covariance :Avec des notations évidentes on a, pour
tout j
de1,..., p :
Les éléments
f1,
...,f q
def
sontappelés les facteurs
communs aux p variables observables et les élémentse1,..., ep
sontappelés
lesfacteurs spécifiques.
Ils sontparfois appelés
facteursuniques
et chacun d’eux estsupposé décomposable
en lasomme d’un facteur
spécifique
et d’une erreur. Nous ne ferons pas cette distinctionet
préférons
utiliser le termespécifique plutôt qu’unique.
La matrice A est
appelée
enanglais «factor loadings
matrix» ou«pattern
matrix».Lorsque
l’onsuppose 03A6
=I,
A est la matrice des covariances entre les variables observables et les facteurs communs : A =E(x f’).
On remarque que l’on
a :
et
Les covariances des variables observables sont
complètement
reconstituées àpartir
des facteurs communs. Enrevanche,
les variances sedécomposent
en unepart due aux facteurs communs
appelée
communalité et une part due aux facteursspécifiques appelée spécificité (ou unicité).
Sans perte de
généralité
on supposeque 03A6
est de rang q, sinon on se ramène à des facteurs communs linéairementindépendants
pour une valeur inférieure à q.Si on pose z =
Af
+ fi et 0 =E((z - M) (z - M)’)
=03A6’,
on a un modèleà effets aléatoires dont la
présentation
est assezproche
du modèle à effets fixesqui
sera
exposé
auparagraphe
3.4. :y = z + e, où z est un effet aléatoire
appartenant
presque sûrement à un sous-espace affine de dimension q,Fq,
de RP et e est une erreur aléatoirecentrée,
non corréléeavec z et de matrice de covariance
diagonale régulière.
En fait e est ici le vecteur des facteurs
spécifiques
et les différences essentielles par rapport au modèle à effets fixes sont1 )
le caractère aléatoire deseffets,
2) l’hypothèse
de non corrélation des erreurs(W diagonale),
3)
l’introduction des facteurs communs.Si A est une matrice carrée d’ordre p
diagonalisable,
on note[A]q l’espace
engendré
par les vecteurs propres associés aux qplus grandes
valeurs propres deA(q p),
et onl’appelle
q-espaceprincipal
de A.Comme on a : E = 8 +
03A8,
donc aussi :03A303A8-1
=8W-1
+I,
il est aisé de voir que l’on a :Fq =
JL +Eq
avecEq
=7m(8) = [03A303A8-1]q.
L’existence d’une solution
(A, 03A6, w)
du modèle(2.2)
est une condition néces- saire de l’existence d’une solution(A, f, e)
du modèle(2.1)
aussi la démarche consiste-t-elle à étudier d’abord le modèle(2.2) puis
le modèle(2.1).
Il est
important
de différencier les deux aspects de l’ A.F. :1)
l’estimation de A(«factor loadings»),
afin d’étudier les relations entre les variables observables et les facteurs communs.2)
l’«estimation» def («factor scores»),
afin deprédire
les valeurs def
sur lesindividus à
partir
des valeurs observées sur les variables initiales.L’A.F. a une
propriété
souvent mise en avant pour lapréférer
à l’A.C.P. :son invariance par
changement
d’échelle des variables. Eneffet,
soit D une matricediagonale,
on déduit du modèle(2.2)
que l’on a :La solution
(A, -1), 03A8) pour 03A3
fournit donc la solution(DA, 03A6, D03A8D)
pourDED. En
particulier
il est indifférent de fairel’analyse
sur la matrice de covarianceou sur la matrice de corrélation.
Il existe
plusieurs
niveaux d’indétermination :1)
Leproblème
d’identification de A(«factors loadings») appelé
encoreproblème
de «rotation» des facteurs communs.2)
Leproblème
d’identification du modèle de structure de covariance(2.2).
3)
Leproblème
d’indétermination des facteurs(«factor
scoreindétermination»)
dans le modèle
(2.1).
2.2. Problème de «rotation » des
facteurs
communsOn peut remarquer que, si
(A, f, e)
est solution de(2.1) alors,
pour tout Amatrice q
x qrégulière, (A, A-1 f, e)
est solution de(2.1).
Demême,
si(A, 03A6, 03A8)
est solution de(2.2)
alors(AA, A-1FA’-1, Y)
est solution de(2.2).
Cetteindétermination
correspond
au choix d’une base(03BB1, ...,03BBq)
du sous-espaceEq
deIRP dans
lequel appartiennent
p.s. les effets aléatoirescentrés,
ou encore defaçon duale,
au choix d’une base(f1,..., f q )
del’espace
des facteurs communs dansL2.
Il est
possible,
àpartir
d’une solutionf,
en utilisant une transformationrégulière
A dansl’espace
des facteurs communs, d’obtenir des facteursplus
facilementinterprétables.
Les éléments de A étant les coordonnées des variables observables sur les facteurs communs, si A contient de nombreux éléments nuls(structure simple
pourA), l’interprétation
des facteurs communs devientplus
facile. La transformation A apour
objectif
d’obtenir une structureapproximativement simple
pourA, c’est-à-dire,
avec le
plus grand
nombrepossible
d’élémentsproches
de zéro.Si la solution initiale
f
estcomposée
de facteursorthogonaux
et que l’on désireconserver cette
propriété,
on utilisera des rotations(transformations orthogonales).
La recherche d’une structure
approximativement simple
pour A repose sur des méthodes procrustes(Mosier 1939,
Green1952,
Schônemann1966,
Browne1967).
Desalgorithmes
sontimplémentés
sur leslogiciels
usuels destatistique
tels que
BMDP, SPSS,
SAS. Lesplus
connus sont VARIMAX(Kaiser, 1958)
ouQUARTIMAX
pour les transformationsorthogonales, QUARTIMIN,
OBLIMIN(Carroll, 1953,1957),
OBLIMAX(Saunders, 1961),
PROMAX(Hendrickson
etWhite, 1964),
direct OBLIMIN(Jennrich
etSampson, 1966)
pour les transformationsobliques.
Cf. Clarkson etJennrich,
1988 pour unerevue.
Ce
problème
de «rotation» des facteurs est de faibleimportance.
Il n’affecteen rien l’intérêt et les fondements de l’ A.F.. Pourtant certains défenseurs de l’ A.F. ne
semblent connaître que ce
problème
et trouventinjustifiées
les méfiances de certains statisticiens àl’égard
de l’A.F.qu’ils
pensent être dues à ceproblème (cf.
Everittet
Dunn, 1991).
Cf. aussiJackson, 1991,
p. 396 :«Furthermore,
factoranalysis methodologie usually
includes a rotation tosimple structure...Therefore,
even if a solution isdeterminate,
it isonly
up to a rotation...there has been considerable furor about thispractically
since thebeginning
of F.A. and even at thispoint
in time there issome
controversy
about theproperties
of this condition. Rather than dwell on this any furtherhere,
the reader may consultSteiger (1979)
for more details of thisproblem.
A
pair of papers by
Heermann(1964, 1966)
are also of interest becausethey
discussboth the
geometric
andalgebraic
concepts ofindeterminacy. »
Il faut noter que les trois références citées concernent le
problème
d’indétermi- nation des facteursqui
sera étudiéau §
2.4..Dans la mesure
où, pour W fixé,
àpartir
d’une solution(A, f )
de(2.1),
on peut,grâce
à des transformationsA,
obtenir toutes les solutions(A,A-1f),
on choisit dansla
suite,
sans perte degénéralité,
de chercher une solution(A, f )
de(2.1 )
vérifiantCeci
peut
encore être traduit de lafaçon
suivante. Si l’on pose :L’hypothèse (2.4)
est souvent malacceptée,
considérée comme une facilité d’ordremathématique.
Elle est pourtant du même type quel’hypothèse (2.3).
L’hypothèse (2.3)
revient à choisir dansl’espace
des facteurs communs une baseorthonormée pour le
produit
scalaireL2, l’hypothèse (2.4)
revient à choisir dansEq
une base
orthogonale
pour lamétrique W -1 de
RP.Il aurait été
équivalent
de choisirl’hypothèse
«A’Adiagonale»
car il existe unematrice
A q
x qrégulière
faisant passer d’une solution A vérifiant AAdiagonale
àune solution A vérifiant
(2.4).
On considère donc le modèle :
Remarque :
On
a : 03A303A8-1
==’03A8-1
+ I et les q valeurs propres de’03A8-1, qui
sontégales
aux valeurs propresde 03A8-1/2’03A8-1/2,
sont strictementpositives,
aussi lamatrice
03A303A8-1
a q valeurs propres strictementsupérieures
à 1 et la valeur propre 1 d’ordre demultiplicité
p - q.On a de
plus : 03A303A8-1 = A(T
+I).
La matrice F + I est donc la matricediagonale
des valeurs propres strictementsupérieures
à 1 de03A303A8-1
et A la matrice des vecteurs propres associés vérifiant la condition de normalisationA/w-1 A
= F.Pour W
fixé,
la matrice Apeut
donc être obtenue defaçon unique
àpartir
de ladiagonalisation de 03A303A8-1,
à l’orientation des vecteurs propresprès
et sous réserveque les valeurs propres différentes de 1 soient distinctes.
Il faut noter que
l’hypothèse
«03A8diagonale»
n’intervient pas dans cette remar- que.2.3 Problème
d’identification
du modèle de structure de covariance On considère le modèle :Soit r la différence entre le nombre de
paramètres
de E sanscontraintes,
c’est-à-dire le nombred’équations (= p(p
+1)/2)
et le nombre deparamètres
libres du modèle de l’A.F.(=
pq + p -q(q - 1)/2).
On a : r =[(p - q)2 - (p
+q)]/2.
On supposequ’il
n’existe pas de relation entre lesparamètres
ni entre leséquations.
Si r
0,
il y aplus
deparamètres
qued’équations.
Il existe donc une infinité de solutions. Le modèle estsurparamétré.
Si r =
0,
c’est-à-dire si q -[2p
+ -1 -/8p + 1]/2,
il existe une solutionunique.
Si r > 0, il y a
plus d’équations
que deparamètres.
Il n’existe pas de solution.(Cf.
Anderson etRubin, 1956,
pour une discussion sur cesujet).
Il
n’y
a actuellement aucune méthode permettant de savoir s’il y a des relations entre lesparamètres
ou entre leséquations
et donc de connaître la valeur de r. On renvoie à Hakim et al.(1976)
et Bekker et de Leeuw( 1987)
pour la recherche de ladimension q
minimum telle que 03A3-03A8 soit semi-définiepositive
de rang q.Le
premier
cas étant évidemment àéviter,
le deuxième étantimpossible
àréaliser de
façon pratique,
on seplace
engénéral
dans le troisième cas. Deplus,
pour des raisons de
parcimonie,
il est conseillé d’utiliser peu deparamètres
et doncde se
placer
dans cette situation. Il est alors nécessaire de chercher des solutionsapprochées.
Soit F une fonction de
divergence («discrepancy function», Browne, 1974,
1982), c’est-à-dire,
une fonctionqui
pour03A3i,
i =1, 2,
matrices p x psymétriques
positives,
vérifie :F(03A31, 03A32)
deux fois continûment différentiable parrapport à 03A31
et03A32.
Les
exemples
lesplus
utiles sont des fonctions construites àpartir
de critèresd’estimation. Par
exemple,
si Sdésigne
la matrice de covarianceempirique
obtenue àpartir
d’un échantillon(yi)i=1,...,n composé
de variablesindépendantes
et de mêmedistribution que y :
F(S, 03A3)
=Log E | -Log | S | +tr(S03A3-1) -
p, critère du maximum de vrai- semblancegaussien,
F(S, 03A3)
=tr[(S - 03A3)03A3-1]2,
critère des moindres carrésgénéralisés.
Soit F une fonction de
divergence
et(F, 03A8F)
la solution minimisantF(E,
AA’ +03A8),
solutionsupposée unique.
Le modèle
dépend
àprésent
de la fonction dedivergence utilisée,
fonctionqu’il
est souhaitable ensuite d’utiliser dans la
phase
d’estimation.En
effet,
soit(ÂF, F)
la solution minimisantF(S, AA’ + 03A8).
Browne(1984)
montre, sous certaines conditions de
régularité,
que c’est un estimateur consistant.L’efficacité
asymptotique
est étudiée dans des articles ultérieurs(cf.
parexemple,
Browne
1987).
Dans cet
article,
nous ne nous considérons que le modèle de l’A.F.Aussi,
lesproblèmes d’estimation, qui
ne font que rendreplus
obscures les difficultés inhérentesau modèle lui-même ne sont pas
exposés.
Deplus,
la distinction entre modèle etestimation n’est pas
toujours
clairement faite. Cf. parexemple :
Velicer etJackson, 1990,
p. 4 :«Hence,
whenworking
withsample
covariance matrixC,
we fit the model : C = AA’ +U2
+E,
where E is to bekept
as small aspossible by choosing
A andU2
to minimize a loss-function. »2.4 Problème d’indétermination des
facteurs
Afin d’aborder le
problème
d’indétermination desfacteurs,
il estd’usage
desupposer le modèle de structure de covariance
identifié, c’est-à-dire, (,03A8)
défini defaçon unique. (En
fait onpeut envisager
le cas «r > 0» duparagraphe précédent,
choisir une fonction de
divergence
F et supposer(AF, w F)
défini defaçon unique.
Les
développements qui
suivent peuvent être alorsappliqués
à condition d’admettre que la différence entre 03A3 etAFA’ F
+w F
estnégligeable.)
Bien que
(A, w)
soit défini defaçon unique,
le modèle de l’A.F.(2.1)
admetune infinité de solutions.
En
effet,
soit P unematrice q
x q telle que PP’ - I -’03A3-1 A.
L’ensemble des solutions du modèle
(2.1)
est :pour tout s q-vecteur aléatoire vérifiant
E(s) - 0, E(xs) =
0 etE(ss)
= I.(Kestelman, 1952, Guttman, 1955).
Le vecteur
f
des facteurs communs est donc défini comme la somme d’un vecteur decomposantes (i.e.
de combinaisons de variablesobservables) 039B’03A3-1x,
noté
C f
dans lasuite,
et d’unepart
arbitraire nonnulle,
Ps.L’ensemble des solutions est sur un cône multidimensionnel dont l’axe
(multi-
dimensionnelaussi!)
est lesupport
du vecteur decomposantes C f.
Pour q -1,
cf.figure
1.FIGURE 1
Ce problème
d’indétermination des facteurs vient du fait que, vu leshypothèses
du
modèle, l’espace
des facteurs communs etspécifiques
est dedimension p
+ q alors quel’espace
des variables observables est de dimension p. On peut dire aussi que l’effet z étantsupposé aléatoire,
il n’est paspossible,
vu leshypothèses
dumodèle,
de le
distinguer
totalement du vecteur aléatoire e des facteursspécifiques.
Eneffet,
leproblème
d’indétermination n’existe pas dans le cadre du modèle à effets fixes.On ne connaît de
façon unique
que la part composante desfacteurs,
c’est-à-dire, C f
pourf
et03A803A3-1x
pour e.C f
est aussiappelée
part derégression
def,
mais on
préfère
réserver ce terme pour lescomposantes
derégression proposées
par Schônemann etSteiger, 1976, (cf. § 2.5.).
Historique.
Le
problème
de l’indétermination des facteurs a unelongue
histoire.En
1927, Spearman présente
un livrequi reprend
20 ans de travaux. Apartir
de nombreux tests
psychologiques
soumis à desindividus,
ilespère
trouver,grâce
àl’Analyse
en Facteursqu’il
propose(1
1 seul facteurcommun),
le facteur commun àtous ces tests
qui
seraitinterprété
comme le facteurgénéral d’intelligence (facteur g).
Hart et
Spearman (1912), présentant
lemodèle, envisagent
même une société danslaquelle chaque citoyen
aurait sonfacteur g
mesuré etenregistré
par le gouvernement.Les décisions concernant le droit de vote
pourraient
êtreprises
àpartir
de cet indice !En
1928, Wilson, ayant
à reviewer lelivre,
montre par desexemples
que le modèle n’admet pas une solutionunique
pour le facteur commun g.Il
s’ensuit,
de 1928 à 1938 de nombreux articles et débats sur lesujet. Spearman (1933,1934)
caractérise leproblème
d’indétermination des facteurs comme étant unproblème d’échantillonnage
de variables.L’erreur,
selonSpearman,
peut être réduite autant que l’on veut enajoutant
deplus
enplus
de variables de la mêmefaçon
que l’erreur
d’échantillonnage
des individus est réduite en augmentant la taille de l’échantillon.En
plus
des articlescités,
onpeut indiquer
aussi Wilson1929, Piaggio 1931,1933, Camp 1932,1934, Thompson 1934, 1935, Lederman
1938.A
partir
de 1936 etgrâce
à la revuePsychometrika, l’Analyse
enFacteurs, généralisée
àplusieurs
facteurs communs, estpopularisée
par Thurstone et sonéquipe qui
occultentcomplètement
leproblème
d’indétermination. A telpoint
que Wolfe en
1940,
dans le cadre d’une revuehistorique, présente
de nombreuxdéveloppements
de l’A.F. incluant les limitations del’analyse
sans mentionnerl’existence de l’indétermination des facteurs.
Malgré
laparution
dequelques articles,
Kestelman1952,
Guttman1955,
Heerman
1964, 1966,
le débat sur l’indétermination des facteurs n’est relancé quedepuis
1971 par Schônemann.Pourtant, après
Kestelman(1952)
et par une autreapproche,
Guttman en 1955 donneexplicitement
l’ensemble des solutions du modèle de l’A.F. ainsi que de nombreuxdéveloppements
encore d’actualité. Saconclusion,
«the
Spearman-Thurstone approach
may have to be discarded for lackof determinacy
of its factor scores»
pouvait
laisser penser que le débat allait être relancé. Il n’en arien été.
Depuis 1971,
des articlesparaissent régulièrement
sur lesujet.
Schônemannet
Wang 1972,
Mulaik1972, 1976, 1981, Meyer 1973, Green, 1976,
McDonald1974, 1977, 1978,
Mulaik etMcDonald, 1978,
Schônemann etSteiger, 1978, Steiger, 1979a,
Williams1978,
Rozeboom1982, 1988,
Kano1984, Haagen 1986, 1991,
Schônemann etHaagen 1987,
Bentler et Kano 1990. Ils’agit
essentiellement demesurer l’indétermination
(cf.§ 2.5.)
et de construire des variablessupplémentaires
pour réduire l’indétermination
(on
sort alors du cadre de l’A.F. définie pour pfixé).
Pour des éléments
historiques
on pourra consulterSteiger
et Schônemann1978, Steiger
1979b et Mulaik 1986.Le
sujet
est aussi débattu dans les articles récentsopposant
lesavantages
et les inconvénients de l’A.C.P. et de l’A.F. :Borgotta,
Kercher et Stull1986,
Hubbardet Allenn
1987,
Snook etGorsuch, 1989,
Wilkinson1989,
Velicer et Jackson1990,
Schônemann 1990.Bien
plus
nombreux sont les articles et les livres même récents ne mentionnant pas leproblème.
Parmi les livres onpeut
citer évidemment Thurstone1935,1947,
mais aussi Mardia et al( 1979),
Srivastava et Carter( 1983),
Anderson( 1984b),
Krzanowski( 1988),
Everitt et Dunn( 1991 ).
Afin de contourner le
problème
d’indétermination des facteurs certains auteursproposent des solutions alternatives au modèle de l’A.F. En
1962, Jôreskog
propose deremplacer
l’A.F. parl’«Image
FactorAnalysis»,
modèles’inspirant
de la théorie desimages
de Guttman(1953).
En 1976 Schônemann etSteiger proposent
deremplacer
l’A.F. par une
analyse
en composantes derégression (cf.§ 2.5.).
Bartholomew(1984,
1985a, 1987) développe
une étude intitulée «les fondements de l’A.F.». Cf aussi lescommentaires d’Aitkin
1985,
Bentler1985,
Browne1985,
McDonald 1985b et laréponse
de l’auteur Bartholomew 1985b.La solution la
plus
communémentadoptée,
pour contourner leproblème
d’indétermination des facteurs est de ne s’intéresser
qu’au
modèle de stucturede covariance et d’abandonner l’idée d’ «estimer» les facteurs. A
partir
de là sesont
développés
les modèles de structure decovariance,
Bock etBargmann 1966, Jôreskog 1970, 1978, 1981,
McDonald1978, 1980, 1985a,
McArdle1979,
McArdle et McDonald1984, Jôreskog
et Sorbom 1984.Le modèle en facteurs
présenté
ici est le modèle en facteurs del’analyse
diteexploratoire. Lorsque
certains éléments de la matrice 03A8 sontsupposés nuls,
le modèleest dit de
régression
avec erreurs sur les variables(Anderson, 1984a).
C’est un modèlestatistique
de naturedifférente,
les p variables nejouent
pas des rôlessymétriques,
et les
problèmes mathématiques qu’il
soulève sontplus simples. Lorsque
certainséléments de A sont
supposés nuls, hypothèses
reposant sur des connaissances apriori
sur lesvariables,
onparle d’analyse
en facteurs confirmatoire.Seule,
laphase
d’estimation des
paramètres (039B,03A8)
du modèle de structure de covariance(2.2)
diffèrede
l’analyse
en facteursexploratoire.
Leproblème
d’indétermination des facteurs demeure, contrairement à cequi
est souvent écrit en référence à McDonald etMulaik,
1979.
Quelque
soit la structure de covariance(cf.
lelogiciel Lisrel, Joreskog
etSorbom, 1984),
dès lors que leshypothèses
du modèle définissent les variables aléatoires latentes en dehors del’espace engendré
par les variablesmanifestes,
leproblème
d’indétermination des facteursapparaît lorsque
que l’on veutprédire
cesvariables latentes.
(Cf. Vittadini, 1989).
2.5
Equivalence
desapproximations
usuelles def
Ce
paragraphe pourrait
s’intituler «estimation des facteurs»(en anglais
«factorscore
estimates»)
mais cetteterminologie
est source d’erreur. Toutd’abord,
les fac-teurs étant
aléatoires,
il seraitplus
correct deparler
deprédicteurs
que d’estimateurs.Mais là n’est pas le
principal reproche
fait àl’usage
de cetteexpression.
Il résidedans le fait que cette
expression
sous-entendqu’il
estpossible
d’estimer les facteurs.Or on a vu
qu’il
y a une infinité de solutions. Il faudrait donc proposer une infinité d’estimateurs(un
pourchaque solution).
Defait,
il estproposé
un seul estimateur pour l’ensemble des solutions.De nombreux auteurs écrivent
qu’il
n’est paspossible
d’écrire la solutionf, qu’elle
nepeut qu’être
estimée. Enfait,
nous avons vu dans leparagraphe précédent qu’il
est tout à faitpossible
d’écrire l’ensemble des solutions.Evidemment,
onpeut
arguer que le modèlepostule
l’existence d’une seule solution. Leproblème
d’indétermination réside alors dans le fait que laposition
decette
unique
solution sur le cône est inconnue.En tout état de cause, la
critique
essentielle faite à l’A.F. repose sur l’infinité de solutions du modèle(ou
sur l’infinité depositions
de la solution dumodèle)
et donc sur un arbitraire de lapart
de l’utilisateur quant au choix de la solution(ou
de laposition
sur le cône de lasolution).
Ce
problème
d’indétermination est de nature très différente duproblème
derotation des facteurs communs. Il faut noter que, dans le cas d’un seul facteur commun, le
problème
de rotation n’existeplus
alors que leproblème
d’indétermination des facteurs demeure.La
plupart
des ouvragesdéjà cités,
réservant au moins unchapitre
à l’A.F.et ne
parlant
pas duproblème
d’indétermination des facteurs traitecependant
del’estimation du vecteur des facteurs communs
(«factor
scoreestimates»).
Nous verrons
plus
loin que l’arbitraire est enpratique
considérablement réduitcar tous les auteurs s’accordent à penser
qu’on
ne peut «estimer» les facteursqu’à partir
d’un vecteur de composantes.D’après
McDonald et Burr(1967),
un «bon»prédicteur f
def
est une fonctiondes variables
d’échantillonnage qui
devrait vérifier lespropriétés
suivantes :a)
être assezproche
def,
parexemple
«minimiser»E(( - f)( - f )’ ) ;
b)
avoir des composantesorthogonales
commef : E( f f’) diagonale;
c)
avoir lapropriété
d’univocalité définie par Guilford et Michael(1948) :
E(f’) diagonale;
d)
être conditionnellement à f sans biais :E(f | f) = f.
Afin de rester dans le cadre du
modèle,
onparlera d’approximation plutôt
que deprédicteurs.
Une «bonne»
approximation f
def
est un vecteuraléatoire,
nedépendant
que dumodèle, qui
devrait vérifier lespropriétés a) b) c) d)
décrites ci-dessus.En fait tous les
prédicteurs proposés
dans la littérature sont de «bons»prédic-
teurs de vecteurs
aléatoires, qui
sont en fait descomposantes, (i.e.
de la forme C =Bx).
Cescomposantes
sont donc desapproximations
def
dont on se pro- pose d’étudier lespropriétés.
Les
approximations
usuelles def
1)
Lapremière approximation proposée (Thurstone, 1935)
est évidemment la partcomposante
def,
c’est-à-dire :Il est
possible
de montrer queC f
est la composante Cqui
minimise l’erreurquadratique
moyenne :E((C - f) (C - f)’).
2)
Si l’on considèref
fixe et si l’on suppose xgaussienne
alors x estgaussienne d’espérance Af
et de matrice de covariance 03A8. L’estimateur par maximum de vraisemblance def
est alors(Bartlett, 1937, 1938) :
Ici,
B minimisetrE(w-1/2(x - ABx)(x - 039BBx)’03A8-1/2)
et doncAf
est laprojection w-1-orthogonale
de x survec(A).
3)
Dans uneapproche bayésienne,
ensupposant
que la densité apriori
def
estgaussienne d’espérance
nulle et de matrice de covariancel’identité,
on peut montrer que la densitéa posteriori
estproportionnelle
àexp[-1 2(x-039Bf)’03A8-1(x-039Bf)-1 2f’f]
et donc
f
estgaussienne d’espérance :
(Thompson 1939, Dolby 1976, Bartholomew 1981).
4)
En1956,
Anderson et Rubin proposentCA
= Bx avec B minimisant le critère de Bartlett sous la contrainteE(CACA)
= I. On a alors :5)
Schônemann etSteiger (1976)
propose cequ’ils appellent
descomposantes
de
régression :
Ces composantes
qui
auraient de meilleurespropriétés
queC f
sont définies àpartir
deACs, projection 03A3-1-orthogonale
de x survec(A).
6)
Dans son étude sur les fondements del’A.F.,
Bartholomew(1984, 1985a, 1987)
utiliseégalement
uneapproche bayésienne
et aboutit pourapprocher f
à :7)
Enfin nous proposons le vecteurdes q premières
composantesprincipales
del’A.C.P. centrée du vecteur
aléatoire y
dans(RP, w-1 ) (cf.
2.3. avec AI =w-1),
quenous notons
Cp :
Propriétés
On considère le modèle :
On
pose r = 039B’03A8-1039B.
Dans tout ce
paragraphe 03A8
et r ne sont passupposées diagonales.
On vérifie aisément les
propriétés
suivantes(Guttman, 1955) :
Les
approximations 1)
à7)
définiesprécédemment
vérifient lespropriétés
suivantes. A part celles concernant
Cp,
cespropriétés
sont bien connues. Elles sedéduisent aisément des
propriétés (i)
à(vii)
ci-dessus.Propriétés
deC f
et donc dePropriétés
deCw :
Propriétés
deCB
et donc deCs : E(CBf’)
=I,
Propriétés
deCA :
Propriétés
deCp :
Equivalence
desapproximations
On a vu au
paragraphe
2.2.(Problème
de «rotation» des facteurscommuns), qu’à partir
d’une solutionf
telle queE(f f’)
=I,
on obtenait les autres solutionsen transformant
f
par A matrice q x qrégulière.
Apartir
d’unprédicteur
C def,
on obtient donc les
prédicteurs
des autres solutions en transformant C par A. A cetitre toutes les
approximations
définiesprécédemment
sontéquivalentes puisque
l’onpasse d’une
approximation
C à une autre par un teltype
de transformation.Toutes les
approximations
usuelles vérifient lespropriétés b)
etc)
de Mc Donald et Burr si et seulement si F estdiagonale.
Deplus,
si F estdiagonale,
ces
approximations
sont toutes«proportionnelles»
et ont donc même vecteur decomposantes réduites,
c’est-à-direCA, qui
est aussi le vecteur des composantesprincipales
réduites. Si l’on considère que la variance des facteurs communs(ou
de leurs
prédicteurs)
estarbitraire,
ellepeut
donc êtreposée égale
à un et toutes lesapproximations
sontéquivalentes
dans ce sens.Bien que toutes les
approximations
soientéquivalentes,
elles sont toutes mauvaises. Eneffet,
considérons unecinquième propriété proposée
par Guttman(1955),
que devrait vérifier une bonneapproximation f
def (ou
un bonprédicteur / de f) :
si e = x -
Af,
la matriceE(éé’)
devrait êtrediagonale régulière.
Or,
pour toutes lesapproximations 1 )
à7),
cette matrice n’est nidiagonale,
nirégulière
puisqu’elle
est de rang p - q.Mesure de l’indétermination
des facteurs
Si l’on revient à
l’objectif
de l’«estimation» desfacteurs,
ils’agit
deprédire
lesvaleurs de
f
sur les individus àpartir
des valeurs observées sur les variablesinitiales, ceci,
afin de classer les individus.Si l’on considère la
figure 1, C f
donnera à peuprès
le même classementqu’un
facteur
f pris
arbitrairement sur le cône seulement sil’angle 0
est assezpetit.
Il est donc
important,
avant d’utiliser unecomposante
pourapprocher f,
demesurer
l’indétermination,
c’est-à-dire le cosinus del’angle
que faitchaque
facteuravec son
approximation.
La matrice de corrélation de
n’importe quelle composante 1)
à7)
avecf
est :Si r est
diagonale,
on adonc,
pour tout k =1,..., q
et pour toutecomposante
C :La contrainte
039B’03A8-1039B(= r) diagonale (en
supposant les valeursrangées
dansl’ordre
décroissant)
permet de classer les facteurs communs dans l’ordre décroissant de leur mesure d’indétermination. Eneffet, cos(03B8k)
diminuelorsque k
augmente. Deplus,
cette contrainte rdiagonale
permet,à q fixé,
de trouver lesapproximations
lesmoins indéterminées.
Si l’on veut réduire l’indétermination des
facteurs,
il fautchoisir q
assezpetit.
Ce choix est malheureusement contradictoire avec la nécessité d’obtenir un bon
ajustement
dumodèle; l’ajustement
est d’autant meilleur que q augmente.Choix du nombre
de facteurs
communsNous ne
présenterons
pas les nombreusespropositions qui
sont faites. Notonsseulement, qu’une
condition naturelle découle du modèle : rq > 1. Eneffet,
sicos(03B8k) 2/2 (i.e. 03B3k 1)
deux solutions distinctescorrespondant
au mêmefacteur commun
fk
peuvent être corréléesnégativement
ou non corrélées ! On peutse référer à la
figure
1 pour q == 1 et à cette mêmefigure
pourchaque composante fI.;
dans le cas
général.
Représentation
des individusSe poser la
question
de lareprésentation
desindividus,
c’est revenir à laquestion
de la variance des
approximations.
En effet considérons le cas q = 2 et rdiagonale.
Onpeut représenter
les individus par rapport auxcomposantes
réduites ou par rapport à d’autrescomposantes
définiesprécédemment, qui
ne diffèrent des composantes réduites que par le choix des variances.Implicitement,
lapratique
de la rotation des facteurs amène à choisir dereprésenter
les individus parrapport
aux composantesréduites. -