R EVUE DE STATISTIQUE APPLIQUÉE
A. L ECLERC
P. A IACH
Mesure de l’importance des valeurs propres en analyse des données. Application à l’analyse en composantes principales de variables catégorisées
Revue de statistique appliquée, tome 26, n
o1 (1978), p. 5-21
<http://www.numdam.org/item?id=RSA_1978__26_1_5_0>
© Société française de statistique, 1978, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MESURE DE L’IMPORTANCE DES VALEURS PROPRES EN ANALYSE DES DONNÉES. APPLICATION A L’ANALYSE
EN COMPOSANTES PRINCIPALES DE VARIABLES CATÉGORISÉES
A.
LECLERC,*
P.AIACH**
1. INTRODUCTION
On propose ici des aides à
l’interprétation
des résultats d’uneanalyse
descorrespondances
ou d’uneanalyse
encomposantes principales,
basées surl’appré-
ciation de
l’importance
des valeurs propres. Il est habitueld’apprécier globalement
les résultats d’une
analyse
àpartir
des valeurs propres associées àchaque
facteur. Onparle
engénéral
depourcentage
d’inertieextrait,
ou depourcentage
de varianceexpliquée
par un facteur. Cefaisant,
on compare une valeur propre à la somme de celles-ci. Or il existe au moins une autre mesureglobale
del’importance
d’unfacteur,
basée sur le carré de la valeur propre, et une autrecomparaison portant
sur l’écart entre une valeur propre et une borne
supérieure
connue.Selon la nature du tableau
analysé,
et le traitementauquel
il estsoumis,
onexplicite
ici lasignification
de certaines relations entre les valeurs propres et l’on endéduit la meilleure mesure de
l’importance
d’un facteur. Le fait que l’on constatesystématiquement,
pour certains typesd’analyse,
des valeurs propresfaibles,
trouveici une
explication.
Le cas de
l’analyse
encomposantes principales
de variablescatégorisées,
c’est-à-dire non continues mais à modalités
ordonnées,
est étudié defaçon particulière.
Un
exemple
estdonné,
où unpremier
facteurpeut
êtrejugé significatif
alorsqu’il n’explique
que 26%
de la variancetotale,
avec 28 variables.Les limites des
propositions
faites ici sont de deuxtypes :
- aucun test
statistique
n’est donné. Onpeut rappeler qu’en analyse
desdonnées,
des tests existent pourl’analyse
descorrespondances
d’un tableau decontingence (Lebart, 1975)
etl’analyse
encomposantes principales
devariables multinormales. L’article de Krishnaiah
(1976)
fait le bilan des tests basés surl’hypothèse
denormalité, qui
sont assez lourds àutiliser ;
-
l’objet
de cette étude est limité aux valeurs propres ;dans beaucoup
de cas,particulièrement
enanalyse
descorrespondances,
d’autres éléments d’inter-prétation,
tels que les contributions absolues etrelatives,
sontindispen-
sables et souvent
plus
utiles.- - - -
(* ) INSERM U 88, 91, bd de l’hôpital 75 634 Paris cedex 13
(* * ) INSERM Centre de Recherches du Vésinet, 44, Chemin de Ronde 78110 Le Vésinet.
6
2. RELATIONS ENTRE LES VALEURS PROPRES.
NOTION DE
QUANTITE
CRITERESoit une matrice
symétrique (p, p)
définiepositive
de termegénéral sjj’ ;
soient
A1
...Ap
ses valeurs propres, que l’on suppose toutesdifférentes, rangées par
ordre décroissant. Les
A9
sontpositifs.
On
appelle C,
la trace de la matrice :et
C2,
la somme des carrés des éléments de la matrice :alors les deux relations suivantes sont
vérifiées :
En
effet,
lapremière
relationexprime l’égalité,
pour la matriceS,
de la trace et de lasomme des valeurs propres. La seconde
exprime
cetteégalité
pourS2
=St S
dont la trace estC2
et les valeurs propres03BB2q.
On voit que
CI
etC2 peuvent
s’écrire comme somme de termespositifs
dé-pendant
chacun d’une valeur propreÀ .
Pour toute combinaison linéaire deC1 et C2
il en est demême,
à cette différenceprès
que les termes de la sommepeuvent
être
négatifs.
On
appelera quantité
critèreClou C2
ou une combinaison linéaire deClet C2.
On cherchera laquantité
critère dontl’interprétation
est laplus simple
d’unpoint
de vuegéométrique (inertie ...)
oustatistique (fonction
de coefficients de corrélation entrevariables ...)
et l’on mesureral’importance
d’une valeur propre par lafaçon
dont laquantité
critère estexpliquée : part
de critèreexpliquée
oudifférence entre le critère et son
approximation.
Leprocédé généralise
les calculs habituels depourcentages d’inertie,
ou devariance,
associés à une valeur propre, où laquantité
critère utilisée esttoujours Ci
*3. APPLICATION A PLUSIEURS TYPES D’ANALYSE
La
signification
des relationsprécédentes
et le choix de la meilleurequantité
critère
dépend
du contenu de la matrice àdiagonaliser,
donc dutype d’analyse
réalisé. On
envisagera plusieurs
cas, en mettant en évidence àchaque
fois la relation laplus pertinente
pourl’interprétation
des valeurs propres.Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
Pour
simplifier
lesnotations,
on notetoujours
S une matrice de termegénéral sjj’,
dont les valeurs propres sontXi
...Àp.
C’est àchaque
fois la matricediagona-
lisée dans le cas
particulier envisagé.
ACP et AFC
désignent respectivement l’Analyse
enComposantes Principales
et
l’Analyse
Factorielle desCorrespondances. L’exposé
des méthodes pourra se trouver dans le livre de Lebart et Fénelon(1975),
et certaines démonstrations dans le R. Cehessat(1976)
sous forme d’exercices.3.1. AFC d’un tableau de
contingence
Le tableau
analysé
est un tableau decontingence
croisant les modalités d’une variablequalitative
A avec les modalités d’une variablequalitative B,
pour un échan-tillon de taille n.
Chaque
observation estcomptée
une fois et une seule dans le tableau :La
quantité CI,
somme des valeurs propres nontriviales,
est, à un facteurprès,
leKhi-2 calculé sur le tableau de
contingence :
Ce Khi-2
peut
être considéré comme une mesure de l’écart entre le tableau observé et le tableau auhasard ;
lerapport
d’une valeur propre à la somme de celles-ci note lapart apportée
par un facteur dansl’explication
de cet écart. Le critèreC1 et
lesmesures
qui
lui sont liées ont dans ce cas une bonneinterprétation.
3.2. AFC d’une
juxtaposition
de tableaux decontingence
Le tableau
analysé
croise les modalités deplusieurs
variablesqualitatives Al
...AL
avec les modalités deplusieurs
autres variablesqualitatives BI
...BM,
pour un échantillon de taille n.
Chaque
observation estcomptée
une fois danschaque
tableau decontingence Al
xBm,
et au total L.M. fois.8
Cette
analyse répond
auproblème
suivant : décrire les relations entre deux groupes de variablesqualitatives,
constituées de variables de nature différente(ca- ractéristiques socio-économiques
deménages,
etréponses
données à unquestion- naire,
parexemple).
Dans ce cas
(Leclerc, 1975, 1976)
laquantité C1
est, à un facteurprès,
lasomme des Khi-2 calculés sur les tableaux de
contingence.
où
Xi
est le Khi-2 calculé sur le tableau decontingence A
xBm.
Le
rapport
d’une valeur propre à laquantité el
note lapart apportée par le
facteur dans
l’explication
de la somme desKhi-2,
mesureglobale
de l’écart entre le tableau observé et le tableau telqu’il
serait si les variablesAl
etBm
étaientindépen-
dantes. Ici encore, les mesures associées à
CI
ont une bonnesignification.
3.3. Cas de deux variables
Dans le cas de deux variables
Al
etA2, l’analyse
des relations entreAl
etA2
peut
se faire par l’AFC du tableau decontingence Al
xA2,
maisbeaucoup
d’autresapproches
sontpossibles
et fournissent des valeurs propres différentes(Cazes, 1977).
L’AFC d’un tableau sous forme
disjonctive complète (cf. 3.5.)
est une de cesapproches,
ainsi que l’AFC d’un tableau deBurt, qui
est détaillée ici :Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
On considère le tableau obtenu en croisant les variables
qualitatives Al
etA2
avecelles-mêmes. Ce tableau est
symétrique,
etcomporte quatre
sous tableaux :Ai
xAl
et
A2
xA2
contiennent les effectifs des modalités sur ladiagonale,
et des 0ailleurs, Al
xA2
est un tableau decontingence.
Si les
plus grandes
valeurs propres dansl’analyse
du tableau decontingence A1
xA2
sont
A1
...À ,
lesplus grandes
valeurs propres dansl’analyse
du tableau de Burtsont (Lebart, 1977)
Si l’on mesure
l’importance
des valeurs propres par le critèreCI, l’analyse
dutableau de Burt donnera une estimation
pessimiste
parrapport
àl’analyse
du ta-bleau de
contingence.
3.4. AFC d’un tableau de Burt : cas
général
Si l’on cherche à décrire toutes les relations entre L variables
qualitatives Al
...AL,
la méthodeprécédente (tableau
deBurt) peut
êtreutilisée,
sans compa- raisonpossible
dans ce cas à un tableau decontingence.
Le tableau de Burt aura la forme suivante :
10
1
L’inertie
totale,
pourl’analyse
d’un teltableau,
se calcule comme dans lecas d’une
juxtaposition
de tableaux decontingence :
mais les
quantités X2
ont une formeparticulière,
d’oùl’expression
deC :
où les
Xi
o sont des Khi-2 calculés sur les tableaux decontingence Al
xAlo,
et oùnbm est le nombre total de colonnes du tableau.
A défaut de
disposer
d’une mesure del’importance
des facteurs basée sur lapart expliquée
d’une somme deKhi-2,
comme pour les tableaux decontingence,
on peut admettre comme mesure lacomparaison
des valeurs propres àCI .
*On voit de
plus
que dansl’expression
deCI
le second terme, somme de Khi-2qui
mesureglobalement
l’association entre lesvariables,
seraprépondérant
si lenombre de variables L est élevé.
Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
3.5. AFC d’un tableau sous forme
disjonctive complète
Soit un tableau croisant l’ensemble des
observations,
enligne,
avec les moda-lités des variables
qualitatives Al
...AL
en colonne. A l’intersection d’uneligne
etd’une colonne on trouve 1 si l’observation
possède
lamodalité,
0 sinon.L’analyse
de ce tableaurépond
au mêmeproblème
quel’analyse
du tableaude
Burt,
la seule différence entre les résultats desanalyses
des deuxtableaux,
àpartir
des mêmesdonnées,
est que les valeurs propres sontici ... 03BBp,
alorsqu’elles
sontAl
...Ap
si l’onanalyse
le tableau de Burt.La relation entre valeurs propres dans
l’analyse
du tableau de Burt devientune relation entre carrés de valeurs propres pour un tableau sous forme
disjonctive complète.
Dans ce dernier cas, une mesure del’importance
desfacteurs
àpartir
ducritère
C2
peut donc être retenue.Elle donne des facteurs une vue
plus optimiste qu’une
mesure basée surCi
Un examen de la
quantité-critère C 1
montre d’autrepart
que son intérêt estlimité,
du moins pour cequi
concerne les variables :Ci
n’a aucunesignification particulière
comme mesure de l’association entre les variables. Soninterprétation géométrique
est l’inertie totale du nuage despoints-
observations. Or ces
points,
àquelques
transformationsprès,
ont des coordonnées 0ou
1 ;
ils sontplacés
aux sommets d’unhypercube
formant un nuageauquel
lanotion
d’inertie,
de directiond’allongement
maximum...s’applique
mal. Un nuage ainsi construit nepeut
pas être résumé par un sous espace depetite dimension,
d’où despourcentages
d’inertie faibles.Si l’on cherche néanmoins à mesurer la
qualité
de lareprésentation
du nuage despoints-observations,
alorsCI peut
être utilisé.On
peut
penser ici à unequantité-critère
autre queCi ou C2.
En effet :12
Cette somme de Khi-2 ne
peut
pas se mettre sous la forme d’une somme de termespositifs
associés auxfacteurs,
cequi
limite son intérêt.3.6.
Analyse
encomposantes principales
La
quantité Ci
1 est la somme desvariances,
ou le nombre de variables si l’ana-lyse
est effectuée sur des variables centrées et réduites.La
quantité C2
est la somme des carrés descovariances,
ou la somme des carrés des coefficients de corrélationempirique rjj’.
Dans le cas d’une
analyse normée,
on a :C 1
est traditionnellement laquantité
critère laplus
utilisée.Ceci est
justifié
dans le cas où le nuage despoints-observations
estapproxima-
tivement un
ellipsoïde,
pourlequel
onpeut parler
de directionsd’allongement,
pre-nant en
compte
un certainpourcentage
de la variance totale(ou
del’inertie).
Il fautpour cela que les valeurs
possibles
pour les coordonnéesappartiennent
à un éventailassez
large
de valeursréelles,
donc que les variables soient continues.Si les variables ne
prennent qu’un
nombre limité devaleurs,
on va voirqu’alors
le critère
C2 peut
êtrepréféré.
3.7. ACP normée de variables
catégorisées
On
peut envisager d’appliquer l’analyse
encomposantes principales
norméeà des variables non
continues,
mais dont les modalités sontordonnées,
telles que des notesentières,
parexemple :
accord ou désaccord avec uneaffirmation ;
onnote 0 la
réponse "pas
d’accord du tout" ... 5 laréponse
"tout-à-fait d’accord".Cette
pratique
aplusieurs justifications :
- la distance entre deux observations est
satisfaisante,
et on en obtiendra la meilleureapproximation (Pearson, 1901)
au sens suivant : la sommeétendue à tous les
couples
depoints,
des carrés des différences entre dis- tances "réelles" et distancesapprochées
parl’analyse,
estminimum ;
-
Beaucoup
depropriétés statistiques
des résultats d’ACP nesupposent
pas la normalité des variables(Gill, 1976 ; Pousse, 1976).
Dans la
pratique,
la méthode donne de bons résultats(Aïach, 1975 ; Davidson, 1973) ;
elle est peu coûteuse car la matrice àdiagonaliser
n’est pas detrop grande
dimension. Peu d’autres méthodes sont
utilisables ; parmi
celles-ci il faut noter la méthode"Prinqual" (Tenenhaus, 1977) qui procède
à unrecodage optimum
des modalités. Surl’exemple exposé
dans leparagraphe
4.Prinqual
a ététesté,
et n’apas donné de résultats fondamentalement différents de ceux de l’ACP
(Macquin, 1977).
On examine donc
ici,
dans le cas del’ACP,
lasignification
desquantités
critères
Clet C2,
cequi apporte
certainesexplications
sur les résultats constatés etpermet
de conclure à l’intérêt decomparaisons
à laquantité-critère C2
*Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
a.
Comparaison
des valeurs propres àCi
On constate dans la
pratique
de faiblespourcentages
de varianceexpliqués.
On a
déjà
dit que cespourcentages,
dans le cas de variables à peu demodalités,
avaient peu de sens du
point
de vuegéométrique.
D’un
point
de vuestatistique,
le fait que les variables sontcatégorisées apporte
uneexplication ;
en effet les valeurs propres sont astreintes à satisfaire à la fois :Le lieu des solutions
possibles (Xi 1 * Àp)
est l’intersection d’unhyperplan,
etd’une
hyperphère
de rayon.vc;.
C’est unehypersphère
centrée sur lapremière bissectrice,
et dont le rayon diminue avecC2
* SiC2
estpetit,
les solutions sontproches
de :Àq = 1, Vq,
et lesparts
d’inertie associées auxpremières
valeurspropres sont faibles.
C’est ce
qui
se passe si les variables sontcatégorisées ;
lesrjj’
àdegré
d’associa-tion
égal
entre lesvariables j
etj’,
sont d’autantplus petits
que les variables ont peu decatégories.
Ceci a été étudié parAgresti (1976)
et par Doreian(1972) qui
ontdécrit la
façon
dont varie un coefficient de corrélation entre deuxvariables,
selonque celles-ci sont
continues,
de distributionnumultinormale,
ou transformées par"découpage"
en variablescatégorisées,
avec un nombreplus
ou moinsgrand
demodalités.
Les
parts
d’inertie associées auxpremières
valeurs propres seront d’autantplus
faibles que les variables ont peu demodalités,
à nombre de variablesidentique,
et un
jugement
basé surCI reflète
enpartie
le nombre de modalités des variables.b.
Signification
deC2 C2
s’écrit :D’après
les études citées sur les coefficients de corrélation entre variablescatégorisées,
ces coefficients sont des mesures satisfaisantes d’association si larépar-
tition des observations selon les modalités ne diffère pas
trop
d’une variable à une autre. Si toutes les variables n’ont pas un même nombre demodalités,
cellesqui
enont le
plus
auront une contributionplus importante.
c. Utilisation d’autres critères
Le critère
C 2 - Ci
a une formesimple :
14
Il a l’inconvénient de s’écrire comme une somme de contributions
03BB2q 2013 Àq
positives
pour lespremiers facteurs, puis négatives.
Ilparaît
donc peu utilisable.Un autre calcul
peut
êtreeffectué ;
c’est celui de lacomparaison
deA1
à laborne
supérieure
B :Cette borne est atteinte si et seulement si tous les
rjj’
sontégaux
etapprochée
si les
Hj’
sont presqueégaux (Leclerc, 1977)
d.
Pratique
de l’ACP sur variablescatégorisées
Il semble
préférable
d’avoir le même nombre de modalités pour toutes lesvariables,
et d’éviter desrépartitions trop déséquilibrées
entremodalités ;
moyen- nantquoi, l’analyse en
composantesprincipales
peut êtreappliquée,
et ses résultatsjugés
selon le critèreC2.
On pourra aussi comparer03BB1
à la borne B.L’exemple
donné en 4
reprend
ces calculs.3.8. Cas de variables
dichotomiques
Pour étudier les relations entre
plusieurs
variablesdichotomiques,
deuxprocédés parmi
d’autres sontpossibles :
-
appliquer
l’AFC au tableau observation x variablesdédoublées ;
-
appliquer
l’ACP normée au tableau non dédoublé.Les deux méthodes sont
équivalentes,
les valeurs propres sont lesmêmes,
à un facteur
multiplicatif près.
Si l’onprocède
à une ACP laquantité C2
a lavaleur :
où n est le nombre d’observations et
Xj1’
le Khi-2 du tableau decontingence
à4 cases croisant les modalités
de j
etj’.
On peut comparer les
03BB2q
àC2,
etinterpréter
le résultat comme lapart prise
par un facteur dans
l’explication
d’un indice d’association basé sur deskhi-2 ;
onpeut
aussi comparerA1
à sa bornesupérieure, qui
s’écrit :4. UN EXEMPLE 4.1. Les données et les résultats de l’ACP
Une étude sur les processus cumulatifs
d’inégalités
sociales a été réalisée àpartir
d’entretiens semi-directifsauprès
de 134ménages
avec enfants dans unRevue de Statistique Appliquée, 1978 vol. XXVI N° 1
quartier
de Paris(Aïach, 1975).
Unepartie
de l’étude a utilisé les résultats d’une ACP normée sur 28variables,
notes en1, 2,
3(1,
2 pourquelques-unes)
donnéespar le
sociologue responsable
dutravail,
au vu desréponses
fourniespar la
famille.Ces notes concernent divers
aspects
des conditions de vie(revenu, travail, logement, relations,
activitésextérieures, vacances, ...).
La note 1 a été attribuée aux familles dont les conditions de vie sontjugées
lesplus
défavorables pour lecritère,
la note3 à celles
qui
sont dans les conditions lesplus favorables,
la note 2 étant une notemoyenne.
Quelques
notes, comme le revenu, se basent sur unequantité.
Laplupart
ordonnent les modalités d’une variable
qualitative.
Parexemple (variable 25) :
1 = pas de
possibilité
pour la famille dedisposer
d’une maison pour les vacances ; 2 =possibilité,
chez des amis ou dans lafamille ;
3 = leménage possède
unerésidence secondaire.
D’autres
caractéristiques
desménages (catégorie socio-professionnelle
du chef de
ménage,
nombred’enfants ...)
ne sont pas intervenues dansl’analyse
mais ont servi comme identificateurs des
ménages.
On trouvera en annexe la liste des
variables,
la matrice decorrélation,
lescorrélations variables-facteurs et le
graphique
desménages
sur leplan
des deuxpremiers
axesfactoriels, chaque ménage
ayant comme "identité" la CSP du chef deménage.
Le but de
l’analyse
était dedégager
les variables lesplus caractéristiques
d’une ou
plusieurs
dimensionsd’inégalité
sociale.Le
premier
facteurqui n’explique
que 26%
de lavariance,
a étéinterprété
comme niveau
socio-économique :
si l’onplace
lesménages
lelong
dupremier
axe
factoriel,
et que l’onregarde
pour chacun d’euxquelle
est la CSP du chef deménage,
on retrouve latypologie
des CSP(variable qui
n’était pas intervenue dansl’analyse)
selon un ordreclassique :
cadressupérieurs,
cadres moyens, ... ,manoeuvres .
Les variables les
plus significatives (pour
cettepopulation)
du niveau socio-économique
sont le revenu(Vl , V27),
les loisirs extérieurs(V14 , V22)
et la voiture(V26).
Toutes les variables sont corréléespositivement
aupremier
facteur.Les facteurs suivants n’ont trouvé aucune
interprétation certaine,
bien que le second facteur soi un peu lié à la nationalité du chef deménage (Macquin, 1977).
Des modifications de
codage
minimes(regroupement
des notes 2 avec lesnotes
1, puis
avec les3)
ont étéessayés,
et ont très peu modifié les résultats.Les
inégalités sociales,
dans cettepopulation,
seraient donc sous-tendues par une seule variablerésumante,
indiceglobal
de niveausocio-économique.
peut-on
l’affirmer ens’appuyant
sur des mesuresplus objectives
del’importance
du
premier
facteur ? On va examiner successivement les mesures basées surC1, C2, C2 - CI
et B.4.2. Mesures de
l’importance
dupremier
facteur16
Le
pourcentage
associé aupremier
facteur n’est pas élevé. Il y acependant
décroissance nette
après
celui-ci.b. Mesures basées sur
C2
C2,
somme des carrés des valeurs propres, vaut 74.56. Onpeut
comparer àC2
les carrés des
premières
valeurs propres :Selon ce
critère,
lepremier
facteurapparaît
comme un bon résumé des relation entre les variables. L’écart entre lepremier
facteur et les autres est encoreplus
manifeste.Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
c. Utilisation de
C2 -ci
C2 - CI,
somme des carrés des coefficients de corrélationsempiriques,
vaut 46.56. C’est aussi la somme des
03BB2q - A9.
Cesquantités
sontpositives
si03BBq ~ 1 ,
négatives ensuite, atteignant
leur minimum pour la valeur propre laplus proche
de0. 5 :
La
quantité C2 - CI
est bienapprochée
par le facteur 1 seul. Pour en tirer des conclusions sur le rôleparticulier
dupremier facteur,
il faudrait en savoirplus
sur la
répartition
deC2 - CI
entre les facteurs sous certaineshypothèses.
d.
Comparaison
de03BB1
à BLa borne B vaut ici
8.63 ;
elle estapprochée
deprès
parA1.
On sait que Best atteinte si et seulement si tous les coefficients de corrélation sont
égaux,
doncsi toutes les variables sont
équivalentes
dans la recherche d’un facteur résumantqui
est alors une sommepondérée
des variables. Dans ce cas, les valeurs propres autres que lapremière
sontégales,
et d’autantplus grandes
que le coefficient de corrélation commun estpetit.
Onpeut
penserqu’ici
onapproche
cettesituation,
bien que tous les coefficients de corrélation
empiriques
sont loins d’êtreégaux.
6. CONCLUSION ET DISCUSSION
Les résultats rassemblés ici
peuvent
se résumer ainsi : la trace de la matrice àdiagonaliser
est une bonne mesure del’importance
d’un facteur dans les cas où l’onapplique
l’AFC à un tableau decontingence,
à unejuxtaposition
de tableaux decontingence,
à un tableau deBurt,
ou l’ACP à des variables continues.Par contre, la
comparaison
des valeurs propres à la somme des carrés des éléments de la matrice àdiagonaliser
a une meilleuresignification
dansl’analyse
d’un tableau sous forme
disjonctive complète,
et dans l’ACP de variablescatégo-
risée,
du moins si l’on s’intéresseplus
aux variables(et
à obtenir de bons résumés decelles-ci) qu’à
des observations àreprésenter
au mieux. Dans le cas de l’ACP sur18
Ces résultats veulent être une incitation à ne pas utiliser des critères de
qualités
des facteurs sans tenircompte
de la nature du tableauanalysé,
et à diffé-rencier les critère selon ce
qu’ils permettent
de mesurer. Il sont encore très limitéset devraient être améliorés par la recherche de tests
statistiques,
mêmeapprochés,
sur la
signification
des valeurs propres.LISTE DES VARIABLES 1 Revenu par Unité de Consommation
2 Statut
d’occupation
dulogement
3 Confort du
logement
4 Surface par habitant dans le
logement
5
Temps
detransport
6 Possibilité de
promotion
dans le travail 7 Conditions de travail8
Age
de fin d’études du chef deménage
9
Diplôme
du chef deménage
10
Fréquence
de rencontre desparents
11 Aide familiale
12 Bien reçus au moment du
mariage
13 Retards scolaires des enfants 14 Activités extérieures des enfants 15 Maladies des enfants16 Vacances des enfants 17 Santé des
parents
18 Rencontre d’amis ou de voisins 19
Capital
relations20 Loisirs à la maison 21 Lecture
22 Loisirs extérieurs 23 Sorties en week end 24 Vacances des
parents
25 Résidence de vacances26 Voiture
27 Salaire du chef de
ménage
28
Dépenses
remisesRevue de Statistique Appliquée, 1978 vol XXVI N° 1
20
CORRELATIONS VARIABLES-FACTEURS
(en 0/00)
Revue de Statistique Appliquée, 1978 vol. XXVI N° 1
REFERENCES
[1] AGRESTI
A.(1976). -
The effect ofcategory
choice on some ordinalmeasures of association. JASA
71, n°
353.[2]
AIACH P.(1975). -
Vivre àFolie-mèricourt ;
étude des processus cumulatifsd’inégalités. Rapport
CORDES.[3] CAZES P.,
BAUMERDERA.,
BONNEFOUSS.,
PAGES J.P.(1977). - Codage
etanalyse
des tableauxlogiques.
Introduction à lapratique
desvariables
qualitatives.
Cahiers duBURO, n° 27,
3-47.[4]
CEHESSATR., (1976). -
Exercices commentés destatistique
et infor-matique appliquées. Dunod, 418
p.[5] DAVIDSON F., CHOQUET M.,
DEPAGNEM., (1973). -
Leslycéens
devantla
drogue
et les autresproduits psychotropes. Monographie INSERM,
207 p.[6]
DOREIAN P.(1972).
Multivariateanalysis
andcategorized
data.Quality
andquantity VI, n°
2.[7]
GILL R.D.(1976). - Consistency
of maximum likelihood estimators of the factoranalysis model,
when the observations are not multivariatenormally
distributed. Communication au
Congrès Européen
desStatisticiens, Grenoble, septembre
1976.[8]
KRISHNAIAH P.R.(1976). -
Somme recentdevelopments
oncomplex
multivariate distribution. J.
of Mult. Analysis,
6. 1-30.[9]
LEBARTL.,
FENELON J.P.(1975). - Statistique
etinformatique appliquées.
Dunod, 457
p.[10]
LEBART L.(1975). -
Validité des résultats enanalyse
des données.Rapport DGRST, 158p.
[11] LEBART
L. MORINEAUA.,
TABARD N.(1977). - Techniques
de ladescription statistique. Dunod,
352 p.[12]
LECLERC A.(1975). - L’analyse
descorrespondances
surjuxtaposition
detableaux de
contingence.
Revue deStatistique Appliquée, 23, n° 3,
5-16.[13]
LECLERC A.(1976). -
Une étude de la relation entre une variablequali-
tative et un groupe de variables
qualitatives.
Int. Stat.Rev.,
44n° 2,
241-248.[14]
LECLERC A. - Une bornesupérieure
pour les valeurs propres d’une matricesymétrique
et sonapplication
àl’analyse
enComposante Principales. (à paraître).
[15] MACQUIN
A.(1977). -
La méthodePrinqual.
Présentation etcomparaison
avec
l’Analyse
desCorrespondances,
et avecl’Analyse
enComposantes Principales. Rapport d’Application, Cycle
deStatistique Appliquée,
50 p.[16]
PEARSON(1901). -
On lines andplans
ofpoints
in space. Phil.Mag.
2.[17] POUSSE
A.(1976). - Analyse
encomposantes principales
deprobabilités
et