J EAN -L UC D URAND
Taux de dispersion des valeurs propres en ACP, AC et ACM
Mathématiques et sciences humaines, tome 144 (1998), p. 15-28
<http://www.numdam.org/item?id=MSH_1998__144__15_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1998, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TAUX DE DISPERSION DES VALEURS PROPRES EN
ACP,
AC ETACM*
Jean-Luc
DURAND
1RÉSUMÉ 2014
Nous définissons le tauxquadratique
de concentration d’une mesure positive, ou taux quadratique de dispersion des valeurs de sa densité élémentaire.Appliqué
aux valeurs propres d’un nuage depoints dans un espace euclidien, ce taux s’interprète géométriquement comme un indice de non-sphéricité du
nuage, rendant compte de sa capacité à être bien résumé par le(s) premier(s) axe(s). Nous donnons, en les
commentant, les expressions de la variance corrigée et du taux de
dispersion
des valeurs propres pour les méthodes les plus usuelles d’analyse géométrique des données : analyse en composantes principales (ACP pondérée, simple et normée), analyse des correspondances (AC) et analyse des correspondances multiples (ACM). Ces relations montrent notamment qu’en ACP normée et en ACM l’intensité moyenne des liaisons binaires entre les variables s’exprime géométriquement par la non-sphéricité des nuages de points.SUMMARY 2014 Dispersion rate of
eigenvalues
in PCA, CA and MCA.We
define
thequadratic
concentration rate of a positive mesure, orquadratic dispersion
rate of the values ofits elementary density. When
applied
on theeigenvalues
of a cloud of points in an Euclidean space, this rate is geometrically interpreted as an index of non-sphericity of the cloud, which accounts for its capacity to be well summarized by the first axis or axes. Weprovide
and comment upon the expressions of corrected variance anddispersion rate of
eigenvalues
for the most usual methods of geometric data analysis : principal componentanalysis (weighted PCA, simple and standard) correspondence analysis (CA) and multiple correspondence analysis (MCA). These relationships particularly show that in standard PCA and in MCA, the average
intensity of binary relations between variables is
geometrically expressed
by the non-sphericity of clouds of points.1. INTRODUCTION
L’un des
objectifs
del’analyse géométrique
des données est de fournir un résumé depetite
dimension d’un
protocole
multivarié. Laqualité
de ce résumédépend
de laproportion
de lavariance du nuage
prise
encompte
par lespremiers
axes.Or,
enanalyse
encomposantes
principales normée,
il est usuel de constater que lespremières
valeurs propres sont d’autantplus grandes
que les corrélations entre variables sont fortes. Enanalyse
descorrespondances multiples,
bien que lespremières
valeurs propres soient engénéral
relativementfaibles,
onpeut
*
Nous remercions Henry Rouanet et
Brigitte
Le Roux pour leurs remarques et commentaires sur les précédentesversions de cet article.
’ Laboratoire
d’Éthologie
Expérimentale et Comparée, ESA CNRS n° 7025, Université Paris XIII, Avenue J.-B. Clément, 93430 Villetaneuse, e-mail : [email protected].également
remarquerqu’elles
sont d’autantplus grandes
que les variablescatégorisées
sontfortement liées deux à deux.
Dans cette note, nous
préciserons
cespropriétés
enexprimant
la variancecorrigée
desvaleurs propres en fonction de
statistiques
évaluant la liaison entre les variables. Nouscommencerons par définir un indice
quadratique
de concentration d’une mesure fondée surl’inégalité (ou
ladispersion)
de ses massesponctuelles.
2. CONCENTRATION D’UNE MESURE POSITIVE
On rencontre dans les situations les
plus
diverses des données seprésentant
comme larépartition
d’une certainequantité
sur différents éléments :répartition
d’unepopulation
sur desdépartements,
d’unimpôt
sur lesfoyers fiscaux,
desfréquences
deréponse
sur les modalités d’unequestion
ou de la variance d’un nuage depoints
sur ses directionsprincipales.
Lesdonnées constituent alors une mesure
positive
sur unensemble2.
Soit
x :
J ~R+
une mesurepositive
définie sur unsupport
J de cardinal J . Notons T sa masse totale(supposée
strictementpositive).
Soit PJ : J --~R+
lamesure
(positive)
desproportions
associées aux masses de la mesure x J, avec etT
2. l. Coefficient
d’inégalité
de C. GiniL’évaluation de la concentration d’une mesure a donné lieu à la définition de
plusieurs
indices.Un indice
classique,
utilisé dans le cas d’une échelle derapports,
est parexemple
le coefficientd’inégalité
de C. Gini[2].
Cetindice,
notéG,
est obtenu enrapportant
le diamètre moyen de la mesure, noté D(moyenne
des distances entre les J massesponctuelles
de la mesure,prises
deux à
deux)
à sonmaximum, égal
à 2T/J(réalisé lorsque
toutes les massesponctuelles
sontnulles,
sauf une,égale
à la massetotale) :
avec
P2(J)désignant
l’ensembledes
J(J- 1)/2 paires
d’éléments de J.2 Une mesure donne lieu à une sommation
lorsque
l’on regroupeplusieurs
éléments alors qu’une variable, commepar exemple une densité de
population,
se dérive par moyennage. Sur la dualité entre mesures et variables, voir [4] pp. 19-40 et [5]. Cette dualité s’exprimera dans nos notations par l’utilisation d’indices bas pour les mesureset hauts pour les variables, comme dans les ouvrages de Rouanet et Le Roux, auxquels nous empruntons la plupart des notations de cet article.
Propriétés
· Le coefficient
d’inégalité
de Gini est un nombre pur(sans dimension),
déterminé par lesproportions
associées aux masses de la mesure : deux mesuresproportionnelles
ontun même coefficient
d’inégalité.
· Le coefficient
d’inégalité
estcompris
entre 0 et 1. Il est nullorsque
lesproportions
sontégales (répartition uniforme).
Il estégal
à l’unitélorsque
la mesure desproportions
estune mesure de Dirac
(concentration
sur un seul élément dusupport).
· Sur un
support binaire,
le coefficientd’inégalité
estégal
à la valeur absolue de la différence entre les deuxproportions :
Si
Le coefficient
d’inégalité
de Gini est donc une évaluation de la concentration d’une mesurepositive
basée surl’inégalité
des massesponctuelles,
c’est-à-dire sur ladispersion
de leursvaleurs. Plus la mesure est concentrée sur un
petit
nombre d’éléments dusupport, plus
lesvaleurs des masses
ponctuelles
sontdispersées. Soulignons
que les notions de concentration etdispersion portent
ici sur des ensemblesdifférents : j
pour la mesure ; l’intervalle[0, T]
pour les valeurs de ses massesponctuelles.
Nous nous intéresserons maintenant à l’évaluation de la
dispersion
des massesponctuelles
par unestatistique quadratique,
la variancecorrigée’.
Nous en déduirons un indicestandardisé,
que nousappellerons
tauxquadratique
de concentration d’une mesurepositive.
2.2. Taux
quadratique
de concentrationOn
appellera
densité élémentaire d’une mesure xj la densité de cette mesure parrapport
à lamesure élémentaire H
1,
d’où la variablex~ : j
1-4x~
=x ~.
Cette variablexl, qui s’exprime numériquement
comme la mesure xj, nousapporte
lesstatistiques
attachées auxvariables
numériques, parmi lesquelles
la moyenne x =T/J,
et la variancecorrigée :
La variance
corrigée
de la densité élémentaire estminimale,
de valeurnulle, lorsque
sesvaleurs sont toutes
égales (densité constante).
Elle estmaximale,
de valeur =T 2/j
lorsque
toutes ses valeurs sontnulles,
sauf une.Nous définissons le taux
quadratique
de concentration d’une mesure enrapportant
à son maximuml’écart-type corrigé
de sa densité élémentaire. Nous noterons ou en brefC,
le tauxquadratique
de concentration d’une mesure xi d’où C = soit :3 L’évaluation de la concentration d’une mesure est basée sur la distribution des proportions de masses. Cette distribution, de masse totale égale à l’unité, est à J-1 degrés de liberté, d’où le choix de la variance corrigée (plutôt
que la variance) dans un contexte d’analyse
descriptive.
Nous réserverons le terme de concentration aux mesures
positives
etparlerons
dedispersion
pour les valeurs de leur densité. Nous noteronsDps xl le
tauxquadratique
dedispersion
de lavariable xj,
d’où :Propriétés
Le taux
quadratique
de concentration d’une mesurepositive possède
lespropriétés présentées
ci-dessus pour le coefficient
d’inégalité
de Gini. On remarquera notamment que ces deux indices coïncident dans le cas d’une mesure sur unsupport
binaire.Pour une variable
positive ayant
lespropriétés
d’une échelle derapports,
on définitclassiquement
le taux devariation, quotient
de sonécart-type
par samoyenne : t
=Ety
On a la relation :
Le maximum du taux de variation d’une échelle de
rapports dépend
du nombre Jd’éléments du
support :
il estégal
à.jf=1. Lorsque
ce nombre J estfixé,
le tauxquadratique
dedispersion apparaît
comme une standardisation du taux devariation,
ramenantson maximum à l’unité.
Notons enfin que l’on
pourrait,
defaçon équivalente,
définir le tauxquadratique
deconcentration à
partir
de la distance dul/J2.
Soit uj la distribution uniforme sur J de massetotale
égale
à l’unité(Vj
eJ, U j = 1/J).
Considérons la distancedu q,2
de centre uj entre la mesure desproportions
pj associée à une mesure x J et la mesure uniforme uj :Si l’on
rapporte
cette distance à son maximum(égal
à et réalisé dans le cas où lamesure des
proportions
est une mesure deDirac),
on retrouve le tauxquadratique
deconcentration de la mesure xj.
2.3. Concentration et restriction du
support
La valeur d’un taux
quadratique
de concentration ou dedispersion dépend
du nombre demodalités du
support.
Nous examinons d’abord les modificationsapportées
à la variancecorrigée
et au tauxquadratique
de concentrationlorsque
l’on retire dusupport
un élément demasse
ponctuelle
nulle. Nous en déduirons ensuite unepropriété plus générale
liée à larestriction du
support
d’une mesure.Soit,
sur unsupport
J decardinal J >
3, une mesurepositive
xjcomportant
au moinsune masse
ponctuelle
nulle. Soit J’ unsupport
de cardinal J’ = J - 1 obtenu en enlevant à Jun élément de masse
ponctuelle
nulle. Notons la restriction de la mesure xj ausupport
J’. Les deux mesures xj et xj, sont de même masse totale T. On
peut
montrer que l’on aentre les moyennes, variances
corrigées
et tauxquadratiques
dedispersion
de leurs densitésélémentaires
x’~
etxj’
, les relations suivantes(ces
relations seront utiliséeslorsque
l’onétudiera les valeurs propres de
l’analyse
descorrespondances).
Lorsqu’on
passe de la variablexl
à la variable la moyenneaugmente.
Le sensdans
lequel
la variancecorrigée
est modifiéedépend
de ladispersion
de la variablex’~ .
Onpeut
montrer que la variancecorrigée diminue,
estinchangée
ouaugmente
selon que le tauxquadratique
dedispersion
de la variableje
estrespectivement inférieur, égal
ousupérieur
à-~J-/(J - 1). Enfin,
onpeut
montrer que le tauxquadratique
dedispersion
diminuetoujours,
sauf
lorsqu’il
estégal
àl’unité, auquel
cas il conserve sa valeur maximale.On en déduit que dans tous les cas où une mesure
positive comporte
une ouplusieurs
masses
ponctuelles
nulles etplusieurs
massesponctuelles
non nulles la restriction de la mesureà la
partie
dusupport
de masses non nulless’accompagne
d’une diminution de son tauxquadratique
de concentration. On retiendra que le tauxquadratique
de concentration n’a de sensque relativement à un
support donné,
de cardinal fixé.2.4. Taux
quadratique
de concentration rectifiéIl
peut arriver,
dans certainessituations,
que la définition de la mesure rendeimpossible
laconcentration de la masse totale sur un seul élément du
support
et que l’onait,
pour toute masseponctuelle
d’une mesure xj, la contraintexj ~ 1,
cette valeur maximale 1 étant inférieure à la masse totaleT 4.
Dans ce cas, le tauxquadratique
de concentration nepeut
atteindre l’unité.La somme des carrés bruts maximale des masses
ponctuelles,
notéeSCBnax,
est alors obtenuelorsqu’il n’y
a pasplus
d’une masseponctuelle
dans l’intervalle ouvert]0, 1[.
En notant 1nt(a)
lapartie
entière d’un réelpositif a
etFrac) = a - I n t(a)
sapartie fractionnaire,
il y a alors
1 n t(T/1)
termes de masse maximale 1 et éventuellement un autre terme de masse nonnulle, égale
à T -1 nt(T/l)
x 1 = 1 xFra c(T/1) ,
les autres termes(s’il
y ena)
étant demasse nulle. D’où :
4 C’est le cas dans une enquête, par exemple, lorsqu’il est demandé de choisir dans une liste a modalités de réponse (a> 1 ). La proportion maximum de réponses par modalité est lla.
Si l’on veut un indice de concentration variant entre 0 et
1,
onrapportera l’écart-type corrigé
de la densité élémentaire de la mesure à son maximum. Nous nommerons cerapport
taux
quadratique
de concentration rectifié d’une mesure xj, notéCctrec
xj, ou defaçon équivalente
tauxquadratique
dedispersion
rectifié de lavariable x~, noté
Nous utiliserons le taux
quadratique
de concentration rectifié enanalyse
descorrespondances multiples lorsque
nous étudierons ladispersion
des valeurs propres, toutes inférieures ouégales
à l’unité(cf. §6).
2.5. Taux
quadratique
de concentration des valeurs propres d’un nuage euclidienDans les méthodes
d’analyse géométrique
desdonnées,
la variance d’un nuage euclidienexprime
sa tailleglobale,
et les valeurs propres,qui
sont desparts
de cettevariance,
traduisentle
plus
ou moinsgrand allongement
du nuage dans ses diverses directionsprincipales.
Onpourra voir les valeurs propres comme les masses d’une mesure
positive (notée ~,L)
surl’ensemble L des directions
principales,
ou comme les valeurs d’une échelle derapports
sur L(variable
notéeAL ,
densité élémentaire de la mesureÂ~).
Le taux
quadratique
de concentration de la variance du nuage selon les directionsprincipales,
ou tauxquadratique
dedispersion
des valeurs propres,s’interprète géométriquement
comme indice denon-sphéricité
du nuage. S’il est nul(valeurs
propreségales),
le nuage a la même variance dans toutes les directions et seraqualifié
de nuagesphérique.
Plus il estgrand (i. e. plus
les valeurs propres sontdispersées), plus
le nuage estallongé
dans sespremières
directionsprincipales (plus
sa forme s’écarte de lasphéricité).
A lalimite,
s’il estégal
à 1(une
seule valeur propre nonnulle),
le nuage estporté
par une droite.3. DISPERSION DES VALEURS PROPRES D’UNE MATRICE
SYMÉTRIQUE
Soit A une matrice
symétrique
K x K. Notons ses termesdiagonaux,
et, ses termes
non-diagonaux.
Notons D la matricediagonale
K x K définiepar la famille
(Âk)kEK
de ses valeurs propres(éventuellement nulles) rangées
par ordre décroissant. Onpeut
voir les termesdiagonaux
de A comme formant une mesure sur K(dont
la masse totale est la trace de la
matrice),
et les termesnon-diagonaux
comme formant unemesure sur l’ensemble des
paires
d’éléments deK,
notéP2 (K) .
Nous munissons les ensembles K etP 2 (K)
de lapondération
fondamentale élémentaire et notonsaK
=(ak ) kE K
la densité élémentaire des termes
diagonaux et aP2(K) = (akk’ )kk’EP2(K)
la densité élémentaire des termesnon-diagonaux.
3.1. Variance
corrigée
des valeurs propresLa variance
corrigée
des valeurs propres(variance corrigée
de lavariable  K,
densitéélémentaire de la mesure
ÂK)
est :en notant K le cardinal de K.
Or,
ladiagonalisation
d’une matrice carrée conserve la trace :et, dans le cas d’une matrice
symétrique,
il y aégalement
conservation de la somme des carrés des termes de la matrice :d’où :
et, en
séparant
les K termesdiagonaux
desK(K- 1)
termesnon-diagonaux :
On en déduit la
propriété :
La variance
corrigée
des valeurs propres d’une matricesymétrique
d’ordre K estégale
àla somme de la variance
corrigée
de ses termesdiagonaux
et duproduit
par K de la moyenne des carrés de ses termesnon-diagonaux.
3.2. Taux de
dispersion
des valeurs propresOn suppose maintenant que la matrice A est semi-définie
positive :
Vk~ ~ ~ ~
0. Lesvaleurs propres
peuvent
être vues comme une mesurepositive
sur K(de
masse totaleégale
à latrace de la
matrice)
ou comme une variable sur K(densité
élémentaire de lamesure)
dont onpeut
déterminer le tauxquadratique
dedispersion.
Les K termesdiagonaux
de la matrice et les K valeurs propresayant
même somme, et donc même moyenne, leur variancecorrigée
maximum commune s’écrit :
soit,
enrapportant
la variancecorrigée
des valeurs propres à sonmaximum,
lapropriété :
Le carré du taux
quadratique
dedispersion
des valeurs propres d’une matricesymétrique
semi-définie
positive
estégal
à la somme du carré du taux dedispersion
de ses termesdiagonaux
et duquotient
de la moyenne des carrés de ses termesnon-diagonaux
par le carré de la moyenne de ses termesdiagonaux.
4. DISPERSION DES VALEURS PROPRES EN ACP 4.1. ACP
bipondérée
Soit K un ensemble de K variables
numériques
définies sur un mêmesupport (élémentaire
oupondéré).
Dans uneanalyse
encomposantes principales bipondérées (forme
laplus générale
del’ACP), chaque
variable est affectée d’unpoids (strictement positif).
Notonsak
lepoids
d’une variable
k, vk
sa variance etc kk’
, la covariance entre deux variables k et k’. La matrice A àdiagonaliser
estsymétrique,
semi-définiepositive,
d’élémentdiagonal
ak =
mkvk
=Ctak (contribution
absolue de la variable k à la variance du nuage desindividus)
et d’élément nondiagonal -JCtakCtak’rkk’ (où r kk’
est lecoefficient de corrélation linéaire entre les variables k et
k’, i. e. ,
dansl’espace
desvariables,
le cosinus de
l’angle
entre les vecteursreprésentant
cesvariables).
Notonsa K =
la densité élémentaire des termesdiagonaux (ou
densité élémentaireCtaK
des contributions absolues des variables à lavariance)
et densité élémentaire des termesnon-diagonaux.
Notons L =Il
EN; 1 :5
1K} (ensemble
ordonné des entiers de 1 àK).
La variance des K valeurs propres del’ACP bipondérée
s’écrit :Par ailleurs on a
Moy
Notons la contributionrelative d’une variable k à la variance du nuage des individus. Les mesures
CtrK
etCtaK
étant
proportionnelles,
elles ont un même tauxquadratique
deconcentration,
et leurs densités élémentairesCtrK
etCtaK
ont un même tauxquadratique
dedispersion,
d’où le carré du tauxquadratique
dedispersion
des valeurs propres :Les valeurs propres d’une ACP
bipondérée
sont d’autantplus dispersées
que :e les contributions des variables sont
dispersées (ce qui
est le caslorsque
lespoids
lesplus
fortsportent
sur les variablesayant
lesplus grandes variances) ;
· la moyenne des termes associés aux
paires
de variables est élevée(ce qui
est le caslorsque
les variables contribuant leplus
à la variance sont fortementcorrélées).
5 Cette analyse est
appelée
ACP pondérée dans [4] pp. 168-175. Sa mise en oeuvre peut être réalisée avec le logiciel ADDAD (module ACPPON, réalisé par B. Le Roux et P. Bonnet).4.2. ACP
simple
Une ACP
simple (ou
nonnormée)
est un casparticulier
d’ACPbipondérée,
danslequel
lesvariables
analysées
sont toutes affectées d’un mêmepoids LUk
= 1(et
nonréduites).
Lamatrice à
diagonaliser
a pour élémentsdiagonaux
les variances des variables et pour élémentsnon
diagonaux
les covariances entre variables. D’où la variancecorrigée
des valeurs propres :La variance
corrigée
des valeurs propres d’une ACPsimple
sur K variables estégale
à lasomme de la variance
corrigée
des variances des variables et duproduit
par K de la moyenne des carrés des covariances entre les variables.En ACP
simple,
la contribution absolue d’une variable étantégale
à savariance,
on a D’où le carré du tauxquadratique
dedispersion
des valeurs propres :Les valeurs propres d’une ACP
simple
sont d’autantplus dispersées
que :~ les variances des variables sont
dispersées ;
· la moyenne des termes
CtrkCtrk’(rkk’)2
associés auxpaires
de variables est élevée(ce qui
est le caslorsque
les variables deplus grandes
variances sont fortementcorrélées).
4.3. ACP normée
Une ACP normée
(ou
ACPstandard)
est un casparticulier
d’ACPsimple
danslequel
lesvariables sont réduites. La matrice à
diagonaliser
est la matrice des corrélations entre variables :ses éléments
diagonaux
sontégaux
àl’unité,
donc de variancecorrigée
nulle. La variancecorrigée
des valeurs propres s’écrit :La variance
corrigée
des valeurs propres d’une ACP normée sur K variables estégale
àK fois la moyenne des carrés des corrélations entre les variables.
En ACP
normée,
la contribution absolue dechaque
variable étantégale
àl’unité,
on apour toute variable k :
Ctrk = 1/K.
D’où le tauxquadratique
dedispersion
des valeurspropres :
Le taux
quadratique
dedispersion
des valeurs propres d’une ACP normée estégal
à lamoyenne
quadratique
des corrélations entre les variables.Les valeurs propres d’une ACP normée sont d’autant
plus dispersées
que les variablessont corrélées. En ACP
normée,
la taille du nuage des individus estindépendante
des données(la
variance du nuage estégale
au nombre devariables)
et c’est sanon-sphéricité (évaluée
par letaux
quadratique
dedispersion
des valeurspropres) qui exprime
l’intensité des liaisons linéairesentre les variables. Cette
propriété
éclaire l’influence du choix des variables sur lepourcentage
de variance
expliqué
par lespremiers
axes d’une ACP([3]
pp.370-371).
Dans le cas
particulier
d’une ACP normée sur deuxvariables,
en notant r leur coefficient decorrélation,
le taux dedispersion
des deux valeurs propres s’écrit(comme
le coefficientd’inégalité
deGini) :
d’oùl’expression
des valeurs propres :Â,11
= 1 +Irl
et5. DISPERSION DES VALEURS PROPRES EN AC
Soit =
(njk) jkeJxK un
tableau decontingence
d’effectifs. Notons nj =nK =
(nk)keK
ses distributionsmarginales (supposées
strictementpositives),
avecet n son effectif total. Notons
fK
=(fk )kEK le profil
sur Kd’une
modalité j
de J(avec f J
= etfK
=(A)keK
leprofil
moyen sur K(avec fk
= NotonsdiK
=(d jk )keK
la densité duprofil de j
sur K parrapport
auprofil
moyen sur
K,
avec =(densité
de lafréquence conjointe
parrapport
àla
fréquence-produit).
Le tableau des densités =peut
être vu de troisfaçons :
comme une famille de J variables sur K
(muni
de lapondération fK ) pondérées
parfj ;
comme une famille de K variables sur J
(muni
de lapondération fj ) pondérées
parfK ;
ouenfin comme une variable sur J x K muni de la
pondération
desfréquences-produits fJK =
Ces variables surJ,
sur K et sur J x K ont toutes 1 pour moyenne(les
taux de liaison de Rouanet et Le Roux[4]
sont obtenus parcentrage
de ces variables :tJk
=dJk - 1).
La variance de la variabledJK
est le carré moyen decontingence,
notél/12.
Dans
l’analyse
descorrespondances
du tableau les deux nuages euclidienset =
(Mk )keK’ représentant respectivement
les Jprofils
sur K et lesK
profils
surJ,
sont de mêmedimension,
inférieure ouégale
à L =min(J - 1, K - 1),
demême variance
/>2,
@ etpossèdent
la même famille de valeurs propres. NotonsLes résultats de l’AC du tableau njK sont
équivalents
à ceux des Lpremières
directionsprincipales
de l’ACPbipondérée
du tableau des densités(muni
despondérations fj
surJ et
fK
surK)
ou de sontransposé.
On pourra doncexprimer
ladispersion
des valeurs propres del’analyse
descorrespondances
àpartir
des variances et covariances des J densités sur K et de lapondération fj (ou
defaçon symétrique,
comme nous le faisonsci-dessous,
àpartir
des variances et covariances des K densités sur J et de lapondération fK ) .
Nous supposerons que l’on a J ~
K,
d’où L = K- 1.Notons vk
la variance de la densitéd~
duprofil
d’une modalité k surJ, Cta k = f k vk
la contribution absolue aul/12
de cette
modalité,
etr kk’
la covariance et le coefficient de corrélation linéaire entre les deux variablesd’~
etdk’l.
Dansl’espace
desprofils
surJ,
en notant G lepoint
moyen dunuage
MK, vk
est le carré de lalongueur
du vecteurGMk représentant
la variabledu
etrkk~
est le cosinus del’angle
entre les vecteursGM~
etLa matrice A à
diagonaliser
estsymétrique,
semi-définiepositive,
d’élémentdiagonal
ak
fk vk
=Cta k
et d’élément nondiagonal
1 La variancecorrigée
des L’ = K valeurs propres de l’ACPpondérée
s’écrit :La dernière des K valeurs propres de l’ACP
bipondérée
étantnulle,
la variancecorrigée
des L = K- 1 valeurs propres de l’AC
s’écrit,
en utilisantl’équation (7) :
Varcor
et le carré du taux
quadratique
dedispersion
des valeurs propres de l’AC :Les valeurs propres d’une AC sont d’autant
plus dispersées
que :. les contributions des modalités à la variance sont
dispersées (ce qui
est le caslorsque
les modalités les
plus fréquentes possèdent
lesprofils
lesplus éloignés
duprofil moyen) ;
. la moyenne des termes
CtrkCtrk’(rkk’)2
associés auxpaires
de modalités est élevée(ce qui
est le caslorsque
lesprofils
des modalités contribuant leplus
à la variance ontdes densités fortement
corrélées).
En
AC,
l’intensité de la liaisonglobale
entre les deux variablescatégorisées s’exprime géométriquement
par la taille des nuages depoints (leur variance,
somme des valeurs propres,est aussi la variance des taux de
liaison,
cf.[4]
pp.207, 213).
Ladispersion
des valeurspropres est déterminée par la
dispersion
des contributions des modalités à la variance et par les corrélations entre les densités desprofils
des modalitésayant
lesplus
fortes contributions.6. DISPERSION DES VALEURS PROPRES EN ACM
Soit Q
un ensemble dequestions
et K l’ensemble de toutes les modalités de cesquestions.
Notons
Q
et K leurs cardinauxrespectifs.
Notons L =Il
EN;1 _
1 - K-Q} (ensemble
ordonné des entiers de 1 à K -
Q).
Considéronsl’analyse
descorrespondances multiples
d’unprotocole
à valeurs dans leproduit
cartésien de cesquestions,
c’est-à-direl’analyse
descorrespondances
du tableaudisjonctif complet.
La variance
corrigée
des K -Q
valeurs propres non triviales est :Or en ACM la somme des valeurs propres est :
et la somme des carrés des valeurs propres est
égale
aulfJ2
du tableau deBurt, lequel
est lamoyenne des
lfJ2
desQ2
sous-tableauxcomposant
le tableau de Burt([4]
p.256) :
où (ljJ2 ) qq’
’
désigne
le carré moyen decontingence
des deuxquestions q
etq’.
D’où la variance
corrigée
des valeurs propres del’analyse
descorrespondances multiples :
En
ACM,
la variancecorrigée
des valeurs propres estproportionnelle
à la moyenne des carrés moyens decontingence
des tableaux binaires. On en déduit la relation :La force moyenne des liaisons binaires entre les
questions
nes’exprime
pas par la somme des valeurs propres(qui, égale
à(K - Q)/Q,
estindépendante
desdonnées)
mais par les carrés des écarts des valeurs propres à leur moyenne(égale
à1/Q ).
Onpeut rapprocher
cettepropriété
de la formule de calcul des tauxmodifiés, proposée
par Benzécri([ 1 ]
p.306)
dans lebut de mieux
apprécier l’importance
relative des directionsprincipales
d’une ACM.À chaque
valeur
propre À¡ supérieure
à la valeur propre moyenne1/Q
on associe laquantité
, Le taux modifié de Benzécri pour l’axe 1 est
proportionnel
à lacontribution de cet axe à la moyenne des
l/12
binaires(en
se limitant toutefois aux axes de valeurs propressupérieures
à lamoyenne).
Dans le cas
particulier
où lesQ questions
sont toutesbinaires,
la somme des valeurs propres estégale
àl’unité,
et leur taux dedispersion
s’écrit :Le taux de
dispersion
des valeurs propres d’une ACMportant
sur desquestions
binairesest
égal
à la moyennequadratique
desl/J2
des tableaux binaires.Dans les autres cas, la somme des valeurs propres est
supérieure
àl’unité,
alors que les valeurs propres sont toutes inférieures à 1. Nous pourronsdonc,
pour avoir un indice variantentre 0 et
1,
calculer le taux dedispersion
rectifié. La valeur maximale pour la somme des carrés bruts est :Nous calculerons donc le taux
quadratique
dedispersion
rectifié des valeurs propres :Dans le cas
particulier
dequestions ayant
toutes un même nombre k de modalités(avec Qk
=K),
la variancecorrigée
maximale des valeurs propres s’écrit :d’où le taux de
dispersion
rectifié :soit encore, en notant le carré du coefficient de
contingence
deCramer entre deux
questions
q etq’ :
Dans le cas de
questions ayant
toutes un même nombre demodalités,
le taux dedispersion
rectifié des valeurs propres d’une ACM est la moyenne
quadratique
des coefficients de Cramer associés aux tableaux binaires.7. DISCUSSION
Nous avons montré
qu’en
ACP normée comme enACM,
le taux dedispersion
des valeurspropres est
proportionnel
à la liaison moyenne entre les variables étudiées(moyenne
des carrésdes corrélations en ACP normée et moyenne des carrés moyens de
contingence
enACM).
L’examen de la matrice des corrélations
(en
ACPnormée)
ou de la matrice desl/J2 (en
ACM) permet
deprévoir
le taux dedispersion
des valeurs propres et de s’attendre à uneplus
oumoins
grande proportion
de varianceexpliquée
par lespremiers axes6.
Si les variables sont très peuliées,
les valeurs propres serontproches
de leur moyenne,(nuages
depoints
de formes6 Il serait souhaitable que les logiciels d’analyse de données fournissent la valeur de la moyenne des carrés des corrélations (en ACP standard) ou celle de la moyenne des carrés moyens de contingence (en ACM), ou encore
celle du taux de dispersion des valeurs propres.
proches
de lasphéricité),
et laproportion
de varianceexpliquée
par lespremiers
axes serarelativement faible.
À l’opposé,
si les variables sont fortement liées entreelles,
les valeurs propres seront trèsdispersées (nuages
de formeséloignées
de lasphéricité)
et laproportion
devariance
expliquée
par lespremiers
axes sera élevée.En ACP normée et en
ACM,
la variance des nuages depoints
estindépendante
del’intensité des liaisons entre les variables. Cette
caractéristique distingue
ces deux méthodes del’analyse
descorrespondances
d’un tableau decontingence
binairequi produit
deux nuagesayant
pour variance le carré moyen decontingence,
indiceglobal
de liaison entre les deuxquestions.
L’intensité de la liaison entre les variabless’exprime géométriquement
par la taille des nuages(somme
des valeurspropres)
en AC et par leurnon-sphéricité (taux
dedispersion
des valeurs
propres)
en ACP normée et en ACM.BIBLIOGRAPHIE
[1] BENZÉCRI J.-P.,
&Coll., Pratique
del’analyse
desdonnées,
tome 1 :Analyse
descorrespondances, exposé élémentaire, Paris, Dunod, 2ème édition,
1984.[2]
BARBUTM.,
"Diamètres etécarts,
unedécomposition
du coefficientd’inégalité
deC.