R EVUE DE STATISTIQUE APPLIQUÉE
B. E SCOFIER
Analyse factorielle et distances répondant au principe d’équivalence distributionnelle
Revue de statistique appliquée, tome 26, n
o4 (1978), p. 29-37
<http://www.numdam.org/item?id=RSA_1978__26_4_29_0>
© Société française de statistique, 1978, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
29
ANALYSE FACTORIELLE ET DISTANCES
RÉPONDANT AU PRINCIPE
D’ÉQUIVALENCE DISTRIBUTIONNELLE
B.
ESCOFIER*
RESUME
On donne ici quelques exemples de distances
définies
sur un ensemble à partir d’untableau de correspondance. Ces distances, comme celle du x
utilisée
en analyse des corres- pondances, sont des distances entre profils, satisfont au "principed’équivalence
distribu- tionnelle", et sontreprésentables
dans un espace euclidien, donc utilisables pour une analyse factorielle.1. NOTATIONS ET RAPPELS
Soit
pij
un tableau decorrespondance,
pi etpi
les sommes deslignes
et descolonnes. On
appelle profil
associéà j
E J l’ensemble{pij pj
noté p(i/j) ;
i ~I ,
et
profil
associé à i E 1l’ensemble Pi noté p (j/i) ;j
E J} ;
*I.N.S.A. Rennes, 20, avenue des Buttes de Coësmes - B.P. 14A, 35031 Rennes Cedex.
Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
Mots Clés :
Analyse factorielle, analyse
descorrespondances,
distance duX2 ,
équivalence
distributionnelle.30
On dit
qu’une
distance définie sur 1 est une distance entreprofils,
si ladistance entre i et
i’
est nullequand
lesprofils qui
leur sont associés sontégaux,
etpetite quand
cesprofils
sontproches, (quelles
que soient les valeurs de pi et depi’).
Et le
principe d’équivalence
distributionnelle est le suivant : si deuxéléments j1
etj2
deJ,
de mêmeprofil (ou équivalents distributionnellement)
sontremplacés
parun seul élément
jo
avecpijo
=Pijl
+pij2,
la distance définie sur I resteinchangée.
Rappelons
aussi la distance duX 2,
de centre la loimarginale pj :
2. ETUDE DE LA DISTANCE
D2(i,i’) = 03A3 (VpQ/i) - p(j/i’))2
Il est clair que cette distance est une distance entre
profils.
On vérifiefacilement
qu’elle
satisfait auprincipe d’équivalence
distributionnelle en l’écrivant :En
effet, soient jl et j2
deux éléments de J de mêmeprofil : p(i/Ji)
=p(i/j2)
pour tout i. Si l’on
remplace j 1
etj2
par un seul élémentjo
tel quepij0 = PiJ’
+pij2,
alors
pj0 = pil
+pi2 ,
; et pour touti,
leségalités pij0 pj0 = --=:...a.. = pij2 pj2
sont vérifiées.L’élément
jo
a donc le mêmeprofil
quejl
etj2.
Et dansl’expression
de ladistance,
les deux termescorrespondant à j1
etj2
sontremplacés
par leur somme.Une
représentation
euclidienne évidente de cette distance est deplacer
dansRj,
muni duproduit
scalaireidentité,
l’élément i aupoint
de coordonnéesp(j/i).
On remarque que tous lespoints
sont situés sur lasphère
unitépuisque :
2
1.j
Pour la recherche des axes
principaux
d’inertie du nuage associé à cettedistance,
il faut affecter àchaque point
unpoids.
Onpeut,
comme en corres-pondance,
affecter à i lepoids
pi, oubien,
en liaison avec la formule de définition de ladistance, pi,
ou même affecter le mêmepoids
à tous les éléments. Onpeut
remarquer que dans la secondesolution,
pour des tableaux sous formedisjonctive complète,
le centre degravité
est sur lapremière bissectrice,
comme en corres-pondance.
En affectant à i le
poids
pi, le centre degravité
a pour coordonnées :Les axes
principaux
d’inertie sont les vecteurs propresV03BB
de la matrice de la formequadratique principale
d’inertie :Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
31
Et les
facteurs, projection
du nuage sur les axes d’inerties’écrivent,
siV03BB
estnormé :
On
peut représenter
simultanément les deux ensembles 1 etJ,
deplusieurs
manières : en
représentant
simultanémentVx
etF03BB,
cequi
revient àprojeter
surV03BB
les vecteurs unitairesej de
la basecanonique
deRj
et le nuageétudié ; Y03BB(j)
est alors le cosinus de
l’angle
entreVx
etei .
Ou bienreprésentant
un élémentj
de J au centre degravité
des éléments i affectés dupoids pij.
Iln’y
a évidemmentpas comme en
correspondance
desymétrie
desreprésentations
de 1 et J.Etudions maintenant les
propriétés
de cette distance.Remarquons
d’abordqu’en
effectuant les calculs dans sa deuxièmeexpression,
elle s’écrit :Ce
qui
montrequ’elle
estégale
à 2 si les domaines de i etil
sontdisjoints, quelles
que soient leursmarginales
pi et pi’(le
domaine de i est l’ensembledes j
deJ tels que
pij
soit différent dezéro).
Mais nous allons étudier
spécialement
le cas où le tableau de données est constitué de 0 et de 1 etplus particulièrement
celui où les données sont mises sousforme disjonctive complète.
Un tableau est mis sous forme
disjonctive complète
si il existe unepartition
de 1 en M sous ensemble
Il, ... , IM
telle quepour j
de J et tout qcompris
entre 1et
M, pij
vaut 1 pour un et seul des éléments de 1 .[1]
et[3 ].
On code ainsi lesquestionnaires où,
pourchaque question
unindividu j
doit choisir uneréponse
iet une seule. Ou
bien,
des ensembles de mesures où le domaine de valeurs dechaque
mesure q est
partitionné :
on pose alorsPij
= 1 si la mesure effectuéesur j appartient
à l’élément i de lapartition
des valeurs de q.En traitant ce
type
de tableaux parl’analyse
descorrespondances,
les éléments i de 1 demarginale
pipetite, (réponse
peu choisie dans unquestionnaire
par
exemple),
sont trèséloignés
du centre degravité,
alors que ceux demarginale grande
en sont trèsproches.
Ceci ne sejustifie
pastoujours
pour les donnéesRevue de Statistique Appliquée, 1978, vol. XXVI, n° 4
32
traitées,
et de tels élémentsperturbent
souvent lesanalyses.
Dans le cas de mesuresainsi
codées,
le nombre d’éléments de lapartition
des valeurs d’une mesure q estgénéralement
sans relation avec sonimportance
relative. Ellejoue cependant
ungrand
rôle encorrespondance
dans les résultats del’analyse : plus
le nombred’éléments de la
partition
estgrand, plus
les effectifs sontpetits
etplus
les éléments associés sont loin du centre degravité
etplus
d’inertie totale de la mesure estgrande.
L’inertie de l’ensemble des éléments deIq
parrapport
au centre degravité
vaut Card
(Iq) -
1. Comme deplus,
lasymétrie
desanalyses
des 2ensembles,
caractéristique
del’analyse
descorrespondances
nes’appuie
pas ici sur unesymétrie
des
données,
comme pour un tableau defréquence.
ilpeut
être intéressant d’intro- duire une distance différente de celle duX2 .
Pour des données sous forme
disjonctive complète,
il estpossible
de comparer le nuage depoints
associé à la distance étudiée et celui construit enanalyse
descorrespondances.
Eneffet,
dans ce cas, encorrespondance,
lamétrique
induite surRj, (où
l’élément i a pour coordonnéesp (i/j))
est unemétrique
uniformepuisque
la
marginale pj
estégale
à M pourtout j.
Il suffit d’unesimple
homothétie pourplacer
ces deux nuages dans le même espace. Legraphique
ci-dessousreprésente
cesdeux nuages dans
Rj.
a
Nuage
associé auxcorrespondances. Les points
ont leurs coordonnées nonnulles toutes
égales
à1/pi
et une normeégale à 1/pi.
*
Nuage
déduit. Lespoints
ont pour norme i, pour coordonnées non nulles1/pi.
Si on affecte àchaque
élément i lespoids
pi’ les inerties totales de tous les sous-ensembleIq
parrapport
àl’origine
sontégales.
Ellesvalent, puisque
tous lespoints
ont pour norme1,
Le
point représentant
l’élément i a pour coordonnées dansRj, PU/Pi
pourl’analyse
descorrespondances
etpij/pi
pour cette nouvelle distance. CommePij
vaut 0 ou1, VPij est égal
àpij,
le deuxièmepoint
se déduit dupremier
par une homothétie derapport pi.
Ce deuxièmepoint
se trouvant sur lasphère unité,
c’est en
quelque
sorte une "normalisation" du nuage.Il
peut
être intéressant de faireconjointement
à une classification auto-matique,
uneanalyse
factorielle basée sur la même notion deproximité,
les résultats obtenuspouvant
s’éclairerréciproquement. Or,
la distance étudiée ici est, pour les tableaux en0-1, (non
nécessairement sous formedisjonctive complète)
liée aucoefficient de similarité S. d’Ochiai
[4],
par la relation :Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
33 En
effet,
on a :où oo,
oN, No,
NNdésignent respectivement
le nombre de colonnescomportant
aux
ligne
i eti’ :
1 et1, 1 et
o, o et1,
o et o.Et, puisque pij
valant o ou1, Pij ’ Pi’j
=pij. Pi’j’
on retrouvel’expression (3)
de la distance.Une distance
peut
êtredéfinie symétriquement
sur J. Pour des données sousforme
disjonctive complète,
la distance sesimplifie,
lespj
étant touségaux
àM,
elle devient :(pour
unquestionnaire,
cecireprésente
lerapport
entre le nombre deréponses
distinctes des
individus j
etj’
au nombre total deréponses).
Dans ce cas lecoefficient de similarité
auquel-est
liée la distance est confondu avecSSM,
celuiintroduit en taxinomie
numérique
par Sokal et Michener :3. ETUDE DE LA DISTANCE
C’est une distance du
X2 mais
de centre la loinj
=pj/rj
et non la loimargi-
nale
pj
comme encorrespondance.
Pour des tableaux necomportant
pas dezéro,
ces deux distances sont évidemment
égales.
Pondérer enchaque point
l’écart(p(j/i) - p(j/i’))2
par la moyennepj
de ces lois affectées despoids
piparaît logique :
unepetite
différence entre des valeurs en moyennepetites
est aussiimportante qu’une grande
sur des valeurs en moyennegrandes.
Mais que sepasse-t-il
si pour
un j donné, beaucoup
dep(j/i)
sontégaux
à zéro ? La moyenne sera trèspetite
relativement auxp(j/i)
nonnuls, l’importance
donnée à l’écart sur cette coordonnée seragrande.
Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
34
Au lieu de
quotienter
par la moyenne des p(j/i),
onpeut
alorsquotienter
par la moyennenj
desp(j/i)
non nulsen j :
Il est visible que la distance ainsi définie est une distance entre
profils.
Remarquons
que si lesprofils
associésà j1
etj2
sontégaux,
alorsrj 1
=rj2’
Onvérifie alors facilement le
principe d’équivalence
distributionnelle en écrivantcomme ci-dessus :
Il suffit de munir
Ru
duproduit
scalaire6J (rj/pp
et deplacer
comme encorrespondance
l’élément i aupoint
de coordonnees p(j/i)
pour obtenir un nuagede
points représentant
cette distance dans un espace euclidien. Le centre degravité
G est, comme en
correspondance,
lepoint
de coordonnéespj
si on affecte à i lepoids
pi. Lesprojections
sur les axesprincipaux
d’inertieVx
sont alors les vecteurspropres de :
(On
nepeut
comme encorrespondance
se ramener à l’étude de la formequadra- tique
d’inertie àl’ofigine,
le nuage n’étantgénéralement plus orthogonal
à OG pour leproduit
scalaire81 (rj/pj)).
Les facteurs y sont
égaux
à : F03BB(i) = 03A3 p(j/i) V03BB G)
et les remarques du§ précédent
concernant lareprésentation
simultanée des ensembles I et J sonttoujours
valables.Comparons
les résultats obtenus avec ceux del’analyse
descorrespondances.
La matrice M dont les vecteurs propres sont ici les axes
principaux d’inertie,
se déduit de son
homologue
N del’analyse
descorrespondances
parmultiplication
par la matrice
diagonale
D de"changement
demétrique"
de termegénéral 03B4j’j (1/r,).
On a M = DN. On sait
[2]
comparer les vecteurs propres de M et de N :Si 9 est
l’angle
dansRJ
muni de lamétrique
descorrespondances,
entre lesaxes
principaux
d’inertie de rang s de ces deuxanalyses,
si03B3s
est la valeur propre de rang s descorrespondances
et e son écart avec les autres valeurs propres, on a :Alors
Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
35
Ceci
implique
enparticulier
que cetangle
estnul,
i.e. que les résultats des 2analyses
sontidentique
si lesri
sont touségaux.
C’est le cas notamment si aucun despij
n’estnul,
les distances étant alors les mêmes. Sinon les résultats différeront surtout si le nombre depij
nuls par colonne est très différent suivant les colonnes.Pour des tableaux mis sous forme
disjonctive complète,
et pour la distance définie par cette formule sur l’ensembleJ,
on obtient le même résultatqu’avec
ladistance
précédente :
4. ETUDE DE LA DISTANCE
Cette
distance,
comme laprécédente,
estégale
à celle utilisée en corres-pondance
si aucun despi
n’est nul.Sinon,
ellerapproche
de la moyenne, et des élémentsi’,
les i dedomaine
très restreint. Encorrespondance,
ces élémentsbien que d’effectifs
généralement
trèsfaibles,
sont situés très loin du centre degravité.
Ils ont dans la détermination des facteurs uneimportance qu’ils usurpent quelquefois :
on est souvent amené pour obtenir des résultatsinterprétables
à lessupprimer
del’analyse.
Les sommes sur J de la moyenne
pj,
et dep(j/i)
sont toutes deuxégales
à 1.Si le domaine de i est très restreint les
valeurs
dep (j/i)
non nulles sont donc trèsgrandes
relativement àp (j) ..
En
multipliant p(j/i)
parei
somme sur le domaine de i desp (j),
on lerapproche
de lamarginale p(j) : p(j) et (S.p(J/i)
ont toutes deux sur le domaine de i une sommeégale à e..
Par
rapport
à la distancedu X2 classique,
la distancedéfinie
auparagraphe précédent
diminuaitl’importance
des colonnes contenantbeaucoup
de zéros.Celle
définie
dans ceparagraphe
diminue directement les distances à la moyenneet aux autres éléments des
lignes
contenantbeaucoup
de zéros.Pour des tableaux mis sous
forme disjonctive complète, l’expression
de cettedistance
sesimplifie.
On a, au facteur constantpj
= Mprès, D2(i,i’) = 03A3(pij-pi’j)2.
En effet
pj
est alors constant etei
=pipj.
Pour unquestionnaire,
cette distance re-présente
le nombre d’individusayant
choisi l’une et non l’autre desréponses
i eti 1 ,
Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
36
c est la distance liée au
coefficient
de similaritéSS n
de Sokal et Michener que nous avionsdéjà
obtenue dans les 2premiers paragraphes
pour des tableaux sous formedisjonctive complète,
mais c’était alors sur l’ensemble J.Pour un tableau
quelconque,
vérifions que la distance ainsi définie est unedistance entre
profils. Si
p(j/i)
= p(j/i’)
pourtout j,
alors p(i,j)
= 0 ~ p(i’,j)
=0,
donc
Ci =
e. etD2 (i,i’)
est nulle. Si lesprofils
sontproches,
alorsei
etCi’
sontpeu
différents et
la distanceD2 (i,i’)
ést faible.Pour vérifier le
principe d’équivalence distributionnelle,
il suffit de remarquer que si lesprofils
associésà j1
etj2
sontégaux,
commep(i,j1)
= 0 ~p (i,j2)
=0,
leregroupement de jl
et dej2
ne modifie pas lesg..
Et d’autrepart,
que la distance s’écrit :.1
Dans
RJ
muni comme encorrespondance
duproduit
scalaire53 (1/pj),
onpeut
construire un nuage de
points
enplaçant
l’élément i aupoint
decoordonnées
ei p(j/i).
Cepoint
se déduit dupoint
construit encorrespondance
par une homo-thétie de centre
l’origine
et derapport ei.
La recherche des axesprincipaux
d’iner-tie et des facteurs se fait de
façon analogue
aux casprécédents :
en affectant à i lepoids
pi, le centre degravité
a pourcoordonnées Gj = 03A3Ci pij.
Lesprojections
suri
les axes
principaux
d’inertie sont les vecteurs propres de la matrice :CUNCLUSIUN
Ces 3 distances ne sont pas les seules distances
euclidiennes,
avec celle utiliséeen
analyse
descorrespondances
à satisfaire à l’axiomed’équivalence
distribu-tionnelle.
Mais elles
permettent
chacune de résoudre desproblèmes particuliers ;
lapremière
liée pour des tableaux en 0-1 au coefficient de similaritéd’Ochiai, permet
d’obtenir un nuage "normalisé" et pour des tableaux sous formedisjonctive
com-plète d’égaliser
l’inertie dechaque
sous-ensemble q. Relativement à la distance duX2
la deuxième diminue dans la distance entre leslignes, l’importance
des colonnes contenantbeaucoup
de zéros et la troisième diminue la distance deslignes
conte-nant
beaucoup
de zéros. Pour des tableaux sous formedisjonctive complète,
cesdistances sont liées pour l’un des deux ensembles au coefficient de similarité de Sokal et Michener.
A titre de
curiosité,
onpeut
montrerqu’il
existe une infinité dénombrable de distances dont les facteurs extraits parl’analyse
factorielle sontidentiques
à ceuxobtenus en
correspondance.
On les construit par récurrence de la manière suivante : sipij
est un tableau decorrespondance quelconque
duproduit
1 xJ,
onpeut
cons- truire sur leproduit
1 x 1 le tableau decorrespondance symétrique tii’ = 03A3pij pi’j pj
Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4
37
Les facteurs sur 1 déduits du tableau
pij
et du tableautH’
sontidentiques
et les valeurs propres du second sont les carrés de celles dupremier.
Le tableautH’
induitsur 1 la distance du
X2 :
Cette distance entre
profils
satisfait auprincipe d’équivalence
distribution- nellepuisque
le tableautii’
resteinchangé
si deuxéléments j
etj’ équivalents
sontremplacés
par un seul élément. Enrépétant l’opération
sur le tableautii’
on obtientune nouvelle distance ayant les mêmes
propriétés,
etc...BIBLIOGRAPHIE
[1]
BENZECRI. -L’analyse
des données.Dunod, 1973.
[2] ESCOFIER,
LE ROUX. - Etude de troisproblèmes
de stabilité enanalyse fac-
torielle. Publication de
l’ISUP, 1976.
[3] LEBART, MORINEAU,
TABARD. -Technique
de ladescription statistique.
Dunod,1977.
[4]
LERMAN. - Les bases declassification automatique. Gauthier-Villars,
1970.Revue de Statistique Appliquée, 1978, vol. XXVI, n° 4