R EVUE DE STATISTIQUE APPLIQUÉE
D. C HESSEL M. H ANAFI
Analyses de la co-inertie de K nuages de points
Revue de statistique appliquée, tome 44, n
o2 (1996), p. 35-60
<http://www.numdam.org/item?id=RSA_1996__44_2_35_0>
© Société française de statistique, 1996, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSES DE LA CO-INERTIE DE K NUAGES DE POINTS
D. Chessel et M. Hanafi URA CNRS 1974, Bât 401 C
Université
Lyon
169622 Villeurbanne Cedex
RÉSUMÉ
Soient K études
statistiques (Xk, Qk, D)(1 k , K)
portant sur les mêmes n indi- vidus et K groupes de variables, comptantrespectivement
pl, P2, ..., PKdescripteurs.
Soit pla somme des Pk . Cet ensemble de données définit un nuage de K
points
dans l’ensemble desopérateurs D-symétriques
de Rn utilisé par la méthode ACT-STATIS(Lavit
et Coll. 1994).Ce même ensemble définit un nuage de p
points
de Rn et n nuages de Kpoints
de RPqui
sontétudiés par
l’Analyse
FactorielleMULTiple
(Escofier etPagès
1994). Cet ensemble fournit enfin K nuages de npoints
dans K espaces euclidiens RPk distincts. L’article définitl’analyse
de co-inertie de ces K nuages
(Analyse
de CO-inertieMultiple)
en utilisant unegénéralisation
de
l’analyse
de co-inertie (Dolédec et Chessel 1994) àl’analyse
de co-inertiemultiple
voisinede la
généralisation
del’analyse canonique
àl’analyse canonique généralisée (Carrol
1968).Les méthodes ACT-STATIS, AFMULT et ACOM sont
disponibles
dans lelogiciel
ADE-4 endiffusion libre sur Internet.
Mots-clés :
analyse
des données, schéma de dualité, K tableaux, ACT-STATIS,analyse factorielle multiple,
AFMULT, co-inertie,analyse
de co-inertiemultiple,
ACOM,analyse
canonique,
AC,analyse canonique généralisée,
ACG.SUMMARY
Let be statistical K
triplets (Xk, Qk, D)(1
kK)
with K sets of variables measured in the samesampling
units. n is the number ofsamples ;
pl, P2, ..., PK represent the number of variables, pbeing
the total of the Pk. This data set defines a cloud of Kpoints
in the Euclidean space of the(n
xn) D-symmetric
matrices, usedby
the ACT-STATIS method (Lavit et al.1994). The same data set
provides
a cloudof p points
in Rn and n clouds of Kpoints
in RPwich are
analyzed
viaMultiple
FactorAnalysis (Escofier
etPagès
1994).Finally,
this data setresults in K clouds of n
points
in K different Euclidean spaces RPk . This paper increases the scope of co-inertiaanalysis
(Dolédec etChessel 1994)
that enables theanalysis
of two tables to the co-inertiaanalysis
of K tables(Multiple
CO-inertiaAnalysis).
Such an extension is similar to thegeneralization
of Canonical CorrelationAnalysis by
Carrol(1968).
ACT-STATIS, MFA and MCOA are available in ADE-4 software in freeware distribution on Internet.Keywords :
Dataanalysis, duality diagram,
K-tables, ACT-STATIS,multiple factor analysis
(MFA), co-inertia,multiple
co-inertiaanalysis
(MCOA), canonical correlationanalysis (CCA),
generalized
canonicalanalysis
(GCA).1. Introduction 1.1.
Objectifs
Dans cet article nous proposons d’étendre
l’analyse
de co-inertie de deux tableaux àl’analyse
simultanée de K tableaux.L’analyse
de co-inertie de deux tableaux est le nomgénérique qui
recouvre(Chessel
et Mercier1993) l’analyse
inter-batterie de Tucker
1958, l’analyse canonique
sur variablesqualitatives
de Cazes 1980 etl’analyse
descorrespondances
de tableaux deprofils écologiques (Mercier et
Coll.1992).
Sa stabiliténumérique (Kazi-Aoual
et Coll.1995),
sa facilitéd’emploi
enterme de double
analyse
d’inertie à coordonnées covariantes(Dolédec
et Chessel1994,
Prodon et Lebreton1994),
son universalité en termes de conditionsnumériques
et de
type d’analyses
dedépart,
sespropriétés
depoint
dedépart
de larégression
PLS
(Tenehaus
et Coll.1995)
en font une bonne alternative àl’analyse canonique
des corrélations
(Hotelling 1936),
souventimpossible
ounumériquement
instable oudifficilement
interprétable.
C’est Tucker(1958) qui
a ouvert la brèche en substituant à la maximisation d’un coefficient de corrélation entre variablescanoniques
celle dela covariance entre combinaison de variables.
Optimiser
une covarianceimpose
dene pas se désintéresser des variances des combinaisons donc des inerties
projetées.
1.2. Notations utilisées
On considère K études
statistiques (Xk, Qk, D)(1 1 K) portant
surles mêmes n individus et K groupes de
variables, comptant respectivement
Pl, P2, ... , PK
descripteurs.
Les notations sont celles du schéma de dualité(Escoufier 1977, 1987). Xk
est un tableau n x Pk dont leslignes
sont des observations sur nindividus et les colonnes sont les mesures sur Pk variables.
Q k
est une matrice Pk x pk définiepositive
utilisée pour mesurer les distances entre individus dansl’espace
vec-toriel RPk. D est une matrice
diagonale
n x n à élémentspositifs
de trace unité ditematrice des
poids
associés aux individus et utilisée pour mesurer les distances entre variables dansl’espace
vectoriel R .Le rang de
Xk
est noté pk, les valeurs propres del’analyse
dutriplet k
sontpar ordre décroissant
À{,
sescomposantes principales
D-normées sontfk
et ses axesprincipaux Qk-normés
sontejk.
On notera 7rk unpoids positif
attribué apriori
àl’analyse
deXk.
Ondésigne
par p le minimum des 03C1k.On note X =
[Xi |X2| ... XK]
le tableau de dimension n x p avec p Pl+ ... PK
obtenu parjuxtaposition
des K tableauxXk.
X définit untriplet statistique (X, Q, D),
avecQ
la matrice blocdiagonale
constituée des matricesQk .
Le tout forme un K-tableaux et définit K
analyses séparées.
Celles-ci sont d’untype quelconque,
enparticulier
desanalyses
encomposantes principales (ACP) centrées,
doublement centrées ounormées,
desanalyses
descorrespondances multiples (ACM) qui
utilisent les indicatrices des classes et les schémas de Tenehaus etYoung
1985 oudes
analyses
descorrespondances
floues(ACF,
Chevenet et Coll.1994).
1.3.
Principes géométriques
Analyser
untriplet (Xk, Qk, D)
c’estgéométriquement
trouver les axesd’inertie d’un nuage de n
points
de RPk(axes principaux)
ou trouver les axesd’inertie d’un nuage de Pk
points
de RI(composantes principales).
Les solutionsimplique
ladiagonalisation
desopérateurs
d’inertieW K D = XkQkXtkD
etVkQk
=XtkDXkQk (figure 1).
FIGURE 1 :
Deux nuages de
points
et deuxopérateurs
d’inertie sont associésà un
triplet statistique
Généraliser la co-inertie à K tableaux
permet
d’identifierl’espace
libre laissé entre ce que les revues récentes de Bove et Di Ciaccio(1994)
et de Rizzi etVichi
(1995)
donnent comme lesprincipales
méthodes d’ordination simultanée d’essence euclidiennerespectivement
ACT-STATIS etl’analyse
factoriellemultiple (AFMULT).
STATIS
(Lavit 1988,
Lavit et coll.1994) s’appuie
sur le passage dutriplet (Xk, Qk, D)
à sonopérateur
d’inertieWkD
élément del’espace
euclidien desopérateurs D-symétriques
de R’ muni duproduit
scalaire d’Hilbert-Schmidt(Es-
coufier
1973). L’analyse
du nuaged’opérateurs
définit unsystème
d’axes d’inertie(interstructure)
dont lepremier
a despropriétés
trèsparticulière
comme toutpremier
axe d’une ACP non centrée. Le passage dans
l’espace
desopérateurs
a pourprix
unretour dans les espaces de
départ
surlequel
nous reviendrons.L’AFMULT
(Escofier
etPagès 1984, 1986, 1994)
reste dansl’espace
commundes nuages initiaux donc dans Rn
(figure 2).
Le retour dansl’espace
des variablesse fait par le biais de l’association
lignes-colonnes
par le tableau de lafigure
3qui permet
à Casin et Turlot 1986 d’identifierl’analyse canonique généralisée (ACG)
comme un cas
particulier
del’analyse discriminante, l’analyse
discriminante étantconnue comme un cas
particulier
del’analyse canonique classique (Caillez
etPagès 1976)
et l’AFMULT est alors un casparticulier
de l’ACP inter-classes. Il vient àl’esprit
que la notion de casparticulier
en termes de théoriepeut paraître
curieux aupraticien.
FIGURE 2 :
K nuages de Pk
points
de Rn sont réunispour former
la base de
départ
de l’AFMULT.FIGURE 3 :
n groupes de K
points
de RP sont utilisés dans l’AFMULT.a)
Tableaux dedépart. b)
Tableau
groupé
dont leslignes
donnent nKpoints
de RP.c)
Tableau des indicatrices des groupes depoints
utilisésimplicitement par lAFMULTpourfaire l’analyse
inter-classe. Cette
analyse
inter-classesdéfinie
parEscofier
etPagès
1984est figurée
dansla
présentation
de Casin et Turlot 1986.Il reste alors un
objet
nonenvisagé,
celui des K nuages dans K espacesséparés (figure 4).
Dans unepremière partie,
nous donnerons leprincipe géométrique
dela co-inertie de K nuages de
points appariés
en utilisant les variables auxiliaires del’Analyse Canonique
Généralisée. Dans une secondepartie,
seraprésentée
l’existence de la solution duproblème d’optimisation
associé etl’algorithme
de calcul. Une troisièmepartie
comparera sur unexemple
les trois méthodesSTATIS,
l’AFMULT et ce que nous proposonsd’appeler l’analyse
de co-inertiemultiple (ACOM).
FIGURE 4 :
K nuages de n
points
des espaces RPk sont la base dedépart
de l’ACOM.2. Variables auxiliaires et
analyse canonique généralisée
Initialement
l’Analyse Canonique
de la Corrélation(ACC) s’occupe
du casK = 2 et est décrite par
Hotteling (1936).
Plusieursgénéralisation (K
>2 )
sontprésentées
parKettenring (1971) parmi lesquelles
on retrouve celle de Carroll(1968).
Celle-ci consiste à trouver d’abord au pas 1 des solutions
ul
danschaque
espaceRic,
et une variable dite auxiliaire
vB
D-normée dansl’espace
vectorielRn, qui
maximisela
quantité :
où
r(.,.) désigne
la corrélation linéaire entre les variables entreparenthèses.
Au pas2,
on cherche des solutionsu2k
normés danschaque
espaceRPk,
et une variable diteauxiliaire
v2,
dans Rnqui
maximise la mêmequantité
sous contrainted’orthogonalité.
Au pas s, la même
quantité
est maximisée sous les contraintes :Kiers et Coll.
(1994,
p.332)
en se référant à Tenenhaus etYoung (1985
p.100) rappelle
que la maximisation successive énoncé ci-dessus estégalement
la solution de la maximisation simultanée du critère :On trouve dans
Saporta (1975)
et Tenenhaus(1984)
unexposé théorique
dela méthode de
Carroll,
ainsi que desapplications
aux variablesqualitatives
et auxmélanges
detype
de variables.L’apport
fondamental de l’ACG est l’utilisation des variables auxiliaires. Sabatier(1993), après Kettering (1971) rappelle qu’on peut
effectivement s’en passer envoyant
dans l’ACG au pas 1 la solution de la recherche du maximum de(Sabatier 1993, CRI,
p.109) :
ceci dans le cas d’une
pondération
unitaire des tableaux avec la contrainte(Sabatier 1993, C03,
p.109) :
Les
généralisations
deKettering (1971)
éliminentégalement
cette notion de variables auxiliaires enmaximisant,
entre autres :où
Ai (A) désigne
laplus grande
valeur propre de A . Maisl’apport
des variables auxiliaires dansl’interprétation
est trèsimportant.
L’ACG est la seulegénéralisation
de
l’analyse canonique qui
en fait usage.L’analyse PRINQUAL
de Tenenhaus(1977)
étend cette notion en cherchant à
maximiser,
pour m fixé :L’analyse
discriminante de tableaux(ADT)
de Casin(1995) reprend
leconcept
en introduisant la contrainte :Les variables auxiliaires sont encore utilisées pour étendre l’ACG à d’autres critères de corrélation par
Lazraq et
Coll.(1992).
L’ACG a pour autre
propriété
très favorable d’être de mise en oeuvre aisée. Eneffet,
elle traite deplusieurs
tableaux et admet une résolutionalgorithmique simple.
C’est une méthode aux valeurs propres demandant une
diagonalisation
en dimensionn
(diagonalisation
d’une somme deprojecteurs)
ou en dimension p(Saporta 1975,
Casin et Turlot
1986).
Pour l’utilisateur de
l’analyse
desdonnées,
par contre, l’ACGporte
toutes les limitations associées aux méthodesqui
utilisent lesprojecteurs
ouimplicitement
lesmétriques
de Mahalanobis(X%DXk)-,
comme larégression multiple (alternatives
dans la
régression
PLS ou larégression
surcomposantes),
commel’analyse
discrimi-nante
(alternative
dansl’analyse inter-classe),
comme dansl’analyse canonique
et lesanalyses
sur variables instrumentales(alternative
dansl’analyse
deco-inertie).
Ellene
s’impose
que dans le cas d’ungrand
nombre d’individus parrapport
au nombre maximal de variables dans un groupe ou dans le cas des variablesorthogonales
par tableaux(comme
dans le cas des indicatrices des modalitésqui
redonnel’analyse
descorrespondances multiples).
L’ACG est basée sur la notion de variables auxiliaires et de substitution des
projecteurs Pk = Xk(X%DXk)-X%D
aux tableaux(Van
de Geer1984) :
nousvoulons
garder
lapremière propriété
maisremplacer
la seconde parl’usage
desopérateurs
d’inertieWkD = XkQkXtkD.
Cela définitl’analyse
de co-inertiemultiple.
3.
L’analyse
de co-inertiemultiple
3.1.
Définition
On
appellera Analyse
de CO-inertiemultiple (ACOM)
d’un multi-tableau aupas
1,
la recherche de k vecteursul
normés danschaque
espaceRPk,
et une variable dite auxiliairevl,
D-normée dansl’espace
vectorielRI, qui
maximise laquantité :
Au pas
2,
on cherche des solutionsu2k
normé danschaque
espaceRPk,
et une variable dite auxiliairev2
normée dans R’qui
maximise la mêmequantité
souscontrainte
d’ orthogonalité.
Au pas s, la même
quantité
est maximisée sous les contraintes3.2. Solution d’ordre 1
Pour v un vecteur
fixé,
D-normé dansRn, l’application
del’inégalité
de
Cauchy-Schwartz
montre que laquantité (XkQkuk|V2D
estmajorée
par||XtkDv||2Qk
Deplus
cemajorant
est atteint pour :Il s’ensuit que le vecteur
vI ,
D-normé dansl’espace
vectorielRn, qui
maximisela fonction g, maximise
également
laquantité :
Donc
vl
est lapremière composante
D-normé de l’ACP du tableaupondéré X,
où le blocXk
estpondéré
par03C003BA·
Il en découle que les axesu1k, Qk-
normésdans
Rpk,
sont les vecteurs de RPk normalisés par bloc dupremier
axeprincipal
du tableau X. La
première
variable auxiliaire de l’ACOM est doncidentique
à lapremière
coordonnée normalisée deslignes
de l’AFMULT et lespremiers
axes deco-inertie ont pour
composantes
lapremière
coordonnée normalisée par blocs des colonnes de l’AFMULT.3.3. Solution d’ordre 2
Proposition :
les solutions d’ordre 2 existent et sont obtenues par lesétapes :
1 - considérer les
projecteurs Qk-orthogonaux
notésP1k
sur les sous-espaces vectoriels de Rpkengendrés
par le vecteuru1k;
2 - définir le tableau Z de la manière suivante :
3 - calculer les solutions de rang 1 de co-inertie
multiple
du tableau Z .Démonstration : on définit les deux
problèmes
suivant :Problème 1 : Trouver
a1k k K) Qk-normés
etw1D-normé,
solutionde rang 1 de co-inertie
multiple
du tableau Z =[Z1 |Z2| ... |ZK|.
Problème 2 : Trouver
a 2 k (1 k K)Qk-normés
etW2
D-norméqui
K
maximisent
E(XkQkUk IV)2
sous les contraintes(V|V1)D
= 0 et(u1k|uk)Qk -
0.(1 k K).
k=lLes solutions du
problème
1 et duproblème
2 existenttoujours
car les fonctions à maximiser sont continues et les contraintes définissent des ensemblescompacts.
Nous allons montrer que les solutions duproblème
1 et duproblème
2 sontidentiques.
Sachant que la solution du
problème
1 est celle duparagraphe précédent,
la solution duproblème
2 sera alorsacquise.
1) Commençons
par montrer quew1
estD-orthogonal
àvl .
Eneffet, VI
estvecteur propre de la somme des
opérateurs
d’inertie(§3.2) :
De même
compte
tenu del’égalité :
résultat obtenu en utilisant la
Qk-symétrie
deP1k on
a :D’où, toujours grâce
à laQk-symétrie
desopérateurs en jeu :
D’autre
part :
De
plus, d’après (1)
etpuisque Pl ul
=ul
pardéfinition,
on a :D’où:
Donc:
De
(2)
et(3),
l’on déduit que M(v1|w1)D
=0,
d’où en excluant le casdégénéré 03BC=0:
2)
Montrons alors que, pour1 k K, a1k
estQk-orthogonal
àu1k.
D’a rès la solution de ran 1 du tableau Z on
al - Zt Dw1
et
wl
estD’après
la solution de rang 1 du tableau Z ona1k
= etW1
estla
première composante principale
du tableauZ
=1|2|... |k]
avecZk =
03C0kZk.
Le caractère
idempotent
desprojecteurs implique :
Le
développement
deal = (Ik - Pl)al
donne alors :En
conséqence,
les solutions duproblème
1 vérifient les contraintes duproblème 2,
donc par définition de la solution duproblème
2 etcompte
tenu de ce que :ona:
De
même,
par définition de la solution duproblème 1,
la solution duproblème
2vérifie :
3.4. Solution d’ordre s
Au pas s, pour s
2,
la solution est alors obtenue en effectuant les troisétapes
suivantes :
1 - considérer les
projecteurs Qk-orthogonaux
notésPs-1k
sur les sous-espaces vectoriels de Rpkengendrés
par lessystèmes orthonormés {u1k,..., us-1k};
2 -
remplacer
le tableau X par le tableau XS de la manière suivante :3 - calculer les solutions de rang 1 de co-inertie
multiple
du tableau Z . 3.5. Aides àl’interprétation
Globalement
l’algorithme
de l’ACOM fonctionne comme une AFMULT de rang 1 dans une boucle. Il fournit au rang s, pourchaque triplet
dedépart
unebase orthonormée d’axes de co-inertie sur
lesquelles
onprojette
les nuages depoints
initiaux et on obtient K
analyses simples
coordonnées. Onprojette
de même les axesd’inertie des
analyses simples
et onpeut
comparer la valeur dessystèmes
d’inertieet des
systèmes
de co-inertie par les inertiesprojetées
sur les deuxsystèmes.
Lescartes factorielles dans
chaque
espacepeuvent
se superposeraprès
normalisation des coordonnées et se superposer ensemble avec les variables auxiliaires de même rang pourexprimer
lapart qui
revient à la corrélation coordonnée/variable auxiliaire dans la covariancecorrespondante.
Il suffit de penserqu’optimiser
un carré de covariance entre coordonnée et variable auxiliairenormée,
c’estoptimiser
leproduit
variance de la coordonnée(inertie projetée)
par carré de corrélation.La
question pratique
essentielle est la même que pour l’AFMULT et touche lapondération
des tableaux. Il convient d’éviterqu’un
tableau de forte inertie(tant
par lesnormes des variables que par leur
nombre)
ne prenne uneimportance disproportionnée
dans la définition des variables auxiliaires. Le module KTA du
logiciel
ADE-4 propose troisoptions classiques, respectivement
lapondération uniforme,
lapondération
par l’inverse de l’inertie totale et lapondération
par l’inverse de lapremière
valeur propre del’analyse séparée.
La secondeoption
estproposée
par défaut et a été utilisée dans l’illustration.L’ACOM est
programmée
pourl’assemblage
detriplets statistiques
initiaux de nature arbitraire(variables quantitatives, qualitatives
oudistributionnelles)
avec despondérations
colonnesparamétrables.
On s’en tiendra ici à une illustrationcomparée
des trois méthodes
STATIS,
AFMULT(avec
l’utilisation de la troisièmepondération)
et ACOM sur un
exemple.
L’essentiel de l’ACOM étant de coordonner Kanalyses
élémentaires par
l’usage
des variablesauxiliaires,
la méthode ne pose aucune difficultéparticulière d’interprétation
pour lespraticiens
desanalyses
de donnéesclassiques.
4. Illustrations
comparées
4.1. Données traitées
Les illustrations utilisent les données
publiées
par L.E.Friday (1987) qui posent
clairement laquestion
de la valeurtypologique
des groupesfaunistiques
enzoologie.
Dans n = 16
étangs,
on a mesuré l’abondance de p - 91espèces réparties
enK = 10 groupes
faunistiques comportant
Pk taxons, avecrespectivement
p1 = 11(Hémiptera),
p2 = 7(Odonata),
P3 = 13(Trichoptera),
p4 = 4(Ephemeroptera),
p5 = 13
(Coleoptera),
PB = 22(Diptera),
P7 = 4(Hydracarina),
p8 - 3(Malacostraca),
p9 = 8(Mollusca),
et plo = 6(Oligochaeta).
Pourrespecter
l’article cité lesétangs portent
lesétiquettes A, B,..., R,
les lettres 1 et 0 n’étant pas utilisées.L’ACP centrée par variables
(espèces)
est utilisée sur 10 tableaux simultanément et on cherche à caractériser lacapacité
dechaque
groupe dedescripteurs
àproduire
oureproduire
latypologie
de stations éventuellement induitepartiellement
ou totalementpar tout ou
partie
de l’ensemble des tableaux. Les données utilisées sont strictement celles de leur auteur(Friday
1987 p. 96 et97)
à l’exclusionprès
des groupes necomportant qu’un
seul ou deux taxons.4.3. Utilisation de STATIS
STATIS,
contrairement à l’AFMULT etl’ACOM,
construit soncompromis
avant d’en faire
l’analyse (Pagès 1995).
C’est unpoint
essentiel. En laissant faire l’interstructure(typologie d’opérateurs, figure 5)
avant ladescription
ducompromis (moyenne d’opérateur)
STATISindique
d’abord si il estlégitime
de faire une moyenne de structure(a
common patternof correlation,
Génard et Coll.1994).
Cefaisant,
la méthode propose uneapproche typologique (interstructure)
avant la notionplus simple
de moyenne(compromis),
cequi
est une source de difficultés pour l’utilisateurnon
professionnel.
Le tableau 1 donne pourchaque tableau,
le nombre devariables,
le carré de la norme d’Hilbert-Schmidt des
opérateurs associés,
le coefficient de corrélation vectorielle avec les autres(RV)
et lepoids
du tableau dans la constitution ducompromis.
FIGURE 5 :
Interstructure de STATIS.
a)
Valeurs propres de la matrice descoefficients
RV.b) Image
euclidienne des 10opérateurs
d’inertie(vecteurs
propres de la matrice descoefficients RV).
TABLEAU 1 :
Quelques paramètres numériques
associés à STATIS. k-numéro du tableau. Nvar - Nombre de variables du groupe. HS-Carré de la norme del’opérateur.
RV-Matricedes
coe ffi cients
RV( x 1000).
Poids-Poids del’opérateur
d’inertie dans la constitution ducompromis.
On a une visionéquilibrée
du rôle des groupes dans ladéfinition
ducompromis
par lespoids,
le groupe 4jouant
ungrand
rôle par la norme.La
diagonalisation
ducompromis (valeurs
propres dans lafigure 6a)
donne unplan
de RI(n
=16 )
défini par les deuxpremiers
vecteurs propres : sur ceplan
seprojettent
lescomposantes principales
de rang 1(figure 6b)
et de rang 2(figure 6c)
des
analyses séparées.
Le nuage de variables dechaque
tableauaccompagné
de sesdeux
premières composantes
estprojeté
sur le mêmeplan (figure 6d).
FIGURE 6 :
Analyse
ducompromis
de STATIS.a)
Valeur propre del’opérateur compromis. b) Projection
sur leplan
des deuxpremiers
vecteurs propres ducompromis
de 10 composantesprincipales
de rang 1 desanalyses séparées. c) Projection
sur le mêmeplan
des 10 composantesprincipales
de rang 2 desanalyses séparées. d) Projection
sur le même
plan
des nuages des variables dechaque
tableau et des deuxpremières
composantesprincipales
de ces nuages. Les cercles de rayon unité donnent l’échelle mais ne sont utiles que pour la lecture de laprojection
des composantesprincipales qui
sont des vecteurs delongueur
unité. Lesprojections
des variables respectent les variances initiales et peuvent être extérieures au cercle. Les groupes 4 et8,
bien quepossédant
que peud’espèces définissent
desplans
1-2 presqueidentique
auplan
ducompromis.
Les
composantes
des vecteurs propres ducompromis
sont des codesnumériques
normés et non corrélés des stations. Ils ne
correspondent
à aucuneapproche géométrique.
Leurpertinence globale
ne fait pas de doute(figure 7a).
La notionde
trajectoires (représentation
des stations par chacun des tableaux(figure 7b)
n’estpas obtenue par
projection
oureprésentation
euclidienne. Sa seulepropriété
est que les centres degravité
desreprésentations
du mêmepoint (exemple : figure 7c)
redonnela carte
globale.
FIGURE 7 :
a)
Positionsynthétique
des stations vue par STATIS(vecteurs
propres del’analyse
ducompromis). b) Représentation multiple (une position
partableau)
desstations par la
technique
destrajectoires
de Lavit(1988). c)
Détail de b pour la station C. Lareprésentation
simultanée est lapartie faible
de la méthode ACT-STATIS.L’absence de critère
optimisé
dans lareprésentation
simultanée deslignes
partableau
(ni
en terme deproximité
ni en termed’éloignement)
est lepoint
faible deSTATIS. La
proposition
de Place(1980)
depositionner
les individus dechaque
étudepar la
prévision
des vecteurs propres ducompromis
parrégression multiple
surchaque
tableau ne
peut
résoudre laquestion
car cetteprévision
estparfaite
pour les tableauxcomptant plus
de variables qued’individus,
cequi
se rencontre ici.4.3.
Utilisation de l’AFMULT
L’AFMULT fait une
analyse
d’inertie(valeurs
propres :figure 8a)
dans R’ . La base descomposantes principales synthétiques permet
laprojection
descomposantes
dechaque
tableau de rang 1(figure 8b)
et de rang 2(figure 8c),
comme laprojection
de
chaque
nuage de variablesaccompagné
de ses deuxpremières composantes (figure 8d).
La cohérence avec STATIS estremarquable
et leplan
défini par lecompromis
de l’une ou
l’analyse
d’inertie de l’autre sont voisins.TABLEAU 2 :
Décomposition
desvaleurs propres
dansl’AFMULT (Total). k-numéro
du tableau. A -Valeur du lien pour
le facteur
1 : inertieprojetée
sur lapremière
composante ramenéeen pourcentage de la
première
valeur propre(réduite
à l’unité par lapondération adoptée)
del’analyse
dechaque
tableau. B - Valeur du lien pourle facteur
2 : inertieprojetée
sur la deuxième composante ramenée en pourcentage de lapremière
valeurpropre de
l’analyse (réduite
à l’unité par lapondération adoptée)
dechaque
tableau.L’interprétation
de ceparamètre
est surtoutpertinente
pour lepremier facteur
car ilest
réellement,
dans ce cas et dans ce seul cas, un rapport àl’optimum possible.
Chaque
tableau définit son lien avec unecomposante synthétique
z par :où
xj désigne
unevariable, j E Pk indique
que la variablexj,
dans la numérotationtotale, appartient
au tableauk,
pj est lepoids
de la variablexj,
Qk est lapremière
valeur propre de
l’analyse séparée
du tableau k(Escofier
etPagès 1984, p.43,
Escofieret
Pagès 1994, p.125).
Le tableau 2 donne ladécomposition
des valeurs propres entre les valeurs du lienqui
est utilisée pourreprésenter
les tableaux(figure 9c),
dans lalogique
de l’ACM(Escofier 1979),
conformément auxpropositions
etjustifications théoriques
des auteurs(Escofier
etPagès
1985p.9,
1994p.138).
Le module AFMdu
logiciel
ADE-4 a utilisé lerapport
très détaillé de 1985 et l’article de 1994 pour toutes les vérifications nécessaires.L’AFMULT est la seule des trois méthodes à avoir une double canonicité dans la
représentation
des éléments par tableaux. Par le biais del’analyse inter-classe, chaque
FIGURE 8 :
Analyse
d’inertiepondérée
de l’AFMULT.a)
Valeurs propres de lasomme
pondérée
desopérateurs
d’inertie.L’équivalent
dans STATIS(figure 6a)
estplus
net parpropriété d’optimalité
de STATIS(combinaison d’opérateurs optimisant
la somme des carrés des valeurs
propres). b) Projection
sur leplan
des deuxpremières
composantesprincipales
des 10 composantesprincipales
de rang 1 desanalyses séparées. c) Projection
sur le mêmeplan
des 10 composantesprincipales
de rang 2 desanalyses séparées. d) Projection
sur le mêmeplan
des nuages des variables dechaque
tableau et des deuxpremières
composantesprincipales
de ces nuages. Les cercles de rayon unité donnent l’échelle mais ne sont utiles que pour la lecture de laprojection
des composantesprincipales qui
sont des vecteurs delongueur
unité. Lesprojections
des variables respectent les variances initiales et peuvent être extérieuresau cercle. Les groupes 4 et
8,
montrent desplans
1-2 moinsajustés
que dans lecompromis
de STATIS(figure 6d)
alors que les tableaux avecplus
de variables ont été mieuxpris
en compte. L’essentiel des deuxapproches
estcependant
cohérent.FIGURE 9 :
Analyse
inter-classe duale del’analyse
d’inertie dela figure
8 assurée par l’AFMULT.a)
Positionsynthétique
des stations etreprésentation multiple (une position
partableau) exprimant l’optimisation
de l’inertie inter-classe.b)
Détail a pour la station C. La double canonicité desreprésentations
des individus et des variables est lapartie forte
de l’AFMULT.c) Représentation
des tableaux par les valeurs du lienavec
chaque
composanteprincipale
desynthèse.
Lapondération
par l’inverse des racines carrées despremières
valeurs propresjoue
ici ungrand
rôle en gommant les variations de structures entre tableaux.station est
représentée
parchaque
groupe dedescripteur (figure 9)
et le résultat est facilementinterprétable.
4.4. Utilisation de l’ACOM
L’ACOM fait K
analyses
d’inertie coordonnées(ici
KACP)
et définit danschaque
espace unsystème
d’axes de co-inertie surlequel
onprojette
les nuages depoints
et leurssystèmes
d’axe d’inertie(figure 10).
FIGURE 10 :
10
Analyses
d’inertie coordonnées assurées par l’ACOM.Chaque fenêtre
est unplan défini
par deux axes de co-inertie danschaque
espace. Les vecteurs sont lesprojections
des deuxpremiers
axesprincipaux
dechaque analyse
et les carrésgris
sont les
projections
deslignes
dechaque
tableau. Les cercles de rayon unité ne sont utiles que pour la lecture de laprojection
des axesprincipaux qui
sont desvecteurs de
longueur
unité. Le groupe 10apparaît
encoreune fois
commeglobalement
non concerné par la
typologie
commune des stations. La variance des coordonnées reliée à l’inertie initiale dechaque tableau fait partie,
contrairement àl’approche
del’AFMULT,
de la valeurtypologique
des groupes dedescripteurs.
On remarquera
qu’on
ajusqu’à présent représenté
lesprojections
des compo- santesprincipales
desanalyses séparées
sur un même sous-espacecompromis,
alorsqu’on représente
ici les axes desanalyses séparées
sur des sous-espacesséparés.
Ceciest
plus précis
danschaque
espace mais n’autorise pas lasuperposition
faite dans lescas
précédents.
Nous n’avons pas nonplus
derépartition
d’inertieglobale
mais unediscussion tableau par tableau de la valeur en terme d’inertie des axes de co-inertie
(tableau 3).
TABLEAU 3 :
Quelques paramètres numériques
associés aufacteur 1
de l’ACOM. k-numéro du tableau. Iner Max-Inertieprojetée
sur lepremier
axe d’inertie. Inertieprojetée
surle
premier
axe de co-inertie. ProScal2-Carré de la covariance entre la coordonnéesur le
premier
axe de co-inertie et lapremière
variable auxiliaire. Cos2-Carré de corrélationcorrespondant.
La liaison entre les
typologies
par tableau se fait enreprésentant
simultanément les coordonnées normalisées par tableau et les variables auxiliaires de même rang, cequi exprime
lapart
corrélation dans la co-inertie(figure 11).
Laposition
donnée par la variable auxiliaire n’est pas laposition
moyenne mais lareprésentation
en étoileest justifiée
parl’expression
de la corrélation sous la forme :La cohérence entre les trois
typologies
moyennes de stationssouligne
lavocation commune des trois méthodes
qui cherchent,
chacune à leurmanière,
lapartie
commune desanalyses
destriplets
dedépart.
Si STATIS est
privée d’ optimalité
dans lareprésentation
simultanée des indivi-dus,
l’ACOM estprivée d’ optimalité
dans lareprésentation
simultanée des variables.Nous avons utilisé
(figure 12a)
laprojection
des nuages de variables sur leplan
définipar les variables auxiliaires. On aurait pu utiliser les
poids canoniques,
c’est-à-dire lescomposantes
des vecteursujk.
Le critèreoptimisé s’exprime
par contre par lareprésentation
des covariances entre vecteurs de coordonnéesXkQkujk
et variablesauxiliaires de même rang
vj (figure
12b).
5. Conclusions
Nous ferons pour conclure deux remarques. La
première porte
sur les relations entre les troisméthodes,
la seconde sur le rôle deslogiciels.
Toute
comparaison
entre les trois méthodes estmarquée
par les habitudesimplicites
que donne lapratique
del’analyse
d’un seul tableau. La doubleanalyse
d’inertie
(maximiser IIX’Dzl 12 et ~XQu~2D),
le théorème de reconstitution du tableau(minimiser ~X - azutillks)
et de ses deuxopérateurs,
la relation de dualité(maximiser (XQU|Z)D
ou(XtDzlu)Q
conduisent à un résultatunique.
Dans unK-tableaux,
lagénéralisation
de l’un des critères se fait auxdépends
des autres. Ilest tentant de
compléter
lapartie canonique
dechaque
méthode par des élémentsempruntés
aux autres.FIGURE 11 :
Représentation
simultanée des stations commeexpression
de la corrélation entrecoordonnées des
projections
sur un axe de co-inertie et la variable auxiliaire de même rang.Chaque
station estreprésentée
unefois
pourchaque
tableau(les
coordonnées de variance unitédéfinies
parXkQujk/~XkQkujk~ positionnent
lespetits carrés)
et une nouvelle
fois (cercles blancs)
par les variables auxiliairesqui
sont normées.Le résultat est très sensiblement celui de l’AFMULT
(figure 9),
les deuxl’emportant
sur celui de STATIS
(Figure 7).
Le
compromis
de STATIS conduit à la meilleur carte desynthèse
deslignes
destableaux. La carte des colonnes de l’AFMULT est la meilleur
approche
simultanéeFIGURE 12 :
Utilisation des variables auxiliaires dans l’ACOM.
a) Projection
des nuages de variables par tableau sur leplan
des variables auxiliaires de rang 1 et 2. Lareprésentation
n’a pas de caractèred’optimalité
propre tout en étant très voisine de celle de l’AFMULT(Figure 8d). b) Représentation
des tableaux par les valeurs du carré de la covariance entrechaque système
de coordonnées(Figure 10)
et variableauxiliaire de même rang. La
covariance,
liée à la variance(qui dépend
de l’inertie initiale dechaque tableau)
et à lacorrélation, exprime
la valeurtypologique
desgroupes de
descripteurs.
Les groupes 4 et 8l’emportent.
des variables. Les cartes
séparés
de l’ACOM donne la meilleure idée des variations de lacapacité typologique
des groupes. Mais une seule méthode nepeut
faire cela simultanément. Aucune des trois n’assure la reconstitution simultanée des tableaux.STATIS ouvre d’autre
part
lapossibilité
de faire de latypologie
de structures,ce
qui
n’est pas le cas des deux autres. STATIS comme l’ACOM s’étendent auxtableaux
ayant
les mêmes variables(et
non les mêmesindividus)
cequi
n’a pas étéenvisagé
pour l’AFMULT. Cette dernière restecependant
laplus
accessible pour unepremière approche
des K-tableaux par un utilisateur nonprofessionnel
del’analyse
des données.
Les
logiques numériques
différentes conduisentl’interprétation
de manièresséparées.
Par contre lalogique graphique permet
assez aisément d’identifier l’accordsur la recherche des
typologies
communes. Ces méthodes voient leur efficacité sensiblement accrue parl’usage
d’outilsgraphiques appropriés (Thioulouse et
Coll.1991).
Lelogiciel
ADE-4(Thioulouse et
Coll.1995),
fusion des programmes ADE(Chessel
etDolédec , 1993), GraphMu
et MacMul(Thioulouse 1989, 1990)
réunitles fonctions
graphiques
multifenêtrées et les calculs des troisanalyses
K-tableauxdiscutées ici. Il doit rendre
l’usage
de ces méthodes accessibles à unpublic large.
Logiciel
On trouvera dans
ADE-4,
outre les utilitaires demanipulation
dedonnées,
les
analyses
à untableau,
les ordinations sous contraintesspatiales,
lesanalyses
discriminantes
linéaires,
lesrégressions multiple
etPLS,
les ACPVI et lesanalyses
de co-inertie à deux tableaux. Une interface
HyperCard
contient lesjeux
de donnéesde la documentation et un millier de références
bibliographiques
enanalyse
desdonnées. Cet ensemble pour micro-ordinateurs de gamme
Apple
est librement diffusésur Internet sur l’URL :
ou le serveur WWW :
ftp ://biom3.univ-lyon1.fr/pub/mac/ADE/ADE4
ou le serveur WWW :
http ://biomserv.univ-lyon
1 .fr/ADE-4.htmlLa diffusion des
disquettes
et de la documentation(700p.)
est assurée par J.M.Olivier,
URA1974,
Bât401C,
UniversitéLyon 1,
69622 Villeurbanne Cédex.Remerciements
Nous remercions vivement Mr. P. Cazes pour ses
précieux
conseils.Références
BOVE,
G. et DICIACCIO,
A.(1994)
A user-oriented overviewof multiway
methodsand software.
Computational
Statistics and DataAnalysis, 18,
15-37.CAILLIEZ,
F. etPAGÈS,
J.P.(1976)
Introduction àl’analyse
des données.SMASH,
9 rueDuban,
75016 Paris. 1-616.CARROL,
J.D.(1968)
Ageneralization
of canonical correlationanalysis
to threeor more sets of variables.
Proceeding of
the 76th Conventionof
the AmericanPsychological Association, 3,
227-228.CASIN,
Ph.(1995)
Une méthode decomparaison
de tableaux :l’Analyse
Discrimi-nante de Tableaux. In : XXVIIe Journées de
Statistique, Jouy-en-Josas,
15-19mai 1995.
Groupe HEC,
1 rue de lalibération,
78351Jouy-en-Josas cedex,
France. 160-163.