M ATHÉMATIQUES ET SCIENCES HUMAINES
H. L E B RAS
Vingt analyses multivariées d’une structure connue
Mathématiques et sciences humaines, tome 47 (1974), p. 37-55
<http://www.numdam.org/item?id=MSH_1974__47__37_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1974, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
VINGT ANALYSES MULTIVARIÉES
D’UNE STRUCTURE CONNUE
par H. LE BRAS1
RÉSUMÉ
L’usage
croissant desanalyses
multivariéesmodifie
la méthode deplusieurs
sciences sociales. Le débat sur leur validité esttoutefois
assezconfus
car desquestions
de puremathématique
semélangent
à desproblèmes perceptifs (représentation)
etlogiques (modélisation).
Nous n’avons actuellement ni les moyens ni l’ambition d’aborder
théoriquement
leur statut, mais nouspensons
fournir
un document utile au débat enappliquant
lamajorité
des méthodes à un mêmeobjet déjà
connuet en
comparant
leur résultat à la réalité de cetobjet.
SUMMARY
Multivariate
analyses being
used more and morefrequently,
theirapplications
indifferent
social sciences ischanging. However,
theargumentation
on theirvalidity
is ratherconfuse
sincequestions of
pure mathematicsare mixed to
problems of perception (representation)
andlogics (modelization).
Presently,
we have neither the means nor the ambition toapproach
their statusfrom
the theoreticalviewpoint,
but we
hope
topresent
auseful
document to the debate inapplying
themajority of
these methods to one same andalready
knownobject by comparing
their results to thereality of
thisobject.
1. Maître de conférences à l’Ecole Polytechnique.
Les
analyses
multivariées serépandent toujours plus
dans les sciences sociales et modifient leurépistémo- logie 1.
Comme ce
phénomène
est diffus et nes’appuie
pas sur une démarchethéorique,
il a sespartisans,
mais aussi ses
critiques.
Les
partisans soulignent
lagénéralité
desreprésentations obtenues,
leur facilité à illustrer les ensembles de données dont on connaît la structure. Ilspensent
aussi que les méthodes multivariées servent àdialoguer
entre des données
quantitatives
et deshypothèses qualitatives
encoreincertaines, parfois
contradictoiresjusqu’à
assurer leur cohérence d’ensemble.Mais
quelques
excès suscitent lescritiques :
- ces modèles ne
peuvent
faireapparaître
que certaines structures ; il sepeut
que la structure cherchéene soit pas de leur
catégorie ;
- le délicat processus de
formalisation, particulier
àchaque discipline,
est escamoté : on constate d’ailleurs que cesanalyses
multivariéespénètrent plus
facilement dans des sciencesqui
se montrèrent un peu rétives à laformalisation ;
- ces méthodes semblent souvent être le biais pour introduire des
mathématiques ;
leurprincipe
est d’ail-leurs presque
toujours exposé
avec un formalisme pompeuxqui décourage
vite l’honnête homme.Le débat entre
partisans
et adversairesachoppe
sur la preuve de l’efficacité des méthodes : dans l’immensemajorité
des études une ou deuxanalyses
sontproduites.
Leur réussite estjugée
sur les données dont on connaissait mal la structure. On nepeut
donc ni faire la preuvequ’une
autreanalyse
eût étéplus pertinente,
ni que la structure « découverte » est la structure réelle. Parfoisl’argument
« on retrouve ce que l’on savaitdéjà »
est utilisé. Il est alors curieux que l’on aitnégligé
de formaliser ce savoir apriori.
Pour
dépasser
cesarguments,
il nous a paru utile d’effectuer un certain nombred’analyses différentes
sur un même ensemble de données dont la structure est connue
puisque
nousl’avions
construite.En d’autres termes, à
partir
d’une structureréelle,
nous collecterons desdonnées, puis
nous oublieronscette structure et tenterons de la retrouver par la seule
analyse
des données. Entre la réalité(la structure)
et l’observation
(les données),
un écranplus
au moins opaque existera : ilfigurera
ce que nous pouvons savoir de la structure en dehors des données. En faisant varierl’opacité
del’écran,
c’est-à-dire en introduisantou en retirant certaines informations sur la
réalité,
nous serons conduits à faire diverstypes d’analyse (toutes
les méthodes de
représentation euclidienne, plusieurs
méthodeshiérarchiques
et uneanalyse
en facteurscommuns et
spécifiques)
et nousjugerons
dequelle
manière elles ont pu reconstituer la réalité. Lesanalyses
que nous utiliserons sont toutes connues et
fréquemment employées.
Notrecritique
neportera
aucunementsur les méthodes elles-mêmes
qui
sont presquetoujours techniquement irréprochables,
mais sur leur usage.Il
paraîtra
que nombre de cescritiques
étaient connues, mais elles sont délibérémentignorées
dans lapratique.
Pour mieux conserver
l’analogie
entre notre étude et des travauxconcrets,
pour simuler leurdémarche,
nouspartirons
d’unphénomène
réel. Il vacependant
de soi que nous ne nous intéresserons pas auxpropriétés profondes
de cephénomène,
mais àl’adéquation
entre les résultats desanalyses
et cette structure.1. LA RÉALITÉ ET L’OBSERVATION
Un
problème
deneuropsychologie
sera l’anecdote àpartir
delaquelle
nous allons introduire une structure : dans l’étude del’hémisphère
droit du cerveau, on suppose que certaines zonescorrespondent
à certainesperformances. Lorsque
des zones sont détruites(tumeur, hémorragie, traumatisme),
lesperformances
leurcorrespondant
doivent alorsdisparaître.
Pour savoir si uneperformance
adisparu,
on utilise un testpsycho- logique
et désormais nous omettrons laperformance
et admettrons que le lobe frontal est un ensemble depetites
cases tellesqu’à
chacunecorresponde
un test et un seul. Dansl’observation,
certains maladespasseront
les
tests,
mais on ne sait pasquelles
cases sontatteintes,
on saura seulement àquels
tests ils ont échouéet à
quels
tests ils ont réussi. Apartir
des résultats des tests d’un certain nombre demalades,
il faudra donc reconstituer lagéométrie
despetites
cases du lobefrontal ;
àpartir
del’observation, donc,
retrouver la réalité.Pratiquement,
nous supposerons que la réalité a unegéométrie
très forte :l’hémisphère
droit seraconstitué de 25
petites
caseségales disposées
en carré. Il leurcorrespondra
25 tests dansl’observation,
et leproblème
deviendra unproblème
decodage : assigner
les 25 tests à chacune des 25 cases. Les malades seront 1. Nous remercions le Laboratoire de Pathologie du Langage EPHE(ERA
au CNRS) et la Grant Foundation qui nous ont permis de réaliser les calculs ainsi que l’Institut de l’Environnement qui a publié une première version de ce travail et qui a eu l’obligeance de nous fournir lesfigures,
« Comparaison d’analyses multivariates d’une structure connue », Notes méthodologiques en architecture, n° 1,janvier
1973,pp. 29 à 53.
simulés : nous aurons une lésion pour
chacun,
c’est-à-dire un certain nombre de casesdétruites,
donc d’échecsaux tests
correspondants.
Si les cases détruites étaient choisies auhasard,
nous n’aurions aucun lien pour retrouver, àpartir
del’observation,
la réalité. Il faut donc donner une certaine structure à l’ensemble descases atteintes : nous
exigerons,
cequi
est tout à faitlégitime,
pour les lésions tumorales et lestraumatismes,
que l’ensemble des cases atteintes soit connexe.Concrètement,
pour simulerl’hémisphère
droit d’unmalade,
nous tirerons au hasard une des 25 casesdu
carré,
ce seral’origine
de lalésion, puis
nous tirerons au hasard l’une des casesadjacentes
à cettepremière
case ; de
proche
enproche,
on tirera au hasard une caseparmi
les casesqui
sontadjacentes
à l’ensembledes cases
déjà
tirées. Ce modèle est un modèle correct de croissance cellulaire donc de croissance tumorale.Nous arrêterons les
tirages
de deux manières : soit en se fixant unetaille, toujours
lamême,
pour la lésion(15
cases dans le modèle des pagessuivantes),
soit en se fixant le nombre total de cases menacées à un momentou à un autre
(modèle
des dernièrespages).
Ici aussi ces deuxtypes
d’arrêt sont conformes à des croissances tumorales. Nous obtiendrons alors une série de malades dont les lésions(ce
que nous avonsappelé
laréalité)
se
présentent
comme sur laFigure
1 : en noir les casesatteintes,
en blanc les autres. Dansl’observation,
nous n’avons que les résultats de
chaque
malade aux 25 tests : nous avons codé 1 l’échec et 0 laréussite,
la
Figure
2représente
donc les données tellesqu’elles
seraientobtenues~par
collecte.Figure
1. -Hémisphère
droit de deux malades simulés(on
a porté, sur le premier, le code des testscorrespondant
auxcases)
Entre cette réalité et ces
données, qui
doiventpermettre
de lareconstituer,
se situel’écran, qui figure
ce que nous savons de la structure en
plus
des données : cette structure estbi-dimensionnelle,
ou bien leslésions sont connexes, ou bien absolument rien
(écran noir).
Au fur et à mesure del’analyse,
nous augmen- teronsl’opacité
de l’écran : nous restreindrons ce que nous connaissons enplus
des données.Nous n’examinerons que le modèle décrit ici dans ses deux variantes sur la « taille» des
lésions,
maisnous voyons que de nombreuses extensions sont
possibles :
ici labijection
entre cases et testspeut
être rem-placée
par uneapplication univoque
ou mêmemultivoque,
le carrépeut
êtreremplacé
par une formegéomé- trique quelconque
à trois dimensions 1. Nous noterons que les résultats seprésentent
sous forme de variablesbinaires,
excluant ainsi certaines méthodes. Mais ces variables sont intéressantes car elles sont au confluent de nombreuses méthodes et parconséquent revendiquées
par les tenants de ces méthodesséparément.
2. RÉSULTAT DES ANALYSES MULTIVARIATES DANS LE CAS D’UN GRAND NOMBRE DE MALADES
Nous avons d’abord simulé 1 000
malades,
pour réduire les causes de variationsimputables
au faible nombre d’observations et discuter ainsi de la validité desanalyses
avec une bonne sécurité. Dans lechapitre suivant,
nous
reprendrons
cesanalyses
avec un faible nombre de malades(100),
cequi
estfréquemment
la taille des échantillons étudiés.1. Bien que le modèle ait des fondements sérieux, il ne s’agit pas ici de l’étudier en tant que tel (nous aurions prêté plus d’attention à sa construction), mais d’utiliser sa simplicité et sa géométrie pour « tester les analyses de données.
Figure
2. - Tableau des résultats simulés(réussite
= 0, échec =1 )
pour 70 malades(chaque
test ou colonnecorrespond
à une case de la structureréelle)
2.1.
Analyse
descorrespondances
Supposons
que l’écran soit peu opaque ; nous savons que l’échecsignifie
que la case est atteinte par lalésion,
nous savons que cette lésion est connexe et que le lobe frontal est assimilable à un
plan.
Uneanalyse
descorrespondances
où nous coderons 1 l’échec et 0 la réussite est alorslégitime puisque
la distance euclidiennequ’elle représente
dans les espaces deplus
faible dimension que 25 tient biencompte
duphénomène :
ellerevalorise les cases frontières
qui
sont moinsfréquemment impliquées
dans leslésions,
mais elle en tientpeu
compte
dans la recherche successive des axes,puisque
ces cases ont despoids
faibles 1.Figure
3. - Premierplan d’analyse factorielle
descorrespondances
Le résultat est conforme aux
prévisions (Fig. 3)
et sur ce résultat nous avonsrecopié
la réalité enjoi- gnant
entre eux les testsqui correspondent
à des casesadjacentes (le
nom des tests est à deuxindices,
ainsi32
signifie
testcorrespondant
à la case de la troisièmeligne,
deuxièmecolonne).
La structure n’est pas com-plètement régulière
car les fluctuations du hasardjouent
encore(heureusement
car de nombreuses valeurs propres seraientmultiples).
1. Posons Pij = résultat au ième test du jeme individu et Pi. = E
Pij.
i z
Expliquons simplement cette propriété = l’analyse des correspondances peut être envisagée comme l’analyse en composantes principales des 25 objets Xi dont chacune des 1000 coordonnées
est Pi Ï (parce
que ici tous les individus ont 15 cases atteintes), ces objets étant munisPt.
des poids
Pj.
Ainsi, lorsque Pi. est faible (test peu
fréquemment
à la valeur 1 ) le point correspondant est éloigné du centre de gravité, mais commeson poids est faible, cet éloignement est compensé dans le calcul de l’inertie (qui a la dimension : poids X carré des distances).
Autrement dit, l’éloignement « visible » est
plus
important que son effet sur la recherche des axes, car on lit toujours un nuage de points en attribuant visiblement le même poids à chacun des points.Pour
simplifier
lesdescriptions
ultérieures nous dirons quel’aspect planaire
est conservé si les arêtesqui joignent
les casesadjacentes,
dans laréalité,
ne serecoupent
pas dans lareprésentation.
Nousparlerons d’aspect géométrique
pourindiquer
que lespetits
carrés reconstitués sont assezréguliers
et assez carrés.Ici
l’aspect planaire
estparfaitement
conservé et, faitparadoxal, l’aspect géométrique aussi,
à, unétirement
près
descoins,
étirementexpliqué
par leur faiblepoids.
Les axes au-delà du secondn’apportent plus
aucune information intéressante sur la « réalité n bienqu’ils représentent
60%
de l’inertie totale.2.2.
L’analyse
enfacteurs
communs etspécifiques 1
Gardons à l’écran sa faible
opacité : puisque
l’on suppose que lephénomène
est à deuxdimensions,
autantle
postuler
etadopter l’analyse
en facteurs communs etspécifiques.
Bien que les variables ne soient pasmultinormales,
l’estimation par le maximum de vraisemblance est recommandée 2.Le résultat est
porté
sur laFigure
4 ; la réalité(cases adjacentes)
estfigurée
comme dansl’analyse
des
correspondances.
Le résultat est tout aussi bon dupoint
de vueplanaire
et presque meilleur dupoint
de vue
géométrique
à l’arrondissementprès
desangles
du carré. Si au lieu des deuxdimensions,
nous enavions
supposé
uneseule,
le résultat serait celui de laFigure
5 : c’est unediagonale
du carréqui
auraitété saisie. Ce résultat est meilleur que le
premier
axe del’analyse
descorrespondances,
mais il n’entre pasen
ligne
decompte puisque
dans les deux cas nous avons retenul’hypothèse
d’unphénomène plan.
Figure
4. - Plan des deuxfacteurs
del’analyse
enfacteurs
communs etspécifiques
2.3.
L’analyse
encomposantes principales
Puisqu’il s’agit
dereprésenter
des « variables » et non desindividus,
nousenvisagerons
cetteanalyse
sousl’angle
desreprésentations
euclidiennes : ce sont les meilleuresreprésentations
euclidiennes successives dans des sous-espaces de dimension croissante où lespoints
variables sont à la distanced2j
= at+
(Tjj -- a, j, 1. Une excellente description de cette méthode se trouve dans Factor analysis as a statistical method, Lawley et Maxwell, Londres, Butter- worth, 1963.2. Morrison D.F., Multivariate statistical methods, New York, McGraw..Hill, 1967, pp. 286-289.
Figure
5. -- Position des tests sur l’axef actoriet
del’analyse
à un seulfacteur
Remarquons
enpassant
une bellepropriété qui
nouspermettra
debaptiser
cetteanalyse
«l’analyse
d’interaction » faire comme nous l’avons décrit revient à chercher la
position
encomposantes principales,
mais de variables transformées par
rapport
aux variables initialespar ç il
~XI}
+X 00
-XI.
-X 0)’
où
Xi.
- moyenne de la variable iXol =
moyenne del’individu j x oo
= moyennegénérale
L’inertie
totale M E ~2
est la somme des carrés utilisée dansl’analyse
de variances à deux facteurst
pour tester l’interaction. Les
variables,
comme lesindividus,
sont centrés dans cetteanalyse.
La
représentation
obtenue(Fig. 6)
est très voisine de lareprésentation
del’analyse
en facteurs communset
spécifiques ;
tout auplus l’aspect géométrique
est moins bon(disproportion
des casescentrales).
Figure
6. - Premierplan principal
del’analyse
d’interactionL’inertie des 22 axes ultérieurs est de 60
%
comme dans le cas del’analyse
descorrespondances
et ces axesn’apprennent plus
rien sur laconfiguration
du carré.Jusqu’ici
tout marche à merveille et l’on seraitporté
àpartager l’opinion
de certains auteurs : s’il y a une structure, elle est facilement détectée. Nous pensons au contraire que c’est la connaissance que nousavions de la structure
qui
nous apermis
de la retrouver(déjà,
sans allerplus loin,
si nousignorions
que lephénomène
étaitbi-dimensionnel,
laconfiguration
du troisième etquatrième
axe nous auraitplongé
dansun
grand embarras).
Pour mieux le prouver,supprimons
donc certaines connaissances de la «réalité » ;
opa- cifions l’écran enignorant
désormais la connexité des lésions 1 : dèslors,
iln’y
aplus
de raisons de coder l’échec 1 et la réussite 0, il estparfaitement légitime
deprendre
lecodage opposé :
échec =0,
réussite = 1 ;adoptons-le
et voyons si la structureapparaît
avec la même facilité que dans lesanalyses précédentes.
2.4.
L’analyse
descorrespondances
avec le secondcodage
Ici,
lasurprise
est forte : sur leplan
des deuxpremiers
axes(Fig. 7),
le carré n’existeplus ;
sonaspect planaire
n’est pastrop profondément perturbé (6 recoupements d’arêtes),
mais le carré a bel et biendisparu.
On
peut
naturellementl’imaginer déployé
sur unesphère
mais laprise
encompte
du troisième et duquatrième
axe infirme totalement cette
imagination.
En outre, l’inertie des deuxpremiers
axes n’estplus
la même que pour lapremière analyse,
bienqu’assez
voisine.Certes,
lespécialiste
ne s’étonnera pas car il sait quel’analyse
des
correspondances
n’est invariante ni par homothétie ni par translation de variables ou des individus.Mais le
profane
a dequoi
se faire unephilosophie :
très souvent le choix d’échec = 1 et de réussite = 0 estarbitraire et cet arbitraire suffit pour faire
apparaître
deux résultats radicalement différents.Puisque
icinous avions créé la
réalité,
nous pouvons très facilementexpliquer
ce terriblechangement :
lespoids
faiblesdeviennent les
poids forts,
ainsi les coins du carré sont attirés vers lecentre ;
surtout : la lésion était connexe, mais lecomplémentaire
de la lésion ne l’était pas. Par contre,l’analyse
en facteurs communs etspécifiques
et
l’analyse
d’interaction demeurent invariantes dans cechangement
decodage.
-. ,
Figure
7. - Premierplan
del’analyse
descorrespondances
encodage
inversePlus
généralement, l’analyse
factoriellepermet d’appliquer
toutes transformations linéaires des variables à leurs coordonnées sur les axes.L’analyse
d’interaction ne résistequ’à
deschangements globaux d’origine
et d’échelle.L’analyse
encomposantes principales
normées(chaque
variable est transformée linéairement en variable de moyenne nulle et de varianceunité)
résiste en outre auxchangements
locauxpositifs
d’échelle des variables.1. Si la lésion est connexe par construction, son
complémentaire
peut être formé deplusieurs parties
disjointes parexemple
si lalésion était constituée par les cinq carrés de la 38 colonne.
La seule distance
qui
serait invariante pour toute transformation serait la distance deMahalanobis 1,
malheureusement elle n’est ici d’aucun secours : d’une
part
nous travaillons sur lesvariables,
d’autrepart
cette distance tue la
représentation puisqu’elle
redonne àl’ellipsoïde
des données une formehypersphérique ! Cependant
lesspécialistes
del’analyse
descorrespondances peuvent
faire remarquerqu’en
cas decodage
arbitraire des données il fallait « dichotomiser » les
variables,
autrementdit,
créer une variable échec et une variableréussite, amalgamer
ainsi les 25 variables ducodage
direct et les 25 ducodage
inverse. Lepremier plan
de cetteanalyse dichotomique
estporté
sur laFigure
8. Il consiste à peu de chosesprès
à superposer les deuxpremiers plans
des deuxprécédentes analyses
descorrespondances.
A notreavis,
un telplan
estillisible en termes euclidiens car le même
objet,
ou test, y estreprésenté
par deuxpoints :
sa réussite ouson échec. Or
ici, précisément,
la réussite est l’inverse de l’échec. Ce n’estcependant
pastoujours
le cas :ainsi,
engénétique, l’analyse
desfréquences géniques
est effectuée en doublecodage puisque
l’un desgénotypes
ne
signifie
pas le contraire de l’autre.Mais,
engénéral,
pour des donnéesbinaires,
réussite et échec sont en dualité. Doncl’analyse
descorrespondances perd pied
lapremière
mais les autres vontrapidement
suivrequand
onopacifie
l’écran.A
Figure
8. - Premierplan
del’analyse
descorrespondances
des 25 variables dichotomisées(50 variables)
2.5. Inversions locales du
codage
des variablesSupposons
maintenant que nous ne sachions mêmeplus,
pour un testdonné,
cequi
est échec et cequi
estréussite - c’est le cas de nombreuses variables en
sociologie :
attribuer 1 àcatholique,
0 à noncatholique, puis
1 àbachelier,
0 à nonbachelier ;
l’arbitraireporte
alors surchaque
variableséparément.
Le
premier plan principal
d’uneanalyse
descorrespondances
faiteaprès
inversion locale descodages
est
figuré
sur laFigure
9. On a cerclé les variablesqui
avaientgardé
lecodage
initial échec = l, réussite = 0 et on les ajointes
commeprécédemment.
Mais si l’onjoint
toutes les variablescorrespondant
à des cases1. Cette distance s’obtient en utilisant l’inverse de la matrice des covariances. Elle peut ainsi s’introduire par la construction des
« fonctions linéaires discriminantes » de Fisher. On en trouve un bon exposé dans Morrison, op. cit.
adjacentes,
on obtient laFigure
10 où cette fois toute structure du carré a bien sûrdisparu, aspects géomé- trique
etplanaire
confondus. Le mêmephénomène
seproduit
avec lescomposantes principales
et avec l’ana-lyse
en facteurs communs etspécifiques.
On remarquecependant
sur laFigure
9 que,séparément,
lesvariables inversées et non inversées
correspondent
à leurposition
dans le carré inversé et non inversé. Aufond,
la structure interne de chacun de ces deux groupes arésisté ;
il va en être de même si seulement certaines variables étaientanalysées.
Figure
9. - Premierplan
del’analyse
descorrespondances
des variables localement inversées(sont
jointes les variables noninversées)
Figure
10. -- Premierplan
del’analyse
descorrespondances
avec inversion locale descodages
(même Figure
que 9 mais en joignant les tests quicorrespondent
à des codesadjacents)
2.6.
Analyse
de certaines des variablesOn a
supposé
unebijection
entre tests et cases del’hémisphère droit,
il seraitlégitime
de considérerqu’il
ya
plutôt
uneinjection
des tests dans les cases : certaines cases existentqui correspondent
à descompétences qu’aucun
test ne saisit.Supposons
donc que seulement 13 variables soient retenues. Lepremier plan principal
del’analyse
des
correspondances (Fig. 1 )
restitue bien la structure et ressemble de trèsprès
aupremier plan
des 25 varia-bles dont on aurait
gommé
les 11 variables absentes. Cettepropriété
se retrouve pour toutes les autres ana-lyses, puisque
les distancesréciproques
des variables sont ou peu ou pas modifiées par lesanalyses.
Maisimaginons
que,parmi
les 13 variables retenues, certaines soient encodage direct,
d’autres encodage inverse ;
alors le carré a définitivement
disparu. Hélas,
ce dernier cas estpeut-être
leplus proche
de ce que nous ren- controns sur des données réelles. Faut-il chercher une structure euclidienne que l’on n’a aucune chance de mettre en évidence ?Figure
11. - Premierplan
del’analyse
descorrespondances
de 13 tests sur les 25Aussi
beaucoup d’analystes préfèrent-ils
s’orienter vers les structuresd’arbres, l’analyse
euclidiennepermettant
seulement de rectifier ce que les hiérarchies obtenues auraient detrop
sommaire(n’oublions
pas que N
points
dans unplan
nécessitent l’estimation de 2N - 3paramètres,
tandis que Npoints
dans unarbre n’en
exigent
queN -1 ).
L’écran donc devenuplus
opaque, nous ne savions mêmeplus
que la structure étaitplane
et nouspouvions,
comme lesneuropsychologues autrefois,
supposer desrapports hiérarchiques
entre tests.
Appliquons
doncplusieurs
méthodeshiérarchiques.
2.7.
L’analyse hiérarchique
encodage
directCette méthode utilise la distance du X 2 et
procède
parregroupements
successifs avec le critère d’inertieintragroupe
minimale. LaFigure
12 montre l’arbre obtenu(l’orientation
des branches de l’arbre est sys-tématique
à l’aide d’un critère depost-optimisation).
Cet arbre ne nousapprend
que peu de choses : tout auplus distingue-t-on cinq
groupesqui,
grossomodo, correspondent
au centre du carré(groupe
trèsvolumineux)
et aux
quatre
coins. Comme la structure estrégulière,
l’un des inconvénientsmajeurs
des arbresapparaît
facilement : un
regroupement
en interdit d’autres et depetites dissymétries
finissent parjouer
un rôleimportant.
Pourrapprocher
cet arbre de la structure réelle que nous nous étionsdonnée,
nous avons, sur le carréinitial, illustré
lesregroupements
successifs par des courbes de niveau(Fig. 13).
On voit mieux cequi
est arrivé et l’on
comprend
combien les conclusions que l’onpeut
tirer de cet arbre sont ou sommaires ouprécaires.
Inversons maintenant lecodage.
.,-y
Figure
12. -Analyse hiérarchique
encodage
directFigure
13. - Résultat del’analyse hiérarchique
représentée sur la structure réelle2.8.
Analyse hiérarchique
encodage
inverse et encodage dichotomique
Pas
plus
quel’analyse
descorrespondances, l’analyse hiérarchique
ne résiste à l’inversion decodage.
L’arbreobtenu est
porté
sur laFigure
14 et les courbes de niveau utilisant la structureréelle,
sur laFigure
15.Les conclusions
déjà
sommaires de laprécédente
hiérarchie sont bousculées : le groupe volumineux du centre s’estvolatilisé,
seuls restent lesquatre
groupes des coins.Figure
14. -Analyse hiérarchique
encodage
inverseFigure
15. - Résultat Jel’analyse hiérarchique
encodage
inverse, représenté sur la structure réelleEnfin,
cetteanalyse hiérarchique
a été effectuée sur les donnéesdichotomiques
et, comme pour l’ana-lyse
descorrespondances,
le résultat est embrouillé(Fig. 16).
Nous avons utilisé despointillés chaque
foisque des variables inversées et non inversées coexistaient dans le même groupe. On voit que l’amorce des coins
subsiste,
mais ilss’agglomèrent
vite avec les coins diamétralementopposés
dans lecodage
contraire.Seul le groupe du centre du
codage
direct subsiste.Figure
16. -Analyse hiérarchique
des variables dichotomisées(les
tests sont numérotésligne
parligne :
Je 1 à 25 encodage direct,
de 26 à 50 encodage inverse)
De carré il n’en est
plus question,
de structure nonplus.
Seulesquelques
remarquespeuvent
être faitesqu’une quelconque
matrice de similitude eûtpermis
de faire àsimple
lecture.Essayons
encore deuxméthodes : les
approximations supérieure
et inférieure d’uneultramétrique 1,
enprenant
une ressemblance entre variablesqui supporte
l’inversion ducodage,
leur coefficient de corrélation.3. APPROXIMATION PAR UNE ULTRAMÉTRIQUE SUPÉRIEURE
L’arbre obtenu est
porté
sur laFigure
17 et,puisque l’ultramétrique supérieure procède
paragglomé-
ration de « grumeaux »
(groupes
fortementliés),
il étaitlégitime
de conserver lareprésentation par courbe
de niveau
qui
confrontait bien la hiérarchie obtenue et la « réalité ». Le résultat est assez voisin de celui del’analyse hiérarchique
encodage inverse,
il serait mêmeplutôt pire,
une sorte d’hésitationapparaissant
entre le rôle des côtés du carré et celui des coins
(principalement
pour le bas ducarré).
4. APPROXIMATION PAR UNE ULTRAMÉTRIQUE INFÉRIEURE
L’arbre obtenu se trouve sur la
Figure
18. Pour la confrontation avec laréalité,
nous avonschangé
la
représentation
carl’ultramétrique
inférieure coïncide avec l’arbre minimum 2. Onpeut
donc tracer cetFigures
17 et 18. -Ultramétrique
supérieure : mêmesreprésentations
que pour les 2 premièresanalyses hiérarchiques
arbre sur le carré lui-même
(les
sommets sont les différentstests)
et ceci a été faitFigure
19. Le résultat est bon. Si l’on se souvient de lareprésentation
obtenue encomposantes principales
ils’explique
aisément :les cases de l’intérieur étaient
plus éloignées
entre elles que celles del’extérieur,
ainsi le contour a pu être obtenu par cet arbre minimum.1. Introduction à la classification automatique. Lerman, Paris, Cauthiers-Villars - Principles of numerical taxonomy, Sokal et Sneth, Londres, Freeman, 1963.
2.
Berge
C., Théorie des graphes et ses applications, Paris, Dunod, 1966.De nombreuses méthodes existent et nous n’allons pas les
appliquer :
lessegmentations, plus
frustes,
les hiérarchiesdescendantes,
et toutes sortes d’indices de similarité ou de dissemblancepeuvent
être choisis
(surtout
avec des variablesbinaires).
Mais nous en savons assez et nous le savionsdéjà :
on nereconstituera
jamais
une structure euclidienne en utilisant unereprésentation
en arbre. Tout auplus
félicitons-Figures
19 et 20. -Ultramétrique inférieure :
représentation de l’arbre et représentation de l’arbre minimum porté sur la structure réellenous que les arbres n’aient pas
procédé
à desregroupements
aberrants etqu’ils
se soient biencomportés,
étant donné leurs faibles moyens.
Imaginons
enfin que certaines variablesmanquent
et que certainesqui
restent aient leur
codage inversé,
il ne resteplus
aucun élément de notre structure réelle.Jusqu’ici
nous étions encore dans un cas satisfaisant àplusieurs points
de vue : nous avions 1 000malades,
et pour chacun exactement 15 cases atteintes par la lésion.Certes,
il estfréquent
de traiter d’un universcomplet
ou presque, mais il arrive que l’on nepossède qu’un
échantillon de cet univers. Auximper-
fections des
analyses précédentes, s’ajoute
alors un «brouillage »
causé par le hasard. Nous allons terminer par une illustration de cephénomène qui perturbe
assezprofondément
lesanalyses qui
avaient bien reconstitué la « réalité » et achève de détruire cellesqui s’éloignaient
de cette réalité. En outre, nous modifierons le modèle de croissance cellulaire de manière à obtenir des lésions de tailles diverses : nous arrêterons la croissance de la tumeurlorsque
le nombre de casesqui
ont été menacées au cours de la croissance aura atteint unevaleur donnée.
Figure
21 a. - Premierplan
del’analyse
descorrespondances
encodage
direct sur 70 maladesY"51 1
Figure
2t b.-Premier plan
del’analyse
d’interaction sur 70 maladesFigure
21 c. - Premierplan
del’analyse
descorrespondances
encodage
inverse sur 70 maladesLes
Figures
21 a,b,
c, montrent les résultats del’analyse
d’interaction et del’analyse
descorrespondances
encodage
direct et inverse sur 70 malades avec un seuil d’arrêt tel que les lésions soientimportantes.
Les deuxpremières analyses
sont fortementperturbées
par les fluctuations duhasard, l’aspect géométrique disparaît
maisl’aspect planaire
reste assez fort.L’analyse
descorrespondances
encodage
inversedétruit maintenant toute la structure, on ne
peut
mêmeplus
recomposer mentalement les déformationsou
pliages qu’aurait
pu subir le carré initial. Enfait,
les deux dernièresanalyses
sont intéressantes surtout pour l’inertie de leurs deuxpremiers
axes : 43%
encodage
direct et 26%
encodage inverse,
transitiontrès nette entre le second et le troisième axe en
codage direct,
pas de transition encodage
inverse. Ce critère d’inertie est donc biendouteux,
de nombreux auteurs lesoulignent.
Tout douteuxqu’il soit,
il estcependant
au coeur de toutes les méthodes de
représentation
euclidiennepuisque
c’estgrâce
à lui que les axes successifs sont choisis. Il est donc difficile de le mettre en doute dans les résultatslorsqu’il
a été la cheville ouvrière dans la méthode. Il est tout aussi difficiled’accepter
une telle variation d’inertie pour unesimple
inversionde
codage. (En composantes principales,
l’inertie des axes n’est modifiée ni par inversionglobale
ni parinversion locale du
codage.)
,Terminons par un
exemple
sur 100 malades avec un seuil d’arrêtplus
faible dans la constitution des lésions. LesFigures
22 a, b montrent lepremier plan
del’analyse
descorrespondances
pour lecodage
direct
puis
inverse. Nous sommes maintenant habitués auphénomène
et nous pouvonscependant
admirerla bonne reconstitution
opérée
parl’analyse
encodage direct, malgré
le faible nombre de données(100
lésionsseulement pour des milliards de lésions
possibles
avec lemodèle).
LesFigures
23 a, b montrent le résultat del’analyse
d’interaction et celui d’uneanalyse
descorrespondances après
inversion ducodage
de certaines variables
(premiers plans). L’analyse
d’interaction a étéplus
sensible au faible nombre de mala- des quel’analyse
descorrespondances.
L’inversion decodage produit
les mêmes effets néfastes que dans lesexemples précédents.
A la lumière de cette
petite expérience,
nous pouvonsargumenter
ce que nous affirmions au début de ce travail :Nous
assignons
deux buts auxanalyses
multivariées : décrire une structureparfaitement
connueet
préciser
une structurepressentie.
Nous avons peuparlé
dupremier but,
mais ilapparaissait
enfiligrane
tout au
long
de l’article : nous connaissions presqueparfaitement
la structurepuisque
nous l’avionscréée,
alors chacune des
analyses jetait
unéclairage
intéressant sur cette structure etpermettait
de l’illustrer danssa