M ATHÉMATIQUES ET SCIENCES HUMAINES
I. C. L ERMAN
Analyse du phénomène de la « sériation » à partir d’un tableau d’incidence
Mathématiques et sciences humaines, tome 38 (1972), p. 39-57
<http://www.numdam.org/item?id=MSH_1972__38__39_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1972, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
ANALYSE DU PHÉNOMÈNE DE LA «SÉRIATION»
A PARTIR D’UN TABLEAU D’INCIDENCE
par I. C. LERMAN1
1. INTRODUCTION
Le
problème
que posel’archéologue
pour la recherche des cc sériationschronologiques»
est en fait unproblème fréquent
dans les Sciences de la Nature et de l’Homme. Un des buts duspécialiste
est en effetde cerner à
partir
d’un tableau de données unphénomène qui
évolue et la variablequi
conditionne cetteévolution.
Commençons
par formuler defaçon
intuitive leproblème,
en nousappuyant
sur unexemple
tiré de
l’Archéologie.
On suppose établi pour ladescription
d’un ensemble E de ptombes,
un ensemblefini A de n types
d’objets.
Ladescription
est matérialisée par un tableau d’incidence(eli); 1
=1, 2,
..., net j
=1, 2,
..., p, dont l’ensemble deslignes
est indexé par A et celui des colonnes par E. eu = 1 si le typed’objet 1
estprésent
dans latombe j
et 0 sinon.Au cours du temps des divers types
d’objets
sesuccèdent;
une tombecorrespondra
à unâge
d’autant
plus
reculéqu’elle
contiendra les typesd’objets
lesplus
vieux. Ils’agit
de découvrir sur A l’ordrechronologique. L’hypothèse
H duspécialiste qui
rendpossible
la solution duproblème
est lasuivante :
« Un type
d’objet
donné existependant
unepériode
continue de temps; deplus,
si ah, at2 et atasont trois types apparus aux dates ti, t2 et ta avec t1 t2 ta, le type at2 est
plus ’proche’
de ah quene l’est ata,
respectivement,
le type at2 estplus ’proche’
de ata que ne l’est atl. o La notion deproximité
entre deux types sera établie à
partir
du nombre de tombespossédant
simultanément les deux types par rapport à ceuxqui possèdent
soit l’un soit l’autre.L’hypothèse
Hn’est,
de l’avis même del’archéologue qu’une approximation
de la réalité. Il sepeut en effet
qu’au
cours desâges,
certains typesréapparaissent.
Il faut toutefoisespérer
que H est vraie à des fluctuations asseznégligeables près
pourqu’on puisse appréhender
leproblème
par lastatistique.
En
fait,
il nous serapossible
dejuger
de la validité d’une tellehypothèse
au moyen d’un testqui
mesurerale
degré
d’invraisemblance del’hypothèse
d’absence de structure auprofit
de celle définie parH;
mais il nous faut unelongue expérience
pour définir le seuil àadopter
pour ce test.On ne restreint en rien la
généralité
duproblème
si on suppose la conditionCo
suivante.Co:
il n’existe pas deux typesd’objets
distinctsqui
soient simultanémentprésents
ou absentsde chacune des tombes.
~
1. Centre de Mathématiques Appliquées et de Calcul de la Maison des Sciences de l’Homme.
Cette condition
exprime qu’il
n’existe pas deuxlignes identiques
de la matrice d’incidence. Si tel n’est pas le cas, ons’y
ramène aisément en décrivant la matriceligne
parligne
et ensupprimant
toutvecteur
ligne déjà
rencontré. Il résultera en effet del’analyse mathématique
que larépétition
d’uneligne
ne fournit aucune informationsupplémentaire
pour la solution duproblème
de la sériation.La condition suivante
Ci peut paraître
trèsrestrictive; CI:
le nombre de tombes où un typed’objet
donné
apparaît
est le mêmequel
que soit le type. Cette conditionsignifie
que le nombre de composanteségales
à 1 dans un même vecteurligne
de la matrice d’incidence est constant.Des considérations
statistiques
nouspermettront
de ramener leproblème général
à celui où cettecondition
Ci
se trouve satisfaite.Si
l’hypothèse
H del’Archéologue
est exacte, il est aisé de voirqu’une permutation
deslignes
et des colonnes du tableau d’incidence pourra l’amener à la
forme
a suivantequi
tientcompte
des conditionsCo
etCi
ci-dessus.La
partie
hachurée est cellechargée
de 1.Si k
désigne
le nombre commun de composanteségales
à 1 dans une mêmeligne
du tableaul’expression mathématique
de cette forme 6 peut être uneapplication qui
à uneligne
donnée de rang1,
associe l’entier c
(1)
tel que:ou
La fonction 1 - c
(1)
étant strictementcroissante,
c( 1)
= 1 et c(n)
+ k = p.Avant de nous engager
plus
avant,expliquons pourquoi
cetravail;
en d’autres termes, parquoi
se
distingue
notrepoint
de vue des autres méthodesd’approche
duproblème.
Signalons
d’abord latechnique
de J. Bertin(cf. [3]).
Cette dernière est essentiellementgraphique;
noircissant les cases du tableau d’incidence T où un 1
apparaît, l’expérimentateur opère,
au moyen deréglettes,
directement parpermutation
deslignes
et des colonnes defaçon
à reconnaîtrevisuellement,
au
mieux,
la forme 6sous-jacente
àl’hypothèse
duspécialiste.
Une telleprocédure
est très liée à l’in-tuition et à
l’expérience
del’opérateur,
elle n’est pasautomatique
et ne peut parconséquent
traiter detrès
grands
tableaux.D’autre part, certaines méthodes connues attaquent le
problème
de la sériation àpartir
detechniques complexes
élaborées pour d’autresproblèmes
et rendent compte des résultats obtenus pour des formesparticulières
du tableau d’incidence.Compte
tenu de lacomplexité
de cestechniques,
il estdifficile
d’analyser pourquoi
lephénomène
de la sériation se manifeste d’unefaçon plutôt
que d’uneautre.
Nous venons en fait de
présenter
notreprincipale critique
relative à la méthode de D. G. Kendall(cf. [5]),
que nous allonsrapidement esquisser.
Le
point
dedépart
de cette méthode est unalgorithme
deJ.
B. Kruskal(cf. [6]), MDSCAL, qui
tente de réaliser une idée de R. N.
Shepard (cf. [8]) : « Étant
donné un ensemble de ppoints
dans unespace de dimension n, déterminer une
représentation
euclidienne de cet ensemble dans un espace de faible dimension defaçon
à respecter au mieux lesystème
desinégalités
entre les distances despoints. »
Bien que consacré par
l’expérience, l’algorithme
deJ.
B. Kruskal ne semble pas avoir un fondementmathématique
clair. L’ensemble des ppoints
considéré par D. G. Kendall est celui des vecteurs colonnes de la matriced’incidence; chaque
vecteur colonnequi
définit ladescription
d’une tombe est unpoint
dans un espace de dimension n. Les distances entre les
points
sont données par lamétrique
euclidienne où parconséquent
leproduit
scalaire E 1 elj Elk définit laproximité
entre les deuxpoints représentant
lestombes j et k;
c’est le nombre de types simultanémentprésents
dans les deux tombesqui
définit ainsi leurmesure de ressemblance. On
applique
MDSCAL pour obtenir uneconfiguration
despoints
dans un espace à 3 dimensions. D. G. Kendall établit la matrice d’inertie 3 X 3 du nuage despoints
obtenuqu’il projette
sur le
plan
des deuxpremiers
vecteurs propres. On constatealors,
que pour une forme (J du tableaud’incidence,
lespoints s’organisent
sur ceplan
en une courberappelant
la forme du «fer àcheval»;
l’ordre des
points
sur la courbe définit l’ordre des colonnes ou son inverse pour 6. Cet ordre permet deretrouver celui
chronologique
sur l’ensemble des tombes.Nous
envisageons quant
à nous leproblème plus
direct de la sériation des types; dans ce casd’ailleurs,
lajustification statistique
de la mesure deproximité
que nousadopterons apparaît plus
clai-rement. Cette mesure de
proximité
permet de ramener leproblème
à celui où la conditionCi
ci-dessusest satisfaite. Nous étudierons dans ce cas la
question
de l’unicité de la solution(cf. § III).
Pour uneclasse assez
générale
de tableaux d’incidence admettant la forme 6~ il existe unereprésentation,
desvecteurs
lignes
d’un tableau par despoints
d’un vecteur orienté delongueur
1, telle que les distances entre lespoints
respectent exactement les « écarts » entre les vecteurslignes
dutableau,
calculés confor- mément à la mesure deproximité
établie(cf. § IV).
Leproblème
se trouve ainsi réduit à la détermination d’une distribution d’un ensemble depoint,
dont on connaît lesystème
desdistances,
sur un segmentde droite orienté. Le lemme 1 du
paragraphe
IV permet de retrouver cette distribution àpartir
de l’unde ses deux
points
extrêmes. Pour une forme 6 trèsgénérale qui
peut mêmecorrespondre
àplusieurs
«dimensions» relativement
« indépendantes »
les unes des autres ; c’est uneanalyse
simultanée de la moyenne et de la variance desproximités qui
permettra unereprésentation géométrique
du tableaudes données. Cette
représentation, qui
ne nécessite pas ladiagonalisation
d’unematrice,
sera commentéepar rapport à celle que fournit
l’analyse
factorielleprésentée
dupoint
de vue deJ.
P. Benzécri(cf. [2], (b)).
II. MESURE DE
PROXIMITÉ
SUR L’ENSEMBLE A DESÉLÉMENTS
DESCRIPTIFSReprenons
un instant le tableau d’incidence pour en donner diverses formulations. Ce tableau(e~), 1 l n et 1 j p,
permet engénéral
le croisement de deux ensemblesfinis,
lepremier
A(card
A =n),
formé d’attributs
descriptifs
et le second E(card
E =p),
formé desobjets
ousujets
d’unepopulation
à
laquelle
lespécialiste
s’intéresse. Achaque
attribut a se trouve associé uneligne
du tableauqui
estun vecteur
logiqUe%
=(al,
a2, ..., aj, ...,ap) où aj
estégal
à 1 si l’attribut a estprésent
chezl’objet codé j
et 0Sinon ;7à
est unpoint
ducube { 0,
1 }p. Defaçon équivalente,
l’attribut a estreprésenté
par le sous-ensembleEa (Ea c E)
desobjets qui
lepossèdent.
Lareprésentation
est ainsi définie au moyen d’uneapplication
A dans l’ensemble P(E)
desparties
de E. La matrice d’incidence nous transmetdonc A comme un échantillon
dans { 0,
1 jP ou dans P(E).
A la
représentation
de Acorrespond
celle duale deE~
un vecteur colonne de la matrice d’incidence définit ladescription
d’un élément de E. On peutregarder
ce tableau comme définissant une distribution de masseségales
à 1 ou 0 sur lerectangle :
où N est l’ensemble des entiers.
Par rapport à un même
objet j,
deux attributs a et b sont dits avoir une associationpositive (resp. négative)
si a et b sont simultanémentprésents (resp. absents)
chezj.
La notion de
proximité
entre attributs aura uneimportance cruciale;
elle sera définie àpartir
de la
représentation
dans P(E)
ou dans{ 0, 11 P.
On suppose pour cela que l’ensemble A des attributs dedescription
est établi de telle sorte que seule une associationpositive
entre deux attributs données contribue à leursimilarité;
cette circonstancecorrespond
à la situation laplus fréquente.
Relativement à deux
parties
L et K de Ereprésentant
en l’occurrence deux éléments 1 et k deA, introduisons ~t,
= cardL/p,
[.Lk = cardK/p
et s = cardL n
Kqui
est la base de la mesure deproximité envisagée.
Selon unesuggestion
de P.Achard,
nous allons centrer et réduire lastatistique
s en nousréférant à
l’hypothèse N,
que nous avions par ailleurs introduite(cf. [7], (b),
ch.IV),
où L(resp. K)
serait tiré au niveau du
simplexe
P(E)
défini par card L(resp.
cardK),
ce dernier étant muni d’une mesureuniforme. Dans le cadre de
l’hypothèse
N on peut admettre que lastatistique
s suit une loi de Poisson deparamètre
p [.LI [.Lk(cf. [4]
ch.VI § 5).
D’où la mesure deproximité:
qui
suit dansl’hypothèse
N une loi deprobabilité
très voisine de la loi normale centrée et réduite.On peut se rendre compte que si on
effectue,
dans le tableau d’incidence desdonnées,
le chan- gement de mesure:la
statistique
devient :
en vertu de la relation:
S
correspond
ainsi auproduit
scalaire euclidien sur le tableau transformé.Si fLz
est constant pour tout 1 dansA, s
et S sontéquivalents
dupoint
de vue de lapréordonnance
associée(cf. [7], (a),
ch.1).
Nous établirons les
différents
résultats dans ce dernier cas.Puisque
notreanalyse
est basée sur l’étudedes
proximités
et que Scorrige
slorsque
le nombred’objets
où un même attribut estprésent
n’est pas constant; nous étendrons au casgénéral l’algorithme
obtenu.Dans les
paragraphes
suivants III et IV on a V,1 = fL pour touteligne 1
du tableau d’incidence.III.
PROBLÈME
DEL’UNICITÉ
DE LA SOLUTIONNous allons poser
quelques
définitionsqui
nous permettront depréciser
notre vocabulaire.Relativement à une forme a
(cf. § I),
posons pourtout i,
ci = c(i)lp,
la fonction i - c(i)
a étédéfinie au
paragraphe précédent.
La forme (j sera dite réduite àla forme parallélogrammique
7t si pourtout
couple
delignes
d’indices 1 et k(1 k)
on ack ca
= constante. Le tableau sera dit horizontalement(k - lJj
enchaîné si pour tout
couple
delignes (l, k)
est strictementpositif
l’entierCompte
tenu de lasignification
deslignes,
la conditionexprime
que pour toutcouple d’attributs,
il existe au moins un
objet qui
lespossède
simultanément.Le tableau sera dit faiblement horizontalement enchaîné si pour tout
couple
delignes (l, k),
ilexiste une suite d’indices
(il, i2,
...,ir)
telle queUn tableau enchaîné l’est
faiblement;
si un tableau n’est pas faiblement enchaîné nous dironsqu’il
est disconnexe.Dans ce cas une composante connexe est définie comme la restriction du tableau à un ensemble maximal de
lignes
tel que le tableau restreint soit faiblement horizontalement enchaîné.1. PROPOSITION
La condition nécessaire et suffisante pour
qu’un
tableau d’incidence de zéros et de unspuisse
êtreramené à la forme or est
qu’il
existe unepermutation
des colonnes telle que lapartie chargée
de touteligne
définisse un intervalle de l’ensemble des colonnes.La condition est évidemment
nécessaire;
elle est aussisuffisante,
l’ordre deslignes
étant déterminé par la suite croissante des valeurs de c(i) ; i
= 1,2,
..., n.A toute solution (j définie pour une
permutation
donnée descolonnes,
ilcorrespond bijectivement
une solution a’ définie pour la
permutation
inversequi
détermine sur leslignes
l’ordre inverse de celuicorrespondant
à 6. Dans lapratique,
une information extérieurepermettra
auspécialiste
de choisirentre deux solutions or et (j’.
Relativement à une
permutation
des colonnesqui
définit une forme o dutableau,
l’ordre deslignes
est défini defaçon unique. Chaque ligne
définit sur l’ensemble des colonnes unpréordre
total àtrois classes dont la classe médiane
correspond
à l’intervalle de laligne chargé
de uns. L’intersection desdifférents préordres définit
sur l’ensemble des colonnes unpréordre
total7t à n classes(n
étant le nombrede
lignes).
En disantqu’une
colonne estprésente
dans uneligne
si à leur intersection se trouve un1;
une même classe du
préordre
total 7t est formé de colonnes simultanémentprésentes
ou absentes de touteligne
du tableau.Une
permutation
P des colonnes définit un ordre total 0 sur l’ensemble descolonnes;
P seradite
compatible
avec lepréordre
total 7t s’il en est ainsi de0 ;
c’est-à-dire(x
y pour l’ordrequotient
défini par
7t)
~(x
y pour0). Désignons toujours
par 7t unpréordre
total sur l’ensemble des colonnes associé à une forme (j du tableau et soit 7t’ lepréordre
total inverse où l’ordrequotient
sur les classes définies par 7t est inversé. Il est évident que toutepermutation
des colonnescompatibles
avec 7t ou 7t’donne au tableau une forme o; de
plus
deuxpermutations compatibles
avec le mêmepréordre
total 7tse déduisent l’une de l’autre par un
produit
depermutations
dont chacuneopère
sur une même classede 7t.
2. PROPOSITION
Si le tableau est faiblement horizontalement
enchaîné,
les seulespermutations
des colonnesqui
laissentinvariante une forme a sont celles
qui
sontcompatibles
avec 7t ou 7t’.Nous allons montrer que pour une forme (j, les classes de r ainsi que l’ordre
quotient,
à son inverseprès,
sont déterminés defaçon unique.
En effet une classe extrême dupréordre
est définie par un ensemble maximal de colonnesprésentes
dans exactement uneligne.
Cette classe extrême va définir lapremière ligne
du tableau àpartir
delaquelle
seront déterminées en même temps que l’ordre total sur leslignes,
les autres classes du
préordre
selon r ou ~c’. La kièmeligne
estcelle, l, parmi
leslignes
non encorerangées,
pour
laquelle
est maximum le nombre de colonnes simultanémentprésentes
dans leslignes (k -1)
et 1.L’ordre total sur les
lignes
permet de définir lepréordre
total n ou ~c’ selon que la classe extrême initia- lement considérée est lapremière
ou la dernière de r.En
conclusion,
si une forme 6 du tableauexiste,
l’ordre total sur leslignes
permettant de l’obtenirest déterminé à l’ordre inverse
près;
d’autre part, laproposition précédente
nous permet, àpartir
d’uneforme a
obtenue,
d’énumérer toutes lespermutations
de colonnes définissant une forme a.IV.
REPRÉSENTATION
SUR UN SEGMENT DE DROITEORIENTÉ
On ne restreint en rien la
généralité
de cequi
va suivre en supposant lesegment
de droite delongueur
1.1. LEMME
Soit {
e1, c2, ..., c~ } l’ensemble des abscisses de npoints répartis
defaçon quelconque
sur unsegment
de droite orientéÂB
delongueur 1;
cl c, ... cn. On a(a) :
celui des npoints
dont la moyenne des distances à l’ensemble despoints
est laplus grande
est nécessairement unpoint
extrême.(~) :
celui desn
points
dont la variance des distances à l’ensemble despoints
est laplus grande
est aussi nécessairementun
point
extrême.(a) Moyenne
des distances d’unpoint
Désignons
chacun des npoints
par son rang en allant de A versB,
lepoint i
étant ainsi d’abscisse ci.Nous allons comparer la moyenne des distances de 1 à celle de 1
pour 1 n~2.
La suite des dis-tances de 1 est:
d’où la moyenne des distances de 1 :
La suite des distances de 1 est:
d’où la moyenne des distances de 1:
La différence:
or:
donc:
L’inégalité
est encore vraie si n estimpair
et si 21 = n + 1; eneffet,
on a alors :finalement:
où
[(n
+1)/2] désigne
lapartie
entière de(n + 1 /2.
Symétriquement :
La
partie (oc)
du lemme se trouve démontrée. Parconséquent,
si la fonction distance estdonnée,
l’ordre des
points,
ou soninverse,
sur le segmentorienté,
peut être déterminé àpartir
dupoint
dont lamoyenne des distances est la
plus grande.
(p)
Variance des distances d’unpoint.
Comparons
la variance des distances de 1 à celle de 1pour 1 n/2.
La variance des distances de 1 est:Prenons le
point
1 pourorigine
et posons 1 ,ona:La variance des distances de 1 est:
soit:
Calculons la différence V
(1)
- V(1),
Un
calcul,
dont nous ne donnons pas le détailici,
montre que:où
Or pour de sorte que
D’autre part ei = 1 pour i
1,
de sorte que:Donc: V
(1) >
V(~) pour 1 n/2.
La
partie (p)
du lemme se trouve ainsi démontrée.Par
conséquent,
lepoint
pourlequel
V est maximum nous permettra de retrouverl’ordre,
ou soninverse,
despoints.
Eneffet,
àpartir
dupoint
extrême on utiliseral’algorithme
des « enchaînements successifs » où àchaque
pas on détermine leplus
voisin du dernier retenu.2. EXPRESSION DE LA MESURE DE PROXIMITÉ POUR UNE FORME 6
Remettons-nous en mémoire le tableau d’incidence et reprenons le
problème
de la « sériation» où on cherchera à découvrir l’ordre total sur leslignes
du tableau. Avec les notations définiesprécédemment (cf. § III), l’expression
de la mesure deproximité
entre deuxlignes
est:puisqu’on
suppose til = [L pour touteligne 1
du tableau.Rappelons
lechangement
de mesure:pour
lequel:
Supposons
que le tableau d’incidence admette la forme a etdésignons par 1
et k(1 k),
les rangsrespectifs
de deuxlignes
pour 6. Les deuxlignes peuvent
seprésenter, après
lechangement
de mesuresil - sous l’une des deux formes
suivantes,
où les hachures //////expriment
unecharge positive égale
à(1
-p
et où celles ww, unecharge négative, égale
à -V fL/ Vp.
Le casa)
estcaractérisé par c~ cl
-~-
~, le casb)
par ck > cl -~-Les diverses valeurs de
e’ kl
sont:si si si si
De sorte que
l’expression
de la mesure deproximité
S(1, k)
est:a’)
dans le casa)
où CI + ~,:d’où en
regroupant
on obtient:La valeur de S
(1, k)
pour Ck * ca+
(L.est - d’autre part, S
(1, k) > -
pourb’)
dans le casb)
où Ck > CI+ [1.
finalement:
Introduisons l’ « écart» D
(l, k) :
on a:
2.1 Théorème
Si un tableau d’incidence
remplit
les conditions(i)
le nombre de 1 dans touteligne
est le même(i.e.,
(Ll = ~, pour tout1), (ii)
le tableau est horizontalementenchaîné,
(iii)
le tableau admet la forme 6,alors,
il existe unereprésentation,
sur un segment de droite orienté delongueur
1, deslignes
du tableaupar des
points
dusegment
dont l’ordre est celui relatif à ci et dont les distances sont les écarts S(l, k).
En
effet,
la condition(ii)
estéquivalente
à cn CI -f - Le lemme ci-dessus nous permet de conclure.2.2. Théorème
Si un tableau d’incidence
remplit
les conditions(i), (ii)
et(iii)
du théorèmeprécédent,
on a(oc)
celledes n
lignes
dont la moyenne desproximités
S à l’ensemble deslignes
est laplus
faible est nécessairementune
ligne
extrême pour la forme 6 dutableau;
de même(~)
celle des nlignes
dont la variance desproxi-
mités à l’ensemble des
lignes
est laplus grande
est nécessairement uneligne
extrême pour la forme a.Dans le cas d’un tableau faiblement enchaîné comme
l’indique
lafigure suivante,
où les hachuresdéfinissent la
partie chargée
dutableau;
onpeut
montrer aisément que laligne
dont la moyenne des écarts D est laplus grande
est nécessairement uneligne
extrême.Mais la
propriété (g)
du théorèmeprécédent
n’estplus
vérifiée engénéral
dans ce cas. Pour lemontrer, nous allons examiner le cas d’un tableau faiblement enchaîné ayant une forme
parallélo- grammique r
suffisamment inclinée pour que l’intervallechargé
de laligne
médiane ait avec chacun desintervalles
chargés
des deuxlignes
extrêmes une intersection vide.Dans les calculs
qui
vontsuivre,
1désignera
lapremière ligne
du tableauet l,
laligne
médiane.Nous allons comparer d’une
part
les moyennes; d’autre part, les variances des écarts de 1 et de 1 à l’en- semble deslignes
du tableau.Rappelons
que pour le cas d’une forme r:si si où k > l et où oc est une constante.
La suite des valeurs des écarts de 1 est donc:
la suite se termine par termes tous
égaux
à y.La suite des valeurs des
écarts
de 1 est :la suite
comprend
deux fois laséquence
tous
égaux
à ~..Moyenne
des écarts del, .~ ( 1) Posons q = ~, ~
oc; on a:et se termine
par ~
1 termesMoyenne
des écarts de(1)
D’où :
Variance des écarts de
1,
’~’( 1)
et de1, (1)
Étudions
lesigne
de la différenceUn calcul élémentaire nous montre que:
l’écart entre le second et le
premier
nombre étant de l’ordre Le membre de droitepeut
semettre sous la forme:
Donc si c’est-à-dire
2.3.
Proposition
Si un tableau d’incidence admet une forme 7c pour
laquelle , /
oc4n / 9,
pour cetteforme,
la variance des écarts de laligne
médiane estsupérieure
à celle d’uneligne
extrême.Pour un tableau faiblement horizontalement enchaîné et admettant une forme a comme
l’indique
la
figure
2.1ci-dessus,
l’ordre deslignes,
ou soninverse,
peut être déterminé en utilisantl’algorithme
des« enchaînements successifs » à
partir
d’uneligne
extrêmelu
définie comme étant celle dont la moyenne des écarts est laplus grande.
Cetalgorithme
consiste à retenir au kième pas laligne lk
laplus proche
decelle Le théorème de
représentation
2.1 n’estplus
vrai si un tableauremplit
les conditions(i), (iii),
mais n’est que faiblement horizontalement enchaîné.
V. ANALYSE
SIMULTANÉE
DE LA MOYENNE ET DE LA VARIANCE DESPROXIMITÉS
Nous allons examiner
quelques exemples
où la forme 6 faitapparaître
des blocsparallélogrammiques;
deux blocs successifs étant tels que la dernière
ligne
dupremier
et lapremière ligne
du second aient encommun pour tout au
plus
unpetit
intervalle de l’ensemble descolonnes,
unecharge
simultanéeégale
à 1. Ces
exemples,
pourlesquels
= ~, pourtout 1,
nous permettrons depréciser
unalgorithme
dereprésentation géométrique
des tableaux d’incidence des donnéesqu’on appliquera
dans le casgénéral.
1. EXEMPLE 1
Soit le tableau d’incidence ramené à la
forme
6 comme il estindiqué
dans lafigure.
La
partie
hachurée est cellequi
estchargée
de uns; elle est constituée de deux blocs G et H ayant la forme deparallélogramme. m
est l’indice de laligne qui
termine le blocG;
on a m== n /
10.(m
+1)
est l’indice de la
ligne qui
commence le bloc H. On supposera dans les calculsqui
vont suivre ngrand;
en tout cas assez
grand
pour que, dans ces calculs onpuisse
confondre(m - 1)
ou(m + 1)
avec m,sans effet sensible sur le résultat.
Soit comme il est
indiqué
dans lafigure, ,
=1 / 3.
Lorsque
leslignes 1
et k(1 k), appartiennent
à un mêmebloc,
on a:où
a est le vecteur
représenté
par lapremière ligne
dutableau; b,
celuireprésenté
par la(m
+l)ème ligne
et e, celui
représenté
par la dernièreligne.
Un calcul
analogue
à celuiqui
a abouti à laproposition
2.3 duparagraphe précédent,
permet d’établir le tableau des valeurs :ae
(a) (resp. -ff (b))
est la moyenne des écarts de a(resp.
deb);
Y
(a) (resp.
Y(b))
est la variance des écarts de a(resp.
deb).
Ainsi,,#
(a)
est sensiblementplus grand
que ae(b)
alors que(b)
> Y(a).
Dans le cas de notretableau,
il est surtout intéressant de découvrir laprésence
des deuxblocs, quitte
par la suite à ranger leslignes
de chacun d’entre eux.Certes,
une classificationautomatique
permet de détecter les deuxblocs;
mais
ici,
nous l’effectueronsplus simplement
par uneanalyse
simultanée de la variance et de la moyenne desproximités.
Eneffet,
àpartir
de b dont la variance desproximités
estmaximum,
a peut être obtenuparmi
les vecteurslignes
différents de bqui
rendent maximum le rapporthomogène:
où S
(x, b)
est la mesure deproximité
entre a et b. Dans notreexemple,
ce sont les deuxlignes
extrêmesdu bloc G
qui
réalisent le maximum du rapport ci-dessus. Enappelant,
dansl’exemple considéré,
I.
(resp. J),
l’ensemble totalement ordonné des colonnes associées à G(resp. H);
on remarque que le tableau conserve la forme ci si onplace
J avant I(cf. § IV).
Ce ne seraplus
le cas pour le secondexemple
que nous allons
envisager
etqui
nous permettra d’améliorer notre intuition duproblème.
2. EXEMPLE 2
Le tableau d’incidence se
présente
comme suitlorsqu’il
est ramené à la forme 6.L’indice m de la
ligne qui
termine le bloc G est iciégal à n /
6 où n est le nombre total delignes.
Les
lignes
m et(m + 1)
ont en commun pour une tranche de l’ensemble des colonnes unecharge
simul-tanée
égale
à 1. n estsupposé
assezgrand
et on a ~, =1 / 3.
Lorsque
leslignes 1
et 1~appartiennent
au même blocG,
on a:D’autre part,
lorsque
leslignes 1
et kappartiennent
au même blocH,
on a:a est
toujours
lepoint représenté
par lapremière ligne
dutableau;
b celui
représenté
par la(m -~- l)ème ligne.
Les résultats ducalcul, présentés
avec les notationsadoptées
ci-dessus sont:On a ici
(a) (b)
et Y(a)
> Y(b);
toutefois lerapport
~(a) /
-6(b)
est sensiblementplus
élevé que celui ’7~(a) /
-r(b).
L’algorithme
des enchaînements successifs auraitpermis
ici de reconstituer l’ordre deslignes
enpartant de a dont la moyenne des écarts ax est maximum. Mais cet
algorithme
ne met pas en évidence laprésence
des deux blocs G etH;
il faut pour cela recourir à uneanalyse
simultanée de la variance etde la moyenne des
proximités
comme il a été fait allusion dansl’exemple
ci-dessus. Eneffet,
pour lepoint
b il seproduit
un sautpositif
brutal de :lorsque x
parcourt l’ensemble des vecteurslignes
du tableau différents de a etrangés
parproximité
décroissante à a. Le vecteur
ligne
pourlequel
le rapportprécédent
est maximum est b ou e(il
faut fairele calcul pour
e) ;
de toutefaçon
l’unquelconque
de ces deuxpoints
permet de définir la dimensionsous-jacente
àH; c’est-à-dire,
l’ordre ou son inverse des attributs dedescription représentés
par leslignes
de H ramené à la forme s.3. FORMULE D’ANALYSE DE LA VARIANCE DES PROXIMITÉS Considérons le tableau carré n X n des
proximités Slx:
Nous allons commencer par effectuer une
analyse
de la varianceglobale
desproximités
selonles
lignes
du tableau carréauquel
on aura ôté le contenu de ladiagonale (cette analyse
est d’ailleursidentique
à celle selon les colonnes du tableaucarré).
Posons :
Décomposons
la différence(Slx
-S)
comme suit:en sommant par rapport à k et pour
k f= l,
on obtient:en sommant par rapport à 1 et en divisant par n
(n
-1)
les deux membres on a :Dans cette formule le
premier
membre définit ladispersion
du nuage despoints représentant
lesattributs dans le
simplexe
P(E) (cf. § II).
Cettedispersion
sedécompose
d’une part, en la moyenne desvariances des
proximités
de chacun des élémentsdescriptifs
avec les autres(variances intra-lignes)
et d’autre
part,
la varianceinter-lignes;
cette dernière est une mesure de la distorsion par rapport à un étatsphérique
des données définipar Si
constant pourtout 1,
S(1, ~)
est unproduit
scalaire pour le tableau transformé Elk -~c’i k (Cf- § II).
3.1 Tests
En se référant à
l’hypothèse
N(cf. § II),
onpeut
aisément effectuer des tests.1)
Test d’absence de structure vis-à-vis del’hypothèse
de la « sériation» où le tableaupeut être,
aucontenu d’un
petit
nombre de casesprès,
être ramené à la forme a.2)
Test d’absence de structure parrapport
à celle définie par unedisposition sphérique
des données pour lamétrique qui
nous intéresse.Le
premier
test sera basé sur laplus grande
valeur observée de et le second sur la valeur deSi le tableau des données n’est pas de
grande dimension,
onpeut
effectuer les tests àpartir
desimulations du tableau d’incidence dans
l’hypothèse N,
un nombre suffisant defois;
nousdisposons
d’un programme
qui
permet de le faire. On comparera les valeurs observées desstatistiques
avec leursdistributions
empiriques.
Autrement,
onpeut
constater que pour pgrand,
dansl’hypothèse N,
la suite des valeurs:des
proximités
d’uneligne 1
fixée avec les autreslignes
dutableau,
peut être considérée comme une suite de(n - 1)
réalisationsindépendantes
d’une variable aléatoire normale centréeréduite;
de sorte que1 (Stx - S)2
est pourl fixé,
la réalisation à(n
-2) degrés
de liberté. Les n valeurs de cette{k/k#l}
statistique
obtenuespour 1
variant de 1 à n, ne sont pasrigouxeusement indépendantes
dansl’hy- pothèse N;
eneffet,
pour les n suites telles que(*), chaque
S(1, k) pour 1
différent dek,
se retrouvedans exactement deux suites différentes. Toutefois ce
degré
dedépendance
est faible et l’est d’autantque n est
grand.
Parconséquent,
on se référera à la distribution de laplus grande
valeur de nstatistiques indépendantes
duX2
à(n
-2) degrés
de liberté pourjuger
del’importance
relative de laplus grande
valeur observée
de 1:(Slk -
De même on se référera à la loidu x2
à(n -1) degrés
de libertés{k/k#l}
pour
juger
de la relativepetitesse
de4. DÉTERMINATION D’UN PLAN DE REPRÉSENTATION
GÉOMÉTRIQUE
Algorithme
1L’indice 11
pourlequel
est maximum la variance définira lepremier
axe Ax 1du
plan
dereprésentation;
Axl serapris
horizontal et orienté degauche
à droite.L’élément 12 qui
définira le second axe Ax2 doit satisfaire deux conditions:1. Nous tenons à remercier très vivement M. J. M. Dernsteyn, de l’Institut de Programmation, qui a écrit le programme relatif à cet algorithme.