R EVUE DE STATISTIQUE APPLIQUÉE
I. C. L ERMAN B. T ALLUR
Classification des éléments constitutifs d’une juxtaposition de tableaux de contingence
Revue de statistique appliquée, tome 28, n
o3 (1980), p. 5-28
<http://www.numdam.org/item?id=RSA_1980__28_3_5_0>
© Société française de statistique, 1980, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
CLASSIFICATION DES ÉLÉMENTS CONSTITUTIFS
D’UNE JUXTAPOSITION DE TABLEAUX DE CONTINGENCE
I.
C.
LERMAN et B.TALLUR
La suite des
principaux paragraphes
est :I -
Introduction ; position
duproblème.
II -
Rappel
sur les indices deproximité
entre variablesdescriptives.
III - Structure de
proximité prise
encompte
par A.V.L.IV -
Représentation géométrique
d’un tableau decontingence.
V - Indice de
proximité
entrelignes
ou colonnes d’un ou d’unejuxtaposition
de tableaux de
contingences.
VI - Arbre des classifications directement associé à l’indice.
VII - Suite donnée à l’indice dans un processus
d’analyse
par la classification dece
type
de données.VIII -
Application,
structure del’agriculture régionale française.
IX - Conclusion.
I.
INTRODUCTION ;
POSITION DU PROBLEMELe
point
de référence est le casclassique
d’un tableau de données X de dimension n x m, indexé par Ex V,
définissant ladescription
d’un ensemble E de n individus ouobjets
par un ensemble V de m variablesnumériques.
Lepoint
visé est le tableau de
contingence
donnant les cardinaux des classes du croise- ment de deuxpartitions ; puis
parextension,
le tableau résultant d’unejuxta- position
de sous-tableauxqui
sont des tables decontingence.
Lepoint
de vuedéveloppé
est celui de la classification deslignes
ou colonnes d’un tel tableau.On se servira d’une
représentation mathématique,
icigéométrique, adéquate
du tableau des données.
Nous considérons le tableau de données X comme
ayant
un caractère essen- tiellementdissymétrique.
D’unpoint
de vueappréhension
desdonnées,
c’estflagrant ;
eneffet,
une même variabledescriptive peut
êtreopérationnalisée
parun
appareil
de mesure et à lalimite,
il y a autant de différence entre une variableet un individu
qu’entre
unappareil
de mesure etl’objet
surlequel
est effectuéla mesure. On
peut également
le voir au niveau de lareprésentation
mathéma-tique qu’on
propose engénéral
pour ce tableau en vue d’uneanalyse
factorielleen
composantes (cf. [14]
pourplus
dedétails).
Au
contraire,
le tableau decontingence
de dimension n x m que nous note-rons ici
a de
façon
évidente un caractèreparfaitement symétrique.
Revue de Statistique Appliquée, 1980, vol. XXVH), n° 3
Mots-C7és : Classification
hiérarchique,
Indices deproximité,
Critères de la vrai- semblance des liens et de l’inertieexpliquée, Métrique
duz.
6
Il est entendu que dans le tableau
(1)
ci-dessuskij représente
le nombred’individus
ayant
la modalité i de lapremière variable-partition
et lamodalité j
de la seconde
variable-partition.
Relativement au tableau X des
données,
Individus xVariables,
les taxino-mistes sont
davantages polarisés
par la classification de l’ensemble des individus que par celle de l’ensemble des variables dedescription.
Pour cetteraison, compte
tenu de notre
perception
del’espace géométrique,
c’estdavantage
lelangage
desdistances
qui
a été utilisé pourl’expression
des critères de réduction de l’infor- mation. Si par contre, ils’agit d’organiser
parproximité
l’ensemble des variablesdescriptives,
c’est lelangage
de la corrélationqui s’impose d’abord,
bienqu’on puisse
àpartir
du schéma de dualité définir une distance entre variables.De toute
façon,
onpeut distinguer
deux familles de méthodes de classifi-cation ;
celle basée sur la notion de distance et cellebasée,
sur la notion de cor-rélation. Dans la
première,
nous accordons uneplace
de choix au critère de l’iner- tie(i.e. variance) expliquée ;
celui-là mêmesous-jacent
aux méthodesd’analyse
factorielle.
Les méthodes de classification
hiérarchique
de I.C.LERMAN,
basées sur la vraisemblance des liens rentrent dans le cadre de la deuxième famille. Elles se ré- fèrent en effet à une notion trèsgénérale
de la corrélation entre structures finies de mêmetype
etpermettent l’organisation
en classes et sous-classes"significatives"
de
proximité ;
d’abord de l’ensemble desvariables, quel
que soit letype
commun de structure défini par cesdernières ;
ensuite de l’ensemble des individus ouobjets,
en tenant étroitement
compte
de ladissymétrie
du tableau de données Individus xVariables
descriptives.
Il
restait,
dans le cadre de cesméthodes, l’intégration
duproblème
de la clas- sification deslignes
ou colonnes d’un tableau decontingence puis, plus générale-
ment, d’un tableau résultant de la
juxtaposition
de tables decontingence.
Cette structure
parfaitement symétrique
du tableau des données estl’argu-
ment
privilégié
del’analyse
descorrespondances.
Lareprésentation
euclidienne de ce tableau donnée par cetteméthode,
a conduit J.P. BENZECRI et M. JAMBU(cf. [1]
et[2])
àdévelopper
une méthode de classificationhiérarchique
deslignes (resp. colonnes)
d’un tel tableauqui
se réfère à lapremière
famille deméthodes,
basée sur le critère de l’inertie
expliquée,
conformément à lamétrique
duX2.
Il y avait donc lieu dans notre cadre de définir la méthode de la vraisemblance des
liens,
basée sur les "corrélations" entrelignes (resp. colonnes)
d’un teltableau,
et à comparer les résultats concrets obtenus par les deux méthodes de classification
hiérarchique.
II. RAPPEL SUR LES INDICES DE PROXIMITE ENTRE VARIABLES DESCRIPTIVES
II.1. DEMARCHE GENERALE
Nous
représentons
une variabledescriptive
par unepartie
d’un ensemble ouune
pondération
sur ce dernier. Nousdistinguons
deuxprincipaux types
d’une va-riable ;
celuipouvant
êtrereprésenté
par unepartie
de l’ensemble E des individusRevue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
7
ou une
pondération
surE ;
etcelui,
dont lareprésentation
est unepartie
de E x Eou une
pondération
sur E x E.Dans la
première catégorie,
onpeut
classer l’attributdescriptif
aqui peut
êtrereprésenté
par lapartie Ea
des individusqui
lepossèdent
et la variable numé-rique
vqui peut
êtreregardée
comme définissant unepondération
sur E en at-tachant à
chaque
individu x, le nombrev(x),
valeur de la mesure de la variablev sur l’individu x.
Toute variable
qualitative
discrètequi
définit une relation binaire sur E estsusceptible
d’unereprésentation
dans E xE,
par songraphe
parexemple.
De sorteque dans la deuxième
catégorie
onpeut
classer- La variable
"rang" qui
définit un ordre total 0 sur E que nousreprésente-
rons par son
graphe
- Le caractère
descriptif
à l’ensemble totalement ordonné des modalités(i.e.
variablequalitative ordinale) qui
définit unpréordre
total w sur E que nousreprésentons
par lapartie R (w)
de E x E définie paroù
Ei
est lafme
classe dupréordre
formée des individuspossédant
lafme
modalité du caractère.- Le caractère
descriptif
à l’ensemble sans structure des modalités(i.e.
va-riable
qualitative nominale) qui
définit unepartition
1T sur E que nousreprésentons
dans l’ensemble
plus
réduit F =P2 (E)
desparties
à deux éléments deE par
où
P2 (Ei)
est l’ensemble despaires
réunies dans laième
classe.-
Signalons
enfin defaçon
trèsgénérale
la variable"pondération"
sur E x Equi peut
êtrereprésentée
par une matrice carréeoù
IJxy
est lapondération
affectée aucouple (x , y), (x , y)
E E x E.La démarche
générale
pour l’évaluation de l’association entre deux variables de mêmetype (i.e.
définissant le mêmetype
de structure surE)
est la suivante :Soit
(a, b)
uncouple
de telles variables et soit(a , j3)
lecouple
de structuresdéfinies sur E par
(a, b) ;
ainsi parexemple, (a , j3)
est uncouple
departies
de Esi
(a , b)
est uncouple d’attributs ; (a , j3)
est uncouple
depréordres
totaux sur Esi
(a , b)
est uncouple
de variablesqualitatives
ordinales. A a(resp. j3)
nous asso-cions l’ensemble A
(resp. B)
des structures sur E de mêmetype
et ayant les mêmescaractéristiques
cardinales que a(resp. Ainsi
parexemple
si a est unpréordre
total sur E de
composition
u= (n 1 , n2
... ,1 nk) (n = ni
1 +n2
+... +...+ n k ) ;
A
peut
être défini comme l’ensemble de tous lespréordres
totaux sur E de mêmecomposition
u.Conformément à
ci-dessus,
nousreprésentons (a , par
uncouple
de par- ties(R (a), R(3)),
éventuellementpondérées,
de E s’ils’agit
de variables de la pre- mièrecatégorie
et de E x E s’ils’agit
de variables de la deuxième.Revue de Statistique Appliquée, 1980, vol. XXVI I1, n 3
8 On introduit l’indice "brut" de
proximité
auquel
nous associons les deux variables aléatoires dualesoù
0/.’ (resp. (3’)
est un élément aléatoire dans l’ensemble A(resp. B)
muni d’uneprobabilité
uniformémentrépartie.
On démontre defaçon synthétique,
pour les différents cas ci-dessusenvisagés,
que la distribution de la v.a.Sa
est la même quecelle, S{3 ;
d’autrepart, l’expression
formelle des moments d’une telledistribution permet de
montrer, sous des conditions assezgénérales,
son caractèreasympto- tiquement
normal(cf. [7], [8], [9], [10]).
Endésignant
parJ-La{3
et03C3203B103B2 la
moyenneet la variance de cette
distribution,
nousappelons
indice "centré réduit"C’est cet indice
qui prend
le sens d’une corrélationgénéralisée,
on s’en rendracompte
ci-dessous( § II.2.)
dans le cas de lacomparaison
d’uncouple
de variablesnumériques.
N
désignant l’hypothèse
d’absence de lien ci-dessusexprimée,
l’indice défi- nitif que nous considérons etqui
se réfère à une échelle deprobabilité,
s’écritoù S est l’une des deux v.a. duales de même loi
Sa
etSa.
En d’autres termes, les deux variablesdescriptives
a et b ont undegré
de ressemblance d’autantplus grand
que la valeur de s est invraisemblablement
grande,
relativement àl’hypothèse
d’ab-sence de lien N.
Le passage de la formule
(6)
à celle(7)
sefait,
avec une bonneapproxima- tion,
au moyen de la relationoù et>
est la fonction derépartition
de la loi normale(0 ,1).
La démarche
générale peut
être résumée par le schéma suivant :Ce schéma intervient dans les méthodes de I.C.
LERMAN,
àchaque
foisqu’il
y a lieu de définir un critère desynthèse
pour la formation des classes ou la reconnaissance de leur"signification".
Revue de Statistique Appliquée,1980, vol. XXVI I I, n" 3
9
Il.2. CAS PARTICULIER DE LA COMPARAISON DE DEUX VARIABLES
NUMERIQUES
(a, b)
est uncouple
de variablesnumériques ; ayant
codé E par l’ensemble 1 ={ 1 , 2 ,
... ,i,
., ... ,n 1
on est conduit àprendre
comme indice brut de pro- ximitéoù
ai (resp. t3i)
est le nombre affecté à l’individu i par lapremière (resp. seconde)
variable.
Dans le cas où la donnée est un
couple
depondérations
sur E(ou
d’ailleurssur E x
E), l’hypothèse
d’absence de lienprend
nécessairement une forme per- mutationnelle.Les deux v.a. duales associées à
(9)
sont icioù a est un élément aléatoire dans l’ensemble
Gn
des n !permutations
sur I. Onsait que l’étude du
comportement asymptotique
d’une telle distribution estl’objet
du célèbre théorème de
Wald,
Wolfowith etNoether ; repris
parHajek.
La moyenne et la variance communes sont
respectivement :
où M et ’ (resp. Po
eta;)
sont la moyenne et la variance de la distributionempi-
rique de
a(resp. b)
surE ;
c’est-à-dire{ai /i
EI} (resp. {0, /i E I}).
L’indice "centré réduit" se met sous la forme
où
p (a, b)
estprécisément
le coefficient de corrélation entre les deux variables a et b.Le caractère
asymptotiquement
normal de la distribution commune deSa
etde
S¡3
conduit à l’indicequi
se réfère à une échelle deprobabilité
sous la formeIII. STRUCTURE DE PROXIMITE PRISE EN COMPTE PAR A.V.L.
(ALGORITHME
DE LA VRAISEMBLANCE DESLIENS)
Dans la
pratique,
pour des raisons liées à la variance de lareprésentation
desunités de données dans les Sciences
Humaines,
on centre et on réduitglobalement
Revue de Statistique Appliquée, 1980, vol. XXVII I, n" 3
10
le tableau
symétrique
suivant des indices "centrés réduits"Q (a, b) (cf
formule(6)
§ 11.1.)
entre éléments de l’ensemble V à classifier :et ce, avant la référence à une échelle de
probabilité.
En d’autres termes, on subs- titue au tableau(1),
le tableauavec
où
Q
eta 2
sont la moyenne et la variance de la distribution deQ
sur l’ensemblep2 (V)
despaires (i.e. parties
à deuxéléments)
de V. ‘Il nous suffit ici de supposer que l’ensemble V est celui des variables de
description
et que l’indiceQ n’est,
à un coefficientmultiplicatif près,
autre que le coefficient decorrélation, lorsque
V est formé de variablesnumériques.
La structure de
proximité prise
encompte
dansl’Algorithme
de la Vraisem- blance des Liens est définie par la table des nombresavec
L’arbre des classifications associé à cet
algorithme
est construit defaçon
ascendante en démarrant de la
partition
laplus
fine et en réunissant àchaque
pas lapaire
ou lespaires
de classes lesplus "proches"
au sens de l’indice deproximité
que nous allons ci-dessous
exprimer.
Pour obtenir un telarbre,
il y a donc lieu d’étendre la notion deproximité
entre deux éléments àcelle,
entre deuxparties disjointes
C et D de V.On
part
de l’indice de basequi joue
le rôle de l’indice "brut" :où P
(c, d)
a été défini en(5).
L’indice final
qu’on
retiendra résulte de la distribution de la v.a.p (C’, D’)
associées à
(6),
oùC’
etD’
sontrespectivement
associés à C et D dans le cadre d’unehypothèse
d’absence de lien tenantcompte
descaractéristiques
de cardi-nalité de C et de D. L’indice
auquel
on aboutitprend
la forme suivante :où 1 = card
(C)
et m = card(D).
Le passage de l’indice
(6)
à celui(7)
a constitué unprogrès décisif
pourl’apparition
des classes defaible
cohésionqui
n’en ont pas moins une certaine cohérence interne - les éléments de telles classes se trouvaient avec l’indice(6) éparpillés
en raison de l’attraction dequelques
noyaux de forte cohésion.F. Nicolaü
(thèse
enpréparation
à la Faculté des Science deLisbonne)
a
imaginé
d’autres indices de mêmetype :
vraisemblance d’unlien ;
mais où le lien est mesuré par une autre fonction que le maximum de l’ensemble des valeursRevue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
11
par
exemple
àpartir
de la loi de la v.a., associée dansl’hypothèse
d’absence de lien àToutefois,
lespremiers
résultatscomparatifs
obtenus par la classificationhiérarchique
montre que c’esttoujours
l’indice(20) qui
donne les résultats lesplus
raffinés et lesplus
cohérents dans leurs nuances.IV. REPRESENTATION
GEOMETRIQUE
D’UN TABLEAU DE CONTINGENCEReprenons
le tableau C(cf. (7) § I)
decontingence
représentant
les cardinaux des classes du croisement de deuxpartitions ;
lapremière
à n = card
(I)
classes et la deuxième à m = card(J)
classes.Pour
représenter géométriquement
ce tableau dedonnées,
on faitjouer
àl’un des deux ensembles 1 ou
J,
le rôle de l’ensemble despoints-objets
et àl’autre,
le rôle de l’ensemble des variables.
Si,
pour fixer lesidées,
c’est 1qui joue
le rôlede l’ensemble des individus ou
objets
et J celui desvariables,
lareprésentation
la
plus
courante de 1 à travers J est fournie dans le cadre del’Analyse
des Corres-pondances.
En notant, pour tout(i, j) El I x J,
On associe à I le nuage
N (1)
suivant dansRm
muni de lamétrique diago-
nale
(1 / p . / j E J) :
où
pi,
est la masse affectée aupoint fpour
tout i E I.Considérons pour fixer les
idées,
leproblème
de la classification de J. Ilimporte
de noter ici unedifférence
essentielle entre notre méthode et cellequi
domine la "Classification Ascendante
Hiérarchique"
de J P. BENZECRI et M.JAMBU pour ce
type
de données. Cette méthode seconçoit
au niveau de Rn oùJ est
représenté
par un ensemble depoints-objets
ouindividus,
elle utilise lesconcepts
de distance au carré et d’inertieexpliquée
conformément à lamétrique
du
X .
Alors que notre méthode seconçoit
au niveau de(Rm)*
et utilise le con-cept
de lacorrélation,
conformément à lareprésentation géométrique
ci-dessusdéfinie .
Revue de Statistique Appliquée,1980, vol. XXVtH.n" 3
12
V. INDICE DE PROXIMITE ENTRE COLONNES OU LIGNES D’UN OU D’UNE JUXTAPOSITION DE TABLEAUX DE CONTINGENCES
V.1. Cas d’un seul tableau
Comme nous venons de
l’exprimer, soit,
pour fixer lesidées,
leproblème
de la classification de
J,
J devantjouer
le rôle de variablesdescriptives,
considérons lareprésentation
de 1 à travers J et prenons celle laplus
commune, définie par le nuage N(I) (cf. (3) § IV)
où la mesure de lavariable j
sur l’individu i est définie parfij (cf. 2) § (IV), 1 , j m, 1
i n.L’indice de
proximité
entre leséléments j
et h deJ,
1j,
h m, n’estautre que le coefficient de corrélation p
(j, h)
dont nous allonspréciser l’expression.
On a
c- ---
où moy
désigne
moyenne et var variance.D’autre
part,
où cov
désigne
la covariance.On obtient finalement
Cet indice
dépend
exactement de lareprésentation
euclidienne de 1 à traversJ,
il est invariant parrapport
à lamétrique
dontpeut
être muni Rm pour l’évalua- tion des distances entre éléments de I.Pour obtenir directement l’indice de
proximité
entre éléments deI,
il y a defaçon analogue
lieu de considérer lareprésentation
euclidienne de J à travers Iau moyen du nuage dual N
(J).
Revue de Statistique Appliquée,1980, vol. XXVI I I, n° 3
13
On
peut,
àpartir
de(3),
écrirel’expression
de cet indice en intervertissant les rôles de I et deJ ;
soita
Les valeurs de l’indice
(3) (resp. (3’))
entre éléments de J(resp.
deI) joueront
le même rôle que celles de l’indice
Q (a, b),
conformément à la table(1)
du para-graphe
III. Onapplique
à ces indices la même transformation(3) (§ III)
pour aboutir à la structure deproximité (5) ( § III) prise
encompte
par A.V.L.V.2. Structure d’une
juxtaposition
de tableaux decontingences
Nous
distinguons
deuxprincipaux types
de cette structure :a)
Le tableauglobal
des données est indexé par un ensemble de la formeoù le sous-tableau indexé par
I(k)
xJ ( 1)
est un tableau decontingence
et où l’ensemble des variables dont les modalités indexent les
lignes
estdisjoint
de l’ensemble des variables dont les modalités indexent les
colonnes).
b)
Le tableaugénéral
des données est indexé par un ensemble de la formeoù le sous-tableau indexé par
J (1)
xJ(I’)
est une vraie table decontingence
sil’
=1= 1 et se réduit à un tableau carréJ (1)
xJ (1)
où seulement ladiagonale
n’estpas
chargé
de zérossi l’
= 1. La suite des valeurs de cettediagonale
est la suitedes nombres
k(j(l»
d’individuspossédant la j(l)-ème
modalité du caractère0(1)
EJ(1»).
Ils’agit
de ce que l’onappelle
communément le tableau de"Burt" ; généralement
associé au croisement par lui-même de l’ensemble desquestions
d’un
questionnaire.
Désignons
par J = U{J(l) /1
1L } ;
le tableau carré J xJ, pris globa-
lement est
symétrique quant
à son contenu :un même sous-tableau de
contingence
se retrouvant deux fois aux blocsNous considérons cette structure du tableau des données comme
plus
éloi-gnée, comparativement a a) ci-dessus,
d’une structure de tableau decontingence ;
cela d’ailleursapparaît clairement,
au niveau de la définition d’un indice deproxi-
mité entre
lignes
ou colonnes.Revue de Statistique Appliquée, 1980, vol. XXVI II, n" 3
14
V.3. Extension de l’indice dans le cas d’une
juxtaposition
de tableaux de contin- gencesNous
adoptons
pour l’extension de l’indice unprincipe
deparcimonie qui
consiste à
prendre
àchaque
fois la solution laplus
locale mettant en oeuvre leplus petit
nombre de tables decontingences.
Supposons,
sans restreindre lagénéralité
et pour fixer lesidées, qu’il s’agit
de définir un indice de
proximité
entre deuxcolonnes j
etj’.
On considère alorsla
plus "petite" juxtaposition
de tables decontingences,
dont la structure est celle dea) ci-dessus,
etqui
contient les deuxcolonnes j
etj’ ;
dans une tellejuxtapo-
sition il y a au
plus
deuxrangées
verticales de tables decontingences.
A chacunedes tables
I(k)
xJ (1)
de cette dernièrejuxtaposition,
on commence par associer la table desfréquences :
à
laquelle
on substitue la tableoù t est le nombre de tableaux de
contingences
de la dernièrejuxtaposition.
De la sorte on se ramène à une
pondération positive
de masse totale 1sur un
produit
de deux ensembles de la formeI’
xJ’ qui
définit un sous-tableau du tableautotal, correspondant
à lajuxtaposition
retenue. C’est au niveau dece dernier tableau de nombres que l’indice
p (j, j’)
est calculé conformément à la formule(3)
ci-dessus. Pourplus
de détails on se référera à[14]
où les formulessont
développées
pour chacun des cas. Nous nous limiterons ici à considérer ci- dessous(Figure 1)
le schéma concerné par le calcul que nous allonspréciser
dansle cas
particulier
d’unejuxtaposition
selon unedirection, horizontale,
de tablesde
contingences ;
cequi correspond
à K = 1. Le tableauglobal
se trouve alorsindexé par un ensemble de la forme
où chacun de ses sous tableaux I x J (1) est de
contingence ;
1 1 L.Figure 1
Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
15
-
Soit
le problème
de l’extension de l’indice(3)
ci-dessus entre éléments deJ = U
{J (1) / 1
lL} ;
considérons pour cela uncouple (j, j’)
d’éléments dis- tincts de J.Dans le
premier
cas où il existe 1 tel que(j, /) ~ J(l)
xJ(l),
on se ramèneexactement à la situation V.1.
précédente
où il y a lieu de considérer l’indice(3) entre j et j’
relativement au tableau decontingence
1 xJ(1).
Dans le deuxième cas où
(j, j’) ~ J(1)
xJ(l’) avec f :0 l,
on considèrera la définition de l’indice parrapport
au sous-tableau indexé par 1 x(J(l), J(()) qui
est défini par une
juxtaposition
horizontale d’exactement deux tables de contin- gence. Endésignant
parles deux matrices de
fréquences, respectivement
associées aux deux tableaux decontingence
1 xJ{])
et I xJ ( 10)
on définit le tableau depondérations,
de massetotale 1
en
posant
De la sorte, relativement à l’ensemble du tableau 1 x
J’ où
J =J(I)
UJ(I’),
on a
et
où
p(l)i. (resp. p(l’)i.)
est la masse de i définie au niveau du tableau 1 xJ(/) (resp.
1 x J (1’».
Dans ces
conditions,
onappliquera
l’indice(3)
duparagraphe
Vprécédent
à
partir
des nombres du tableau(11) entre j
deJ(/)
etj’
deJ(l’).
En utilisant les élémentsprimaires
définis au niveau de chacun des tableau 1 xJ{/)
et 1 xJ (1’),
cet indice
peut
se mettre sous la forme :Il
importe
ici de noter une différence parrapport
à la nature de la struc-ture
prise
encompte
dansl’Analyse
Factorielle desCorrespondances Multiple (cf. [3]).
Alors que dans cette méthode onprend
directement encompte
l’en- semble du tableau résultant de lajuxtaposition
de toutes les tables de la formef 1 (k) xJ (1) (cf. (7) ci-dessus)
pour lui substituer un seul tableau définissant une Revue de Statistique Appliquée, 1980, vol. XXV 111, n° 316
pondération positive
de masse totale1,
obtenue en divisant le contenu de cha-cune des cases par le nombre de tables de
contingences ;
il nous suffitquant
ànous
d’opérer
leplus
localementpossible,
defaçon qui
nousparaît précise
etce,
compte
tenu de la structure deproximité prise
encompte
par A.V.L.(cf.
§ III).
V.4. Cas d’un tableau de "Burt"
Bien que la
démarche
duparagraphe précédent permette
le calcul de la valeur de l’indice deproximité
pourchaque couple
delignes
ou colonnes d’un teltableau,
dans notre
approche
del’analyse
par la classification d’unquestionnaire,
nous nousrefusons d’assimiler le tableau de Burt à un tableau de
contingence.
Dans cetteapproche,
pourl’organisation
desvariables,
il y a deuxétapes correspondant
àdeux niveaux
d’analyse différents ;
lepremier
niveau étant leplus global. Chaque question
définissant unevariable-partition
sur l’ensemble E des individus où la l-ème a card(J(l» modalités ;
lapremière étape
consiste dans la classification de l’ensemble desquestions
conformément à l’indicegénéral
deproximité appliqué
au cas des variables
partitions (cf. § 11.1.).
Cetteétape permet
laréorganisation
du
questionnaire
enchapitres
etsous-chapitres correspondant respectivement
àdes thèmes et sous-thèmes
principaux
ducomportement
de lapopulation
étudiéeà travers l’échantillon défini par l’ensemble E.
La deuxième
étape
consiste à associer àchaque
modalité d’une même ques- tion unattribut ;
formant de la sorte un ensemble A de card(J)
= card(J (1)
+ ...+ card
(J(L»)
attributsdescriptifs ;
les attributs associés aux modalités d’une mêmequestion
étant mutuellement exclusifs etcomplémentaires.
Le tableau de Burtapparaît
alors exactement comme le tableau des indices "bruts" s deproximité
entre attributs
(cf. (5) § 11.1.).
La classificationhiérarchique
de A conformément àl’Algorithme
de la Vraisemblance des Liens(cf. § III) permet
la découverte desprofils
et sousprofils
decomportement ; lesquels permettent
de"comprendre"
la formation des thèmes apparus à travers les classes de
questions
del’analyse glo-
bale.
Signalons
à titre indicatif que deux autresétapes complètent
notreanalyse
pour ce
type
de données. D’abord une classificationhiérarchique
de l’ensemble E des individus décrits à travers l’ensemble A des modalités - attributs où dans l’élaboration de l’indice deproximité
parrapport
à unehypothèse
d’absence delien,
on tientcompte
de la structure formelle etstatistique
de A(cf. [10]).
La dernière
étape
consiste en le croisement decouples
de classifications où lepremier argument
d’uncouple
donné est une classification sur E corres-pondante
à un niveausignificatif (repéré
àpartir
d’un indice designification
basésur l’ordonnance
(cf. [7], [8]))
de l’arbre des classifications sur E et où le secondargument
ducouple
est une classificationsignificative
dans le même sens, de l’en- semble A des attributs(cf. [12], [13]).
Il se pose maintenant la
question d’analyser
lacomparaison
entre les deux démarches que nous avonsesquissées
pour établir l’indice deproximité
sur l’en-semble des modalités-attributs indexant les
lignes (resp. colonnes)
d’untableau
de
Burt ;
cellequ’on
vientd’exprimer
et celle duparagraphe
V.3 ci-dessus.Revue de Statistique Appliquée,1980, vol. XXVIII, n° 3
17
V.5. Cas d’une famille de distributions sur une suite d’ensembles finis
(J(1),
... ,J(l),
...,J(L»)
est une suite d’ensembles finis etchaque
i de 1définit la suite de distributions de
probabilités
où pour
chaque i, ~iJ (1)
définit une distribution deprobabilité
surJ(1).
Pour étendre l’indice
qu’on
vient de définir(cf. §
V.1&.V.3ci-dessus)
oncommencera par associer à
chaque
tableauà card
(I) lignes
et card(J(l» colonnes,
le tableau des nombresoù
La suite des tableaux
tPIxJ (1)
est alors assimilée à unejuxtaposition
detableaux de
fréquences
àlaquelle
onapplique
leprincipe exprimé
auparagraphe
V.3
précédent.
VI. ARBRE DES CLASSIFICATIONS DIRECTEMENT ASSOCIE A L’INDICE
VI. 1.
Rappel
pour le cas d’un critère basé sur les carrés des distancesLa structure des données
qui
nous intéresse ici est cellequ’on peut
assimiler à un tableau decontingence.
En d’autres termes, la donnée de base que nous considérons ici est celledéfinie par une distrib ution de
probabilités
sur 1 x J.Il
s’agit
du tableau defréquences
si la donnée est un tableau C de contin- gence(cf. (7) § 1) ;
du tableau des nombress’il
s’agit
d’unejuxtaposition
selon les deux directions de K x L tableaux de con-tingences.
C’est en d’autres termes lareprésentation mathématique adoptée
dansl’Analyse
Factorielle desCorrespondances Multiple
mais oùici,
nousn’intégrons
pas le cas du tableau de Burt.
Nous avons
déjà
fait allusion auxparagraphes
1 et IV à la méthode de for- mation de l’arbre desclassifications,
basée sur l’inertieexpliquée
conformément à lamétrique
duX2.
Considérons pour fixer les idées la classification de J. Cette méthode nepeut
se concevoirqu’au
niveau de lareprésentation
euclidienne du nuage N(J).
Revue de Statistique Appliquée, 1980, vol. XXVI II, n° 3
18
Lorsqu’on
utilise lareprésentation
euclidienne du nuageN (J) dans Rn
muni de la
métrique diagonale
définie par l’inverse despoids
pi., une même classeJr
se trouvereprésentée
par son centre degravité
où nous avons noté
A
partir
d’un niveau donné de l’arbre définissant lapartition
on passe au niveau suivant en réunissant les
paires {J r ’ J s }
de classes pour les-quelles
la variation du critère de l’inertie estminimum ;
cette variations’exprime
par la formule -- - ._ _
D’une
étape
àl’autre,
il y a lieu de réactualiser les centres degravité
desclasses ;
c’est-à-dire de calculer les centres degravité
des nouvelles classesJrU JS
formées ;
au moyen de la formuleet d’affecter au centre de
gravité grvs
de la nouvelleclasse,
lepoids (p(Jr) +p (Jg)).
Ainsi,
cettefaçon
de former l’arbre des classifications "oublie"complète-
ment le tableau
fIx J
dèsqu’on
a "installé" le nuageN (J)
dansôt
muni de lamétrique diagonale {1 /pi.ll
in }.
Une deuxième
façon
de concevoir la formation de l’arbre se situe au niveauplus
élémentaire de la tablefixe
et ne nécessite quel’expression
de la distance duX2
entre deuxcolonnes j et j’ d’un
même tableaufI x J ; à
savoirEn
effet,
lapremière étape
de cette forme del’algorithme
consiste à déter- miner lapaire,
ou lespaires
de colonnes s’il y en aplusieurs,
pourlesquelles
la va-leur de l’indice
(5)
est minimale. Si{j , j’}
est une tellepaire,
on fusionne les colon-nes j
etj’en
une seule que nousnoterons j
vj’ (représentant
la classe{j , j’})
et nousDoserons
Le nouveau tableau des nombres
fir
atoujours
son ensemble deslignes
in-dexé par 1 alors que son ensemble de colonnes se trouve indexé par l’ensemble
Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
19
des classes de J en
présence
dont le nombre est ici card(J)
moins le nombre de classes formées. La somme despondérations fir
esttoujours égale
à1 ;
d’ailleursil est
important
de noter que si le tableau initialf1xJ
est associé à un tableau decontingence ;
c’est-à-dire le tableau desfréquences
des classes du croisement de deuxpartitions
sur un ensemble Ed’objets ;
le nouveau tableau estégalement
demême nature, associé au tableau de
contingence
de croisement de deuxpartitions
dont la
première (aux
classes indexées parI)
estidentique
à cellecorrespondante précédente
et dont la seconde a ses classes indexées par les classes enprésence
de J .Le passage d’un niveau
quelconque
de l’arbre des classifications au niveau suivant n’est pasplus général
dans son articulation. Si{J1 J 2 ’
... ,Jt }
est la par-tition de J
correspondante
à un niveau donné del’arbre ; désignons
parle tableau des
fréquences
des classes du croisement de deuxpartitions
surE,
où les classes de lapremière
sont indexées par 1 et où les classes de la secondeparti-
tion sont
respectivement
indexées parJ, J2,
... ,J..
On a, en revenant auxpartitions initiales,
On se ramène ainsi à une situation
analogue
à celle de lapremière étape,
mais avec le tableau
(7)
de dimension card(I)
x t.On
peut interpréter
en termesgéométriques
celle nouvelle manière de former l’arbre des classifications surJ ;
eneffet,
ils’agit
àchaque
pas de réunir lespaires {Jr , Jg }de
classes pourlesquelles
est minimale la distance au carré entre les centres degravité
deJ r
et deJ. ;
c’est-à-dire avec les notations(2)
ci-dessusAlors
qu’on
notera que laquantité
critère(3), qui correspond
à lapremière procédure
pour la formation del’arbre, pondère
cette distance au carré entre lescentres de
gravité
par le coefficient p(Jr)
p(Js) /
p(J r U JJ.
VI. 2. Arbre des classifications directement associé à l’indice
Nous
inspirant
de la deuxièmefaçon
de former l’arbre des classifications dans le casprécédent
d’un critère basé sur le carré de ladistance ;
il est tout à fait naturel de proposer le mêmealgorithme
de formation de l’arbre àpartir
de l’indice corré- lation que nous avons défini(cf.
formule(3) § V).
Le passage d’un niveau donné de l’arbre au suivant se fait donc exactement de la même
façon
queci-dessus ;
à celaprès
que l’indice deproximité
entre colon-nes
(qui peuvent
résulter deregroupements
de colonnesinitiales)
n’estplus (9) ci-dessus,
mais celui(3)
duparagraphe
Vprécédent :
Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3