R EVUE DE STATISTIQUE APPLIQUÉE
E. M. Q ANNARI E. V IGNEAU P H . C OURCOUX
Une nouvelle distance entre variables. Application en classification
Revue de statistique appliquée, tome 46, n
o2 (1998), p. 21-32
<http://www.numdam.org/item?id=RSA_1998__46_2_21_0>
© Société française de statistique, 1998, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE NOUVELLE DISTANCE ENTRE VARIABLES.
APPLICATION EN CLASSIFICATION
E.M.
Qannari,
E.Vigneau,
Ph. CourcouxENITIAA/INRA - Unité de
Statistique Appliquée
à la Caractérisation des Aliments, Domaine de la Géraudière, BP 82225, 44322 Nantes cedex 03 - FranceRÉSUMÉ
Une distance euclidienne entre variables
quantitatives qui
permet de tenir compte aussi bien des variances des variables que de leurs corrélations est discutée.Lorsque
les variables sont standardisées, cette distance permet de retrouver un indice usuel de dissimilarité entre variables. De même, cette distance peut s’étendre aux cas de variablesqualitatives
et d’unmélange
de variablesqualitatives
etquantitatives.
Desprocédures
de classification de variables ainsi que desapplications
sont étudiées. Enparticulier,
nous montrons comment les résultats de la classification peuvent être mis àprofit
pour la sélection de variables et pour la détermination de variablessynthétiques.
Mots-clés :
classification
de variables,sélection
de variables,analyse
en composantesprincipales.
ABSTRACT
We discuss an Euclidean distance between variables which takes account of their correlations as well as of their variances. This distance can be extended to encompass the
case of nominal variables and a mixture of nominal and numerical variables. Procedures for
clustering
of variables andapplications
are outlined. Inparticular,
we show how clusteranalysis
of variables can be useful for
selecting
a subset of variables and for use in connection withprincipal
componentsanalysis.
Keywords : clustering of
variables, selectionof
variables,principal
componentsanalysis.
1. Introduction
La classification de variables en groupes
homogènes
revêt un double intérêt : ellepeut
servir de base pour unestratégie
de sélection de variables ou ellepeut
êtrevue comme un outil
complémentaire
del’analyse
encomposantes principales (ACP).
En
effet,
la formation de classeshomogènes
procure à l’utilisateur lapossibilité
de sélectionner dans les différentes classes une
(ou plusieurs) variable(s)
en tenantcompte
del’importance
et de la nature des classes et en faisant intervenir d’autres considérations telles que lecoût,
la facilité d’évaluation etd’interprétation
desvariables ... etc. D’autre
part,
la classification devariables,
parcequ’elle
aboutità une
partition
des variables telle que danschaque
classe on trouve des variablesqui
cement une même tendance duphénomène
alors que deux classes distinctes concernent engénéral
desaspects complémentaires,
conduit à la définition de classesprincipales (au
même titre que l’ACP conduit à descomposantes principales).
Ilest
envisageable
d’extraire de ces classesprincipales
des variablessynthétiques qui
traduisent la structure de l’ensemble des variables et
qui présentent
l’intérêt d’êtrebeaucoup plus
facilementinterprétables
que lescomposantes principales. L’objectif
visé est dans une certaine mesure similaire à celui recherché en effectuant des rotations
obliques
sur lescomposantes principales
d’une ACP(Harman, 1976).
Des méthodes de classification de variables sont
suggérées
dansbeaucoup d’ouvrages qui proposent
des indices de similarité ou de dissimilarité entre variables.Par
exemple,
le coefficient de corrélation linéaire r est un indice de similarité usuel entre variables et( 1-r)
un indice de dissimilarité. Jolliffe(1972) souligne
queparmi
8
stratégies
de sélection devariables,
celles basées sur des méthodes de classification et utilisant l’indice de similarité r conduisent à des résultats satisfaisants. Afin d’éviter deséparer
des variables fortement liées mais corréléesnégativement,
d’autres indices de dissimilarité usuellement considérés sont 1 -r2
ou1 - Irl.
Une autrestratégie proposée
parGallego
Pinillia( 1980)
consiste à considérer simultanément les variables et les variableschangées
designe,
defaçon
à classer ensemble les variables dont la corrélation est forte en valeur absolue. Cetteprocédure
sembleadaptée
pour les méthodes de classificationhiérarchique
car elle conduit à un arbresymétrique
dontil suffit de considérer une moitié pour
l’interprétation. Derquenne (1997) souligne
l’intérêt de la classification des variables et discute en
particulier
desprocédures
declassification de variables
qualitatives.
Nous discutons une distance euclidienne entre variables
quantitatives qui permet, lorsque
les variables sonthomogènes,
de tenircompte
aussi bien des variances des variables que de leurs corrélations.Lorsque
les variables sontstandardisées,
nousretrouvons un indice usuel de dissimilarité entre variables. L’idée centrale
exploitée
ici est de
«plonger»
les variables dans une structure euclidienne via lesopérateurs
introduits par Escoufier
(1970)
à savoir les matrices desproduits
scalaires entreindividus. Par la
suite,
il est faciled’adapter
desstratégies
de classification et de mettre en oeuvre deslogiciels
standards de traitement des données. Il estégalement possible
d’étendre cette distance au cas de variables
qualitatives
et de considérerconjointement
des variables
quantitatives
et des variablesqualitatives.
Des illustrations à l’aide de données réelles sontprésentées.
2. Distance entre variables
quantitatives
2.1.
Définition de la
distanceSoit S2 un ensemble de n individus. On considère ici le cas de variables
quantitatives
définies sur Q. Achaque
variable xsupposée centrée,
on associel’opérateur Wx (de
rang1)
défini par :Soit y
une autre variablequantitative (centrée)
définie sur Ç2 etWy, l’opérateur qui
lui est associé. Ennotant Il - Il
la norme euclidienne usuelle dansl’espace
desmatrices carrées d’ordre n, on considère comme distance entre x et y, la distance
entre les
opérateurs Wx
etWy :
Cette distance a été
préconisée
dans un cadreplus général
par Escoufier(1970)
pour évaluer la distance entre tableaux de données.
En
désignant
parvar(x), cov(x, y)
etr(x, y) respectivement
la variance de x, la covariance entre xet y
et le coefficient de corrélation entre x et y,D2(x, y) peut
s’écrire :ou
Il en découle :
i) D(x, y)
= 0 si et seulement si x = y ou x = -y;ii)
à varianceségales,
les variables x et y sont d’autantplus
distantes que leur coefficient de corrélation est faible en valeur absolue et que les variances sontgrandes;
iii) Lorsque x
et y sontstandardisées,
il vient :Plusieurs auteurs,
parmi lesquels
Krzanowski(1990), préconisent
de travailleravec 1 -
r2(x,y)
comme indice de dissimilarité entre x et y. Noussuggérons
icide travailler avec la racine carrée de cette
quantité
car ceci induit une structure euclidienne.2.2.
Opérateur
centroïde et inertieSoit un ensemble E formé de p variables xl, x2, ... , Xp. On
désigne également
par E le tableau des données dont les colonnes sont les variables xl, X2,..., Xp. On associe à
E l’opérateur
centroïde défini par :Cet
opérateur
centroïde est solution duproblème d’optimisation
suivant :Par la
suite,
on définit la dissimilarité entre deux groupes de variables comme étant la distance entre les deuxopérateurs
centroïdes associés. Demême,
on définit l’inertie relativement à la distance D de l’ensemble des variables constituant le tableauEpar :
En
particulier, lorsque
les variables sontstandardisées,
il vient :Cette dernière
quantité
est d’autantplus
faible que les corrélations entre variables sont élevées(structure
vectorielleunidimensionnelle).
3. Classification de variables 3.1.
Classification
ascendantehiérarchique
Etant donné une
partition El,..., Ek
en k classes de l’ensemble E formé de p variables Xl, X2, ... , Xp, l’inertie totale associée à Epeut
s’écrire comme étant lasomme de l’inertie intra- classes et de l’inertie inter-classes :
où pj
désigne
le nombre de variables deEj (j
=1, 2, ... , k)
etWE (resp. WEj),
l’opérateur
centroïde associé à E(resp. Ej).
La classification ascendante
hiérarchique
basée sur lastratégie
de Ward consisteà
agréger
àchaque étape
les deux classesEi
etEj qui
conduisent àl’accroissement, AI,
minimal de l’inertie intra-classes(voir
parexemple Diday et al., 1982; Saporta, 1990):
Cette
stratégie s’apparente
à unestratégie
deproximité
desopérateurs
cen-troïdes mais elle tient
également compte
despoids respectifs
des classes formées à unniveau donné. La tendance à
l’agrégation
de classes d’effectifsimportants
sera moinsforte que pour une
stratégie
deproximité
desopérateurs
centroïdes.3.2.
Classification
parpartitionnement
L’algorithme
des centres mobiles(voir
parexemple Diday et al., 1982; Saporta, 1990) peut
aussi êtreadapté
afin d’obtenir k classes àpartir
d’un ensemble de p variables. Dans unpremier temps, k
noyaux initiaux sont sélectionnés. Ces noyauxpeuvent
être choisis au hasardparmi
les p variables dedépart.
Au cours d’unepremière étape, chaque
variable est associée au noyau initial leplus proche
au sens de ladistance D. On forme ainsi k classes initiales
Ej (j
=1,..., k).
Par lasuite,
ladémarche est itérative. Pour
chaque
variablexi (i
=1,2,..., p) 1 on calcule D (xi, Ej)
pour j - 1, 2, ... , k
et on affecte xi à la classe pourlaquelle
cettequantité
estminimale.
Ainsi,
àchaque étape,
de nouvelles classesEl, ... , Ek
sont constituées et lesopérateurs
centroïdesWEj = 1 pj 1 n EjtEj vont jouer le
rôle de nouveaux noyaux.Cet
algorithme
constitue uneheuristique
pour minimiser l’inertie intra-classes. Il procure une alternativesimple
à laprocédure
VARCLUSqui
estimplémentée
dansle
logiciel
SAS(SAS/STAT, 1990; Derquenne, 1994).
Le choix du nombre de classes de lapartition peut
se faire en considérant lepourcentage
d’inertieexpliquée
parla
première composante principale
dechaque
classe. Parexemple,
l’utilisateurpeut imposer
que cepourcentage
soit au moinségal
à 80% comme cela estgénéralement préconisée
pour laprocédure
VARCLUS.4. Extensions
4.1. Cas des variables
qualitatives
Soit X une variable
qualitative ayant
m modalités. Ondésigne également
parX,
le tableau decodage disjonctif complet
associé à cette variable. A cetableau,
nousassocions
l’opérateur
deprojection W*X = 1 n (XV-1tX-jtj),
où V= 1 t X X
etj
est le vecteur(n x 1)
dont toutes lescomposantes
sontégales
à 1(Cazes et al., 1976; Saporta, 1976).
Nous savonsque ~W*X~
=m-1. L’opérateur
deprojection
normé associé à X est par
conséquent WX = 1 m-1 W*
Soit Y une autre variable
qualitative ayant
q modalités et soitWy l’opérateur
normé
qui
lui est associé. La distance entre X et Y est définie par :Nous pouvons vérifier
(Cazes et al., 1976; Saporta, 1976)
que :où
T (X, Y)
est le coefficient deTschuprow
défini par :(pij)(i
=1,2,.... m; j = 1, 2,..., q)
étant la distributionconjointe
de X etY; (pi+)(i
=1,2,...,m),
la distributionmarginale
de X et enfin(p+j)(j
=1, 2,..., q),
la distributionmarginale
de Y.L’inertie relativement à D d’un ensemble de p variables
qualitatives Xi, X2,..., Xp peut
être définie par :où
Wi
estl’opérateur
normé associé à laième
variable et W= 1 p 03A3 Wi.
i=l
Il vient:
où
Tij
est le coefficient deTschuprow
entre les variablesXi
etXj.
4.2. Cas des variables
qualitatives
etquantitatives
Soit x une variable
quantitative
centrée et normée. Il s’ensuit quel’opérateur Wx = k xt x
est lui aussi normé. Soit Y une variablequalitative à q
modalités etsoit
Wy l’opérateur
deprojection
normé associé àY,
défini comme auparagraphe précédent.
La distanceD (x, Y)
entre la variablequantitative x
et la variablequalitative
Y est donnée par la distance entre les
opérateurs Wx
etWy.
Nous pouvons vérifier que(Saporta, 1976) :
où
R2 (X, Y)
est lerapport
de corrélation entre x et Y défini comme étant lerapport
de la variance inter-classes et de la variance totale de x. Cette distance faitapparaître
l’indice de similarité entre x et Y défini par :
L’intérêt de cet indice est
qu’il
fait intervenir la dimension de la variablequalitative
au même titre que le coefficient deTschuprow
fait intervenir les dimensions des variablesqualitatives.
L’idée ici est que, toute chose étantégale
parailleurs,
la similarité entre x et Y est d’autantplus
faible que la dimension de Y estgrande.
Acontrario, la similarité
S(x, Y)
atteint son maximumqui
estégal
à 1si,
et seulementsi, x prend
seulement deuxvaleurs,
Y a deux modalités et les individusayant
la même modalité de Yprennent
aussi la même valeur pour x. Dans ce cas, eneffet,
le numérateur et le dénominateur deS(x, Y)
sontégaux
à 1.Les
procédures
de classification discutées pour les variablesquantitatives peuvent
s’étendre sans difficulté au cas de variablesqualitatives
ou d’unmélange
de variables
quantitatives
etqualitatives.
5. Etudes de cas
5.1. variables
quantitatives
Les données illustrant la classification de variables
quantitatives
concernentl’évaluation sensorielle de 18 mousses de
poisson
selon 17descripteurs (variables sensorielles)
dont la liste est donnée au tableau 1. L’évaluation consiste en une note entre 0 et 9.Précisément,
pourchaque
mousse depoisson
etchaque
variablesensorielle,
nous avons considéré la valeur moyenne de tous lesjuges qui
ontparticipé
à
l’expérience.
Nous discutons ici les résultats de la classification des variables standardisées et nous discuterons ultérieurement les différences obtenueslorsque
les variables ne sont pas standardisées.
TABLEAU 1
Description
des 17descripteurs
etstatistiques
sommaires.Le
dendrogramme (figure 1)
de la classificationhiérarchique
ascendante selon le critère de Wardsuggère
d’effectuer unepartition
de l’ensemble des variables en 3 classes. Laqualité
de cettepartition peut
être évaluée par lerapport
de l’inertie inter- classes et de l’inertie totale. Cerapport
est iciégal
à48,69%.
Cerapport
ainsi que les inerties des classes(tableau 2) indiquent qu’une partition plus
fine desdescripteurs
serait
souhaitable,
conduisant notamment à une division de la classeE2
en deuxclasses dont l’une contiendrait le seul
descripteur
TCASS(le rapport
de l’inertie inter-classes et de l’inertie totale est dans ce caségal
à58,32%).
FIGURE 1
Dendrogramme
de laclassification (stratégie
deWard)
des 17descripteurs.
TABLEAU 2
Caractérisation de la
partition
des 17descripteurs
en 3 classes.La classification par
partitionnement
a aussi été mise en oeuvre et a conduit à une solutionlégèrement
différente(Le descripteur
TCASS n’estplus
associé auxdescripteurs THUMI,
BHUMI etBRAPE;
ilrejoint
la classe dedescripteurs
associésaux notions de «collant» et
«gras»).
Le
problème
de sélection d’un sous ensemble de variables«représentatives»
asuscité l’intérêt de
plusieurs
auteurs(Jolliffe, 1972; McCabe, 1984;
Bonifas etal., 1984; Schlich et al., 1987; Krzanowski, 1987; Gonzalez et al.; 1990).
La classification de variablespeut
être un outil intéressant dans ce contexte. Nous illustrons ici deuxstratégies
de sélection de trois variablesparmi
les 17 variablesoriginales
ennous basant sur les résultats de la classification
hiérarchique.
Lapremière stratégie
consiste à sélectionner dans chacune des trois
classes,
la variable laplus proche
ducentroïde de cette classe. Ceci conduit au choix F =
{TFERM, THUMI, BGRAS}.
La dissimilarité
D(E, F)
entre l’ensemble E de toutes les variables et la sélection F estégale
à0,264.
La deuxièmestratégie
consiste à évaluer toutes les combinaisonsde trois variables à raison d’une variable par classe
(soit
168combinaisons)
et àchoisir la sélection F pour
laquelle D(E, F)
est minimale. Cetteprocédure
réduitconsidérablement le nombre de combinaisons à évaluer
lorsque
les cardinaux de E et F sont relativement élevés rendant matériellementimpossible
uneinspection
exhaustive de toutes les combinaisons. Cette deuxième
stratégie
conduit à la sélection F’ ={TFERM, THUMI, BCOLL}
et nous avonsD(E, F’)
=0,239.
Le nombre de toutes les combinaisons de trois variablesparmi
17 étant«raisonnable»,
nous avonsévalué,
à titre devérification,
toutes les combinaisons(au
nombre de680)
et nousavons obtenu la même
solution,
F’.Afin d’illustrer comment la classification
peut
être utilisée pour déterminer des variables factoriellessynthétiques,
une ACP normée a été réalisée dans chacune des trois classes définiesprécédemment (stratégie
deWard)
et àchaque fois,
lapremière composante principale
a été retenue. Lapremière composante
deEl, C(1)1,
représente 85,6%
de l’inertie associée àEl. C 1 (2) qui
est lapremière composante
principale
pour la classeE2, représente 59,3%
de l’inertie associée àE2.
Nousavions
déjà
noté que cette classe était relativementhétérogène (inertie
relativementélevée).
La variableC(3)1 qui
est lapremière composante principale
pour la classeE3 représente 87,1%
de l’inertie de la classeE3.
Bien que nonorthogonales,
cestrois
composantes synthétiques
rendentcependant compte d’aspects complémentaires
relatifs au
phénomène
étudié. Leur intérêt parrapport
auxcomposantes principales
de l’ensemble des 17 variables est
qu’elles
sont faciles àinterpréter
car chacune estune combinaison linéaire d’un ensemble réduit de variables relativement
homogènes.
Les
descripteurs
étant évalués sur une mêmeéchelle,
une classification des variables non standardisées a aussi été effectuée. La classification en trois classes faitapparaître
unepremière
classe de variables fortement liées à la fermeté(TFERM, TDEFO, CFERM, BFERM, BMORC),
une deuxième classe de variablesexprimant
les caractères «gras» et «collant»
(TCOLL, TGRAS, CCOLL, BGRAS, BCOLL)
etune troisième classe constituée des autres
descripteurs (TLISS, BMOUS, THUMI, TCASS, BHUMI, BRAPE, TGRAS, BHUIL). L’interprétation
de cette dernière classe n’ est pas aisée car les variabless’y regroupent principalement
du fait de leurs variances relativement faibles(tableau 1).
5.2. Variables
quantitatives
etqualitatives
Le tableau de données considéré est extrait de la thèse de
Langron (1981).
Il concerne l’évaluation sensorielle des
caractéristiques aromatiques
de 27 lots de pommes de la variété Cox(14 descripteurs quantitatifs)
sous différentes conditions destockage (3
variablesqualitatives).
Le tableau 3 donne les libellés et une des-cription
succincte des variables. Les notes sensorielles considérées pourchaque
lotcorrespondent
à la moyenne des notes attribuées par 8juges.
Pour la suite del’étude,
le lot de pommes 18 a été écarté car ilprésentait
descaractéristiques aromatiques
trèsatypiques.
La
figure
2 donne ledendrogramme
de la classification ascendantehiérarchique
des 17 variables
(critère
deWard).
Ellesuggère
d’effectuer unepartition
de l’ensembledes variables en 2
classes,
voire 4 classes si on s’intéresse à un niveau de détailplus
fin.
TAB LEAU 3
Liste des variables
(14
variablesquantitatives
et 3 variablesqualitatives).
FIGURE 2
Dendrogramme de
laclassification (stratégie de Ward)
des 14descripteurs aromatiques
et des 3 variablesqualitatives
destockage.
La variable
qualitative
SAC(stockage
enatmosphère contrôlée)
se situe dansla même classe que les variables
quantitatives COX,
PARF(parfumé),
FSEC(feuilles sèches)
et GRAI(graisseux)
car d’unepart,
les variablesquantitatives
sont fortementcorrélées
(positivement
ounégativement)
et d’autrepart,
la variable SAC a un fortimpact
sur cesdescripteurs.
Cette affirmation estétayée
par desanalyses
de la varianceà un facteur sur les
descripteurs
enprenant
les modalités de la variable SAC commeniveaux du facteur considéré. Il ressort entre autres que la variable COX est,
parmi
toutes les
variables,
laplus
discriminante(F = 7,12,
niveau designification : 0,09%) :
l’arôme COX est
particulièrement
fort sansstockage (première
modalité deSAC).
Des
interprétations
similairespeuvent
être faites dans les autres classes pourexpliquer
le
regroupement
des variables.Ainsi,
ledescripteur
RANC(rance)
est lié à la variable destockage
SAL(F
=5,20,
niveau designification : 0,45%).
Latempérature pendant
le
stockage
à l’air libre(TEMP)
semble avoir une influence sur lescaractéristiques
d’arôme
VERT, EPIC, ESYN, ALCO, SUCR,
BANA.Les résultats de cette classification
pourraient
êtrecomplétés
en effectuantune classification des variables
quantitatives
et de toutes les modalités des variablesqualitatives,
considérées comme étant des variables nominales binaires(absence, présence).
6. Conclusion
Les distances entre variables et les différentes
stratégies
de classification discutées dans cepapier présentent plusieurs avantages :
- dans le cas de variables
quantitatives,
ellesprocurent
à l’utilisateur lapossibilité
de tenircompte
des corrélations entre les variables et éventuellement de leursvariances;
- leur mise en oeuvre
peut
s’effectuer à l’aide delogiciels standards;
- elles
englobent
le cas de variablesqualitatives
et unmélange
de variablesqualitatives
etquantitatives.
Plus
généralement,
ilapparaît
que la classification de variables constitue un outil intéressant pourexplorer
la structure d’un tableau dedonnées,
sélectionner un sous ensemble de variables etcompléter
les résultats d’une ACP.Références
bibliographiques
BONIFAS
L.,
ESCOUFIERY.,
GONZALEZ P.L.,
SABATIER R.(1984).
Choixdes variables en
Analyse
enComposantes Principales.
Revue deStatistique Appliquée, 32(2),
5-15.CAZES
P.,
BONNEFOUS S. BAUMERDERA.,
PAGES J.-P.(1976). Description
cohérente des variables
qualitatives prises globalement
et de leurs modalités.Statistique
etanalyse
desdonnées,
2 et3, 48-62.
DERQUENNE
C.(1994).
VALITYPO : une macro pour validerstatistiquement
unetypologie.
SEUGI/club SAS’94.Strasbourg,
France.DERQUENNE
C.(1997).
Classification de variablesqualitatives.
XXIXe JournéesASU,
Carcassonne.DIDAY
E.,
LEMAIREJ.,
POUGETJ.,
TESTU F.(1982).
Elémentsd’analyse
dedonnées.
Dunod,
Paris.ESCOUFIER Y.
(1970). Echantillonnage
dans unepopulation
de variables aléatoires réelles. Thèse de doctorat d’Etat. Université deMontpellier.
GALLEGO PINILLIA J.
(1980).
Uncodage
flou pourl’analyse
descorrespondances.
Thèse de 3e
cycle,
université Paris VI.GONZALEZ P.
L., CLÉROUX R.,
RIOUX B.(1990). Selecting
the best subset of va-riables in
principal components analysis. Compstat, Physica-Verlag Heidelberg - IASC,
115-120.HARMAN H. H.
(1976).
Modem factoranalysis.
Thirdedition, Chicago : University
of
Chicago
Press.JOLLIFFE I. T.
(1972). Discarding
variables in aprincipal component analysis.
I :artificial data.
Appl. Statist., 21,
160-173.KRZANOWSKIW. J.
(1990). Principles
of multivariateanalysis,
a user’sperspective.
Oxford statistical science series.
KRZANOWSKI W. J.
(1987).
Selection of variables to preserve multivariate data structureusing principal components. Appl. Statist.,
36(1),
22-33.LANGRON S. P.
(1981).
The statistical treatment of sensoryanalysis
data. Ph.D.thesis,
Univ. of Bath.McCABE G. P.
(1984). Principal
variables.Technometrics,
26(2),
137-144.SAPORTA G.
(1976). Quelques applications
desopérateurs
d’Escoufier au traitement des variablesqualitatives. Statistique
etanalyse
desdonnées, 1,
38-46.SAPORTA G.
(1990). Probabilités, analyse
de données etstatistique.
Ed.Technip,
Paris.
SAS/STAT
(1990).
User’sguide.
Version6,
Vol. 2.SCHLICH
P.,
ISSANCHOUS.,
GUICHARDE.,
ETIEVANT P. et ADDA J.(1987).
RV coefficient : a new