R EVUE DE STATISTIQUE APPLIQUÉE
C ATHERINE D UPONT -G ATELMAND Une méthode de classification automatique sur variables hétérogènes
Revue de statistique appliquée, tome 27, n
o2 (1979), p. 23-37
<http://www.numdam.org/item?id=RSA_1979__27_2_23_0>
© Société française de statistique, 1979, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
23
UNE MÉTHODE DE CLASSIFICATION AUTOMATIQUE SUR VARIABLES HÉTÉROGÈNES(*)
Catherine DUPONT-GATELMAND
Attachée de recherche au C.N.R.S. Lamsade - Université PARIS IX
RESUME
Nous proposons une méthode de classification non
hiérarchique
d’un ensemble d’indi- vidus (ou d’objets) caractérisés par des variables hétérogènes (nominales, ordinales ou numé- riques). Purement descriptive, elle permet la constitution de groupeshomogènes
dans la popu- lation étudiée en respectant la nature de chacune des variables.Cette méthode est itérative et consiste à effectuer alternativement un processus d’agré- gation autour de centres variables et une série d’analyses canoniques pour déterminer les co-
dages : ces derniers ne sont donc pas fixés a priori.
INTRODUCTION
La
plupart
des méthodesd’analyse
des données ont été élaborées pour utiliserun
type particulier
de données(qualitatives,
ordinales ouquantitatives). Or,
dans laréalité,
lepraticien
désire souvent utiliserconjointement,
à l’aide d’une seule mé-thode,
des données à la foisqualitatives
nominales(situation
defamille,
sexe, caté-gories socio-professionnelles, etc.),
ordinales(préférences
pour desproduits,
atti-tudes à
l’égard
dephénomènes sociaux, etc.)
etquantitatives (revenu,
chiffred’affaires, etc.).
Afin d’étudier et de traduire de telles
observations,
il estindispensable
deconsidérer le
problème
à la base et des’interroger
sur lecodage
desdonnées,
inévi-table
pont
entre celles-ci et une méthode de traitementn’acceptant qu’un
seultype homogène
de variables.De nombreuses recherches ont
déjà
été menées sur ce domaine dans diverses directions(cf.
SAPORTA[15]).
Certaines étudesportant plus spécifiquement
sur le
codage
des variablesqualitatives
ont montré que destechniques
fort clas-siques (analyse
de lacovariance, analyse
factoriellediscriminante, ...)
n’étaienten fait que des méthodes de
codage
de variablesqualitatives
ayant commeobjectif l’optimisation
d’un critèred’ajustement (R.P.
MAC DONALD[13],
CAILLIEZ F.et PAGES J.P.
[3]).
De soncôté,
M. MASSON[14]
asouligné
la nécessité de fairede
l’analyse
non linéaire et a ainsi étudié les liaisons non linéaires des variablesnumériques
au moyen d’uneanalyse canonique généralisée.
(*) Nous avons donné le nom de "CATY" à cette méthode de Codage Adaptatif en
TYpologie.
Revue de Statistique Appliquée, 1979, vol. XXVII, n° 2
Par
ailleurs,
Y.TAKANE,
F.W. YOUNG et J. Dé LEEUW ontsystématisé l’intégration
des variablesqualitatives
dans des traitements conçus initialement pour des variablesquantitatives.
Ils ontainsi, depuis
trois ouquatre
ans, mis aupoint :
-
l’analyse
en composantesprincipales
aveccodage :
PRINCIPALS[20] ;
- la
régression multiple
etl’analyse canonique
aveccodage : MORALS/
CORALS [21 ] ;
-
l’analyse
de la variance aveccodage :
ADDALS[22] ;
-
l’analyse
desproximités
aveccodage :
ALSCAL[23 ] ;
- et
plus généralement
leprojet
HOMALS de J. de LEEUW.Dans cette même
direction,
M. Tenenhaus[18] a
réalisél’analyse
en compo-santes
principales
d’un ensemble de variables nominales ounumériques. Toutefois,
au contraire de
PRINCIPALS,
son programmePRINQUAL
nepart
pas d’une solu- tionarbitraire,
convergepratiquement plus rapidement
et fournit un seulcodage
par variable nominale.
Il convient enfin de
signaler quelques
ouvrages dus à G. SAPORTA[16],
J.M. BOUROCHE
[2], CAZES, BAUMERDER,
BONNEFOUS ET PAGES[4]
qui
ontégalement apporté
uneimportante
contribution auxproblèmes
soulevéspar le
"codage".
1. POSITION DU PROBLEME
On considère un ensemble 1 d’individus de cardinal n sur
lequel
on mesure p variables xixp qui peuvent
être soitqualitatives
nominales ouordinales,
soitquantitatives (J désigne
l’ensemble de ces pvariables).
Le
problème peut
êtreposé
de lafaçon
suivante : trouver simultanément lapartition
de l’ensemble des individus et lecodage optimal
des données au sensd’un critère
qui
mesurel’adéquation
des individus aux différentes classes etrespecte
les contraintes de nature des données(qualitatives,
ordinales etquantitatives).
1.1. -
Quelques rappels
sur le"codage"
Les résultats
généraux
que nous exposons ontdéjà
étéexplicités
dans denombreux ouvrages ou
publications (cf.
BOUROCHE[2 ] ; CAILLIEZ,
PAGES[ 3];
CAZES, BAUMERDER, BONNEFOUS,
PAGES[4] ;
DROUET D’AUBIGNY[7] ;
HAYASHI
[9] ;
; MASSON[13] ;
SAPORTA[15] ;
TENENHAUS[17], [18], YOUNG,
DeLEEUW,
TAKANE[20]
à[23]).
On notera Xi l’ensemble des valeurs
possibles
d’une variablexj (application
définie sur 1 et à
valeurs dansSC.).
1.1.1.
Définition
du"codage "
d’une variableUn
codage
d’une variableXj
est obtenu àpartir
d’uneapplication ti : Xi ~
R.La variable codée
03B8j
=tj o Xj
est une variablequantitative
réelle.Il y a une infinité de
codages possibles
et la recherche d’untj particulier dépend
del’objectif poursuivi :
le critère àoptimiser
est défini comme on le verraen fonction de la méthode. De
plus,
des contraintes decodage
sontimposées
selonla nature des variables considérées.
1.1.2. Contraintes selon la nature des variables
- Cas d’une variable
qualitative
nominaleSoit
Xhj
la variable indicatrice associée à la modalité h :On introduit ainsi
mi
variables indicatrices :La contrainte
imposée
par cetype
de variablepeut
être formulée de lafaçon
suivante :
Pour tout i et
i’ appartenant
à 1Autrement
dit,
à une modalité d’une variablenominale,
il ne doit corres-pondre qu’un
seulcodage
même si celle-ci a étéprise
par deux individus différents.- Cas d’une variable
qualitative
ordinaleLe
codage
d’une variable ordinalepeut respecter
les contraintes suivantes :- Cas d’une variable
quantitative
L’ensemble
Xi
des valeursprises
par une variablequantitative
étant l’en- semble desréels,
toute fonctiontj
de R dans R définit uncodage
de la variablex, .
On
peut
toutefois noter que, dans la mesure où l’on désire absolument modifier les donnéesinitiales,
il seraitplus judicieux
de choisir pourtj
une fonction monotonecroissante
qui respecterait
ainsi les conditionsimposées
par les variables ordinales que deprendre,
à l’instar de F.W.YOUNG,
Y. TAKANE et J. deLEEUW,
une fonctionpolynôminale.
1.1.3. Ensembles des
codages
admissibles pourchaque
type de variable- Cas d’une variable
qualitative
nominaleOn montre
(cf.
J.P. PAGES[3])
que définir uncodage
d’une variablequali-
tative nominale revient à définir une combinaison linéaire de variables indicatrices.
Si
Xj désigne
lamatrice,
de dimension(n , ,mj)’
desindicatrices (X!, ... , x!B
...,X. j),
on définit ainsi un sous-espace vectoriel deR Wj engendré par
lesmj variables
indicatrices et le vecteurcodage Cj
dexj appartient à :
et
c.
vérifie les contraintesimposées
par la nature nominale de la variablexj .
- Cas d’une variable
qualitative
ordinaleDe
même,
définir uncodage
d’une variable ordinale revient à définir untcombinaison linéaire de variables indicatrices sous contraintes.
Si
X.
est la matrice des indicatrices associée à la variable ordinalex.,
un codage
dex. est
un élément du cône convexeej
deRmj.
Xj
est uneapplication
définie surei
et à valeurs dansRn.
On définit alors le cône convexe
C.
deR n engendré
par lesm.
variables indi-catrices et le vecteur
codage Cj
deXj appartient
à :L’ensemble
Cj
descodages
est un cônepolyédrique
convexe(cf.
M. TE-NENHAUS et A.
MACQUIN [19]).
- Cas d’une variable
quantitative
Le
codage cj
d’une telle variable est tel que :U est
un sous-espace vectoriel deR" .
1.2. Formulation
mathématique
duproblème
On munit
l’espace
des variables de lamétrique
euclidienne despoids Dn.
Lamatrice associée à
l’isomorphisme Dn
est :et on suppose
l’espace Rp
muni de lamétrique
unité.De
plus,
on munitl’espace Rnp
des matrices à nlignes
et p colonnes de lamétrique
définie par :où
aij (1
i n , 1j p)
est le termegénéral
deA,
et
aj
lejème
vecteur colonne(n , 1)
de A.Le
problème général
est de trouver simultanément :- la
partition
P de l’ensemble 1 des individus en q classes(avec
q fixé apriori)
de manière à grouper les individus les
plus
semblables dans une même classe(autre-
ment dit de manière à minimiser les inerties
intra-classes) ;
- et le
codage quantitatif
des variableshétérogènes :
cecodage
doit "s’amé- liorer"(au
sens des moindrescarrés).
Les recherches du
codage
et de lapartition
s’effectuent en mêmetemps
defaçon
itérative.On note par :
P ==
(P1,
... ,Pl Pq )
lapartition
en q classes de 1Y = (y1,..., yl,..., yq) la
matrice de dimension(n , q)
des indicatrices associées àPG =
(g gj gp)
la matrice de dimension(q , p)
des centres degravité des
q classes de P
C =
(c1, ..., cj, ... , cp) la
matrice de dimension(n , p)
descodages
des p variablesOn cherche alors à résoudre le
problème
suivant :soit
La résolution de ce
problème répondra
ainsi aux deuxobjectifs
fixés :-
adéquation
ducodage
aux donnéesinitiales ;
-
homogénéité
des groupes autour de leur centre degravité.
1.3. Schéma de résolution
La solution est obtenue par l’articulation itérative de deux processus :
- le
"processus
interne"qui permet
l’obtention d’un nouveaucodage
à par- titionfixée ;
- le
"processus
externe"qui permet
la formation d’une nouvellepartition
à
partir
de la solution issue du processus interne.2. LE "PROCESSUS INTERNE" : OBTENTION D’UN NOUVEAU CODAGE A PARTITION FIXEE
A
partir
de la matriceC
descodages
initiaux centrés réduits et de la ma-trice
Y
associée àP partition
initiale deI,
leproblème
consiste à rechercher (n,q)une nouvelle matrice des
codages
Cvérifiant
les contraintesimposées
par la nature des différentes variables et une matriceG1telles
que :Chaque phase
du processus internepeut
êtredécomposée
en deuxétapes :
- recherche d’un
codage
intermédiaireindépendant
dutype
de variableconsidérée ;
- recherche d’un nouveau
codage
fonction de la nature des différentes variables.Remarque :
On ne modifiera pas les variablesquantitatives
etainsi,
seule l’étude de la transformation des variablesqualitatives
sera détaillée.Il convient
également
de noter que, pour la recherche de cescodages,
Y étantfixé,
il estéquivalent
de minimiser(1)
ou de minimiser chacun des termesIlcj
-Ygi ~D indépendamment
des autres i.e. de rechercherCj
etgj
minimisant la quan- titéprécédente.
2.1. Recherche d’un
codage
intermédiaireNous noterons par
A° = (a01,..., af, ... , a0p)
lamatrice,
de dimension(n , p),
descodages
intermédiaires et03A60 = {Y0 g/g
ERle
sous-espace vectorielengendré
par les indicatrices associées àP°, autrement
ditengendré
par les colonnesde Y0.
On définit le
codage
intermédiaireaf
d’une variable par laprojection D orthogonale
dec?
sur03A60.
AinsiA0
=yO
Gest
solution duproblème :
Min
~C0 - Y0 G~2
G
On
peut
remarquer que leprojecteur T0 = Y0 (Y0’ Dn Y0 )- 1 y 0’ Dn
conserve le
centrage. Ainsi,
si lecodage
initial d’une variablexj
estcentré,
alorsson
codage
intermédiaireaj 0
est centré.2.2. Recherche d’un nouveau
codage
Le
problème
est traité variable par variable et on étudie successivement lescas
correspondant
aux différentstypes
de variable.2.2.1. Cas d’une variable
qualitative
nominaleOn a vu que le
codage cj d’une
variable nominalexj
était un élément du sous-espace vectoriel
Wj
deR
défini par :On s’intéresse en fait à un
codage
centré réduitCj
deXj.
SiWj
= 1 ~Wj, le
vecteurcodage
centré doit être un élément deWj.-
Le
problème
est alors detrouver c 1
solution de :avec S =
{y/~y~2
=1}
ou de manière
équivalente,
en utilisant un théorème démontré par J. de Leeuw(cf. [ 5 ]),
ils’agit
de trouvercf
solution de :puis
de normer le résultat.La
projection Dn orthogonale
deaf
surW-j
n S donne ainsiComme
précédemment,
on remarque que leprojecteur Tj
= X.(X’j Dn Xi)-1 X’ j Dn
conserve lecentrage :
sia0j
estcentré, c1j
est bien un élémentde W-j.
2.2.2. Cas d’une variable
qualitative
ordinaleLe
codage cj
d’une variableordinale xj étant
un élément du cônepolyédrique Ci
de Rn défini par :on s’intéresse au
codage
centré réduitCj
dexj
tel queCj
ECj avec Cj
= 1 E9Cj.
Le
problème
est alors de trouverel
solution de :ou de
et de normer le résultat
(cf.
théorème de J. de Leeuwprécité).
L’algorithme
deKruskal,
dans sa versiongénéralisée (cf. [10], [11]), permet
d’obtenir le résultat.La conservation du
centrage
résultant de laprojection
sur lecône polyé- drique
reste vérifiée.2.3.
Analyse
de la solution obtenue à l’issue du"processus
interne"Le processus interne se définit comme une méthode de moindres carrés
alternés,
àpartition fixée,
danslaquelle
les deuxétapes précédemment
décrites :"recherche d’un
codage
intermédiaire" et "recherche d’un nouveaucodage
selonla nature des variables" se
répètent
successivement. Ilcorrespond
ainsi à uneappli-
cation successive de deux
opérateurs
deprojection
et converge vers lecouple
solution
(c*j, g*j).
Cette
procédure peut
êtrerapprochée
de la recherche des vecteurs propres d’une matrice par la méthode de HOTELLING.Ainsi,
lecodage obtenu(*)
à laconvergence du processus interne
est
vecteur propre associé à laplus grande
valeur propre de la matrice
(Tj o T° ).
En
fait,
on remarque que le processus interne estcomparable
à uneanalyse canonique(*)
entre le tableau des indicatrices associées à x. et celui des indicatrices associées à lapartition P
AinsicI
est le vecteurcanonique
deT
associé à laplus grande
valeur propreXi
etal est
le vecteurcanonique
deTO 0 T.
associé àxi.
A ces deux vecteurs
canoniques,
on faitcorrespondre respectivement les
éléments :Notons que
bl
etg1j
sontégalement
lespremiers
facteurs d’uneanalyse
descorrespondances
réalisée sur le tableauY0’ Xj.
fi est à
souligner
que la condition decentrage-réduction
des variables est in-dispensable
si l’on désire éviter la solutiontriviale,
obtenue dès lapremière
itérationet
égale
à la moyennegénérale
sur l’ensemble de lapartition
descodages
initiaux.Conséquences
1)
Pour toute variablequalitative
nominalex.,
soncodage c*
obtenu à laconvergence du processus interne est
indépendant
ducodage
initialc0i
de celle-ci.Fonction des
fréquences
des différentes modalités danschaque classe, il dépend
dela
partition
initiale(et
du nombre de classes fixé apriori).
2)
Cettepropriété
n’est pas vérifiée pour les variables ordinales : lecodage
obtenu à la convergence du processus interne n’est pas
indépendant
ducodage
initial. En
effet,
on recherche dans ce cas deux vecteursappartenant
àCj
et à03A60
et formant un
angle
minimum.Or,
la méthode des moindres carrés alternés neconduit pas à une solution
unique.
Lecontre-exemple
suivant le montre.Suppo-
sons que la
partition
apriori
P soit unepartition
en deux classes(Po P2 ) ; 03A60
est alors une droite.
(*) Dans le cas d’une variable qualitative nominale (i.e. quand on n’impose pas de contrainte d’ordre).
, On considère deux
codages
distincts d’une variable ordinaleXj :
soitc0j
etc0’j les
deux vecteurs deCj correspondants.
La première étape du processus
interne est uneprojection orthogonale
dec0j
etc0j sur 03A60
donnanta0j
eta0j.
La seconde
étape
consiste àprojeter orthogonalement a0j
eta0j
surC-jdéter-
minant ainsi un nouveau
codage que
l’on normalise :c1j
etc1j. Une nouvelle
pro-jection sur 03A60
déterminea1j
eta1j qui, projetés
surCi S,
redonnent lescodages
c1j
etAinsi,
à deuxcodages
initiaux différents d’une même variableXj,
il corres-pond
deuxcodages c1j
etc1j
distincts.Contre-exemple numérique
L’ensemble des individus 1 est de cardinal n = 35 et la
partition
apriori P0
en deux classes est tirée au hasard
(cf. [8] (annexe 2)).
Soitxi
une variable ordinale à 4 modalités :*
c0j = (1, 2, 3, 4)
lepremier codage
apriori.
Le
codage
obtenu est alors :*
c? = (7, 10, 15, 16)
le secondcodage
apriori.
Le
codage
obtenu est alors :Ainsi,
dans un cas, les troispremières
modalités de la variable se trouvent"codées" de la même
façon
et, dans l’autre cas, ce sont les trois dernières modalitésqui possèdent
le même"codage".
Remarque :
Il est évidentqu’en
raison ducentrage-réduction
au début de laprocédure,
lecodage
d’une variable ordinale estindépendant
descodages
fixésa
priori
si ceux-ci sontidentiques
à une transformation affineprès.
3. LE PROCESSUS EXTERNE : CONSTITUTION D’UNE NOUVELLE PARTITION
A
partir
de la solution issue du processusinterne,
on va définir une nouvellepartition
P ou, de manièreéquivalente,
une nouvelle matrice d’indicatrices Y associée à P.Il
s’agit
ainsi de trouver Y solution duproblème :
Si
c’ désigne
laieme ligne
de C ety’
laième ligne
de Y(1
in), 1 IC - YG~2
n
s’écrivant
03A3 pi ~ci
-yi G~2 pi
la recherche de la solutionpeut
donc se fairei=l
ligne
parligne.
On a à résoudre pour tout i élément de 1
La solution est de la forme :
avec
gk (resp gkp ) étant
lakème (resp k’ème) ligne
de G.En d’autres termes, cette
phase
tend à regrouper les individus lesplus
sem-blables.
Les q classes de la nouvelle
partition
seront telles que :3.1.
Algorithme général 1) Etape
d’initialisation On part :- d’un
codage
initial des variables établi apriori (pour
les variablesquali- tatives) c° qui
est centré-réduit devenant ainsi-c-0
- et d’une
partition pO
en qclasses,
tirée au hasard ou choisie apriori.
Acette
partition
est associéeY°
la matrice des indicatrices.2)
Premièreapplication
du"processus
interne"Cette
phase comporte
en alternance deux minimisations au sens des moindres carrés et se déroule àpartition
fixéePo.
a)
Détermination ducodage intermédiaire,
résolution duproblème :
donnant les solutions
a0j
=Y° gj ~j~{1,...,p}.
P)
Détermination du nouveaucodage (variable
parvariable) :
Les
étapes a)
etJ3)
serépètent jusqu’à
la convergence du"processus interne",
analogue
à uneanalyse canonique
effectuée entreY°
etXj
tableau des indicatrices associé àchaque
variablequalitative x..
Soit
(c1, g 1 )
la solution obtenue à la convergence de ce processus.3)
Premièreapplication
du"processus
externe"A
partir
de(c 1 , g1),
on cherche à identifier une nouvellepartition P 1
dontles q classes sont construites de manière à être
plus homogènes qu’à
l’itérationprécédente.
On cherche donc une nouvelle matrice d’indicatrices
Y 1
telle queY 1
soit solution de :4) A l’étape
nOn
applique
le processus interne àpartition
fixéepn-1.
On obtient ainsi lecouple
solution(en , gn).
Onapplique
alors le processus externe pour former une nouvellepartition P" .
5)
A la convergence, on a letriplet
solution :3.2. Etude de la convergence
Appelons
F la fonction définie surRnp
xRnq x y
et à valeurs dansR+
telle que :
Montrons que la suite des valeurs
prises
par cette fonction décroît au coursde
l’algorithme
et converge vers une limitecorrespondant
à la valeur de la fonction pour letriplet
solution(C* , G* , Y*).
Montrons en
premier
lieu que :La suite des valeurs
prises
par la fonction F est donc décroissante. Comme elle esttoujours
minorée par zéro(étant
formée d’une somme de fonctionsposi- tives),
elle estconvergente.
La fonction F étant
injective (par
la définition de G comme matrice des centres degravité
des classes et par la détermination ducodage),
on a :On montre dans
[8]
que la suite des valeursprises
par la fonction F convergeen un nombre fini d’itérations.
4. UN EXEMPLE
Cet
exemple porte
sur des donnéesprovenant
d’un laboratoire de Rhône- Poulenc.4.1. Nature des données
275 malades ont été examinés très attentivement et des dossiers fort
complets
ont été constitués : l’information recueillie est
conséquente...
250 variables ontété
prises
encompte. Toutefois,
sur les conseils du médecinresponsable
del’étude,
on en a sélectionné 14
qui
lui semblaientparticulièrement
intéressantes pour une tentative de classification des malades. Elles nousrenseignent
sur lescaractéristiques
de la maladie
(diagnostic, symptômes
dedébut)
et sur l’effetproduit
parl’absorp-
tion du
produit
T(résultat, tolérance).
On observe notamment l’évolution de cer-tains troubles
après
laprise
du médicament(variables
3 à11 ).
Les natures des variables sont diverses :
- les variables 1 à 10 sont
qualitatives ordinales ;
- les variables 11 à 13 sont
qualitatives nominales ;
- la variable 14 est
quantitative ;
elle estexprimée
enmilligrammes.
4.2. Le
problème
On cherche à former des groupes
homogènes
de maladesqui
auraient éven- tuellement des réactionsanalogues
à laprise
du médicament Tcompte
tenu des troublesspécifiques qui
les caractérisent. Cecipermettrait peut-être
d’établir descontre-indications à l’utilisation de T si l’on découvrait des tolérances mauvaises pour certaines
sous-populations.
Les variables sont par nature
hétérogènes :
on aurait pu, endécoupant
lavariable
quantitative,
utiliser la méthode des NuéesDynamiques
enprenant
une distance duX 2
surmodalités,
mais alors on auraitperdu
l’information ordinaleapportée
par les 10premières
variables. Onapplique
donc la méthode CATY "aveccodage adaptatif".
4.3.
Analyse
des résultats obtenus par unetypologie
aveccodage adaptatif
survariables
hétérogènes.
Nous sommes
partis
d’untirage
au hasard sur lapopulation
déterminant ainsi unepartition
à trois classes._ Nous avons examiné 4
tirages
au hasard et nous avons choisi la solution(C*, G*, P*) qui
minimisait la valeur de la fonction F. Le programme donne à la fois ladescription
des classes(repérage
desindividus)
et lecodage
des modalitésdes différentes variables.
Analyse
de lapartition
P* : On l’obtient par des tableaux decontingence
réalisés entre la
partition
P* et chacune des variables. On décrit ainsi les trois classes avec leurscaractéristiques respectives
sur les variables considérées. On remarque que les trois classes sont bien différenciées par le résultat del’expé-
rience et la tolérance au médicament :
- la classe 1 rassemble des individus sur
lesquels
le médicament T n’a aucuneffet
bénéfique puisqu’ils
conservent les mêmes troublesqu’avant
laprise
dumédicament T. De
plus,
ils l’ont malsupporté ;
- la classe 2 est une classe intermédiaire : la tolérance est bonne mais les individus
composant
cette classe n’étaient atteints que de troubles trèslégers.
Onconstate toutefois que le médicament n’induit aucun
déséquilibre supplémentaire ;
- la
classe 3 comprend
des maladesplus
sérieux et pourlesquels
le médi-cament T est le remède miracle.
Une
analyse
détaillée des 36 dossiers médicaux caractérisant lapremière
classepermettrait
sans doute au médecin d’établir certaines contre-indications à laprise
du médicament T.Quelques compléments d’analyse
des donnéesOn s’est
intéressé,
par souci decomparaison,
à l’obtention d’unepartition
P* de l’ensemble des
malades,
à l’aide de la méthodeclassique
des NuéesDyna- miques. Toutefois,
afin depouvoir l’appliquer,
il fallait apriori
"coder" les va-riables de manière
homogène. Disposant
de 13 variablesqualitatives,
on les a trans-formées en tableaux
disjonctifs complets
et on a considéré la distance duX 2
surmodalités entre les individus.
Soulignons
que l’informationapportée
par les dix variables ordinalesprises
encompte
était dès lorsperdue :
iln’y
avaitplus
aucunedistinction entre les variables nominales et ordinales.
Après quatre tirages
auhasard,
on a choisi lapartition qui
donnait une valeurde la fonction F minimum :
l’analyse
de celle-ci a mis en évidence des classes moinshomogènes
etl’interprétation
en a été rendue très délicate.Toujours
pour mettre enparallèle
les deuxméthodes,
on a calculé lesX2
decontingence
entrechaque
variable et lespartitions optimales
obtenues dans les deux cas. On a constaté d’une manièregénérale
que ceux-ci étaientbeaucoup plus significatifs lorsque
lecodage
des variables était"adaptatif".
Pour conclure sur les Nuées
Dynamiques,
on estparti
dans "CATY" de la solutionoptimale
donnée par les NuéesDynamiques :
cette solution a été amélioréeau cours de
l’algorithme,
dans tous lesexemples
traités.A
partir
ducodage homogène
des variables par la méthode"CATY",
on a effectué uneanalyse
discriminante entre lapartition optimale
et les variables codéescorrespondant
à la solution obtenue à la convergence del’algorithme.
Le pourcen-tage
d’individus bien classés a été de94,5
%.REFERENCES
[1]
BARLOWR.E.,
BARTHOLOMEWD.J.,
BREMNERJ.M.,
BRUNK H.D. -"Statistical inference under order restrictions".
Wiley,
1972.[2]
BOUROCHE J.M. -"Développement
de l’utilisation des méthodesd’analyse
des données
qualitatives".
Note de travailn° 26,
COREF.[3 ]
CAILLIEZF.,
PAGES J.P. - "Introduction àl’analyse
des données".SMASH,
1976.[4]
CAZESP.,
BAUMERDERA.,
BONNEFOUSS.,
PAGES J.P. -"Codage
etanalyse
des tableauxlogiques -
Introduction à lapratique
des variables qua- litatives". Cahiern° 27, BURO,
1977.[5]
DE LEEUW J. - "A normalized coneregression approach
toaltemating
least squares
algorithm". University
ofLeiden,
TheNetherlands,
1976.[6]
DIDAY E. - "La méthode des nuéesdynamiques
et la reconnaissance des formes". Cahiers del’IRIA,
1970.[7]
DROUET D’AUBIGNY G. -"Description statistique
des données ordi- nales :analyse
multidimensionnelle". Thèse de 3ecycle,
Université deGrenoble,
1975.[8]
DUPONT-GATELMAND C. - "Deux méthodesd’analyse
des donnéesquali-
tatives :
typologie
etcodage adaptatif
et modèle dedécomposition
additivedes
préférences".
Thèse de3e cycle,
Université ParisIX,
1978.[9] HAYASHI
L. - "On thequantification
ofqualitative
data from the mathema-tico-statistical
point
of view". Annals. Inst. Stat. Math2,
1950.[10]
KRUSKAL J.B. 2014"Analysis
of factorialexperiments by estimating
monotonetransformation of the data". Journal
of
theRoyal
StatisticalSociety,
SeriesB, 27, 1965.
[11]
KRUSKAL J.B. - "Monotoneregression, continuity
anddifferentiability properties".Psychometrika,
Tome36, n° 1, 1971,
p. 57-62.[12]
LECHEVALLIER Y. - "Classificationautomatique optimale
sous contrainted’ordre total".
Rapport
de recherchen° 200, IRIA-LABORIA,
1976.[13]
MAC DONALD R.P. - "A unified treatment of theweighting problem".
Psychometrika, 33, 1968,
p. 351-381.[14]
MASSON M. -"Analyse
non linéaire des données".Compte
rendu à l’Aca-démie des Sciences de
Paris,
Tome278,
SérieA, 1974,
p. 803-806.[15]
SAPORTA G. - "Liaison entreplusieurs
ensembles de variables etcodages
de données
qualitatives".
Thèse de3e cycle,
Université de ParisVI,
1975.[16]
SAPORTA G. - "Le traitement de variablesqualitatives
parcodage".
Notede travail
n° 11,
COREF.[17]
TENENHAUS M . - "Etude des programmes MORALS et CORALS de F.W.YOUNG,
J. de LEEUW et Y. TAKANE". Note de travailn° 15,
COREF.[18] TENENHAUS
M. -"Analyse
encomposantes principales
d’un ensemblede variables nominales et
numériques".
Revue deStatistiques Appliquées,
Vol.
XXV, n° 2, 1977.
[19] TENENHAUS M., MACQUIN
A. - "Le modèle linéaire ordinal". NoteCESA,
1978.
[20] YOUNG F.W.,
DE LEEUWJ.,
TAKANE Y. - "How to useprincipals".
Psychometrika Laboratory,
1975.[21 ] YOUNG F.W.,
DE LEEUWJ.,
TAKANE Y. -"Regression
withqualitative
and
quantitative
variables : AnAltemating
LeastSquares
method withoptimal scaling
features".Psychometrika, 41,
1976.[22]
YOUNGF.W.,
DE LEEUWJ.,
TAKANE Y. - "Additive structure inquali-
tative data : an
Alternating
LeastSquares
method withoptimal scaling
fea-tures
(ADDALS)". Psychometrika, 41, 1976.
[23] YOUNG F.W.,
DE LEEUWJ.,
TAKANE Y. - "Non metric individual diffe-rences multidimensional