R EVUE DE STATISTIQUE APPLIQUÉE
L. T IRET
M. O. L EBEAUX P. C AZES
Méthode de classification basée sur la règle d’affectation
majoritaire. Application à un problème de psychiatrie infantile
Revue de statistique appliquée, tome 28, n
o3 (1980), p. 69-78
<http://www.numdam.org/item?id=RSA_1980__28_3_69_0>
© Société française de statistique, 1980, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MÉTHODE DE CLASSIFICATION
BASÉE SUR LA RÈGLE D’AFFECTATION MAJORITAIRE APPLICATION A UN PROBLÈME DE PSYCHIATRIE INFANTILE
L. TIRET
(*),
M.O. LEBEAUX (**)
et P.CAZES (***)
1. INTRODUCTION
L’objectif
de cetravail, portant
sur les troubles mentaux del’enfant,
estde déterminer s’il existe une relation
plus
ou moins forte entre lediagnostic
psy-chiatrique
et un ensemble decaractéristiques
individuelles recueillies au coursd’un
interrogatoire
médical etpsychologique.
La méthode utilisée consiste à
former,
àpartir
d’un échantillon desujets répartis
dans différentsdiagnostics
de troublemental,
de nouvelles classes dia-gnostiques homogènes quant
aux variablesdescriptives étudiées,
c’est à dire re-groupant
lessujets ayant
unprofil
semblable.Chaque
individu se voit attribuer par cette méthode un nouveaudiagnostic, qui
devrait être le siencompte
tenu de sonprofil.
Lepourcentage
de concordance calculé sur l’ensemble desindividus,
entre lediagnostic théorique
et lediagnostic
réel
porté
par leclinicien, indique
s’il existe une relation entre l’ensemble des va-riables
composant
leprofil
dessujets
et lediagnostic psychiatrique.
2. EXPOSE DE LA METHODE
2.1.
Rappels théoriques
La méthode utilisée ici est basée sur la
"Valley-Seeking Technique"
sug-gérée
par KOONTZ et FUKUNAGA[4]
etexposée
par BENZECRI dans un pro- blème dePhysique Corpusculaire [ 1 ].
(*) Statisticien INSERM, Unité 164, 44 Chemin de Ronde - 78110 - Le Vésinet (**) Ingénieur C.N.R.S., Laboratoire de Statistique (Université de Paris 6)
(***) Maitre-Assistant, Laboratoire de Statistique
(Université
de Paris 6)70
Son but est
d’obtenir,
sur un ensemble 1 d’individus décrits par un certain nombre de variablesquantitatives
ouqualitatives,
unepartition
en classes homo-gènes.
Voici en
quoi
consistel’algorithme :
. à
l’étape 0,
les individus sontrépartis
aléatoirement dans des classes dont le nombre est fixé apriori.
. à
l’étape 1,
on réaffectechaque
individu à une nouvelle classe par larègle
d’affectation
majoritaire,
dont leprincipe
est le suivant :-
chaque individu,
décrit par pvariables, peut
être considéré comme unpoint
del’espace RP ; supposant
RP muni d’unemétrique,
onpeut
définir une distance entre les individus et calculer pour chacun d’entre eux ses Kplus proches
voisins dans
RP ;
pour attribuer àchaque
individu i une nouvelleclasse,
on con-sidère ses K
plus proches
voisins et on réaffecte i à la classequi compte
leplus
d’in-dividus
parmi
ces voisins. En casd’égalité
entre smodalités,
on affecte i à chacunede ces modalités avec une
probabilité 1/s.
. à
l’étape 2,
on réitère le processus sur l’ensemble des individus affectés auxclasses déterminées à l’issue de
l’étape
1.. à
l’étape
n, de manièregénérale,
onpratique
larègle
d’affectationmajori-
taire sur les individus affectés aux classes déterminées à l’issue de
l’étape
n - 1.On arrête le processus
lorsque plus
aucun individu nechange
de classe. La convergence n’étant pascertaine,
ilimporte
de fixer le nombre maximum d’ité- rations au-delàduquel
on arrête le processusquelque
soit le résultat.Si le processus converge
(c’est-à-dire
si le nombre d’individuschangeant
declasse décroît à
chaque étape
pour atteindre0),
on obtient finalement unepartition
stable de l’ensembleI,
en un nombre de classes inférieur ouégal
au nombre initial.En
effet,
certaines classespeuvent
se vider totalement au cours d’une desétapes.
2.2.
Application
au cas de la classificationdiagnostique
Le
problème
étudié ici est le suivant :partant
d’un ensemble desujets
ré-partis
audépart
dans différentsdiagnostics,
on cherche à obtenir une nouvellepartition
de cet ensemble en classesdiagnostiques homogènes
parrapport
à un certain nombre de critèresdescriptifs.
Ce
problème
serapproche
donc de celuiqui
vient d’êtreexposé,
avec la dif-férence que les individus ne sont pas classés au
départ aléatoirement,
mais affectésa
priori
à undiagnostic,
celui du clinicien. Il n’était paspossible
d’affecter aléatoi- rement les individus à des classesquelconques,
car il fallait que leur attribution finale ait unesignification diagnostique
afin depouvoir
la comparer audiagnostic clinique.
Introduire une classification a
priori
reviendrait à sauterl’étape
0 del’algo-
rithme si les classes avaient des effectifs
égaux,
comme c’est le cas dans la méthodede K. et F. où elles sont attribuées aléatoirement avec la même
probabilité.
Mais
lorsque
les classes ont des effectifs trèsdissemblables,
elles n’ont pas la mêmeprobabilité
d’êtrereprésentées
dans unvoisinage donné ;
les classes faiblesont donc moins de chance d’être attribuées que les classes
fortes, puisque
l’on sebase sur des effectifs absolus et non des effectifs relatifs dans la
règle
d’affectationmajoritaire.
Revue de Statistique Appliquée, 1980, vol. XXVII I, n° 3
Certains
diagnostics peuvent
ainsidisparaître
au cours del’analyse
car ilssont peu
fréquents
dans lapopulation,
bienqu’ils
aient unesignification
propre sur leplan clinique.
Pour
pallier
cetinconvénient,
onpeut pondérer
les individus par l’inverse de l’effectif de la classe àlaquelle
ilsappartiennent.
Dans ce cas, l’affectationmajo-
ritaire pour
chaque
individu se fait enmultipliant
le nombre de ses voisins danschaque
classe par lepoids correspondant
à cetteclasse, puis
en retenant la classepour
laquelle
ceproduit
estmaximum ;
en casd’égalité
entre Sclasses,
on retient chacune d’elles avec uneprobabilité
de1 /S.
2.3. Choix de la distance
Plutôt que
l’espace RP
des variablesdescriptives initiales,
onpréfère
souvent,pour la recherche des
voisins,
seplacer
dansl’espace
despremiers
facteurs obtenusaprès analyse
factorielle de ces variablesdescriptives.
Les coordonnées sur ces axessont en effet
préférables
aux variablesprimaires chargées
de bruit.L’analyse
factorielle se fait sur le tableau croisant les individus avec les va-riables
descriptives,
ou - cequi
estéquivalent
dans le cas où les variables sont co-dées de manière
disjonctive -
sur le tableau de BURT croisant les variables avecelles-mêmes,
les individus étantplacés
en élémentssupplémentaires ;
on sait en effetque dans ce cas les facteurs obtenus sur les individus sont
identiques [2].
On
prendra
alors comme distance entre deux individusl’approximation
sur lesq
premiers
facteurs de la distance duX 2 :
formule où
Fa (i) (resp. Fa (i’)) désigne
la valeur dudème
facteur sur l’individu i(resp. i’).
On
peut également
utiliser lamétrique
d’inertie(ou métrique
de MAHALA-NOBIS) :
Xq désignant
la variance deFa (i.e.
la racine carré de la valeur propre associée au03B1ième
facteur du tableau deBURT)
2.4. Choix du nombre de voisins
Tl n’existe pas de
règle théorique
pour déterminer le nombre de voisins àprendre
encompte.
Celui-ci est déterminé de manièreempirique :
il doit être suf- fisant pour s’affranchir des fluctuationsd’échantillonnage (en général supérieur
à
10)
et d’autantplus grand qu’il
y adavantage
de classes et que certaines d’entre- elles ont des effectifsplus
faibles(en effet,
unvoisinage trop petit
nepermettrait
pas à ces classes d’être
représentées).
Mais il ne faut pas non
plus élargir
levoisinage plus qu’il
n’estindispensable
pour décider de l’affectation d’un individu
(en général,
on nedépasse
pas 10 % de la taille del’échantillon).
Des contraintes de coût peuventégalement intervenir,
la recherche des voisins nécessitant untemps
d’ordinateurimportant.
72
Dans la
pratique,
onpeut
choisir un nombre de voisins maximum tenantcompte
de toutes les contraintesprécédentes, puis
faireplusieurs
essaissuccessifs
en réduisant ce nombre
jusqu’à
atteindre 10 voisins. Ongarde
finalement le nombre de voisins minimumpermettant
la convergence.3. RESULTATS
3.1. Matériel d’étude
Les données utilisées dans ce travail ont été recueillies dans les consultations du Secteur
d’Hygiène
Mentale Infantile du14ème
arrondissement deParis,
entreJanvier 1970 et Juillet 1974. La
population
étudiéecomprend
1159 enfants etadolescents venus consulter pour un trouble d’ordre mental.
Le
diagnostic psychiatrique
était codé initialement selon 12rubriques. Après suppression
desrubriques
ayant des effectifs insuffisants pourl’analyse,
8diagnos-
tics ont finalement été
gardés,
concernant 1120 enfants. Ils serépartissent
de lamanière suivante dans l’échantillon
(Tableau 1).
TABLEAU 1
Répartition
desdiagnostics
Les variables
descriptives
retenues sont :- la nature et le nombre de facteurs
étiologiques
de la maladie- la nature et le nombre de troubles notables relevés dans les antécédents de l’enfant
- la nature et le nombre de troubles associés au
diagnostic principal
- le
degré
de niveauintellectuel, découpé
encinq
classes- la
présence
d’antécédentspsychiatriques
familiaux-
l’âge
dessujets, découpé
encinq
classes.Toutes ces variables ont été mises sous forme
disjonctive ;
onpeut
voir leurrépartition
dansl’échantillon,
en annexe.Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
3.2. Résultats
L’espace
danslequel
s’est effectué la recherche des voisins est celui des 6 pre- miers axesaprès analyse
factorielle du tableau de Burt(variables
xvariables).
La distance utilisée est la distance du
X 2
calculée sur les 6premiers facteurs, qui expliquent
45 % de l’inertie totale du nuage.Le nombre de voisins initialement choisi était de
30,
en raison du nombreélevé de
diagnostics.
Unepremière analyse
a été faite en donnant le mêmepoids
à tous les individus. Mais les
diagnostics ayant
desfréquences
trèsinégales (tableau 1),
on a recommencél’analyse
enpondérant
les individus par l’inverse de l’effectif de leurclasse,
comme cela a étéexpliqué précédemment.
Dans ce cas, deux solu- tions sontpossibles :
- soit les individus
gardent
le mêmepoids
tout aulong
del’analyse
- soit on recalcule le
système
depondération
àchaque étape
en fonctiondes nouveaux effectifs des classes.
Les résultats des 3 méthodes ont été
comparés.
3.2.1.
Comparaison
des résultats obtenus selon les 3systèmes
depondération (30 voisins)
Le critère d’arrêt du processus était un peu moins strict que celui de la mé- thode initiale : en
effet,
il suffisaitqu’il n’y
ait pasplus
de 11 individus(1 %) qui changent
de classe pour que l’on arrête. Le nombre maximum d’itérations était fixé à 15.On constate que,
quelque
soit lesystème
depondération appliqué
la conver-gence est atteinte au bout d’une dizaine d’itérations.
(Tableau 2).
TABLEAU 2
Comparaison
des résultats obtenusselon
les troissystèmes
depondération (30 voisins)
Le
pourcentage
d’individuschangeant
de classe àchaque étape
décroît de manièrequasi-exponentielle
dans les 3 cas(graphique).
Par contre, le
pourcentage
d’individus bien classés - c’est-à-dire dont le dia-gnostic
finalcorrespond
audiagnostic
initial du clinicien - varie selon les 3 mé-74
Pourcentage d’individus changeant de classe en fonction du nombre d’itérations (échelle semi- logarithmique).
thodes,
le meilleur résultat étant obtenulorsqu’on
nepondère
pas les individus(Tableau 2).
On serait donc tenté de
préférer
cetteméthode,
mais en examinant la ré-partition
finale desdiagnostics (Tableau 3),
on observequ’avec
les 2premiers systèmes
depondération,
certainsdiagnostics disparaissent
au cours del’analyse :
dans un cas, il
s’agit
desdiagnostics
peufréquents,
donc défavorisés par l’absenceTABLEAU 3
Comparaison
de larépartition
finale pardiagnostic
selon les trois
systèmes
depondération (30 voisins)
Revue de Statistique Appliquée, 1980, vol. XXVI I I, n* 3
de
pondération,
et dansl’autre,
aucontraire,
ils’agit
dudiagnostic
leplus fréquent,
celui de
névrose, pénalisé
par unpoids
constant car son effectif diminue àchaque étape.
C’est finalement en
repondérant
les individus àchaque étape
que l’on obtient les résultats lesplus satisfaisants,
bien que cesystème
depondération
ait l’inconvé-nient de
fabriquer
des classes d’effectifs à peuprès égaux,
cequi
n’est pas nonplus
très réaliste.
3.2.2.
Comparaison
des résultats obtenus en modifiant le nombre des voisins Engardant
donc le derniersystème
depondération, plusieurs
essais ont étéfaits en modifiant le nombre de voisins.
On constate
qu’un
nombre de voisinstrop
faible nepermet
pas d’obtenir la convergence du processus, sans doute à cause du nombre élevé dediagnostics (Tableau 4).
C’est donc la
partition
obtenue enprenant
encompte
30voisins, qui
estfinalement
gardée.
Rappelons
que dans ce cas, lepourcentage
total d’individus bien classés était de 28%.
TABLEAU 4
Comparaison
des résultats obtenus selon le nombre de voisinspris
encompte
(repondération
àchaque pas).
TABLEAU 5
Répartition
dudiagnostic
fmal dans les différentes classes dediagnostic
initial(30 voisins ; repondération
àchaque pas).
76
Ce
pourcentage
variebeaucoup
en fonction dudiagnostic
initial(Tableau 5,
chiffres lus sur ladiagonale).
Seul le
diagnostic
de "Variations de la normale" aplus
d’une moitié de su-jets
bien classés.Lorsque
les individus sont malclassés,
on observe toutefois une attirancevers certains
diagnostics
dont lesproximités
avaient été mises en évidence au coursd’analyses précédentes [7] :
- troubles du
développement
et variations de la normale- névroses et troubles de l’évolution libidinale
-
psychoses
et troubles de lapersonnalité
- retard mental et
psychoses
4. CONCLUSION
Les résultats obtenus sont assez
décevants, puisque
moins d’un tiers des in-dividus se voient attribuer par
l’analyse
undiagnostic
concordant avec celui du clinicien.Ces résultats
témoingnent
néanmoins de la relation existant entre lediagnos-
tic et les variables étudiées. En
effet,
s’il n’existait aucunerelation,
un individuaurait une chance sur huit de se voir attribuer son
diagnostic
initial parl’analyse,
ce
qui
conduirait à unpourcentage global
de bien classés de12,5%,
soit2,2
fois moins que lepourcentage
obtenu.Deux raisons
peuvent
être avancées pourexpliquer
ces résultats médiocres :. les variables retenues pour
l’analyse
ne constituaient pas la totalité du ta- bleauclinique,
maissimplement
les éléments d’unpremier interrogatoire.
Il seraitintéressant de voir si l’on obtiendrait de meilleurs résultats en
adjoignant
à ces va-riables les données de l’examen
psychiatrique approfondi.
. mais une autre raison
réside, semble-t-il,
dans leconcept
même dediagnostic
utilisé ici. En
effet,
les controverses existant actuellement sur la classification dia-gnostique
enPsychiatrie
Infantile laissentprésumer
que lediagnostic
n’est pas une donnéeobjective,
surlaquelle
onpeut
se baser de manièrefiable,
comme c’estdavantage
le cas en médecinesomatique.
Aux différences d’orientations
théoriques
viennents’ajouter
l’extrême dif- ficulté deporter
undiagnostic
définitif chez un enfant en évolution continue.REMERCIEMENTS
Nous adressons nos
plus
vifs remerciements à MonsieurLELLOUCH,
direc-teur de l’unité de recherche "Méthodes
Statistiques
etEpidémiologiques
et ap-plication
à l’étude des maladieschroniques" (I.N.S.E.R.M.
unité169),
pour les conseilsqu’il
a bien voulu nous donner et letemps qu’il
nous a consacré pour ce travail.Revue de Statistique Appliquée, 1980, vol. XXVII I, n° 3
ANNEXE
Répartition
des variablesdescriptives
dans l’échantillon78 BIBLIOGRAPHIE
[1]
BENZECRI J.P. -Analyse
des données enPhysique Corpusculaire.
III. Lesméthodes multidimensionnelles. Les cahiers de
l’Analyse
des Données. Vol.III 2014
1978 2014 N°
1 2014 PP 79-94.[2]
BENZECRI J.P. - Surl’analyse
des tableaux binaires associés à une corres-pondance multiple.
Les Cahiers del’Analyse
des Données. Vol. II 2014 1977 -N° 1 2014 pp.
55-71[3]
CAZES P. - Méthodes derégression.
III.L’Analyse
des données. Les cahiers del’Analyse
des Données. Vol.III-1978-N°
4 pp. 385-391.[4]
KOONTZW.,
FUKUNAGA K. - A nonparametric Valley-seeking Technique
for Cluster
Analysis.
IEEE Transactions onComputers.
Vol.C-21, 1972,
N°2 2014 pp.
171-178.[5]
LEBEAUX M.O. 2014 Notice sur l’utilisation du programme POUBEL. Les Cahiers del’Analyse
des Données.. Vol.II-1977-N°4
pp. 467-481.[6]
LEBOVICIS.,
SADOUN R. 2014L’enregistrement
dudiagnostic
au centre desanté mentale A. BINET
(Paris 13ème).
LaPsychiatrie
del’enfant.
Vol. XI-Fascicule 2- 1968. pp. 533-550.
[7]
TIRET L. -Apport
del’Analyse
de Données à l’orientationdiagnostique
en
Psychiatrie Infantile.
Thèse de 3èmecycle-Paris
VI. 1978.Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3