R EVUE DE STATISTIQUE APPLIQUÉE
A. C IAMPI J. T HIFFAULT U. S AGMAN
Évaluation de classifications par le critère d’Akaike et la validation croisée
Revue de statistique appliquée, tome 36, n
o3 (1988), p. 33-50
<http://www.numdam.org/item?id=RSA_1988__36_3_33_0>
© Société française de statistique, 1988, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ÉVALUATION DE CLASSIFICATIONS
PAR LE CRITÈRE D’AKAIKE
ET LA VALIDATION CROISÉE
A. CIAMPI
(1);
J. THIFFAULT(1);
U. SAGMAN(2)
(1) Hôpital
de Montréal pourEnfants,
4060 Ste-Catherine ouest, Montréal,
Québec,
Canada, H3Z 2Z3(2)
Ontario Cancer Institute,500 rue
Sherboume,
Toronto, Ontario, Canada, M4X 1 K9RÉSUMÉ
Les méthodes de classification
représentent
depuissants
outils pour la formulationd’hypothèses.
Il semble doncimportant
dedévelopper
un cadrethéorique
pourjauger l’adéquation
deshypothèses correspondant
à différentes classifications. Nous proposons unecorrespondance
entre classification et modèlestatistique.
Lastatistique classique suggère
alors d’utiliser la vraisemblance comme mesure
d’adéquation.
Nous montrons ici que cettemesure est biaisée et que le biais peut être réduit à l’aide de la validation croisée. Pour des
grands
ensembles dedonnées,
cela estéquivalent
à substituer à la vraisemblance le critère d’information d’Akaike. La méthode de classification SEGMAG et utilisée commeexemple
de
l’application
du schéméproposé.
Mots clés : Données de survie, Formulation
d’hypothèses,
Plausibilité d’uneclassification.
ABSTRACT
Classification
techniques
arefrequently
used as methods ofhypothesis generation.
It istherefore
important
todevelop
a framework to measure the relativeplausibility
ofhypotheses corresponding
to different classifications. In this paper, we outline a frameworkrelating
classifications to statistical models. Classical statistics recommend the use of likelihood as a measure of
plausibility.
We will demonstrate here the biasedness of this measure, and the fact that the bias can be reduced with thehelp
of cros-validation. Forlarge
data sets, thisapproach
isequivalent
toreplacing
the likelihoodby
the Akaike Information Criterion. The classificationalgorithm
SEGMAG ispresented
to demonstrate theapplication
of theproposed
framework.
Keywords:
Survival data,Hypothesis formulation, Plausibility of a classification.
1. Introduction et
Schéma Général
Les méthodes de classification constituent de
puissants
outils pour la formu- lationd’hypothèses
basées sur l’examen d’un ensemble de données(Jambu
et Le-beaux, 1983; Gordon, 1981).
Engénéral,
le but d’unalgorithme
de classification estd’identifier des classes d’individus
qui
se ressemblent selon unparamètre spécifié
par l’utilisateur et calculé à
partir
des variables mesurées sur ces individus. En étu- diant les valeurs des variables et leurs liaisons selon les classesobtenues,
le chercheur arrive souvent à formuler desconjectures
sur lesphénomènes sous-jacents
aux don-nées et sur les processus
qui
lesgénèrent.
Ce travaild’interprétation
est d’autantplus
fructueux que la
description
des classes obtenues est directe. Defait, plusieurs
mé-thodes de classification ont été
développées
dans le butprécis
de faciliter cetteétape.
Par
exemple,
la méthode des nuéesdynamiques
a commecaractéristique principale
d’aboutir en même
temps
à la définition des classes et à leurdescription.
Dans cetteoptique, l’approche logique
en classification(Sidi, 1980) apparaît particulièrement prometteuse puisqu’elle permet
uneinterprétation
des classes à l’aide d’unlangage simple
formé depropositions logiques portant
sur les variables observées.Cependant,
la formulationd’hypothèses
en classification demeure informelle etqualitative.
Cela n’est pas nécessairement unelimitation;
aucontraire,
ce n’estqu’à
traversl’engagement
de la créativité del’analyste qu’on
pourra découvrir des structures intéressantes et les mettre en relation avec les connaissancesscientifiques pertinentes. Toutefois,
il existe unegrande
variété de méthodes de classification. Pourun même ensemble de
données,
les résultats varientfréquemment
d’une méthode àl’autre,
oudépendent
même desoptions spécifiées
pour une méthode donnée. Cephénomène
reflète soit l’instabilité des méthodesconsidérées,
soit unemultiplicité
réelle
d’hypothèses compatibles
avec les données. Ilapparaît
dontimportant
dedisposer,
commeguide
àl’interprétation,
d’une mesured’adéquation
relative des différenteshypothèses
formulées.Pour sa
part,
lastatistique
inférentiellepermet
d’attacher une mesure de validité à unehypothèse
clairement etrigoureusement spécifiée
apriori.
La théoriede
Neyman-Pearson,
chère à lapensée
et à lapratique
d’ungrand
nombre destatisticiens en faveur de
l’approche
diteclassique,
nepermet
qued’accepter
ou derejeter
unehypothèse
donnée.Lapproche fishérienne,
pour sapart,
est un peuplus flexible;
selon Efron(1982a),
ellepermet
de considérer un modèlestatistique
commeun résumé du contenu informatif d’un ensemble de données. Le modèle
statistique
devient alors moins
l’expression
d’unehypothèse précise qu’un
outil pour lisser lesdonnées,
tel un filtrecapable
de mettre en relief les structures lesplus importantes
tout en éliminant les moindres détails. Dans cet
article,
nous montrerons que lasynthèse
de ce dernierpoint
de vue avec les méthodes de classification fournit unpuissant
outil à la formulationd’hypothèses statistiques.
Nous nous limiterons à la situation suivante. Pour
chaque
individu d’unepopulation donnée,
on mesure un certain nombre de variables. Apartir
de cesdonnées,
on veut arriver à formuler deshypothèses
sur le lien entre, d’unepart,
un
parmètre
d’intérêtparticulier,
1,qu’on appelle
critère et de l’autre un vecteur decaractéristiques
del’individu,
z,qu’on appellera
variablesde prédiction ou prédicteurs.
Le critère 1 sera une fonction d’un autre vecteur de
caractéristiques
del’individu,
u,appelées
variablesréponse.
On atteindra notre but en formant des classes d’individus caractérisées à l’aide desprédicteurs
et telles que, à l’intérieur dechaque classe,
lecritère soit
homogène.
Un tel résultat estd’interprétation immédiate,
en cequ’il
montre que certaines
configurations
desprédicteurs
déterminent la valeurde 1
àune variation résiduelle
près, laquelle
pourra êtreinterprétée
soit comme unbruit,
soit comme liée à des variables inconnues ou non mesurées.
Tel
qu’indiqué
dans lafigure 1,
lepoint
dedépart
del’analyse
est une matricede données X
partagée
en deux blocs U et Z. Achaque
individu on associe uneligne
2L =
(u 1 z)
de la matriceX,
dont les éléments constituent les valeurs que le vecteur xprend
pour cet individu.Remarquons
que le bloc Zpeut
êtrevide;
enrevanche,
une variable
peut apparaître
à la fois comme variableréponse
et deprédiction.
Figure
1 : Schémagénéral
Le bloc
(1)
de lafigure
1représente
la mise en oeuvre d’unalgorithme
declassification
quelconque.
Les choix faits au cours de la définition del’algorithme
sont
représentés
par le vecteur a desparamètres
de laclassification.
La sortie del’algorithme
est la matrice(U 1
où lebloc E, qui
apris
laplace
deZ,
est engénéral beaucoup plus petit
que cedernier;
seslignes représentent
les valeursprises
surl’ensemble des individus par le vecteur des variables indicatrices des classes
obtenues, soit 03BE = 03BE(z;03B1).
Le résultat del’algorithme
de classificationpeut
donc être vucomme la construction d’une
application
non-linéaire z~03BE ayant
pour effet uneimportante
réduction des données.Exemple
1 :Classification hiérarchique
Tout
algorithme
de classification ascendantehiérarchique
aboutit à la construc-tion d’un arbre
d’agrégation.
Dans laplupart
des cas, le critère est toutsimplement
levecteur des moyennes des variables mesurées sur les individus et il
n’y
a pas depré- dicteurs : x =
u. Dans ce cas, levecteure 03BE
=03BE(03B1)
nedépend
que d’unparamètre
scalaire a
qui indique
lepalier auquel
l’arbred’agrégation
a étécoupé.
Parailleurs,
si l’on fait varier la
règle
de construction de l’arbre etqu’on considère,
pourchaque hiérarchie,
différentspaliers
de coupure, leparamètre
de la classification sera bidi- mensionnel : a =(k, p),
où kindique
le choix de larègle
de construction et p lepalier
de coupureExemple
2 :Régression
localeLalgorithme
derégression
locale(Diday, 1980)
est un casparticulier
de laméthode des nuées
dynamiques.
Ilpermet
de classifier les individus en groupesqui
sont
homogènes
dupoint
de vue du vecteur des coefficients de larégression
d’unevariable
scalaire y
sur un vecteur x. Pour établir le lien entre cetexemple
et notreschéma,
notons que u =(y, x )
et quenotre -y
est le vecteur derégression.
Dansl’approche
deDiday (1980),
iln’y
a pas deprédicteurs.
Nous montrerons que dansl’algorithme présenté
dans la section3,
il estpossible
de traiter aussi la situation où des variables z servent àprédire
03B3.Pour
chaque
choix du vecteur desparamètres
de laclassification,
a, les donnéessuggèrent
unehypothèse représentée
par le vecteur des variables indicatrices desclasses, 03BE(z;03B1).
Nous noterons ce vecteur sous formeabrégée, 03BE03B1,
et par un abus delangage qui
ne devrait pas provoquer deconfusion, 03BE03B1 désignera
soit lapartition,
soit
l’hypothèse représentée
par les variables indicatrices. Sans aucuneperte
degénéralité,
nous supposerons que la famille{03BE03B1}
renfermel’hypothèse 50
selonlaquelle
l’ensemble des individus esthomogène
dupoint
de vue duparamètre (critère)
-y.Le bloc
(2)
de lafigure
1représente l’étape qui
consiste à associer àchaque
hypothèse 03BE03B1
un modèlestatistique,
ouplus précisément
une fonction derépartition
F
{u;03B8|03BE03B1},
connue à unparamètre près,
soit0, qui
sera estimé àpartir
desdonnées. C’est au niveau de
l’explicitation
del’application
que
l’analyste
feraappel
à la modélisationstatistique.
Par souci de
simplicité,
nous nous limiterons dans cet article à la situation oùet
Ici fi est
partagé
en deux sous-vecteurs; lepremier, 03B80, qui
nedépend
pasde 03BE03B1,
etl’autre, 03B3(03BE03B1), qui représente
le critère et sadépendance
parrapport
aux classes de lapartition 03BE03B1.
Nous supposerons aussi03B3(03BE03B1)
de forme linéaire :où r est une matrice de
paramètres.
On a ainsi introduit un modèled’analyse
devariance multidimensionnelle
généralisée qui
sera assezsouple
pour accomoderplusieurs
situations rencontrées dans lapratique.
Exemple
3 :Analyse
de varianceDans ce cas, supposons que u est une variable aléatoire dont la distribution est normale multivariée.
Supposons également
que la matrice de covariance E deu soit
homogène
sur toute lapopulation,
mais que 1 =E(u)
soitsusceptible
de varier d’une classe à l’autre. On pourra alors
interpréter 03B80
de(1.3)
comme levecteur des
paramètres
nécessaires pour définir E et(1.4)
commel’explicitation
dela
dépendance
del’espérance
de If parrapport
aux classes obtenues.Lhypothèse 03BE0 correspond
àl’hypothèse
del’homogénéité globale,
soit àl’hypothèse
"nulle" del’analyse
de varianceclassique.
Le dernier bloc du
diagramme, (3), représente l’étape
du calcul d’une mesured’adéquation
dechaque hypothèse 03BE03B1,
soit de la distribution(1.2).
Lastatistique
inférentielle
classique suggère
d’utiliser la vraisemblance V(03B803B1 1 X)
comme basepour la définition de cette mesure. Nous remettons le
développement
de cesconsidérations à la
prochaine
section. Dans la section3,
nous décrirons à titre illustratif une méthode de classificationqui intègre
lesstratégies classiques
desegmentation
etd’agrégation.
Cette méthodedéveloppée
récemment parCiampi
et al.
(1987)
a été conçue dansl’esprit
du schémagénéral
énoncé ci-haut.Enfin,
lasection 4 propose une
exemple d’analyse
de donnéescliniques
visant à obtenir une classificationpronostique.
2.
Évaluation
des classifications et choix demodèle
Poursimplifier
lanotation,
posonsoù
Va
dénote la vraisemblance de laclassification 03BE03B1
basée sur les données X.Considérons ensuite la
statistique
On sait
(Cox
&Hinkley, 1974)
que~03B1
constitue une mesure raisonnable del’adéquation
de laclassification 03BE03B1, puisqu’elle exprime l’adéquation
de la structuredécrite par la
partition 03BE03B1 vis-à-vis
de l’absence de structure décritepar 03BE0.
Demême,
étant données deux
hypothèses 03BE03B11 et 03BE03B12, l’adéquation
relative de lapremière
vis-à-vis de la seconde
peut
être convenablement mesurée parOr,
pour calculerAa,
il faudrait connaître leparamètre 03B803B1, supposé inconnu,
et onserait alors tenté de substituer à
03B803B1
son estimateur du maximum de vraisemblance(EMV), 03B1 (X),
donc d’estimer~03B1
paroù V03B1
=V(03B1(X)|X). Cependant
cette mesure serait biaiséepuisqu’elle
favoriserait les
partitions ayant
ungrand
nombre de classes. Parexemple,
si lapartition
est unepartition
inclusedans 03BE03B1,
on a pardéfinition, Aa,;a2
> 0. Le biais est uneconséquence
du fait que les mêmes données sont utilisées à la fois pour estimere..o:
et pour évaluer la classificationcorrespondante.
Lemodèle 03B803B1 (X)
obtenuest alors
trop "proche"
des données observées X pourpermettre d’ajuster
d’autresdonnées
potentielles engendrées
par le mêmephénomène.
On aurait donc unprix
à payer pour
l’avantage apparent
d’un modèle03B803B1 qui ajuste
bien lesdonnées X;
leprix
serait uneperte
dereproductibilité
dontl’importance
est difficile àjauger
et uneimpossibilité
d’aboutir à une extension des résultats au-delà des individus étudiés.Pour remédier à cette
difficulté, plusieurs techniques
derééchantillonage
ontété
proposées,
telles que lebootstrap,
lejackknife (Efron, 1982b)
et la validation croisée(Stone, 1974),
dontl’application
àl’analyse
factorielle a été récemment étudiée en détail par Junca(1985).
Pour une raisond’espace,
nous ne discuterons que de ladernière,
tout enremarquant
que celle-ci estéquivalente
aux deux autrespour des ensembles de données de
grande
taille.Soit
X(j)
la matrice obtenue àpartir
de X ensupprimant
laligne xj,
etsoit
(j)03B1 = 03B1 (X(j)),
l’EMV de0,,, qui
réalise le maximum de la fonction de vraisemblance V(03B803B1| 1 X(j) ).
Pourchaque j,
posonsqui correspond
à une estimation de(2.1)
basée sur le sous-ensemble de X ne contenant pas lejème
individu.Dans
l’approche
de la validationcroisée,
onprend
la moyennecomme mesure
d’adéquation pour 03BE03B1,
où N dénote le nombre totald’observations;
l’écart-type
est utilisée comme mesure de la
dispersion
deAD;.
On connaît une très bonne
approximation
pourAC/. qui
évite les calculs assezlaborieux
requis
par(2.4)
et(2.5).
Elle est donnée(Stone, 1977; Ciampi et aL, 1986)
par
ou pa et po sont les nombres de
paramètres requis
pourspécifier 03B803B1
et03B80 respectivement.
Or(Akaike, 1974),
où AIC dénote le Critère d’Information d’Akaike défini comme suit :
ce
qui implique
que la classification laplus adéquate, c’est-à-dire 03BE03B1,
telle que~03B1*~ 03B1
pour tout a, est aussi la classificationcorrespondant
à l’AIC minimum.Lavantage
des formules(2.4)-(2.6)
sur(2.8)-(2.9)
estqu’on peut
estimer ladispersion
deAa:,
cequi peut
s’avérer très utilequand l’analyste
veut identifier nonpas une seule
classification,
maisplusieurs qui
seraientcompatibles
avec les données.En outre, si pour une
partition 03BE03B1
on aon pourra
considérer 03BE03B1 comme
aussiadéquate
queet
lapréférer
à cette dernièresi elle
compte
moins de classes terminales.Sur la base de ces
considérations,
nous proposons laprocédure
suivante pour évaluer les classifications de la famille{03BE03B1}
a et pour identifier cellesqui
sontcompatibles
avec les données :1. Pour
chaque 03BE03B1,
calculer03B1
et AIC(03B1);
2. Choisir a*
qui
minimisel’AIC;
3. Calculer
~03B1
etERT03B1*;
4.
Règle
d’1 17 ERT : retenir commepartitions adéquates
toutes cellesqui
satisfont
l’inégalité
5. S’il faut choisir une seule
partition
pourreprésenter
lesdonnées,
donnerpréférence
à laplus simple.
Le critère de
simplicité peut
être établi formellement comme étant le choixsystématique
de lapartition ayant
leplus petit
nombre de classes terminales. Une autreapproche,
dans le cas où lesprédicteurs jouent
un rôleimportant,
consisteà
privilégier
lespartitions
dont ladescription
en termes desprédicteurs
est laplus simple possible.
Parexemple,
dans le cadre de la méthode de la sectionsuivante,
nous montrerons
qu’il
estpossible d’ajuster
unparamètre
de calibration de manière à considérer des classes définies par despropositions
booléennesportant
surplusieurs
variables à la
fois,
cespropositions
étant d’autantplus simples
que leparamètre
decalibration est
large.
Il
peut
toutefois s’avéreravantageux
de ne pasimposer
le critère desimplicité,
ceci afin de
permettre
auspécialiste
duphénomène
étudié de choisir lui-même lapartition
dont le bien-fondébiologique
ouscientifique
est leplus grand.
Limportance
de larègle
décrite ci-dessus réside dans le faitqu’elle permet
de réduire considérablement lamultiplicité
des modèlesacceptables.
Par lasuite,
leséchanges
conversationnels entrel’analyste
et lespécialiste
devraient mener soit auchoix d’un modèle
unique
pourreprésenter
lesdonnées,
soit à la conclusionqu’un
certain nombre
d’hypothèses
différentes sontcompatibles
avec les données.3. SEGMAG
(RECPAM) :
une méthode de classification pour
données médicales
La méthode de classification SEGMAG
(RECPAM
enanglais), développée
récemment par
Ciampi et
al.(1987), intègre
lesstratégies
de SEGMemtation etd’AGrégation
de Breiman et al.(1984)
dans un contexte biomédical. Elle tient donccompte
de trois situations rencontrées enbiostatistique : (1)
variableréponse censurée, (2)
variableréponse nominale, (3) analyse
par sous-groupe de larégression
d’une variable censurée. Nous ne décrirons que brièvement
l’algorithme
utilisé dansSEGMAG;
on trouvera dansCiampi et
al.(1987)
unereprésentation plus
détaillée.Il
importe
toutefois de mentionner lesprincipaux avantages qui
font que cette méthode est bienadaptée
à l’étude de donnéescliniques.
D’unepart,
latechnique
de
partitionnement
utilisée dans SEGMAG aboutit à la formation de classes dont ladescription
estd’interprétation clinique
immédiate. On ne sauraittrop
insistersur ce
point puisqu’il
favorise ledialogue statisticien/clinicien
essentiel auprogrès
de la science. D’autre
part,
certainesadaptations
destechniques
derégression
auxdonnées médicales
négligent
de considérer l’interactionpossible
entre les variablesde
prédiction.
Comme nous le montrerons dans cettesection, l’algorithme
deSEGMAG tient
compte
de telles interactions etpermet
même àl’analyste
d’encontrôler le
degré
decomplexité.
Comme dans tout
algorithme
declassification,
la notion de dissimilarité entre deuxpopulations
est cruciale. Considérons deuxsous-populations Pl
etP2
de lapopulation P, qu’on
désire comparer dupoint
de vue duparamètre 03B803B1 (contenant
le
critère),
tel que décrit dans la sectionprécédente,
et la matrice de donnéescorrespondante
J =X1 X2
Onpeut
définir la dissimilarité entrePl
etP2 (par
rapport à 03B803B1)
sur la base durapport
de vraisemblanceoù j (X j) représente
l’estimateur du maximum de vraisemblancede 03B8j
estimé sur lesous-ensemble Xj correspondant
à lasous-population Pj .
Étant
donnée cette définition de la dissimilarité entre deuxsous-populations, l’algorithme
de SEGMAGpartitionne
les individus de telle sortequ’on maximise,
à
chaque étape
dupartitionnement,
la dissimilarité entre les deuxsous-populations
obtenues.
On doit aussi définir une classe C de
propositions
telle que touteproposition Q
E C induit unepartition
de lapopulation
P en deuxsegments disjoints, Pl
etP2.
Soit le vecteur z des variables deprédiction
d’unindividu,
on considèrera que la sous-classeCs composée
depropositions
de la formeappelées propositions simples,
où zj est un élément du vecteur zet Aj représente
unsous-ensemble des modalités
possibles
de la variable zj. Tous les individus dont la valeur de zjappartient
ausous-ensemble Aj
défini par6(z)
sont affectés àPl
tandisque les autres forment le
segment P2.
La
proposition Ql = {Age
>65},
que l’on retrouve aupremier palier
de l’arbrede la
figure 2(a),
constitue unexemple
deproposition simple.
Afin de tenir
compte
des interactionspossibles
entre variables deprédiction,
on étendra la recherche d’une
partition acceptable
à la sous-classeCB composée
depropositions
booléennes telles queLarbre illustré à la
figure 2(b)
montre le résultat d’uneanalyse
tenantcompte
des interactions
possibles
entre lesvariables;
on y observe unepartition
induite par lapropostion
booléenne suivanteDans ce cas, tous les hommes
âgés
de 65 ans etplus
serontassignés
à la sous-population Pl,
tandis que les autres formeront lesegment P2.
Un
paramètre
decalibration, 0 /3 1, permet
de contrôler lacomplexité
despropositions
considérées. Une valeurde /3 s’approchant
de 1 restreint la recherche à despropositions simples
tellequ’illustrée
à lafigure 2(a).
En diminuant la valeur de/3,
onpermet
à un nombre de variables croissant de définir unepartition,
tel que montré dans lafigure 2(b).
La définitionprécise
duparamètre 03B2
est donnée dansCiampi et
al.(1987).
Figure
2 : Effet duparamètre
de calibration/3
A
chaque étape
de la construction del’arbre,
on considère toutes les propo- sitionsQj
EC,
et pour chacune on calcule la dissimilaritéAj
entre les deux sous-populations qu’elle
induit. La meilleureproposition
est cellequi
maximise lerapport
de vraisemblance
j, c’est-à-dire
cellequi
maximise la dissimilarité entre les deuxsous-populations
obtenues.Au
point
dedépart
del’analyse,
on considère tous les individus commemembres d’une même
population
P. Ondispose
d’autrepart
d’unedescription
multidimensionnelle de
chaque individu,
sous la forme d’un vecteur de variables nominales.(Dans
le cas de donnéescontinues,
on doit avoir recours à unrecodage préalabe
parcatégories). Lalgorithme
cherche d’abord la meilleureproposition QI,
c’est-à-dire cellequi sépare
le mieux lapopulation
entière P en deux sous-populations distinctes, Pl et?2.
Parconvention, Pl
regroupe l’ensemble des individus satisfaisant laproposition Q1.
Le même processus de
segmentation
est ensuiteappliqué
aux deuxsegments
obtenusPl
etP2,
et ainsi de suitejusqu’à
ce que lapopulation
dechaque segment
devienneplus petite qu’un
effectif minimun fixé à l’avance. Il seracependant possible
d’établir un seuil d’arrêt a,
qui
contrôlera le nombre desegments
terminaux de l’arbre. Dans ce cas, unepartition (Pl, P2)
induite par uneproposition Qj
seraadmissible dans la mesure où la dissimilarité entre
Pl
etP2
serasignificative
auniveau nominal a; sinon le processus de
segmentation
se terminera. Le critère desimplicité
énoncé à la sectionprécédente
amènera doncl’analyste
àprivilégier
desvaleurs moindres d’a et un
{3
élevé.Il faut remarquer que la méthode de
segmentation
utilisée dans SEGMAG neconstitue pas une méthode
globalement optimale,
c’est-à-dire que l’arbre final03BE03B1
ne maximise pas nécessairement la vraisemblance sur l’ensemble de tous les choix
possibles de
De par la nature même de
l’algorithme
desegmentation,
il estpossible
que dessegments
terminauxprovenant
d’ancêtres différents soientidentiques
dupoint
de vue du critère.
Lalgorithme d’agrégation
de SEGMAGpermet
decorriger
cettesituation en
joignant
ensemble lessegments qui
se ressemblent leplus
dupoint
devue du critère. Un
paramètre
a’ contrôlel’agrégation
de la mêmefaçon
que pourl’algorithme
desegmentation.
Il est à noter que leparamètre
a’peut
être définicomme étant
égal
à a, mais ilpeut prendre
une valeur différente de celle utilisée pour lasegmentation.
4. Un
exemple d’application
Dans cette
section,
nous allons illustrer l’utilisation desprocédures
discutéesdans la section
précédente
pour sélectionner une classification à l’intérieur d’une famille de classificationspossibles,
obtenues en faisant varier lesparamètres
decalibration.
Lexemple
concernel’analyse
d’un fichier de donnéescliniques composé
de 614
patients
atteints du cancer du poumon detype "petites
cellules". Cespatients
ont été traités à
l’Hôpital
Général de Toronto ainsiqu’à l’Hôpital
PrincessMargaret,
entre 1976 et 1986. La liste des variables sélectionnées pour
l’analyse
et leursmodalités sont données dans le tableau
I,
avec leurs effectifsrespectifs.
A cetteliste de variables
prédictrices (facteurs pronostiques)
formant le vecteur zs’ajoute,
pour
chaque individu,
le vecteur M.composé
dutemps
de survie enjours,
t, et d’unindicateur, 8,
défini comme suitsi le
patient
esttoujours
vivantsi le
patient
est décédéOn se pose alors les
questions
suivantes.Question 1
Est-ce que la
survie, t, dépend
des facteurspronostiques
z ?Quelle
est la forme de cettedépendance?
(Classification pronostique).
Question
2Est-ce que le marqueur tumoral LDH
prédit
la survie uniformément ou existe- t-il certains groupes depatients
à l’intérieurdesquels
lepouvoir
deprédiction
deLDH est
supérieur?
(Classification
selon un coefficient derégression)
Dans le but de
simplifier
le calcul de la dissimilarité entre deuxpopulations données,
nous faisons icil’hypothèse
que lasurvie, t,
suit une fonction de densitéexponentielle
le
paramètre 03B3 joue
donc ici le rôle du critèrepuisqu’il
caractérise à lui seul la fonction de densité.TABLEAU I
Variables utilisées et effectifs
correspondants
TABLEAU 1
(suite)
Soient deux
segments Pl, P2
résultant d’unepartition
à un niveau donné del’arbre,
on fait dontl’hypothèse
que la fonction de densité de t à l’intérieur de chacun d’eux est de la formefj(t)=03B3je-03B3jt, j=1,2,
respectivement.
Le calcul de la dissimilarité entrePl
etP2,
tel que décrit à la sectionprécédente, équivaut
à testerl’hypothèse
selonlaquelle
’YI = 03B32.D’autres modèles
plus
réalistes etplus complexes
que le modèleexponentiel peuvent
êtreutilisés;
SEGMAG en propose d’ailleursprès
d’une dizaine. Le tribut à payer est celui de la lenteur descalculs;
certaines améliorationstechniques
telles que le calculparallèle
et l’accélération des accès mémoire devraient toutefoispermettre
de résoudre ceproblème.
Figure
3 : AIC en fonction de aComme le montre la
figure 3,
larègle
d’l -ERT,
décrite à la fin de la section2,
nous amène à choisir l’arbre illustré à la
figure 4(a),
avec aégal
à 0.005 etun (3
de 0.25. En
effet,
lapartition
dont l’AIC atteint son minimum est celle obtenue avec a = 0.20 et(3
= 0.00.Cependant,
larègle
d’l - ERT recommande de retenir commepartitions
candidates toutes cellesqu’on
retrouve à l’intérieur de la bande de hauteurERT03B1*,
s’étendant àpartir
dupoint
d’AIC minimum. Parmi toutes lespartitions comprises
dans cettebande,
on favorise laplus simple,
dans ce cas-ci l’arbre obtenuavec a = 0.005 et
03B2
= 0.25.a = 0.005 13 = 0.25 AIC = 8048.84 N = 6
Figure 4(A) :
Arbre choisi selon larègle
d’l - ERTLalgorithme d’agrégation appliqué
aux six classesterminales,
avec la mêmevaleur
d’a,
conduit à trois groupes dont les courbes desurvie,
estimées par la méthode deKaplan-Meier, apparaissent
à lafigure 4(b).
On constate, parexemple,
que les hommes pour
qui
l’étendue du cancer estgrande
etqui
avaient un état deperformance
de II ou III au début de lapériode
d’observation fontpartie
du groupe d’individusayant
laplus
courte durée de survie. Par contre, unepetite
étendue ducancer et un bas niveau de
globules
blancs semblent favoriser unelongue
surviechez les
jeunes patients.
Onpeut
ainsi caractériser en termescliniques chaque
groupe terminal de l’arbre obtenu et
répondre
de ce fait à laquestion
1 formuléeprécédemment.
TEMPS
Figure 4(B) :
Courbes de survie des trois classesDans le contexte de la
question 2,
on se demande si lepouvoir
deprédiction
dumarqueur tumoral LDH est uniforme sur l’ensemble des
individus,
ou si au contraireil existe certains groupes de
patients
pourlesquels
la survie est mieuxprédite
par la variable LDH. Lecritère 03B3
servant à mesurer la dissimilarité entre deux groupes devient le coefficient derégression
de la survie t sur la variableLDH,
dénotée par y.On définit le
risque
de décèsÀ(t)
comme lerapport
où f (t)
etS(t) représentent
la fonction de densité de t et la fonction desurvie, respectivement.
Afin desimplifier
les calculsnécessaires,
on faitl’hypothèse qu’à
l’intérieur de
chaque
groupePi,
la variable LDH exerce un effetmultiplicatif
sur lerisque
de décèsspécifique
de ce groupe. On a doncoù
Àj (t ; y)
dénote lerisque de
décès pour les individus du groupePj ayant
la valeury de LDH et
ÀOj (t) représente
lerisque spécifique
de ce groupe,qu’on
suppose inconnu.La
règle
d’l - ERT nous amène à choisir l’arbre avec a = 0.08 illustré dans lafigure
5(graphique
AIC en fonction de a nonillustré).
On constate parexemple
que le meilleur
pouvoir
deprédiction
de la variable LDH se retrouve dans le groupecomposé
de femmesayant
moins de 65 ans. Eneffet,
le coefficient derégression 03B3
est
égal
à0.881,
avec unrisque
relatifégal
à 2.413. Par contre, chez lespatients
deplus
de 65 ans, la variable LDH a unpouvoir
deprédiction négligeable puisque
lerisque
relatif n’est que de 1.041.Figure
5. Modèle de COX pour la variable LDHa = 0.08
(3
= 1.0 AIC = 296.59 N = 4On
pourrait
aussiidentifier,
par le mêmeprocédé,
des groupes d’individus pourlesquels
un traitementquelconque
estparticulièrement bénéfique.
Cette information revêt uneimportance primordiale
lors de laplanification d’expériences cliniques ultérieures, puisqu’elle permet
d’orienter le choix d’un traitementapproprié
àchaque patient.
Références
H. AKAIKE
(1974).
2014 A new look at the statistical modelidentification,
IEEETrans. Automat.
Control, 19,
716-723.L.
BREIMAN,
J.H.FRIEDMAN,
R.A. OLSHEN et C.J. STONE(1984).
2014 Clas-sification and
Regression
trees,Belmont,
CA : Wadsworth.A. CIAMPI et J.
THIFFAULT(1986). -
Recursive Partition in Biostatistics : Criteria for treeselection,
COMPSTAT86,
Short Communication andPosters,
47-48.
A.
CIAMPI,
C.H.CHANG,
S. HOGG et S.McKINNEY(1987). 2014
RecursivePartition : A versatile method for
exploratory
dataanalysis
inBiostatistics, biostatistics,
I.B. MacNeill et G.J.Umphrey, eds.,
D. ReidelPublishing Company,
23-50. -50.D.R.COX et D.V. HINKLEY
(1974).
- TheoreticalStatistics, Chapman
&Hall,
Londres.
E. DIDAY
(1980).
2014Optimisation
en ClassificationAutomatique, (Tomes
1 et2).
INRIA,
LeChesnay.
B. EFRON
(1982a).
2014 Maximum Likelihood and DecisionTheory,
The Annalsof Statistics, 10,
340-356.B. EFRON
(1982b).
2014 TheJackknife,
theBootstrap
and otherresampling plans, SIAM, Philadelphie.
A.D. GORDON
(1981).
2014 Classification : Methods for theexploratory analysis
ofmultivariate
data, Chapman
&Hall,
Londres.M. JAMBU et M.-O. LEBEAUX
(1983).
- ClusterAnalysis
and DataAnalysis, North-Holland,
Amsterdam.S. JUNCA
(1985).
2014 Outilsinformatiques
pour l’évaluation de lapertinence
d’un résultat en
analyse
dedonnées,
Thèse deDoctorat, 3ème cycle, USTL, Montpellier.
J. SIDI
(1980).
-L’approche logique
en classificationautomatique
et reconnais-sance des
formes,
Université ParisVI,
Thèse deDoctorat, 3ème cycle.
M. STONE
(1974).
2014Cross-validatory
choice and assessment of statisticalpredictions,
J.Royal
Statist.Society B, 36,
111-147.M. STONE
(1977).
- Anasymptotic equivalence
of choice of modelby
cross-validation and Akaike’s