R EVUE DE STATISTIQUE APPLIQUÉE
J.-P. N AKACHE J. V ILAIN
B. F ERTIL
Discrimination et régression par une méthode neuromimétique et par la méthode de segmentation CART : application à différentes données et
comparaison des résultats
Revue de statistique appliquée, tome 44, n
o4 (1996), p. 19-40
<http://www.numdam.org/item?id=RSA_1996__44_4_19_0>
© Société française de statistique, 1996, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DISCRIMINATION ET RÉGRESSION PAR UNE MÉTHODE
NEUROMIMÉTIQUE ET PAR LA MÉTHODE DE
SEGMENTATION CART : APPLICATION À DIFFÉRENTES
DONNÉES ET COMPARAISON DES RÉSULTATS
J.-P.
Nakache*,
J.Vilain**,
B. Fertil*** INSERM U88 -
Hôpital
National de Saint-Maurice, 14 rue du Val d’Osne, 94415 Saint-Maurice Cedex** INSERM U66 - CHU Pitié
Salpétrières,
91 boulevard del’Hôpital,
75634 Paris Cedex 13RÉSUMÉ
Les méthodes -
neuromimétique
etsegmentation
selon CART - sontexposées
sans entrerdans les détails
théoriques qui figurent
dansplusieurs
articles ou livres fournis en référence. Ces deux types de méthode sontappliqués
dans un contexte de discrimination ou derégression
àtrois ensembles de données ayant
déjà
faitl’objet
deplusieurs
étudesstatistiques.
Les résultatssont obtenus à
partir
d’un échantillond’apprentissage
et leurqualité
est évaluée à l’aide d’un échantillonindépendant.
Pour ces
jeux
de données, la méthode neuronale fournit de meilleurs résultats que ceux obtenus par la méthode CART. La méthode CARTrequiert
sur cesexemples, quelques
minutesde temps calcul pour établir la
règle
de décision ou deprédiction
tandis que la méthode neuronale nécessite un temps calcul nettementplus long
et une connaissance de l’outil trèsapprofondie.
Par contre les deux méthodes ont des temps de
réponse
courtsquand
ils’agit d’appliquer
larègle
de décision ou deprédiction
à de nouveaux cas.Mots-clés : Réseau de neurones,
rétropropagation
dugradient, apprentissage supervisé, segmentation, élagage,
discrimination,régression, règle
de décision ou deprédiction, risque,
erreur
quadratique
moyenne.ABSTRACT
Two methods - neural networks and CART tree-structured method - are
presented
without
giving
theoretical details that can be found in several articles or booksprovided
inthe references. Both methods are
applied,
in a discrimination or aregression
context, to threedatasets
already
used in severalpublished
statistical papers. The results are obtained from alearning sample
and their accuracy is evaluatedusing
anindependent
test set.For these data, the results obtained
by using
neural networks are better, in terms of accuracy, than thoseprovided by
CART method. For theseexamples,
a few minutes arerequired
to build the decision or the
prediction
rule whenusing
CARTmethodology,
which is not thecase with neural networks. In this later case an
important
andprohibitive
computer time andan advanced
knowledge
of the tool arerequired.
But with both methods, the response time is very short whenapplying
the rules to new cases.Keywords :
Neural network,back-propagation, supervised learning,
tree-structuredclassifi-
cation or
regression, pruning, prediction
or decision rule, risk, mean square error.Introduction
On note
depuis quelques
années l’utilisation de méthodesneuromimétiques
en
Statistique
pour effectuer des tâches declassification,
dediscrimination,
derégression.... (Ripley, 1994b).
Ces méthodes ont d’ailleurs étécomparées,
dans desproblèmes
biendéfinis,
aux méthodesstatistiques classiques (Burke et al., 1994;
Leon, 1994;
Shadmehr etal.,
1990; Gallinari etal., 1991).
Ilfaut, particulièrement,
. mentionner le récent ouvrage de Michie et al.
(1994) qui rapporte
les résultats d’uneimportante
étude sur lacomparaison
et l’évaluation d’un ensemble detechniques
declassification et de
discrimination,
étude effectuée dans le cadre d’unprojet européen
ESPRIT
(STATLOG).
D’autre
part
dans le domaine de lasegmentation,
la méthode CART(Breiman
et
al., 1984)
est considérée comme une méthode de référence(Nakache et al., 1993;
Ripley, 1993).
Il nousparaît
donc intéressant de comparer ces deux méthodes sur des donnéesclassiques (DIGITS, DAA, HOUSING),
ayantdéjà
faitl’objet
de différentes étudesstatistiques.
Les données
DIGITS,
très connues dans lalittérature,
concernent unproblème
de reconnaissance des 10 chiffres
(Breiman
etal., 1984).
Ils’agit plus précisément
d’une
analyse
discriminante entre 10 groupes d’observations.Les données DAA ont été recueillies sur un ensemble de
patients
atteintsde douleurs abdominales
aiguës qui
ont faitl’objet
deplusieurs
articles(Seroussi;
ARC et
AURC, 1985).
Un sous-ensemble des donnéescomplètes
relatif à 6 groupesdiagnostiques
a été soumis àl’analyse
discriminante.En ce
qui
concerne larégression,
elle a étéappliquée
aux données HOUSING(Harrison
etRubinfeld, 1978) soumises,
par leurs auteurs, à un modèle derégression
linéaire
multiple après
transformation des variablesindépendantes.
Les méthodes -
neuromimétiques
et CART - sont décrites sanstrop
de détailsthéoriques
que le lecteur pourra trouver dans les nombreux articles ou livres cités en référence. Elles sontappliquées
àpartir
d’un échantillond’apprentissage
conduisant à la construction soit d’une
règle
de décision(discrimination),
soit d’unerègle
deprédiction (régression).
Cesrègles
sont ensuite évaluées sur un échantillonindépendant.
Cette évaluation estfondée,
dans un contexte de discrimination sur letaux d’erreur de classement et
l’adéquation
desprobabilités
aposteriori
et, dans uncontexte de
régression
sur l’erreur relative deprédiction.
La méthode neuronale
Les réseaux de neurones font
l’objet depuis quelques
années d’une intense activité. Ils’agit,
sur la base d’uneanalogie neurobiologique
de la structure et dufonctionnement du cerveau, de mettre en
place
desprocédures
nouvelles de traitement de l’information(Davalo
etNaïm, 1993; Weisbuch, 1989).
Lacapacité
croissante des calculateurs est mise àprofit
pour simuler des neurones et construire des architectures neuronalescomplexes
aveclesquelles
il estpossible
dejouer
tout à loisir(Masters, 1993;
McClelland etRumelhart, 1988).
Les
applications
de cestechniques
nouvelles sontmultiples.
Enparticulier,
onpeut
remarquer que de nombreux travaux ont été consacrés àl’analyse
de données(Ripley, 1994a).
Dans l’état actuel desconnaissances,
les réseaux de neurones sont des outils de choix pour effectuer des tâches d’identification et de classification(Gernoth
et
Clark, 1995, Ripley, 1994b),
pour détecter des traits discriminants dessignaux présentés
à leur entrée(Cichocki
etUnbehauen, 1993;
Coustère etFertil, 1992;
Masters, 1994).
Ils sontparticulièrement adaptés lorsque
les données sont bruitéesou
incomplètes.
Les données aberrantes n’ont engénéral
que peu d’influence. Les méthodes neuronales sont notamment très utileslorsqu’il
est difficile d’identifier lesparamètres
d’intérêt et de formaliser lesphénomènes
étudiés.Les
types
de réseaux de neurones sont très variés etdépendent
del’application
désirée.
Cependant,
ils fonctionnent engénéral
sur le mêmeprincipe : analyser
desdonnées par une méthode neuronale revient à modéliser celles-ci à l’aide d’un modèle
fortement
non linéaire etsurparamétré.
Un réseau de neurones est souvent considérécomme une boîte noire munie d’une entrée et d’une sortie. Les données sont
présentées
au réseau sous la forme d’une
configuration
d’activation des neurones d’entrée. Cette activation estpropagée
à travers le réseau. Ce dernier fournit finalement uneréponse
sous la forme d’une
configuration
d’activation des neurones de sortie.L’ajustement
du modèle
(phase d’apprentissage
dans laterminologie neuronale)
s’effectue engénéral
de manièreprogressive,
parprésentation répétée
des données ausystème
et correction
partielle
desparamètres (poids
dans laterminologie neuronale) jusqu’à
la satisfaction d’un critère d’arrêt fondé par
exemple
surl’adéquation
desprédictions
données par le
système
et des valeurs souhaitées. Dans la mesure où lesystème
est trèsfortement
surparamétré,
il est souventpossible
d’obtenir un très bonapprentissage
de l’ensemble des données
qui
lui sontprésentées. Cependant,
aucunegarantie
n’estofferte concernant les
performances
pour un autre ensemble de données similaires.Le critère d’arrêt est donc
appliqué
sur un ensemble de donnéesindépendant
decelui utilisé pour
l’apprentissage.
Il est courantd’observer,
dans unepremière phase (phase
degénéralisation),
que laqualité
del’ajustement
sur cet ensemble de données augmente au cours del’apprentissage puis qu’elle
sedégrade
dans une deuxièmephase (apprentissage
parcoeur).
La décision de l’arrêt est alors facile àprendre.
L’apprentissage
ditsupervisé
est mis enplace lorsque
la sortie souhaitée est connue. C’est le cas en discrimination ou enrégression.
L’erreur deprédiction
estalors utilisée pour améliorer
l’ajustement.
LePerceptron
estl’exemple
type de réseau fonctionnant de la sorte. Il estcomposé
deplusieurs
couches de neurones(couches d’entré, cachées,
desortie). L’apprentissage, qui
s’effectue parl’algorithme
dit derétropropagation
dugradient (Le Cun, 1985; Rumelhart, et al., 1986),
est engénéral plus rapide qu’en
mode nonsupervisé.
Dès lorsqu’il
existe une informationpertinente
dans les
données,
lesperformances
sont excellentes. Ces réseaux sont courammentutilisés pour des tâches d’identification. En ce
qui
concerne lesproblèmes
que nousavons abordés dans ce
travail,
nous avons choisi de mettre enplace
un réseau de cetype.
Représentation et fonctionnement
d’un neuroneLes unités de base d’un réseau sont des neurones.
A l’image
des neuronesbiologiques,
ils ontplusieurs
entrées où viennent se connecter d’autres neurones et une ouplusieurs
sortiesqui
leurpermettent
d’activer d’autres neurones.Ainsi,
ils sont interconnectés pour former un réseau. La liaison entre deux neurones est caractérisée par unpoids synaptique qui quantifie
ledegré
d’interaction entre eux. Si lepoids
est
positif,
la liaison est diteactivatrice;
s’il estnégatif,
elle est inhibitrice. L’état duneurone est défini par son
activation,
calculée àpartir
de la sommepondérée (par
lespoids synaptiques)
des activations des neuronesincidents,
par l’intermédiaire d’une fonction de transfert engénéral
non linéaire. Cette activation est par la suitepropagée
de la même manière aux neurones suivants.
Structure du réseau
Le réseau est du
type
multicouches : Une couched’entrée,
une ouplusieurs
couches
cachées,
une couche de sortie. Les neurones d’une couche donnée sont exclusivement connectés à ceux de la couche suivante. Le nombre de neurones par couche est variable. Ildépend
duproblème
à traiter. Le nombre de neurones des couches d’entrée et de sortiedépend
du format et dutype
des données. Engénéral
unestructure en diabolo est retenue,
l’importance
du rétrécissement au niveau des couches cachées déterminant ledegré
degénéralisation
souhaité lors del’apprentissage.
Architecture du réseau de neurones
Le réseau de neurones utilisé pour traiter les données en
question
a laconfigu-
ration ci-dessus. Dans ce
réseau,
la valeurprise
par la variable latentehk
de la couche cachée est obtenue àpartir
de la combinaison linéairedes observations d’un individu x en utilisant la fonction
logistique
dont les valeurs sont
comprises
entre 0 et1;
elles varient fortement auvoisinage
dehk(X)
=1/2
et tendentasymptotiquement
vers 1 ou 0lorsque f k (x)
tend versplus
ou moins l’infini. Il en est de même des valeurs de la variable à
expliquer
en sortiequi
sont des fonctions des variables de la couche cachéeIl
s’agit
d’estimer les différents coefficientsQjk
et{3kg
connus sous le nom depoids synaptiques.
Pour un individu de l’échantillon
d’apprentissage
le réseau fournit une valeur estimée dechaque
neurone de sortiequi
estcomparée
à la valeur observée correspon- dante. On en déduit unécart,
fonction despoids synaptiques qui
sont ensuiteajustés.
La méthode habituellement utilisée pour
ajuster
cespoids
est larétropropagation
del’erreur par la méthode du
gradient. L’algorithme
derétropropagation
des réseaux multicouches vise à minimiser le carré des écarts constatés entre les valeurs attendueset les valeurs estimées à la sortie du réseau. Les écarts sont
répercutés
de neurone enneurone,
depuis
la sortie du réseaujusqu’au
neurone de la couche cachée.Remarque :
dans un contexte derégression,
on considère un seul neurone ensortie dont la valeur estimée pour un individu est
comparée
à sa valeur observéeaprès
transformation de la variable à
expliquer
en variable dont les valeurs sontcomprises
dans l’intervalle
[0,1].
Codage
des donnéesLa
représentation
des données conditionne la réussite de l’étude. Achaque
neurone de la couche
d’entrée,
il convient d’associer unecaractéristique
des données àanalyser (pixel
pour uneimage,
valeur d’unparamètre
pour des données multidi-mensionnelles).
Parconstruction,
l’activation des neurones de sortie est bornée(en général [0,1]).
Il est souhaitable d’utiliser au mieux toute ladynamique
offerte parces neurones pour
représenter
laréponse
attendue.Mode
d’apprentissage
L’algorithme
derétropropagation
dugradient
est la méthode de choix dans ce contexte. Au cours de laphase d’initialisation,
lespoids
des liaisons entre les neuronessont choisis au hasard. Puis les données sont
présentées
au réseau.L’apprentissage
est effectué successivement pour
chaque donnée,
une faible correction étantapportée
à
chaque poids
pour améliorer laprédiction.
Toutes les données étantpassées
enrevue, une nouvelle session
d’apprentissage
estengagée,
et ainsi desuite, jusqu’à
satisfaction du critère d’arrêt. On obtient ainsi un ensemble de
poids qui
sont unereprésentation
de l’informationacquise
au cours del’apprentissage.
Mode
d’exploitation
En
phase d’exploitation,
les données sont codées pour êtreprésentées
à l’entréedu
réseau;
l’activation des neurones estpropagée
de l’entrée vers la sortie en utilisant le fichier depoids
sélectionné. L’activité des neurones de sortiecorrespond
à laréponse
du réseau.
Applications
En ce
qui
concerne lesproblèmes
que nous avons abordés dans ce travail,nous avons choisi de mettre en
place
des réseauxmulticouches, l’apprentissage
étanteffectué par
l’algorithme de rétropropagation
dugradient,
donc en modesupervisé.
Principales particularités
de la méthodeneuromimétique
utiliséeLe modèle est
ininterprétable
en ce sens que lesparamètres (poids
reliantles neurones entre
eux)
n’ont pas apriori
unrapport
direct avec lephénomène.
Il est difficile de savoir sur
quelles
informations se base le réseau pour effectuer desprédictions.
L’obtention de la
règle
de décision n’est pasrapide (de
l’ordred’une journée
pour les
problèmes
considérés dans cette étude et sur un ordinateur debureau).
Destechniques d’ajustement adaptées
au type deproblème posé,
peuvent réduire letemps
de calcul d’un facteur 10(Perantonis
et Karras,1995;
SPAD.N :procédure NEURO, 1993).
L’utilisation de la méthode demande connaissance et maîtrise de l’outil. Le choix de l’architecture et du nombre de neurones
cachés,
de la fonctionobjet
àminimiser,
desparamètres
de convergence pour la méthode itératived’ajustement
utilisée est fondé en
grande partie
sur des considérationsempiriques.
Le nombre
important
deparamètres
àajuster
réclame un échantillon de donnéesconséquent :
soit I le nombred’individus,
J le nombre de variablesexplicatives,
H lenombre de neurones dans la couche cachée
unique
et K le nombre de modalités de la variable àexpliquer.
Alors le nombre deparamètres P est (J + 1)H + (H + 1)K.
Lenombre 1
provient
de l’introduction d’un terme constant dans la combinaison linéaire utilisée comme fonction d’entrée des neurones. Généralement J et H sont nettementsupérieurs
à 1 et K est inférieur à J. Dès lors P --H(J
+Ka
HJ. Le nombre deparamètres
estproportionnel
au nombre de variablesexplicatives
en tenantcompte
ducodage
des variablescatégorielles.
On considèregénéralement qu’un apprentissage
efficace nécessite un nombre d’individus 2 à 4 fois
plus
élevé que le nombre deparamètres
à estimer(Master, 1993).
Par ailleurs H est inférieur à 10 enpratique;
Iest donc de l’ordre de 40J.
En raison de
l’aspect stochastique
del’apprentissage,
larègle
de décision diffère d’un essai àl’autre,
tout en conservant unequalité
du même ordre(Fertil
etVilain,
1994).
Dans le cadre d’une
discrimination,
si on modifie les fonctions coûts ou lesprobabilités
apriori,
il faut refairel’ajustement
car le réseau de neuronesn’indique
que la valeur estimée de la variable à
expliquer.
Il estcependant possible
de demanderexpressément
au réseau de fournir lesprobabilités
aposteriori (Gernoth
etClark, 1995; Jepson et al., 1993; Martin, et al., 1994;
Nix etWeigend, 1994;
Srivastava etWeigend, 1994).
La différence entre l’erreur
apparente
obtenue avec le fichierd’apprentissage
par la méthode de
resubstitution,
et l’erreur réelle obtenue avec un fichier test peut êtreimportante.
Non seulement le modèleintègre
les fluctuationsd’échantillonnage,
mais comme il est
surparamétré,
il peut, en faisant del’apprentissage
par coeur, réduire considérablement l’erreurapparente.
Il convient donc de repenser les modalitésd’applications
destechniques classiques
de validation : validationcroisée,
Jackknife etBootstrap (Katz et al., 1994; Liu, 1995; Paass, 1994)
pour les utiliser avec lestechniques
neuronales.Toute information fournie par les variables
explicatives
estsusceptible
d’êtreutilisée. Une variable
qualitative
est transformée en variables binaires[0-1 ],
elles-même traitées comme variables
quantitatives
par le réseau. Lerecodage
des variablesest très peu
contraignant.
Aucunepropriété particulière
concernant la distribution des variables n’est recherchée. Seul unlarge
étalement des variations entre0,2
et0,8
est choisi afin d’accélerer le processusd’ajustement.
La méthodeaccepte
des variablesexplicatives ayant
uneprobabilité
de distributionquelconque
de variationnon monotone avec la variable à
expliquer.
Ellepeut
aussiintégrer
des interactions d’ordre élévé entreprédicteurs (exemple
duproblème
des deuxspirales (Mascioli et al., 1994)).
La sélection des variablesexplicatives,
souvent nécessaire pouroptimiser
les
performances
de larègle
de décision dans les méthodesclassiques,
estremplacée
par celui
plus simple,
de la détermination de l’architecture duréseau,
àpartir
d’unfichier de validation
temporaire.
La méthode est robuste devant les données manquantes
imprécises
ou erronées.En
présence
d’une donnéeaberrante,
le réseau estcapable
d’allouerquelques
ressources pour
l’expliquer
sans pour autant que lesperformances
sur les autresdonnées soient
dégradées.
Dans le contexte d’un
classement,
en utilisant le fichierd’apprentissage,
leréseau de neurones
indique
la densité deprobabilité
aposteriori
pourchaque
groupe,après recodage
des résultats(> 0,
8 donne1, 0,2
donne0,
et[0,2-0,8]
donne[0-1]), grâce
au processus de minimisation de la somme des carrés des erreurs.Cependant
ceminimum est atteint dans
l’apprentissage
si et seulement si la distribution des résultats estidentique
à celle des densités deprobabilités
aposteriori (Ruck
etal., 1990).
La méthode de
segmentation
CARTCART, sigle
pour Classification AndRegression Trees,
est uneprocédure
statistique non-paramétrique
introduite parBreiman, Friedman,
Olshen et Stone en1984
(Breiman,
etal., 1984).
Elle est utilisée pouranalyser
la relation entre unevariable Y
(variable dépendante
ou variable àexpliquer)
et un ensemble de p variablesX j (variables indépendantes
ou variablesexplicatives)
de naturequelconque.
Onpourra se référer au livre de G. Celeux et J.-P. Nakache
(1994)
pour tous les détailsthéoriques
de la méthode CART vue sousl’angle
discrimination.CART
répond
à unproblème
de discrimination ou derégression
selon que la variable Y estqualitative
ouquantitative.
Les résultats fournis par CART seprésentent
sous la forme d’arbres obtenus par
partitionnement récursif binaire.
Le processus est binaire parce que les noeudsparents
sonttoujours
divisés en deux noeuds descendantset
récursif,
parce que ce processus estrépété
en considérantchaque
noeud comme unnoeud
parent.
Un
individu, parcourant
l’arbredepuis
saracine,
tombe dans un noeud terminal et un seul suivant les valeursqu’il présente
pour les variables de division des noeuds intermédiaires.Dans un contexte de discrimination un noeud terminal de l’arbre
(arbre de décision)
est affecté à une classe. Si la variable àexpliquer
estquantitative,
une valeurprédite
de Y est associée àchaque
noeud terminal de l’arbre(arbre
deprédiction).
CART n’est pas la seule
technique
basée sur une structure d’arbre. Lesprincipales
méthodesdéveloppées
avantCART,
comme AID(Morgan
etSonquist, 1963),
THAID(Morgan
etMessenger, 1972)
et CHAID(Kass, 1980),
sont baséessur la recherche d’une
règle
d’arrêt de division laplus adéquate,
cequi produit généralement
des résultats insatisfaisants. Une innovationmajeure
de CART a étéd’éliminer toute
règle
d’arrêt de division et depoursuivre
parconséquent
leplus longtemps possible
la division des noeuds.En
présence
d’unproblème
dediscrimination,
nous avons à différencierplusieurs
groupes ou classes. L’idée est de sélectionnerchaque
division de telle sorteque les données de chacun des deux noeuds descendants soient
«plus
purs» que les données dans le noeud parent. Cette sélection est basée sur la notiond’impureté
d’unnoeud. Aucun critère n’est utilisé pour arrêter la division des
noeuds,
cequi
conduità l’obtention d’un
grand
arbre(noeuds
terminaux en nombreimportant).
Cegrand
arbre est ensuite successivement
élagué
encoupant
les branches non informatives.Une
séquence
de sous-arbresemboîtés,
dont lepremier
est legrand
arbre et le dernierla
racine,
est ainsi construite.CART utilise
finalement,
soit la méthode de l’échantillon test, soit la méthode de validation croisée(suivant
la taille del’échantillon)
pour, d’unepart
estimer letaux d’erreur associé à
chaque
sous-arbre de laséquence,
et d’autrepart
sélectionner le «meilleur» sous-arbrequi
est basé sur l’erreur et sur unepénalité appliquée
auxgrands
arbres.Ayant
obtenu le «meilleur»sous-arbre,
leproblème
est alors de déterminer le classement de toute observationqui,
parcourant l’arbredepuis
saracine,
tombe dansun des noeuds terminaux. La
règle
de décision laplus simple
consiste à affecter cetteobservation au groupe le
plus représenté
dans ce noeud. Cetterègle
est bien entendu valable si lesprobabilités
apriori
sont estimées par lesfréquences
des groupes dans l’échantillon et si deplus,
les coûts de mauvaise classification sontpris égaux
à 1.Il
n’y
a, d’autrepart,
aucune difficulté à construire cetterègle
dans le casgénéral
(Breiman et al., 1984; Gueguen
etNakache, 1988).
Si la variable à
expliquer
estquantitative,
ils’agit
deprédire
la valeurnumérique
de cette variable pour un individu donné. La
technique
estrigoureusement identique
àcelle de CART utilisée dans un contexte de discrimination. La seule différence réside dans le choix du critère de division d’un noeud
qui
est,ici,
basé sur la variance-intra noeuds descendants de la variable Y àexpliquer (Breiman
etal., 1984).
Ayant
obtenu le «meilleur» sous-arbre derégression,
larègle
deprédiction
dela valeur Y pour un individu est
simple : l’individu, qui parcourt
l’arbredepuis
saracine,
tombe dans un des noeuds terminaux. Sa valeurprédite
de Y est la moyenne des valeurs de Y des individus de l’échantillond’apprentissage
inclus dans ce noeud terminal.Principales particularités
de la méthode CARTLa
procédure
CARTprésente
lesavantages
suivants : les variablesexplicatives, qui peuvent
être den’importe quelle
nature(qualitatives,
binaires ouquantitatives),
sont utilisées sans
codage préalable.
Les individusprésentant
des donnéesmanquantes
ne sont pas exclus de
l’analyse.
Les variablessuppléantes (Breiman,
etal., 1984, Gueguen
etNakache, 1988) permettent
d’autrepart,
une affectation à un groupeou une
prédiction
de la variable àexpliquer
d’un nouvel individu dont les données sontmanquantes
pour certaines des variables de division des noeuds de l’arbre. Laprocédure
est robuste vis-à-vis dequelques
données aberrantes ou erronées. Les résultats obtenus sont invariants parrapport
à des transformations monotones des variablesexplicatives.
Enfin dans un contexte de discrimination il estpossible,
sansaucune
difficulté,
de fixer lesprobabilités
apriori d’appartenance
aux différentsgroupes ainsi que les coûts de mauvaise
classification,
et ce dans le butd’attribuer,
sinécessaire,
despoids
différents aux groupes.Evaluation de la
qualité
de larègle
de décision. ou de la
règle
deprédiction Qualité
de larègle
de décisionEn
discrimination,
une fois construite larègle
dedécision,
il estimportant
d’enévaluer la
performance (ou qualité),
c’est-à-dire lerisque qui
lui estassocié,
ou encorel’erreur
qu’elle produira lorsqu’elle
seraappliquée
à de nouvelles observations.Dans les
applications présentées
dans cetarticle,
lesprobabilités
apriori d’appartenance
aux différents groupes ont été estimées par lesfréquences
des groupes dans l’échantillon servant à cetteévaluation,
et deplus,
les coûts de mauvaise classification ont étépris égaux
à 1. Sous cettehypothèse,
l’estimation durisque
est
égale
aupourcentage
d’observations de l’échantillon d’évaluation mal classées par larègle
de décision.Qualité
d’unediscrimination fondée
surl’adéquation
desprobabilités
a
posteriori
Il existe en
pratique
desexemples
où lepoint
de vuepurement
décisionnel n’est pasadéquat.
Parexemple
dans unproblème
dediagnostic médical,
au lieude déterminer la classe
diagnostique
àlaquelle
est affectée unpatient,
il peut êtrepréférable
de fourniruniquement
les estimations desprobabilités
aposteriori d’appartenance
aux différentes classesdiagnostiques.
Dans ce cas, iln’y
a pas derègle
de décisionproprement dite,
la discrimination consiste àfournir,
pourchaque
observation de l’échantillon E servant à
l’évaluation,
le vecteurdécrivant les k
probabilités
aposteriori d’appartenance
aux groupes.La mesure de la
qualité
de la discriminationpeut
être estimée par l’écartquadratique
moyen(Breiman
etal., 1984; Gueguen
etal., 1996).
Si lesprobabilités
a
priori
sont estimées par lesfréquences
des groupes de l’échantillonE, l’expression
de ce score est :
où N est la taille de E et Zis = 1 si le groupe
d’origine de xi
estGs
et zi, = 0 sinon.Remarque :
On pourra trouver des détailsthéoriques
sur l’estimation durisque
d’une
règle
de décision et du scorequadratique
moyen ainsi que les estimations de leurs variancesrespectives,
dans l’article deGueguen
et al.(1996).
Qualité
d’unerègle
deprédiction
En
régression,
comme endiscrimination,
il est tout aussiimportant
d’évaluerla
performance
de larègle
deprédiction
de la valeur de la variable àexpliquer quand
elle est
appliquée
à de nouvelles observations constituant un échantillon test E. Une estimation de laqualité
de larégression
estgénéralement
fournie par :qui représente
lapart
de la variance de Y dans l’échantillon nonexpliquée
par larégression.
Cette estimation de laqualité
de larégression
est aussi connue sous lenom d’estimation de l’erreur relative de
prédiction (CART, 1984).
Application
aux données DIGITSCes données concernent les nombres
(digits)
de 0 à 9apparaissant
sur lesmontres ou les écrans d’ordinateurs.
Chaque
nombre est caractérisé par un vecteur(xi,
..., Xj, ...,X7)
à 7 dimensionscomposé
de 0 et de 1. Les différentsprofils
sontles suivants :
Il
s’agit
de données bruitéesgénérées
par simulation avec une introduction d’erreurs dans leprofil
dechaque digit : chaque
observationx j
a uneprobabilité égale
à0,1
d’ êtrechangée
en son contraire. 200profils (20
pardigit),
ainsiobtenus,
constituent l’échantillond’apprentissage
divisés en 10 groupes(digits) qu’il
estquestion
dereconnaître. D’autre
part,
pour évaluer larègle
discriminante construite àpartir
decet échantillon
d’apprentissage,
un échantillon de 2000profils (200
pardigit)
a étégénéré
de la mêmefaçon.
Méthode neuronale
Dans le schéma du réseau de neurones construit à
partir
de l’échantillond’ap- prentissage,
la couche d’entréecomprend
7 neuronescorrespondant
aux 7 variables binaires de chacun desprofils
de l’échantillond’apprentissage.
La sortie est codée sur10 neurones, chacun d’eux
représente
une classe oudigit.
Pourl’apprentissage, l’ap- partenance
à la classecorrespond
à une activation de0,8
pour le neuroneconcerné, 0,2
pour les autres. Enphase d’exploitation,
àchaque
individu testécorrespond
unedistribution d’activation
parmi
les neurones de sortie. La classe est déterminée par leneurone d’activité la
plus grande.
Plus la valeur de l’activation estproche
de0,8
et/ouplus
l’écart avec les autres activations estgrand, plus
laprédiction
est sûre.Le nombre de neurones de la couche cachée doit être déterminé de manière
empirique.
Engénéral,
l’erreur sur le fichierd’apprentissage
diminuelorsque
le nom-bre de neurones cachés
augmente. Cependant,
dans le casprésent,
l’indétermination structurelle des données(il
existe des individus de classes différentesqui
ne sont passéparables)
conduit à une limite minimale de cette erreur(17%).
Celle-ci estprati- quement
atteinte dès que le nombre de neurones cachés estsupérieur
ouégal
à 9. Iln’est donc pas nécessaire d’utiliser un fichier de validation.
Le tableau 1 fournit le résumé du classement des 2 000 observations de l’échantillon d’évaluation. L’erreur de classement est de
27,05%
avec unécart-type
de
0,99%
et la valeur du scorequadratique
moyen est de0,4218.
Remarque : Ripley (1993) présente
dans son articleplusieurs exemples
dont unecomparaison
sur lesdigits
entre CART et untype
de réseau de neuronesidentique
au nôtre
(MLP),
mais avec des résultats différents : 35% d’erreurs avec un fichier de 200 individus bruités à 10%. Il semble apriori
que le nombre de neurones cachésTABLEAU 1
Méthode neuronale
appliquée
aux données DIGITS.Classement des 2 000 observations de l’échantillon d’évaluation
(27,05%
MC ±0,99%; SQM
=0,4218)
Affectation
choisi soit
trop élevé, puisque
20 neurones cachés ont été utilisés au lieu de9,
cequi
conduit à unrapport
du nombre d’individus au nombre deparamètres trop
faible(200/370 -- 0,55).
Méthode CART
La
figure
1représente
l’arbre de décision obtenu àpartir
de l’échantillond’apprentissage.
Ce sous-arbre retenu,après élagage
et utilisation de la méthode de validationcroisée,
contient 10 noeuds terminaux. Ledigit
leplus représenté
et safréquence
sont mentionnés à l’intérieur dechaque
noeud terminal. Pourchaque
noeudintermédiaire,
lafigure
1 fournit son nombre d’observations ainsi que la variableayant
servi à le diviser. Le nombre d’observations dechaque
n0153ud terminal estindiqué
sousle n0153ud.
Le tableau 2
présente
le résumé duclassement,
par larègle
de décision associée àl’arbre,
des 2 000 observations de l’échantillon d’évaluation. Laqualité
de cetterègle
de décision estappréciée
par une estimation de l’erreur de classementégale
à30,15%
avec unécart-type
de1,02%
et une valeur du scorequadratique
moyenégale
à
0,5167.
Comparaison
des résultats obtenus par les deux méthodesCes résultats montrent que la
plus petite
valeur du scorequadratique
est obtenuepar la méthode neuronale. D’autre
part,
lacomparaison
des estimations des erreurs deFIGURE 1
Arbre de décision obtenu à
partir
de l’échantillond’apprentissage
des données DIGITS TABLEAU 2Méthode CART
appliquée
aux données DIGITS Classement des 2 000 observations de l’échantillon d’évaluation(30,15%
MC ±1,02%; SQM
=0,5167)
Origine
classement au moyen du test de MacNemar
(Siegel, 1956)
decomparaison
de deuxproportions appariées (tableau 3)
conduit à une différence hautementsignificative
entre
elles,
avec uneplus petite
erreur pour la méthode neuronale.TABLEAU 3
Comparaison
des % MC obtenus par les méthodes CART et NEURONESappliquées
aux données DIGITS -(X 2
=18,45 )à
1ddl)
Méthode neuronale
Application
aux données DAACes données concernent des
patients présentant
des douleurs abdominalesaiguës.
Elles ont été recueillies par leschirurgiens
de l’association ARC-AURC(Flamant, et al., 1981).
Cespatients
sont divisés en 6 groupescorrespondant
à6
diagnostics.
Les données ont été divisées aléatoirement en deux échantillons : unéchantillon
d’apprentissage (EA)
de 3 114patients
utilisé pour construire larègle
dedécision,
et un échantillon d’évaluation(EE)
de 1 427patients (30%
depatients
tirésau hasard de l’échantillon
total)
utilisé pour évaluer larègle.
Les six groupes et leurs taillesrespectives
sont :Ces données concernent les mesures de 54 variables
qualitatives (âge
enclasses,
sexe, 44 variables
cliniques,
6 variablesradiologiques
et 2 variablesbiologiques)
relevées sur chacun des
patients.
Tous les détails concernant ces donnéespeuvent
être trouvés dans l’article de Flamant et al.(1981)
et celui de Séroussi et al.(Seroussi;
ARC et
AURC, 1985).
Méthode neuronale
En ce
qui
concernel’application
des réseaux de neurones à cesdonnées,
unneurone a été associé à chacune des variables
binaires,
et un neurone à chacune desmodalités des variables à
plus
de 2modalités,
soit finalement 65 neurones d’entrée.Six neurones de sortie
(un
neurone par groupediagnostic)
ont été utilisés pourprédire
le
diagnostic.
L’échantillon de 3 114patients
servant à construire larègle
de décisiona été ici divisé en un fichier
d’apprentissage comprenant
2 075sujets
et un fichier devalidation de 1 039
sujets.
Larègle
de décision construite à l’aide de ces deuxfichiers,
a été testée sur les 1 427
sujets
de l’échantillon d’évaluation en vue de mesurer laperformance
de cetterègle.
Le traitement de l’activation des neurones, en
phase d’apprentissage
commeen
phase d’exploitation
estidentique
à l’étudeprécédente.
De même il convient de choisir le nombre de neurones de la couche cachée. Nous avons fait varier ce nombre de 1 à 16. Le meilleur résultatcorrespondant
àchaque
cas a été déterminé à l’aide du fichier de validation.Quatre
neurones cachés suffisent pour cette étude.Méthode CART
Pour ce
qui
est de la méthodeCART,
elle a étéappliquée,
comme dansl’exemple précédent, (i)
en estimant lesprobabilités
apriori d’appartenance
aux différentsgroupes par les
fréquences
des groupes dans l’échantillon debase,
et(ii)
enprenant
des coûts de mauvaise classificationégaux
à 1. Larègle
ainsi construite a été évaluéeen
l’appliquant
auxsujets
de l’échantillon d’évaluation des 1 427sujets.
Comparaison
des résultats obtenus par les deux méthodesLes tableaux 4 et 5 fournissent le résumé du classement de ces
sujets
par les deux méthodes. La méthode neuronale conduit à une estimation de l’erreur de classementégale
à28,45 %
avec unécart-type
de1,19%
et à un scorequadratique
moyenégal
à0,4144.
Pour la méthode CART on obtient une erreur de35,18%
avec unécart-type
de
1,26%
et un scorequadratique
moyenégal
à0,5097.
TABLEAU 4
Méthode CART
appliquée
aux données DAA.Classement des 1 427
sujets
de l’échantillon d’évaluation(35,18%
MC ±1,26%; SQM
=0,5097)
TABLEAU 5
Méthode neuronale
appliquée
aux données DAA.Classement des 1427
sujets
de l’échantillon d’évaluation(28,45%
MC ±1, 19%; SQM
=0,4144)
TABLEAU 6
Comparaison
des % MC obtenus par les deux méthodes CART et NEURONESappliquées
aux données DAA -(X2 = 31,15
à 1ddl)
Comme pour les données
DIGITS, les
meilleurs résultats sont fournis par la méthode neuronale tant dupoint
de vue du scorequadratique
moyen que de lacomparaison
des erreurs de classement par le test de Mac Nemar(Tableau 6).
Application
aux données HOUSINGIl
s’agit
de données recueillies par Harrison et Rubinfeld(Harrison
etRubinfeld, 1978).
Elles concernent leprix
médian deslogements (en
milliers dedollars)
situés dans différentsquartiers
de Boston(506
autotal).
Ceprix représente
lavariable Y à
expliquer
par 13 variablesindépendantes
caractérisant lequartier :
tauxde criminalité