R EVUE DE STATISTIQUE APPLIQUÉE
E. P ÉRINEL
Construire un arbre de discrimination binaire à partir de données imprécises
Revue de statistique appliquée, tome 47, n
o1 (1999), p. 5-30
<http://www.numdam.org/item?id=RSA_1999__47_1_5_0>
© Société française de statistique, 1999, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CONSTRUIRE UN ARBRE DE DISCRIMINATION BINAIRE
À PARTIR DE DONNÉES IMPRÉCISES
E.
Périnel1
ENSAR-INSFA
65, rue de Saint-Brieuc, 35042 Rennes cedex
RÉSUMÉ
En raison d’un processus de
partitionnement parfois rigide,
les méthodes desegmentation
peuvent offrir desperformances
peu satisfaisanteslorsque
les données étudiées sont recueillies dans un contexte d’incertitudeimportant.
Ce travail propose uneméthodologie
de construction d’arbre de discrimination binaire permettant laprise
en compteexplicite
dephénomènes d’imprécision
au niveau de ladescription
desobjets
étudiés. Laprise
en compte de donnéesimprécises
conduit à un processus departitionnement plus souple,
basé sur l’idée d’affectationprobabiliste
desobjets
dans les différents noeuds de l’arbre. àpartir
d’un critère de coupure utilisant la notion de vraisemblance, la méthode favorise la sélection de divisionsplus
stables,à
l’image
des coupures«souples»,
aveclesquelles
nous faisons ici le lien.L’approche
estillustrée par un
exemple simple
etappliqué
enfin à unproblème
médical.Mots-clés :
segmentation,
discrimination par arbre binaire, contexte d’incertitude, donnéesimprécises, partitionnement «souple»,
modélisationprobabiliste, algorithme
EM.ABSTRACT
Because of a recursive
partitioning
somewhat inflexible, decision trees mayprovide unsatisfying performances, especially
when the data are observed in the presenceof uncertainty.
This paper presents a
tree-growing methodology
thatpermits
to take into account and treatprobabilistically imprecise descriptions. Taking
into consideration such data leads to thegeneral
notion of a soft
assignment,
based on aprobabilistic membership
of theobjects
to the variousnodes of the tree. With the
help
of a likelihoodsplitting
criterion, theapproach
favours the selection of more robustpartitions, just
like the soft orfuzzy splits
with which we aremaking
the connection.
Eventually,
the method is illustrated on asimple example
and in the context ofa medical
application.
Keywords : binary
segmentation, discriminanttree-growing,
uncertainty,imprecise
data,soft assignment, probabilistic assignment,
EMalgorithm.
1 Ce travail a été réalisé alors que l’auteur faisait partie de l’équipe du LISE CEREMADE de l’Université Paris IX-Dauphine et du projet CLOREC de l’INRIA Rocquencourt.
1. Introduction et cadre
général
Il y a maintenant
plus
de trente ans que sont nées lespremières
méthodesstatistiques
desegmentation,
connueségalement
sous laterminologie
departitionne-
ment récursif ou encore d’arbre de décision binaire.
Développées
à la fois pour desproblématiques d’analyse
discriminante(Belson 59), (Friedman 77)
et derégression (Morgan et
al.63),
elles n’ont connu un essorsignificatif (aussi
bien sur leplan
théo-rique
quepratique)
queprès
devingt
annéesplus
tard avec les travaux de(Breiman
et al.
84).
Leur ouvrage etlogiciel,
bien connu désormais sousl’acronyme
CART(Classification
AndRegression Trees),
apermis,
dans un cadreprobabiliste explicite
et à travers ses
procédures originales
ditesd’élagage,
d’offrir une solutionrigoureuse
et
applicable
enpratique
au délicatproblème
de la construction de l’arbre dans uneoptique
inférentielle(on
consultera parexemple
à ce propos(Breiman et
al.84), (Guéguen et
al.88)
ou encore(Celeux et
al.94)).
Actuellement,
à la frontière entre les domaines del’analyse
des données-statistique
et del’intelligence artificielle,
de nombreux travaux sepenchent
sur unproblème particulièrement
sensible ensegmentation :
celui du traitement d’une information de natureimparfaite,
notiongénérale
recouvrant celles d’informationimprécise
ou incertaine. Cetteproblématique
a donné lieu à des extensions des méthodes usuellesqui
fontappel
bien naturellement au raisonnementprobabiliste,
mais
également
deplus
enplus
souvent à des théories etaxiomatiques plus récentes,
telles que la théorie des
possibilités
ou encore lalogique
floue.Dans ce
travail,
nous allons nous intéresser auproblème
de la construction d’un arbre de discrimination binairelorsque
l’on est confronté à un ensemble de donnéesqualifiées d’imprécises,
et modélisées defaçon probabiliste. Après
avoirrappelé
brièvement laproblématique générale
de lasegmentation (section 2),
noustenterons
d’expliquer pourquoi
lesphénomènes d’imprécision
engénéral
constituentun
problème particulièrement
sensible pour les méthodes departitionnement
récursif(section 3).
Nous décrirons alorsplus
en détail(section 4,
5 et6) l’algorithme proposé,
basé sur un modèleprobabiliste,
et où laqualité
despartitions «souples»
successivement formées est évaluée à
partir
de la notion de vraisemblance. En raison del’imprécision
entâchant les différentesdescriptions
desobjets étudiés,
la recherche d’une meilleure division binaire conduit à unproblème
demélange
de loisde
probabilité
que l’on propose de résoudre à l’aide del’algorithme
EM.Enfin,
unexemple
médical illustrera la méthodeproposée (section 7).
2.
Rappels
sur lasegmentation
Formulation du
problème.
Soit03A9,
unepopulation d’objets
úJi(i
=1,..., N)
pour
laquelle
on connaît apriori
unepartition
en K classes. On associe usuellement à cettepartition
une variable de classe(ou
variable àexpliquer)
notéeC, application
de SZ
dans {1,..., K},
l’ensemble des classespossibles. Chaque objet
est par ailleurs décrit par Pprédicteurs YI,..., Yp (ou
variablesexplicatives)
à valeurs dans des domaines01, ..., Op. Rappelons
que les variablesYj peuvent
être indifféremment de naturequalitative, quantitative
ou les deux à la fois. Ces notations sont résuméessous la forme d’un tableau à N
lignes
et(P +1)
colonnes constituant l’ensemble desdonnées étudiées
(tableau 1).
Celles-ci formentégalement
ce que(Breiman et
al.84) appellent
échantillond’apprentissage,
noté ,C== {(Ci, Yi) } i 2 ;
nous utiliserons dans la suite laterminologie
de données standard en référence à cetype
de données.TABLEAU 1
Tableau «standard» des données initiales en
segmentation.
Objectif
etprincipe
élémentaire. Comme l’ensemble destechniques
statis-tiques
dediscrimination, l’objectif
d’unesegmentation
estd’expliquer
lapartition
connue a
priori
sur 0 à l’aide desprédicteurs
décrivant lesobjets.
Cetteexplication
recouvre deux
objectifs :
décrire les K classes en termes des variables(ou
interac-tions de
celles-ci)
lesplus spécifiques;
construire unerègle
de décision dans le but de classer avec le minimum d’erreurs de nouveauxobjets
à l’une des classes de lapartition.
Ces deux tâches sont réalisées à travers deuxphases
successives :( 1 )
laphase
desegmentation proprement dite, permettant
la construction del’arbre ;
elle est basée sur la définition apriori
d’un ensemble dequestions
binaires ainsi que d’un critère de coupurepermettant
d’évaluer leurqualité;
Il
s’agit
ici de diviser(segmenter)
récursivement lapopulation totale,
à l’aidedes
questions binaires,
en unepartition
deplus
enplus fine,
avec le souci constant d’obtenir dessous-populations présentant
unehomogénéité
maximale vis-à-vis de la variable de classe C.(2)
L’extraction d’un arbre de «bonnetaille», sous-entendu,
associé à desqualités prédictives
satisfaisantes.Pour cette
phase
de natureinférentielle,
unemajorité
desalgorithmes
actuelsprocède grosso-modo
comme suit : on construit dans unpremier temps
un«grand arbre»;
celui-ci est ensuiteélagué
pour obtenir l’arbre de «bonnetaille»,
minimisantun
risque
ou taux d’erreur de classement(estimé
par échantillon test ou validationcroisée).
Enfin,
il est intéressant derappeler
que, contrairement à de nombreuses méthodes usuellesd’analyse
desdonnées,
lasegmentation produit
des classes de naturemonothétique (i.e.,
caractérisées par des conditions nécessaires etsuffisantes), conséquence
directe du processus departitionnement
récursif décrit ci-dessus.2 Comme le veut l’usage, les lettres capitales, les minuscules et les lettres grasses désigneront respective-
ment les variables, leurs réalisations et des vecteurs (de variables ou d’observations).
3.
Segmentation
etphénomènes d’imprécision
Si la lisibilité des
règles
de décision fournies par le processus departitionnement
récursif constitue un de ses
principaux attraits,
ces dernières demeurent encontrepartie particulièrement
sensibles à delégères perturbations
des données(Lebart et
al.95)
ou
phénomènes
d’incertitudepouvant
affecter ladescription
desobjets (mesures
réalisées àpartir
d’un instrumentimprécis,
dejugement approximatif
émis par unob servateur, ... ) .
Un
problème
d’affectation arbitraire. Face à de tellesdonnées,
leproblème majeur
survenant ensegmentation
est celui de l’affectation arbitraire. Pour illustrer notre propos, considérons tout d’abord lafigure 1 (a).
Celle-ci décrit leproblème
d’affectation d’un
objet
dont la valeur dupoids, inconnue,
est néanmoinssupposée comprise
dans l’intervalle[55,60].
Enassignant
cettedescription
à l’un seul des deux noeuds créés par la coupure(mettons
le noeuddroit,
ensupposant
que l’on retienne finalement la valeur centrale del’intervalle, 57.5),
on réalise une affectation arbitraireou incertaine dans la mesure où l’on
ignore
lepoids
réel de l’individu. De même pour le schémal(b),
si l’on estime à0.8,
laprobabilité
pourqu’un
test soitpositif,
l’affectation au noeud droit n’est pas pour autant à
rejeter
totalement(ce
que l’on feraiten retenant la valeur la
plus probable).
FIGURE 1
Classement d’observations
imprécises :
la
segmentation
peut conduire à desaffectations
arbitraires en situation d’incertitude Il estimportant
desouligner
que ceproblème
d’affectation arbitraire estsusceptible
de seproduire
à la foispendant
la construction de l’arbre et lors de l’utilisation de ce dernier commerègle
de classement. Dans lapremière situation,
la sélection d’unequestion
binairereposant
sur undescripteur
peufiable,
c’est-à-dire dont les valeurs observées seraient entâchées d’uneimprécision importante,
conduiraità retenir une division
fragile
ou instable desobjets, susceptible d’engendrer
par la suited’importantes
erreurs de classement. Enphase
declassement,
leproblème
estd’autant
plus
sensible dans la mesure où la décision estprise
àpartir
d’unpetit
nombrede
descriptions
relatives à un seulobjet.
Une étude
empirique
réalisée par(Quinlan 86)
met en lumière les constats intuitifsprécédents.
Enperturbant,
avec différents niveaux debruit,
les valeurs desdescriptions
del’échantillon,
l’auteur met en évidence unedégradation
desperformances
décisionnelles de laméthode;
cesperformances
étant d’ailleurs d’autant moins fiables que laprocédure
tend àsélectionner,
en raison dubruit,
des variablesen réalité peu discriminantes.
Deux
approches possibles.
Onpeut
voir leproblème précédent
comme laconséquence
de deux choix apriori
bien distincts. Lepremier
est lié à la naturedes
question
binaires «sans nuance» ou«abruptes»
retenues dans lamajorité
desprocessus de
segmentation.
Avec cetype
dequestions,
delégères perturbations
desdonnées conduisent souvent à une modification sensible de la
répartition
des individus.Le second est lié au
codage
des données et àl’impossibilité
engénéral
deprendre
encompte
et dereprésenter explicitement
une informationimprécise.
Cesdeux constats ont suscité
respectivement
deuxtypes d’approches
que nous détaillons maintenant. Notons quemalgré
des similitudes évidentes(voir
enannexe),
cesdeux
approches
découlent néanmoins initialementd’objectifs
et depréoccupations
différentes.
4. Partitionnement
souple
ou douxOn trouve différents travaux dans la littérature basés sur la notion d’affectation
souple.
Laplupart
des méthodesproposées
sont fondées surl’axiomatique
de la théorie despossibilités
et celle des ensembles flous(on
consultera parexemple (Yuan
et al.95)
pour une
présentation
dequelques algorithmes
récents sur cethème).
Dans la suitenous nous intéresserons
cependant uniquement
auxméthodologies
fondées sur uneapproche probabiliste.
4.1. Les coupures douces
Celles-ci ont été
essentiellement employées
pour desquestions
binaires baséessur des variables continues. L’idée
majeure
de cetype
de coupures est d’affecterune observation à une
région
donnée del’espace
dedescription
avec d’autantplus
de certitude que celle-ci est
éloignée
du seuil de coupure. Enprocédant ainsi,
onsouhaite substituer à la notion d’affectation déterministe
usuelle,
un mécanismeplus
flexible conduisant à une
appartenance probabiliste
desobjets
aux différentesrégions
de
l’espace
dedescription.
Lafigure
2 illustre leprincipe
des deuxapproches.
Le schéma
(a) représente
la situationclassique
ensegmentation : l’appartenance
à la
région
définie par lapropriété [Y 53]
est définie par sa fonction indicatriceI[Y53], marquant
unerupture
nette au niveau du seuil de coupure. Dans le schéma dedroite,
l’affectation à la mêmerégion
est cette fois-ci déterminée à l’aide d’une fonction continue notée 03A6(par exemple,
detype sigmoïde)
etprenant
la valeur 0.5au niveau de la coupure. Alors que l’observation 53.1 est
assignée
dans le schéma degauche
avec une totale certitude à larégion [Y 53],
saproximité
avec le seuilde coupure conduit à l’affecter avec des
probabilités
sensiblementégales
aux deuxrégions
dans lapartie
droite de lafigure.
FIGURE 2
Principe
d’une coupuresouple (b)
enregard
d’une coupure standard(a)
Ce
principe
sejustifie
intuitivement par la remarque suivante : si on considère deux individusd’âge respectif
53 ansplus
ou moins unjour,
il convient mieux de les traiter defaçon quasi-identique plutôt
que de lesséparer
dans deuxsous-populations
différentes.
4.2.
Descriptions imprécises
Lorsque
l’on estconfronté,
lors de laphase
de recueil desdonnées,
à des observationsexplicitement imprécises,
soumises à une incertitude que l’on estcapable
au moins
approximativement
de mesurer, une démarche pour le moins naturelle consisterait à relever et coder cette observation tellequ’on
laperçoit
dansl’objectif simplement
deposséder
l’information laplus
fidèlepossible.
Comment de telles observationspeuvent-elles
êtreprises
encompte
et traitées dans un processus departitionnement
binaire usuel? Pour levoir,
reprenons les deuxexemples
de lafigure
1. Plutôtqu’un
processus d’affectationbooléen,
il semble iciégalement plus
naturel de réaliser une affectation
plus nuancée,
enregard
du niveaud’imprécision
entâchant les
descriptions.
Parexemple,
ensupposant
que l’attributpoids
est distribuéuniformément entre 55 et 60
kg,
onassignera
ladescription
aux noeudsgauche
etd. 1 b b.l’ /
. 57-55 2
1 60-57 3
droit avec les
probabilités respectives
p p p == p57 - 55 - 2
et1 - p = 2013201320132013 == -.
60 - 55 5 p 60 - 55 5
Pour l’attribut test, l’affectation est encore
plus
immédiate et conduit bien sûr à desprobabilités
de 0.8 et 0.2.Pour une coupure standard déterminée par les deux
propriétés [Y
EA]
et[Y
EA] (notation généralisant
les situations Yqualitatif
etquantitatif),
on détermineainsi
simplement l’appartenance probabiliste
aux deux noeuds associés paroù
Py
etfy
sont les lois et densités deprobabilité
modélisantl’imprécision
d’uneobservation pour la variable Y.
Formalisation des données
imprécises.
Formalisons maintenantplus préci-
sément le
type
de données que nous allons traiter dans notrealgorithme,
etqui
s’inscrivent dans le cadre des travaux
développés
par(Diday 87)
enanalyse
desdonnées
symboliques.
Nous supposons donc dorénavantqu’il
ne nous est pastoujours possible d’exprimer
avec certitude lesdescriptions
desobjets
pour les variablesYI,
...,Yp;
la classe de ces derniers est par contretoujours supposée parfaitement
déterminée. On introduit ainsi pour un
objet
iparticulier,
unp-uplet
de variables aléatoiresY1,i,
...,Yp,i,
définissant autant de fonctions mesurables à valeurs dansO1,
...,Op.
Chacune de ces variables aléatoires est par ailleurs associée à une loi deprobabilité
notéePu
telle queLa
description
d’un individu i de lapopulation
sera donc dans la suite définie par le(P
+1)-uplet
de variables aléatoiresoù
Ci
estégalement
une variable aléatoire à valeursdans {1,
...,K}.
Le tableau 2représente
l’ensemble des données que nous nous proposons de traiter par arbre de discriminationbinaire;
par abus delangage,
nous lesqualifierons
de donnéesprobabilistes
dans la suite de ce travail.TABLEAU 2
Tableau de données initiales de nature
imprécise :
la
description
de l’individu Wi pour leprédicteur Yj
estdéfinie
par une variable aléatoire
Yj,i
distribuée selon la loi deprobabilité Pj,i.
Notons,
enregard
du cadrestatistique usuel, qu’à chaque
variableYj
dutableau 2 ne
correspond plus
N réalisations yj, 1, ..., Yi, N(ou,
de manièreéquivalente,
N variables aléatoires
Yj, 1, ... Yj,N,
ayant une seule réalisation et dontYj
est unevariable
parente),
mais N variables aléatoiresYj,l, ... Yj,N
pourlesquelles
onpeut
réaliser
différentes hypothèses probabilistes.
Dans(Diday
et al.97),
les données sontqualifiées plus simplement
de multivaluéeslorsque chaque
variableYj,i
estrenseignée
par
plusieurs observations,
sanshypothèse a priori
sur leur distribution.Exemple.
Considérons le cas d’unepartition
apriori comportant
deux classes ainsi que deux variables aléatoiresYI, Y2, respectivement
binaire et continue à valeurs dans[0, 10].
On a donc01
={D, 1}
et02
=[0, 10].
Considérons ensuite unobjet
dela classe 1
prenant
la valeur 1 avec laprobabilité
0.7 pourYI,
et dont la valeur pourY2, inconnue,
est estiméecomprise
dans l’intervalle[3,5].
Sadescripition
pour lesprédicteurs
est définie par lecouple
de variables aléatoires(Y1,i, Y2,i)
tel queY1,i rv B (0. 7)
oùS(0.7)
est la loi de Bernoulli deparamètre 0.7;
Y2,i ~ U[3,5]
oùU[3,5]
est la loi uniforme sur[3,5].
L’algorithme
que nousprésentons
maintenant est fondé sur leprincipe
d’af-fectation
probabiliste
et dans le casuniquement
de données de natureimprécise (les
coupures binaires sont
classiques).
Uneprésentation
de cetalgorithme,
dans le ca-dre
général
del’analyse
des donnéessymboliques peut également
être trouvée dans(Ciampi et
al.96).
Ladescription
de cetalgorithme
nécessite ici l’introduction d’un ensemble de notionsprobabilistes
relatives à la modélisation d’un arbre de décision(ou
deprédiction)
binaire.5. Modélisation
probabiliste
d’un arbre de décision binaireLa
présentation
décrite ci-dessouss’inspire
de celleproposée
dans(Ciampi 92)
pour
l’aspect
discrimination del’algorithme
deprédiction
par arbre RECPAM. Une desspécificités
de la méthode RECPAM est de poser leproblème
de la construction d’un arbre binaire comme celui de laprédiction
d’unparamètre.
Plusprécisément,
la
problématique générale
d’unesegmentation peut
être décrite àpartir
du modèleprobabiliste
suivant.En théorie
statistique
de ladécision,
la construction d’unerègle
de classement repose souvent sur l’estimation des densités deprobabilité
de chacune des classesconnues a
priori (c’est
le cas parexemple
en discriminationlinéaire).
Lasegmentation elle,
vise à modéliser directement la loi deprobabilité
conditionnelleP(cly),
c’est-à-dire à
prédire
la variable de classe conditionnellement aux observations réalisées sur lesprédicteurs.
Atteindre cet
objectif
à travers un processus desegmentation
revient en réalité àfaire
l’hypothèse
suivante : il existe dansl’espace
dedescription
unpartitionnement
enrégions (correspondant
aux feuilles del’arbre) où,
dans chacuned’elle,
les individus sonthomogènes
dupoint
de vue de la variable àexpliquer
C. NotonsP(c; (Jt)
la loide
probabilité
de la variableC, paramétrée
par(Jt,
au sein de larégion t (figure 3).
Nous pouvons alors énoncer
l’objectif
d’unesegmentation
comme suit : ils’agit
de rechercher undécoupage
del’espace
desprédicteurs
etdonc,
parsuite,
un ensemble de modèles
probabilistes ((Jt)t
associé à desrégions
«maximalementhomogènes»
vis-à-vis de la variable àexpliquer
C(c’est-à-dire
encore, desrégions
FIGURE 3
Modélisation
probabiliste
d’un arbre de décision :chaque sous-population
terminale est modélisée par une loi deprobabilité P (c 1 Ot) -
où les lois de
probabilité P(c ; Bt) permettent
une bonneprédiction
de la variableC). Enfin,
on modélisera de manière naturelle un arbre à T noeuds terminaux par laprobabilité
conditionnelleP(cly) qui
lui est associée etqui,
enregard
de lafigure 3, s’exprime
comme suit :où
It
est la fonction indicatriced’appartenance
à larégion t (c’est-à-dire,
à la feuillet) ;
9 = (81, ..., but)
est le vecteur deparamètres spécifiant
chacune des lois deprobabilité
conditionnelles au sein des T noeuds terminaux.
Application
à unproblème
de discrimination par arbre de deux classes apriori.
Chaque région t
est décrite ici par une loi deprobabilité
de Bernoulli deparamètre et
=P(llt), la probabilité
d’observer la classe 1 dans le noeud t. Une bonnesegmentation
consiste donc ici à former desrégions
lesplus homogènes possible
du
point
de vue de la classe 1 ou 2(associées
donc à des valeursde et proches
de 1ou 0).
Modélisation dans le cas de données
probabilistes. Lorsque
les données sontimprécises,
nous avons vuqu’il
était naturel deprocéder
à une affectationsouple (ici, probabiliste)
des individus aux nouveaux noeuds créés par la coupure. Plusgénéralement,
pour unesegmentation
créant T noeudsterminaux, chaque description
y d’un individu sera désormais
assignée
à unerégion
donnée t avec laprobabilité
P (t 1 y),
de sorte quel’équation (1) précédente
se réécrit maintenant :Autrement
dit,
laprédiction
de la classe d’unobjet
est désormais calculéecomme une somme
pondérée
deprédiction «locales»,
et nonplus
sur la base de la seule loi deprobabilité
associée à la larégion
où est affectél’objet
enquestion.
6. Construction de l’arbre binaire 6.1. Les choix de base
Données étudiées. Nous nous intéressons ici à deux
types
dedescriptions.
Pourles variables
continues, Vu
serasupposée
distribuée selon une loi uniforme. Pour les variables discrètes(nominales
ouordinales),
on considèrera que la loi deVs
est detype
multinomiale(consistant
donc à donner laprobabilité
associée à chacune des modalités de lavariable).
Ensemble des
questions
binaires. L’ensemble desquestions
binairesjoue
unrôle essentiel en
segmentation,
car c’est celui-ciqui
détermine la nature des divisionsqui
sont effectuées itérativement sur lapopulation
étudiée. Il conditionnedonc,
d’une certainemanière,
la formeplus
ou moinscomplexe
desrégions
construites dansl’espace
dedescription,
ou encore, ilpermet
de construire des frontièresplus
oumoins
sophistiquées
entre les classes de lapartition a priori.
Nous nous limitons dans la suite à un ensemble S dequestions
binaires ditesstandard,
notées s =(e, -E),
de laforme
où
{V, V}
est unepartition
du domaine 0 des valeurspossibles
d’unprédicteur
Ychoisi
parmi {YI, ..., Yp}.
Qualité
d’unepartition
et Critère de coupure. Réaliser unesegmentation consiste,
nous le savons, à réitérer sur lapopulation
une seule et mêmeopération :
la recherche à un noeud donné de la
question qui produit
la nouvelle «meilleurepartition»,
dans le sens où elle crée dessous-populations qui
sont lesplus homogènes possibles
vis-à-vis de la variable de classe C.L’homogénéité
est déterminée ici àpartir
de la notion d’informationstatistique
ou de vraisemblance(son logarithme,
enfait,
pour des raisons decalcul),
àl’image
de laméthodologie
RECPAM.Plus
précisément,
notonsPT,
unepartition comprenant
T noeuds terminaux et associée au modèleprobabiliste P(c|y; B) (défini
donc selon(1)
ou(2)
suivant que les données sont standard ouprobabilistes).
L’informationportée
par lapartition PT
est définie comme suit :
Qualité
dePT
où L est la fonction de vraisemblance du
paramètre
9. Intuitivement :plus
les sous-populations
dePT
sonthomogènes
dupoint
de vue de la variableC, plus
celle-ci estprévisible
ou «vraisemblable» au sein de chacuned’elle,
et doncplus
laquantité (4)
est
grande.
Supposons
maintenant que l’on recherche pour un noeud donné d’unepartition PT -1
à T - 1 noeudsterminaux,
laquestion
binaire s =(e, e)
E Squi
conduit à la nouvelle meilleurepartition
en T noeuds terminaux. NotonsPsT
lapartition produite
par une
question s quelconque
pour unn0153ud fixé
dePT -1.
Dans ce cas, leproblème
de la recherche d’une meilleure
question
binaire revient à maximiser le critère de coupure suivant :Critère de coupure
Le second terme de la différence étant constant à tout moment de
l’algorithme (il
nedépend
pas des),
leproblème
de la recherche de la meilleure coupure consiste donc à maximiser l’informationportée
par la seule nouvellepartition PsT.
6.2. Résolution du
problème
pour des données standardLe
problème
de maximisationprécédent
restecependant
trèsgénéral
sous laforme
(5).
Nous allons maintenant lepréciser
pour des données standard avant d’étu- dier ensuite les modificationsqui
en découlent dans le cas de donnéesprobabilistes.
Soit
N,
un noeudquelconque
de lapartition PT-1 comportant n objets.
Unequestion
binaire s =(e,e)
E S crée deux nouveaux noeudsNe
etAs
dont leseffectifs ne et ne sont
répartis
suivant les K classes apriori (tableau
decontingence
TAB.
3).
Dans les deux noeudsNe
etAs,
la variable C est distribuée selon uneloi de
probabilité
multinomiale deparamètres (Je
et(Je:;
on aura donc parexemple, Be - (Pe (1),
..., Pe(K) )
où Pe(k)
est laprobabilité
de la classe k au sein du noeudNe.
On définit demême 0-é .
TABLEAU 3
Tableau de
contingence
croisant les deux noeudsNe
etNe:
créés
par la
coupure avec les classes1,
..., K de lapartition
apriori.
Comment détermine-t-on dans ce cas la meilleure
question
binaire aun0153ud N?
Il suffit nous l’avons vu de résoudre le
problème
de maximisation(5),
soit encore,d’après
leséquations (1)
et(4),
et ensupposant
deplus l’indépendance
entre lesobservations
i,
de maximiser laquantité
suivante :Or, lorsque
les données sontstandard,
lesobjets
sont affectés de manièreunique
à l’un des T noeuds de la
partition PT.
Parsuite,
il est immédiat de vérifier que laquestion
binairequi
maximise(6)
est aussi celle maximisantqui
n’est autre que lalog-vraisemblance catégorisée, log L((9e, 03B8e); cly),
sur lesdeux noeuds créés par s. En
effet,
dans ce cas, la recherche d’une nouvellepartition
àun noeud donné ne fait intervenir que les seules informations relatives aux deux noeuds fils créés par la coupure
(les
informations relatives aux autres noeuds étant constantes pour lamaximisation).
Le calcul de
Ginf (PT )
nécessite donc l’estimation desparamètres 9e -
(Pe (k)) k,
cequi
estpossible
en résolvant leproblème
de maximisation(7) :
il conduit à retenir de manière naturelle comme estimateurs du maximum de vraisemblance deces
probabilités,
lesfréquences
observées des K classes dans les deux noeuds :Remarque :
en substituant ces estimateurs dansl’équation (7),
il est aisé de vérifier que lalog-vraisemblance
se réécrit comme suit :l
L’expression (9)
est doncégalement,
aucoefficient - - près,
une estimation den
l’entropie
conditionnelleH[CI Y]
de la variableC,
au sein des deux noeuds créés par la coupure. Cecritère, fréquemment
utilisé dans les arbres dedécision,
parexemple
dans
(Sethi
et al.82)
ou(Quinlan 93), permet
d’évaluer l’incertitude moyenne de la variable àprédire C,
une fois connues les valeursprises
par la variable de coupure Y.6.3. Extension au cas de données
probabilistes
En
regard
del’équation (6),
leproblème
de recherche de la meilleure coupure consiste(en
utilisant cette fois-ci le modèle(2))
à maximiser laquantité
suivante :où À est défini par
l’expression L P (t 1 Yi). P ( Ci; Ot).
Celle-ci estsupposée
constantet~e,e
dans la mesure où nous ne remettons pas en
question
les lois deprobabilité (estimées
lors des
étapes précédentes)
desnoeuds t,
hormis celles relatives aux noeuds filsNe
et
Ne.
Parailleurs,
laprobabilité d’appartenance
d’une observation i à unnoeud t,
p(t|yi), peut
être calculée aisémentquels
que soient i et t(voir
leur mode de calculen
6.4).
Les inconnues du
problème
sont donc ici laquestion
binaire(e, e)
ainsi que lesparamètres Be
etBe qui
lui sont associés.Pratiquement,
onprocède
alors commesuit : pour une
question
binaire sdonnée,
on calcule une estimation desparamètres Be
etBe puis,
la valeur de Ginf(PT) (la qualité
de la nouvellepartition) qui
enrésulte. La meilleure
question
étant bien sûr cellequi
conduit à des estimations de(je
et(je
maximisant laqualité
de lapartition.
La difficulté duproblème
résidemaintenant dans l’estimation des
probabilités
conditionnellesreprésentées
par lesparamètres Be
etBe.
Eneffet,
lesobjets
étant affectés defaçon probabiliste
dans lesdifférents noeuds de
l’arbre,
il ne nous estplus possible
ici d’estimer comme avant cesparamètres,
«localement» à l’aide desfréquences
calculées en(8).
Cephénomène
se traduit
également
au niveau del’expression
de la vraisemblancequi présente
uneforme
«complexe» :
contrairement au casprécédent,
on nepeut plus
isoler les termes relatifs aux deux noeuds créés. La maximisation de celle-ci doit donc être effectuéeglobalement
pourpouvoir
estimerBe
et(je.
Nous avons à résoudre ici ce que l’on
appelle
usuellement unproblème
d’estimation de
paramètres
dans le cadre d’unmélange
de lois deprobabilité.
Cette
problématique, qui
a donné lieu à une abondantepublication
en classificationautomatique (voir
parexemple (Titterington
et al.85)),
a par contre été peu étudiée dans uneoptique prédictive;
sur cethème,
on consultera parexemple (Wedel et
al.95)
ou encore(Jordan et
al.93).
La résolution d’un
problème
de maximisation tel que( 11 )
faitgénéralement appel
à deuxtypes
de méthodes : lesprocédures
d’estimation standard commel’algorithme
deNewton-Raphson,
ou celles fondées surl’algorithme
EM(Dempster
et al.
77).
Nousprésentons
ici ce secondtype
de méthodesqui
semblent avoir actuellement lapréférence
d’unplus grand
nombre d’auteurs(Wedel et
al.95).
Nousne donnerons dans ce travail
qu’un
bref aperçu duprincipe
de cetalgorithme
et desrésultats
qu’il fournit,
et renvoyons le lecteur à(Périnel 96)
pour unexposé plus
détaillé.
6.4. Estimation des
paramètres
parl’algorithme
EMPrincipe
del’algorithme
EM. L’idée de base del’algorithme
EM(en
référenceaux deux
étapes Expectation - Maximization)
est de supposer que la fonction devraisemblance, «complexe»
àmaximiser,
résulte d’une situation de donnéesincomplètes.
Dans notre cas, ils’agit
de la non connaissance de l’affectation desobjets
aux différents noeuds de l’arbre. On introduit alors desvariables,
ditescachées,
apportant
cette informationmanquante.
Grâce à cet «artifice» decalcul,
on construit alors une vraisemblancesimplifiée,
dont la maximisation itérativefournit,
à la convergence, les estimateurs du maximum de vraisemblance duproblème complexe.
L’expression
de lalog-vraisemblance simplifiée,
pour des données ditescomplètes,
est définie ici paroù
bit
est la variable indicatrice del’appartenance
d’unobjet
i au noeud t(c’est-à-dire,
(bit
=1)
z(i E Nt)).
Chacune des itérations del’algorithme
EMcomporte
deuxétapes :
-
L’étape Espérance :
elle consiste à calculerE[le],
la valeurespérée
dele,
conditionnellement aux valeurs observées pour les
prédicteurs;
-
L’étape
Maximisation : elle fournit les estimateurs du maximum de vraisem- blance deBe
et0-E,
solutions duproblème
de maximisation deE[1,].
Nous nous contenterons ici de donner
l’expression
des estimateurs des pa- ramètresBe
et0-E
obtenus à uneétape (r) quelconque
del’algorithme :
avec :
E(r), l’opérateur d’espérance mathématique
àl’étape (r);
Cik etbie,
lesvariables indicatrices de
l’appartenance
de l’observation i à la classe k et au noeud e.Sur le
plan informatique,
il estimportant
designaler
quel’algorithme
EM estparfois
contraint d’effectuer un nombreimportant
d’itérations avant de converger. Lesperformances
de certainsalgorithmes
récents(l’algorithme
SEM(Celeux et
al.92), qui incorpore
uneétape stochastique;
des méthodes basées sur l’accélération d’ Aitken(Linsdstrom
et al.88)
ou dugradient conjugué (Jamshidian
et al.93); l’algorithme
ECM
qui
substitue àl’étape
de maximisationusuelle,
une successiond’étapes CM,
où l’utilisation d’une vraisemblance conditionnelle
permet
desimplifier
sensiblement les calculs(Meng et
al.93)),
laissent néanmoinsespérer
une amélioration sensible desperformances
relatives à cettephase numérique.
Remarque
sur la sélection d’un arbre de « bonne taille». Cettephase prédictive
s’écartant de laproblématique
centrale de cetravail,
nousn’ y
accorderons iciqu’une place
limitée. Notons tout d’abord que la construction même d’un arbre et lesprocédures d’élagage
usuelles constituent desphases
relativement bienséparées
etindépendantes (voir
parexemple (Mingers 89)).
De cefait,
il estpossible
de«greffer»
à la
procédure
de construction d’arbre décrite ci-dessus un des nombreuxalgorithmes d’élagage développés
dans la littérature(voir
parexemple (Esposito 97)).
Cependant,
la constructionqui
estproposée
ci-dessuspeut suggérer d’adopter
l’approche
suivante(Ciampi et
al.96)) :
en divisant àchaque étape
le noeud terminalgénérant
l’accroissement d’informationmaximal,
on crée ainsi une suite de sous-arbres
emboîtés,
chacun d’eux étant le«meilleur»3
pour un nombre de noeuds terminaux donné. Cette sous-suite constitue enquelques
sorte lependant
de la sous-suite
optimale
obtenue par laméthodologie
CART durant laphase d’élagage
et nonau cours la construction de l’arbre. Dans un second
temps,
on pourra alors choisir l’arbre associé à une estimationoptimale
du taux d’erreur de classement(en
utilisantpar
exemple
un échantillontest).
En résumé : la
phase
de recherche de la meilleurequestion (coupure)
binaireà une
étape
Tquelconque
del’algorithme
desegmentation (i.e.,
visant à déterminer la meilleurepartition comportant
T noeudsterminaux)
est réalisée à travers lesétapes
suivantes :
1. On
fixe
un n0153ud tparmi
les T - 1 n0153uds terminaux de lapartition courante PT-1;
2. Pour
chaque question
binaire s =(e, e)
au n0153ud t, on construit lapartition
induitePT
à T n0153uds terminaux;3. Pour déterminer les
probabilités
conditionnelles de la variable C dans les deux nouveauxn0153uds,
on résout alors leproblème
demaximisation suivant :
4. L’estimation des
paramètres f} e
et0-E
permet de calculer la valeur del’information portée
par lapartition
induite par(e, e);
5. On retient
enfin
le n0153ud t et laquestion
s conduisant à lapartition
dont la
qualité
mesurée par Ginf est maximale.Calcul des
probabilités P (t ( y2 ).
De manièregénérale,
sil’appartenance
aunoeud t est conditionnée par le fait de satisfaire à R
propriétés e1, ..., eR,
alors laprobabilité qu’un objet
i décrit par yiappartienne
au noeud t est donnée paroù,
on lerappelle, eut
est une condition dutype [Y Ei V].
Parsuite,
si l’on admet que les aléas affectant chacune des observations réalisées pour lesprédicteurs
d’unindividu i donné sont
indépendants 4 (sous l’hypothèse
doncd’indépendance
des3 Étant donné bien sûr la partition précédente, puisqu’il s’agit d’un algorithme dit « glouton », et donc
4
non globalement optimal.
4 Ce serait par exemple faire l’hypothèse que ce qui conduit un médecin à estimer le poids d’un patient
donné dans l’intervalle
[62,65]
n’est pas influencé par le fait qu’il estime que la réaction de ce patientà un test soit positive avec la probabilité 0.8.