R EVUE DE STATISTIQUE APPLIQUÉE
C. G ELPÉROWIC
Partitionnement récursif et régression: comparaison dans le cas de la prévision de risque à partir
des courbes de sélection
Revue de statistique appliquée, tome 48, n
o4 (2000), p. 5-28
<http://www.numdam.org/item?id=RSA_2000__48_4_5_0>
© Société française de statistique, 2000, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PARTITIONNEMENT RÉCURSIF ET RÉGRESSION :
COMPARAISON DANS LE CAS DE LA PRÉVISION
DE RISQUE À PARTIR DES COURBES DE SÉLECTION
C.
Gelpérowic
Ceremade, Université Paris-IX
Dauphine,
75775 Paris cedex 16, FranceRÉSUMÉ
Les courbes de sélection permettent de définir un ordre sur les fonctions de score
construites
généralement
paranalyse logit
ouanalyse
discriminante pour faire de la sélection de clientèle en finance ou en assurance. Cet article étend l’utilisation de ces courbes aux scoresobtenus par
segmentation
et décrit diversesfaçons
de les utiliser dans ce cas.Mots-clés : scores,
analyse logit
etrégression
par arbre, courbes de sélection,élagage,
biaisde sélection.
ABSTRACT
Selection curves define an
ordering
on thescoring
functions used in credit or insuranceproblems
and derived fromlogit
or discriminantanalysis.
This article extend their use forscoring
functions obtained fromregression
treemethodology
and describe variouspractical
uses in this case.
Ke y words : Scoring functions, logit analysis
andregression
trees, selection curves,pruning, sample
selection bias1. Introduction
De nombreuses
méthodes, regroupées
sous la dénomination de méthodes de discrimination ou méthodesd’analyse discriminante,
sont utilisées dans des secteurs variés de la vieéconomique : médecine, finance,
assurance,marketing....
Les
approches
sont différentes et reflètent la culturestatistique
des utilisateurs(économètres, informaticiens, statisticiens...).
Cesméthodes, qui s’appliquent
àdes
populations
munies d’unepartition
et décrites par un ensemble de variablesexplicatives,
ont pourobjectif
deséparer
au mieux(discriminer)
les classes de lapartition,
dans un butdescriptif
ou pour faire desprévisions.
Ellespeuvent
être utilisées notamment pourprévoir
des«risques»
et faire de la sélection(sélection
de «clientèle» en
finance,
dans le domaine des assurances, enmarketing,
pour lechoix d’un traitement en
médecine, etc...).
Dans tous ces cas, larègle construite, également appelée
score, fournit un classement desobservations,
d’où leur nom de méthodes descoring.
La
régression (logistique, probit),
lepartitionnement
récursif(également appelé segmentation
par arbrebinaire)
tout commel’analyse
discriminante(linéaire
ouquadratique)
et les réseaux de neuronnesapparaissent
comme les méthodes de discrimination lesplus employées.
De nombreux articlescomparent
sur leplan théorique
ou àpartir
d’échantillon de donnéesparticuliers quelques
unes de cesméthodes. La
régression
etl’analyse
discriminante linéaire ont faitl’objet
duplus grand
nombre d’étudesdepuis
le début des années soixante-dix([6], [11], [14], ...). Cependant,
l’amélioration des méthodes departitionnement
dûe notamment auxtravaux de Breiman et coll
[3]
a entraîné unregain
d’intérêt pour cestechniques qui
ontpermis
depallier quelques
unes des lacunesreprochées
à larégression
ou àl’analyse
discriminante linéaire. Les études de M. Bardos
([ 1 ], [2])
ou de H.Frydman
et coll.[7]
s’intéressent
plus particulièrement
à lacomparaison
entrepartitionnement
récursifet d’autres méthodes de discrimination dans le cas de la détection des défaillances
d’entreprises.
Dans cet
article,
nous nous intéressons à l’évaluation et à lacomparaison
entre la
régression (logistique/probit)
et lepartitionnement
récursiflorsque
ces deuxméthodes sont
employées
pour faire de la sélection etprévoir
desrisques potentiels.
L’algorithme
de construction de l’arbre dans ce cas doit êtreadapté
afin de fournirun score
algébrique.
Larégression
et lepartitionnement
conduisent alors à desrègles
de sélection assez semblables. On
peut
ainsi utiliser les courbes de sélection[8]
pour évaluer la
qualité
de larègle
obtenue parsegmentation
et la comparer au scorelogit/probit.
Etendues auxrègles
construites àpartir
d’une méthode departitionnement récursif,
les courbes de sélection constituent un outilcomplémentaire
intéressant pour l’évaluation de larègle
et lacomparaison
avec d’autresrègles.
Contrairement au taux d’erreur de classementqui
est le critèregénéralement employé
dans ce cas([ 1 ], [ 10]),
ou au critère d’évaluation
proposé
par A.Ciampi
et coll[5],
les courbes permettent de comparer et d’évaluer desméthodes, quels
que soient larépartition
initiale de lapopulation,
lapart
de marché fixée et les coûts éventuels d’erreur de classement.Calculées pour les
règles
obtenues parpartitionnement récursif,
les courbes de sélectionpeuvent
aussi être utilisées pour évaluer lesrègles
successives obtenues lors des différentesétapes
de réduction dugrand
arbre(élagage
etregroupement).
Cela vapermettre
enparticulier
dechoisir,
àchaque étape,
la réductionqui
modifie le moins laqualité
de larègle
dans laplage
des valeurs depart
de marché souhaitée.Enfin,
pour lesapplications auxquelles
nous nousintéressons,
l’échantillondisponible
n’est pastoujours
obtenu partirage
aléatoire dans lapopulation d’origine
mais a été soumisà une sélection
préalable. Lorsque
larègle
deprésélection
n’est pasindépendante
du groupe
d’appartenance,
cela entraine un biais au niveau de la construction de larègle;
un tel biais estappelé
biais de sélection. Les courbes de sélection pourront être utilisées pour mettre en évidence le biais de sélection sur larègle
et aussi pour évaluerthéoriquement
l’amélioration d’une correction éventuelle(comparaison
des courbes avant etaprès correction).
La
première partie précise
les notations et donnequelques exemples d’appli-
cations. La deuxième
partie présente
les deux méthodes dans le cas de laprévision
de
risque.
Pour le score construit parpartitionnement, l’algorithme
de constructionutilisé par
Frydman [7]
pour les faillitesd’entreprises
ou par Breiman[3]
pour les arbres derégression (étendus
ici au cas où la variable àrégresser
est une variabledichotomique -
indicatrice du grouped’appartenance)
est modifié de sorte que larègle
obtenue parsegmentation
fournisse un scorealgébrique (arbre
deprévision).
Larègle
peuts’interpréter
ainsi comme unerégression
nonparamétrique,
cequi
facilitela
comparaison
avec le scorelogit/probit
et l’utilisation des courbes desélection, qui
sont
présentées
dans la troisièmepartie.
Enfin,
dans une dernièrepartie,
on illustre l’intérêt de ces courbes pour larègle
obtenue par
segmentation
par différentes études de Monte Carlo :comparaison
avecun score
logistique
ouprobit,
outil pour la réduction dugrand arbre,
mise en évidencedu biais de sélection sur la
règle.
2. Cadre et Notations 2.1. Cadre
On considère une
population
Ppartitionnée
en deux groupesPl
etP2.
Les éléments deP,
lesindividus, peuvent
être des personnesphysiques,
desentreprises,
des titres.... Selon le
domaine,
les deuxsous-populations
sontappelées population
des individus défaillants et des individus
non-défaillants,
oupopulation
des individusrisqués
et des individusnon-risqués,
etc....Chaque
individu des est décrit par un ensemble X de p variablesexplicatives
X’ =(Xl,
X2, ...,xp), appelées également prédicteurs.
Lescomposantes
de Xpeuvent
être de naturequelconque :
continue oudiscrète,
et dans ce cas,quantitative
ouqualitative.
L’appartenance
à l’une des deuxsous-populations
est modélisée par une variabledichotomique
Y. On notera pour la suite :_
0
si l’individu estdéfaillant, risqué,
etc...1
sinon.On s’intéresse alors à la
probabilité (conditionnelle)
de non-défaillanceP(Y
=11X =: X).
2.2.
Objectif
A
partir
d’un N-échantillon des variables(Xi, Yi) 1-i-N,
les deux méthodesconduisent à la construction d’une
règle
de sélection(un score),
fonction des variables observables X que l’on noteS(X )
dans la suite. Le score fournit un classementdes observations par
risque
décroissant. Onpeut
alors l’utiliser soit pour affecter toute observation X x à l’un des groupesexclusivement,
soit pourprévoir
laprobabilité
de non défaillance(fonction
croissante duscore).
Larégression donne,
parconstruction,
un scorealgébrique
et laprobabilité
de non-défaillance associée. Pour lasegmentation
pararbre,
larègle peut
conduire à un scorealgébrique
en choisissantune
règle
d’affectationadaptée
pour les noeuds terminaux.2.3.
Exemple d’application
Ces méthodes sont utilisées à différentes fins :
- La détection des défaillances
d’entreprises :
les études de M. Bardos[1] ]
ou de H.
Frydman et
al.[7]
illustrent cetteapplication,
en étudiant les défaillancesd’entreprises
sur unepériode
déterminée(3
ans, 6 ans,...).
Dans ce cas, lerisque correspond
à la défaillancepossible
d’uneentreprise,
pour un secteur d’activitéparticulier;
les variablesexplicatives peuvent
être des ratiosfinanciers,
le secteurd’activité,
etc....- La sélection de clientèle telle que le
credit-scoring.
Avant tout accord de crédit(à
desparticuliers
ou à desentreprises),
les établissements financiers doiventprévoir
lerisque
de défaillance(non paiement
d’une ou deplusieurs échéance(s)
dudemandeur)
avant de
prendre
leur décision(accord
ou non, et éventuellement avec des assurancescomplémentaires).
Lerisque peut également correspondre
à un remboursementanticipé.
Une telle sélection d’individus sepratique
dans d’autres domaines tels que celui des assurances, pour lemailing,
ou pour la sélection d’étudiants à l’entrée de l’université. Dans tous les cas, larègle
est établie àpartir
de certainescaractéristiques
observables des individus. Elle doit
permettre
deprévoir
au mieux lerisque
individuelet en même
temps
elle fournit un classement des observations leplus
fiablepossible.
- Pour l’aide au
diagnostic médical,
les scores sont utilisés pourprévoir
des ris-ques et pour choisir un traitement. Le
risque correspond
à laprésence
d’unsymptôme particulier,
ou autype
dusymptôme (bénin/malin),
au choix du traitement le mieuxadapté,
etc .... Là encore, les variablesexplicatives peuvent
êtrequantitatives (mesure
detaux...)
ouqualitatives (présence/absence
d’unecaractéristique particulière).
2.4. Biais
d’échantillonnage
Pour les
exemples précédents,
les échantillons àpartir desquels
lesrègles
sont construites ne sont pas
toujours
obtenus partirage
aléatoire dans lapopulation d’origine.
Il estfréquent qu’ils
aient été soumis à une sélectionpréalable :
pour la détection desentreprises défaillantes,
l’étude est effectuée pour un secteur d’activitédonné;
pour l’octroi decrédit,
on nepeut
examiner les défaillances que pour les individusauxquels
le crédit a étéaccordé;
pour lespatients
àpartir desquels
oncompare l’efficacité de deux
traitements,
le traitement choisi n’est pas lié au hasard.A
l’inverse,
les individus eux-mêmespeuvent
être àl’origine
de cette sélection(autosélection).
Dans ces différents cas, si l’échantillon utilisé pour construire la
règle
a étésoumis à une sélection
préalable (par
untiers,
ou par les individuseux-mêmes)
il n’estpas
représentatif
de lapopulation
totale. Ce biaisd’échantillonnage, appelé
biais desélection va avoir des
conséquences
sur larègle
construite(biais
des estimateurs pour les méthodesparamétriques, règle
de sélection moinsperformante, etc...).
Le score obtenu parchaque
méthode(variables pertinentes, propriétés
desestimateurs,...)
etsa
qualité
à sélectionner vont ainsi être modifiés.L’effet du biais de sélection et sa
prise
en compte pour «correction» vadépendre
dechaque
méthode. Dans le cas de larégression,
le biais s’inscrit dansle cadre des
problèmes
d’observabilitéspartielles
étudiés par D.J. Poirier[15].
L’utilisation d’un modèle bivarié
permet
deprendre
encompte
laprésélection
aumoment de la construction de la
règle,
etainsi,
d’encorriger partiellement
les effets.En
segmentation,
le biais de sélectionpeut également apparaître (puisque
les deuxméthodes sont utilisées pour les mêmes
applications); cependant
il semble rarementévoqué
lors de la constructionpuis
l’utilisation de larègle.
Les courbes de sélection vontpermettre
de mettre en évidence ce biais sur larègle, puis
d’évaluer les effets des méthodes de correctionproposées.
3.
Régression
et Partitionnement récursifCette section
rappelle
leprincipe
des deux méthodes dans le cas de laprévision
de
risque.
3.1. La
régression logistique et probit
La
régression (voir
parexemple
G. Maddala[12]) permet
deprévoir
laprobabilité
de non-défaillanceconditionnelle,
par uneapproche paramétrique.
Elleconsidère pour cela la loi conditionnelle de la variable
YIX
dont la loiP (Y
=1|X
=x)
est de la formeg(x; 0); 0
est un vecteur deparamètres
à estimer(0
ERP) et g
une fonction donnée. En choisissant pour
g (x; 0)
la fonction derépartition
d’une loilogistique
ou d’une loinormale,
on obtient les modèleslogit
etprobit respectivement.
Cette
représentation correspond
à larégression
linéaire de la variable latente Y* sur lesprédicteurs
X :avec :
- u aléa
centré,
de varianceor2
et de loi normale oulogistique,
et de fonction derépartition Fu (symétrique).
- Y* la variable latente liée à la variable observable Y par Y =
il y. >0.
La
probabilité
de non défaillance est ainsi une fonction croissante du scoreS(X )
=X’03B2 : g(x; 03B8) = Fu (x’03B2 03C3).
Seul leparamètre 22
estestimable,
et onpeut
se
ramener à (J
= 1. Par la méthode du maximum devraisemblance,
on obtient unestimateur Ô
du vecteur desparamètres
B. Pourchaque
observation X = x, on calcule alors le scorex’ Ô,
et les observations sont classées par score croissant(correspondant
à des
probabilités
de non défaillance estimées croissantesg(x)
=g(x ; 9)).
3.2. La
segmentation
par arbre binaireLa
segmentation
par arbrepermet également
d’obtenir une estimation de laprobabilité
de nondéfaillance,
conditionnellement aux classes de lapartition.
Ence sens, elle
peut
être vue comme unerégression
nonparamétrique
de la variable latente Y* sur les indicatrices des classes de lapartition.
Dans ceparagraphe,
nousutilisons un
algorithme
de constructionproche
de celui utilisé parFrydman [7]
ou par Breiman[3]
pour les arbres derégression (étendus
au cas d’une variablelatente).
La
règle
obtenue fournit un classement des observations. Il va alors êtrepossible
decomparer la
règle
obtenue parsegmentation
à d’autresrègles
dediscrimination,
parcomparaison
desclassements,
àpartir
des courbes de sélection([8]).
Ce critère d’évaluation et de
comparaison
estplus général
que le taux d’erreur de classement utilisé habituellement. Deplus,
étendu auxarbres,
il constitue un outilcomplémentaire
pourl’élagage
dugrand
arbre et la mise en évidence du biais de sélection.3.2.1.
Principe général
de constructionUn arbre est construit par divisions
dichotomiques
successives d’un noeud a(sous-ensemble d’observations)
en deuxdescendants,
un noeudgauche
ag et un noeud droit ad, enchoisissant,
àchaque étape (chaque noeud),
la variable et la coupure sur cette variablequi
réduit auplus
lemélange
des groupes dans les noeuds descendants(qui
sont ainsiplus homogènes
relativement à la variable de groupeY).
Pour les différentes
étapes
de la construction de l’arbre(division, arrêt, élagage
du
grand
arbre etdécision)
les critèresemployés peuvent
varier en fonction desobjectifs (classification, discrimination, prévision, etc...).
3.2.2. Construction de l’arbre
On
précise
dans ceparagraphe
les critères que l’on utilise àchaque étape.
Onpourra consulter
[9]
pour uneprésentation plus
détaillée de la méthode.Division On utilise comme critère de division la réduction
d’impureté qui,
définieà
partir
de l’indice deGini,
et dans le cas de deux groupescorrespond
à la réduction de la variance interne d’un noeud.L’impureté,
pour un noeud a, est définie par :La division du noeud a en deux descendants
(aG
={x* c*}
et aD ={x*
>c*}
dans le cas d’une variable x*quantitative)
est obtenue pour la variable x* et la coupure c*qui
maximise la réductiond’impureté (donc
la variance interne desnoeuds)
Ai définie par :En itérant le
procédé,
on obtient ainsi ungrand
arbre.Réduction du
grand
arbre Legrand
arbre est ensuite «réduit» soit par retrait des branches les moins informatives(élagage),
soit parregroupement
des noeuds pourlesquels
la décision est«proche» (dans
le cas de laprévision,
celacorrespond
à unedifférence des
probabilités
nonsignificative),
afin d’aboutir à un arbre «utilisable»constitué de J noeuds terminaux
Al, A2, ..., AJ.
La réduction du nombre de noeuds terminaux parélagage présente
certains inconvénients. Si deux noeuds terminauxNI
etN2
issus de branches différentes conduisent à desrègles
de décision assez«proches»,
il estpréférable
de regrouper ces deux noeudsplutôt
que deprocéder
à unélagage
de l’arbrequi peut
fairedisparaitre
l’une des branches(i. e.
l’un de ces deuxnoeuds).
Cette méthode de«regroupement»
a été initialementproposée
parCiampi ([4], [5])
pour la méthode SEGMAG(SEGMentation
etAGrégation).
Pour les arbresconstruits
ici,
on utilisera à la foisl’élagage
et leregroupement
pour réduire legrand
arbre.
Décision On associe à
chaque
noeud terminalAj,
une décisiondj (X).
Dans le casde la
prévision, plutôt
que d’affecterchaque
feuille à l’un des groupes à l’exclusion del’autre,
on calcule laprobabilité
aposteriori d’appartenance
au groupe Y = 1 conditionnellement à lafeuillet
pj =P(Y
=1JX
EAj).
On note indifféremmentj
oudj,
l’estimation de cetteprobabilité,
ou la décision associée. Cette décisioncorrespond
à la minimisation de l’erreurquadratique E(Y - d(X ) )2
associée à larègle.
A
partir
d’un échantillon de taille N(autre
que celuiqui
a servi à construirel’arbre),
onobtient,
pourchaque
classe ou noeudAj,
des estimateursj
desproba-
bilités
d’appartenance
au groupe Y =1; plus précisèment, P j
est l’estimateur de laproportion
d’individus non défaillantsappartenant
à larégion
associée àAj.
Cesestimateurs sont définis par :
où
- nXEAJ désigne
l’indicatrice de la classeAj (X ~ Aj =
1 si XE Aj
etX ~ Aj =
0sinon),
- et
Nj
l’effectif du noeudAj.
Si l’échantillon est obtenu par
tirage
aléatoire dansP,
l’estimateurfii
est unestimateur convergent pour la
probabilité
conditionnelle pj =p(Y = 11 X
EAj).
3.2.3. Utilisation de la
segmentation
pour laprévision
derisque
Contrairement à la
régression qui
fournit un scorealgébrique,
larègle
obtenueà
partir
de l’arbrecorrespond
à unepartition
del’espace
des variablesexplicatives,
c’est-à-dire une suite d’assertions sur ces variables. On
peut
se ramener à un scorealgébrique
en associantchaque
feuille à sa décision pj. On obtient ainsi unerègle
de classement des observations
(par risque décroissant).
Onpeut
alors comparer les classements fournis par les deux méthodes àpartir
des courbes de sélection.A
partir
desprobabilités
estiméesj ,
etaprès
avoir réordonné les noeudsAj
par
j croissants,
onpeut
définir un scorealgébrique
de lafaçon
suivante :Contrairement à la
régression,
le classement obtenu àpartir
du scoreS(X )
n’est que
partiel;
ilpermet
seulement de discriminer les observations entre J groupes(les
J noeuds terminaux del’arbre).
Toutes les observations d’un même noeud sont considérées comme «ex-aequo». Pour cesobservations,
et si le nombre de noeuds J n’est pas assezélevé,
il peut êtreutile,
pour obtenir une discriminationplus fine,
d’effectuer un traitement
supplémentaire.
3.2.4.
Régression
nonparamétrique particulière
La
règle
obtenue en construisant un arbre deprévision peut
êtreconsidérée, a posteriori,
comme unerégression
nonparamétrique
de la variable latente Y* sur les indicatrices des classes de lapartition (arbre
derégression).
Les variablesexplicatives (les indicatrices)
sont sélectionnées au cours de laprocédure
de construction de l’arbre.La
règle
conduit àl’estimation,
par des fonctions constantes par morceaux, de la fonction deprobabilité :
où
h,
est une fonctioninconnue, qui
estapprochée (estimée)
surAj
par une fonctionconstante : pj.
En notant Y* la variable latente liée à Y
(Y
=Y*0)
cetteprobabilité correspond
à larégression
de Y* sur une fonction des variables X :avec :
- X l’ensemble des variables
explicatives,
- g une fonction
inconnue,
- s un aléa de fonction de
répartition Gê,
et tel queE (E 1 X) - 0, V (E 1 X)
=03C32.
La
probabilité
de non défaillance estalors, d’après l’équation (3.2) :
En
effet,
on a successivement :P (Y - 11 X - x)
=E (Y 1 X
=x)
=P(Y* >
0|X = x) P(03B5 g(x)) = G03B5(gx)).
La
segmentation
conduit à unepartition Al, A2,..., Aj
telle que, pour toute valeur x EAj, h ( x )
estapproximée
parpj (x).
Cequi peut s’interpréter, a posteriori,
comme l’estimation(non paramétrique)
de la fonction h par des fonctions«constantes » sur les sous-ensembles
Aj
E X(ces
sous-ensembles sont deshypercubes
de RP si les variables
explicatives
sontcontinues).
En
effet,
en notantf
la densité deX,
on obtientl’expression
de laprobabilité
de
non-défaillance,
conditionnellement à un noeudA,,
en utilisantl’équation (3.1 )
etl’approximation
Pj deh (x )
sur x EAj :
4.
Comparaison
des deux méthodesLa
régression logistique/probit
et lasegmentation
pararbre, employées
toutesles deux pour la
prévision
derisque,
conduisent à desrègles
assezproches.
Dans ceparagraphe, après
unecomparaison
del’expression
des deuxrègles
sur unexemple
de «sélection de
clientèle»,
nous allons voir comment les courbes de sélection[8]
peuvent
alors être utilisées pour évaluer et comparer cesrègles
entre elles.4.1. Première
comparaison arbre/régression (logistique
ouprobit)
Le
partitionnement
récursif et larégression
considèrent tous deux la distribution conditionnelle de la variable de groupeY 1 X.
La
régression adopte
uneapproche paramétrique
pour estimer laprobabilité
de non défaillance conditionnelle
P(Y
=1|X = x) - g(x; 0),
tandis que lasegmentation
fournit une estimation de cetteprobabilité
àpartir
d’uneapproche
nonparamétrique.
Les deux méthodes
permettent
deprendre
encompte
les interactions entre va-riables
explicatives.
Pour larègle
obtenue parsegmentation,
les variablesexplicatives
sont les indicatrices de la
partition;
elles sont déterminées au cours de laprocédure
deconstruction de la
règle.
Pour larégression logit /probit,
onpeut
se ramener au cas où lesrégresseurs
sont des indicatrices créées àpartir
des variables initiales. Il suffit pour cela dedécouper
toute variable initiale continue en kclasses,
et de considérer les indi- catrices associées(on
retient k - 1 indicatrices afin que le modèle resteidentifiable).
La
régression
est alors effectuée sur les indicatrices des classes.Après
unepremière régression
sur ces variablessimples,
onrajoute parmi
les variablesexplicatives
descroisements entre deux
puis
troisvariables,
etc... Contrairement au cas de larègle
obtenue par
l’arbre,
ces indicatrices ne forment pas unepartition.
Deplus,
elles sontdéterminées avant l’estimation de la
règle
et nonpendant.
Les deux méthodes
permettent
de traiter des échantillons de taille élevée et de considérerconjointement parmi
les variablesexplicatives
des variables discrètes et continues. Les courbes de sélectionpeuvent
fournir un outil decomparaison
supplémentaire.
4.2. Les courbes de sélection comme critère de
comparaison
Un score S fournit un classement des observations et
plusieurs
modes desélection,
en fonction du seuil s choisi. Laqualité
d’un score, c’est-à-dire sacapacité
à sélectionner les observations les
plus fiables,
pourlesquelles P(Y = 1JX)
est«grand», peut
être évaluéequelle
que soit la valeur duseuil,
àpartir
de courbes[8] (courbes
de sélection ou courbes deperformance).
Lesrègles
de classement obtenues par larégression
et lasegmentation
vont ainsipouvoir
êtrecomparées
àpartir
des courbes de sélection associées. Ces courbes trouvent diverses utilisations ensegmentation :
outre pour comparer larègle
obtenue avec celle obtenue parrégression,
elles constituent un outil d’évaluation de la
qualité
de larègle,
et d’aide pourl’étape
deréduction du
grand
arbre. Ellespeuvent
aussi êtreemployées
pour la mise en évidencethéorique
des biaisd’échantillonnage.
4.2.1. Les courbes de sélection
Elles définissent une relation d’ordre sur les scores : un score
SI
estpréféré
àun score
S2
si il conduit à une sélectionplus précise
des observations.Définition 4.1. -
(Gouriéroux [8J)
Pour un scoreS,
les courbes de sélection sont des courbesparamétrées définies
par :(i)
La courbe esttoujours
située dans lepavé [0; 1]
x[0; 1],
elle passe par lespoints (0; 0)
et(1; 1),
et elle est invariante par transformation croissante du score.De
plus,
pour un score discriminant(tel
quex(s)
>y( s),
la courbe de sélection est croissante convexe, ettoujours
située en dessous de lapremière
bissectrice.(ii)
Les courbes de sélectionpermettent
d’évaluer laqualité
d’un score, maiségalement
de comparer différents scores entre eux.Ainsi,
un scoreS2
seraplus performant qu’un
score5i (on
notera81 - S2 )
si la courbe de sélection associée au scoreS2
est en dessous de celle associée au score8 l,
comme l’illustre lafigure
1-a.La courbe d’un score est, de
plus, toujours comprise
entre les courbes des deux scores«limites» : le score
parfait (correspondant
à S =Y)
et un score non discriminant(dont
la courbe a pouréquation
?/ ==x).
(iii) Enfin,
ilpeut
arriver que les scores ne soient pascomparables globalement,
c’est-à-dire
quelle
que soit lapart
de marché(abscisse
de lacourbe).
Onpeut cependant
faire la
comparaison
pour unepart
de marché donnée x xs(figure 1-b),
ousur un intervalle
XSE [;£; x]
donné. Cettecomparaison partielle
est suffisante dans de nombreusesapplications
pourlesquelles
le taux de sélection est fixé(mailing).
(iv)
Si on considèrel’hypothèse Ho : {Y == 0},
contreHl : {V = 1}
correspondant
au test del’hypothèse
«l’observation Xprovient
du groupe y == 0 » contre «l’observation Xprovient
du groupe Y = 1». Lacomparaison
de deux scoresS1
etS2
àpartir
des courbes de sélectioncorrespond
à lacomparaison
de deux testsTl
etT2
définis àpartir
desstatistiques
de testsSI
etS2
pourl’hypothèse Ho
contreHI.
Onpréfère
le testqui
est leplus puissant
sans biais.FIGURE 1
a)
Courbes casSi S2; b)
CasSi
etS2
noncomparables globalement
4.2.2.
Expression
des courbes pour les deuxrègles
Dans le cas d’un score obtenu par
régression,
et d’un score obtenu parsegmentation,
il estpossible
de déterminerl’équation
exacte des courbes desélection,
si on connaît la loi des variablesexplicatives
X. Le scorelogistique
ouprobit
construità
partir
des indicatrices des classes et le score obtenu parsegmentation
ne sont pascontinus;
la courbe de sélection ne sera ni continue nirégulière.
On la transforme parlissage.
4.2.3. Autres utilisations des courbes de sélection
Les courbes de sélection fournissent ainsi un outil d’évaluation et de compa- raison entre la
régression
et lasegmentation
par arbre. Ellespeuvent également
êtreutilisées pour
l’élagage
dugrand
arbre ou pour mettre en évidence l’effet d’un biais de sélection.Elagage
En calculant àchaque étape
de la réduction dugrand arbre,
la courbe de sélectionassociée,
onpeut
mesurer - au niveau de laqualité
de larègle -
l’effet duretrait d’une branche ou du
regroupement
deplusieurs
noeuds sur larègle,
et ce,quelle
que soit la
répartition.
Lacomparaison
des courbespermet
de choisir leregroupement
ou
l’élagage
leplus
satisfaisant. La dernière section illustre une telle utilisation. Onpeut
noter que lacomparaison
des courbes(règles
avant etaprès réduction) peut
n’êtreque
partielle,
limitée à laplage
de valeurs du taux de sélectioncorrespondant
à lapart
de marché fixée.Evaluation d’une correction du biais de sélection Nous avons
signalé
que dans lecas de la
prévision
derisque,
les échantillons àpartir desquels
lesrègles (logit/probit
ou par
arbre)
sontconstruites, peuvent présenter
un biais de sélection. Dans lecas de la
régression,
l’effet du biais sur larègle peut
être mesuré par le biaisqui
en résulte au niveau des estimateurs. La
prise
en compte dans un modèlejoint
(présélection/défaillance)
du processus deprésélection
et de sa corrélation avec leprocessus de défaillance étudié
permet
alors decorriger partiellement
ce biais(voir
par
exemple
C.Meng
et coll.[13]).
Pour les méthodes non
paramétriques,
enrevanche,
une telle démarche est difficilementenvisageable,
de par la nature de la méthode. Les courbes pourrontcependant
être utilisées pour mettre enévidence,
par dessimulations,
l’effet d’un biais de sélection de l’échantillon sur laqualité
de larègle.
Pourcela,
on comparera larègle
obtenue sur l’échantilloncomplet
et celle calculée sur l’échantillondisponible après présélection
simulée. Il sera alorspossible
de comparer, pour différents biais de sélectionsimulés,
l’effet de celui-cirespectivement
sur larégression
et lasegmentation
par arbre.
4.3.
Exemple
On considère
l’exemple
de la sélection d’étudiants à l’entrée d’une université. Larègle
de sélection constitue un outil d’aide à la décision : en fournissant un classementou une estimation de la
prévision
de la réussite future d’unétudiant,
ellepermet
dene sélectionner que ceux dont la
probabilité
de succès est laplus élevée, compte
tenu d’éventuelles contraintes d’effectifs(part
demarché).
La réussite estreprésentée
par la variable Yqui prend
les modalités Y = 1 si l’étudiant réussit son année universitaire et Y = 0 sinon.Chaque
observation est décrite par un ensemble X de variablesexplicatives,
àpartir desquelles
onpeut
construire le score8 (X).
Les données On
dispose
des fichierscorrespondants
aux étudiants admis pour l’année 91-92(Bac 91)
et pour l’année 92-93(Bac 92), qui
se sont inscrits et pourlesquels
la réussite ou l’échec en fin depremière
année de DEUG est observée.Les candidats
peuvent
être titulaires d’un Bac C ou d’un BacD;
parailleurs,
certainspeuvent
avoir redoublé leur classe Terminale. Les scores sur chacune de cesquatre sous-populations (Bac
C/BacD,
redoublant/nonredoublant)
sont différents.On
présente
dans la suite le score construit pour les étudiants titulaires d’un Bac C et nonredoublants,
cequi correspond
à 234 observations.Les variables retenue On suppose pour
simplifier
que cette sélection s’effectue àpartir
de trois variablesexplicatives disponibles
au moment de laprise
dedécision,
que l’on note
Xi, X2
etX3.
Ces variablescorrespondent respectivement
à la noteen
mathématiques,
la moyennegénérale,
et laqualité
dulycée
danslequel
l’étudianteffectue son année Terminale.
Xl
etX2
sont des variables continues(comprises
entre0 et
20),
la variableX3
est une variable discrète à 4 modalités codées de 1 à 4. Les deuxpremières
variables sont continues(quantitatives),
la troisième est discrète et ordonnée(qualitative ordonnée).
Régression Chaque
variable continue(Xi
etX2 )
est transformée en deux variablesdichotomiques (trois classes),
àpartir
de l’examen de la fonction derépartition empirique. Ainsi,
pourXi,
on définit :et pour
X2 :
La variable
X3, qui
estdiscrète,
est transforméequant
àelle,
en trois indica-trices, correspondant
aux trois dernières modalités. On noteUs, Ile
etll 7
ces trois indicatrices. Onrégresse
Y*(variable
latente liée àY)
sur lessept
variables ainsi créées et sur la constante.Après
unepremière
estimationqui
détermine les variablessignificatives,
onrajoute parmi
les variablesexplicatives
les croisements entre deuxvariables, puis trois,
etc....Segmentation
Pour lasegmentation,
enrevanche,
aucune transformationprélimi-
naire des variables n’est nécessaire. Les coupures sur
chaque
variable et les croise- ments entre variables sont obtenus au fur et à mesure de la construction de l’arbre.Règles
obtenuesL’application
des deux méthodes conduit aux deuxrègles
sui-vantes
qui peuvent
être écrites soit sous formed’arbre,
soit sous forme d’uneproba-
bilité conditionnelle estimée.
(i)
Larégression
pour le modèleprobit
fait ainsiapparaître
trois variablesexplicatives :
-
Il 2,
l’indicatrice de la classeXl
> 10.5 de la note demathématiques :
- le croisement entre les classes des variables
X 1
etX2 : 1 Il 4 ;
- le croisement1
x(Il 6
+7).
Cela
correspond
àl’équation
derégression :
où
03A6(.) désigne
la fonction derépartition
de la loi normale centrée réduite.La
règle
obtenuepeut
êtrereprésentée
sous forme d’un arbre binairecomposé
de
cinq noeuds,
comme l’illustre lafigure
2 page suivante. Desregroupements peuvent
être faits entre certains noeuds terminaux
(ce qui correspond
au terme constant dansl’équation
derégression).
Les décisions associées aux noeuds terminaux sont, dans le cas de la
régression
probit,
et ennotant dj
la décision associée au noeudNj (pour j
= 1 à5) :
FIGURE 2
Représentation sous forme
d’arbre de larègle
obtenue parrégression probit
FIGURE 3
Règle
obtenue parsegmentation
(ii)
Lasegmentation (cf. figure
3 pageprécédente)
conduit à un arbrecomposé, après regroupements,
dequatre
noeuds terminauxNi, N2, N3
etN4,
cequi correspond
a une
partition
del’espace
des variablesexplicatives
enquatre
classes :- la
première
classe(noeud Ni ) correspond
aux observations pourlesquelles {X1 > 10.95};
- la deuxième classe de la
partition (noeud N2) correspond
aux observations pourlesquelles {X1 10.95}
n{X2 12};
- la troisième classe est
composée
des observations pourlesquelles {X1 10.95}
n{X2 12}
n{X3
E{3,4}};
-
enfin,
laquatrième
classe(n0153ud N4) correspond
à{X1 10.95}
nfX2 12} ~ {X3 ~ {1, 22}}
La
règle
associéepeut également
s’écrire sous la forme d’unerégression.
On a dans ce cas :
Les deux
règles
conduisent à unepartition
assezproche
pour certains noeuds.Les coupures observées pour les différentes variables sont
parfois
très voisines. Les mêmes croisements entre variablesapparaissent
dans les deuxrègles.
Laprincipale
différence réside dans la
possibilité,
enrégression paramétrique,
d’avoir à la fois les indicatrices des variables initiales et les indicatrices des croisements dansl’expression
de la
probabilité,
cequi permet
une modélisationplus
fine.La
règle
obtenue parsegmentation pourrait
être «affinée» en effectuant les coupures nonplus
sur’les variablessimples,
comme c’est le casici,
mais sur une combinaison entre variables[5].
Ces fortes ressemblances sont confirmées par l’examen des courbes de sé lection
qui
sontpratiquement
confondues.5.
Applications
5.1.
Comparaison
scoreprobit
et score obtenu parpartitionnement récursif
On compare dans ce
paragraphe
lesrègles
obtenues parrégression
etsegmenta-
tion pour différents modèles simulés. Pour larégression,
on choisit le modèleprobit.
Pour la
segmentation,
la division est effectuée sur une seule variable à la fois. Laréduction du