Arbres de d ´ecision
1• Objectif
•classification en utilisant unes ´equence de questionsferm ´ees
•les questions sont organis ´ees dans unarbre
Arbres de d ´ecision
2Color?
Size? Shape? Size?
round Size?
yellow red green
thin medium
small small
big
Grapefruit
big small
Watermelon Apple Banana Apple
Lemon
Grape Taste?
sweet sour Cherry Grape medium
level 0
level 1
level 2
level 3 root
Arbres de d ´ecision
3• Avantages
•fonctionnentavec des donn ´eesnon-m ´etriques
•invariabilit ´e partranslation, parchangement d’ ´echelle, partransfor- mation monotone des coordonn ´ees
•interpretabilit ´e
•entraˆınementefficace
•classificationtr `es efficace
• D ´esavantages
•instabilit ´e
Arbres de d ´ecision
4• Algorithmes de CART (arbres de classification et r ´egression)
•combien de d ´ecoupagespar noeud?
•quel attributfaut-iltester`a un noeud?
•quand arr ˆeterde d ´ecouper?
•si l’arbre est trop grand,comment ´elaguer?
•si une feuille est non-pure,comment choisir la cat ´egorie?
Arbres de d ´ecision
5• Nombre de d ´ecoupages
•tous les arbres de d ´ecision peuvent ˆetre repr ´esent ´es par unarbre de d ´ecision binaire
• Affectation de cat ´egorie
•vote parmajorit ´e
Arbres de d ´ecision
6• S ´election de test
•objectif: unarbre simple(rasoir d’Occam)
•choisir le d ´ecoupage quiaugmente le plus la puret ´e
Arbres de d ´ecision
7• L’impuret ´e du noeud
•fr ´equence de classe:µj=#{classe=Cj} n
•impuret ´e d’entropie:i(N) =−
!
j
µjlgµj
•impuret ´e devariance(deux cat ´egories):
i(N) =µ1µ2
•impuret ´e deGini:i(N) =
!
i"=j
µiµj=1−
!
j
µ2j
•impuret ´e demauvaise classification:
i(N) =1−max
j µj
Arbres de d ´ecision
8• L’impuret ´e de noeud
0 1
Gini/variance
0.5
mauvaise classi
fi cation
entr opie i(µ
1)
µ
1Arbres de d ´ecision
9• S ´election de test
•chute d’impuret ´e:
#i(N) =i(N)−µ(g)i(N(g))−(1−µ(g))i(N(d))
•approchegloutonne
• Forme g ´en ´erale de la fonction
•d ´ecoupage surun attributsimple−→arbremonot ´etique
•d ´ecoupagelin ´eaire
Arbres de d ´ecision
10• Quand arr ˆeter
•un pointpar feuille:overfitting
•tropt ˆot: grandeerreur d’entraˆınement
•technique g ´en ´erale:validation/validation crois ´ee
•chute d’impuret ´e<seuil
•nombre de points<seuil
•principe deMDL (minimum description length): minimiser
$·taille+
!
feuilles N i(N)
•m ´ethodes statistiques pour mesurer lasignification de la r ´eduction d’impuret ´e
Arbres de d ´ecision
11• ´Elaguer
•l’effet d’horizon
•pousser l’arbre jusqu’ `aun point par feuille
•supprimer(unifier) les noeuds si le puret ´ene diminue pas
•pas de validation crois ´ee
•plus de calcul
•´elaguer les r `eglespour simplifier la description
12
x1 < 0.6
x2 < 0.32
x1 < 0.35
x2 < 0.61
x1 < 0.69
x2 < 0.33 x2 < 0.09 x1 < 0.6
x1 < 0.69
x1 x2
*
†
"1
"!
"!
"!
"1 "1
"1 "1
"1
"!
"! 1.0
.88 .65
.81 1.0
1.0 .76 .59
.92
0 .2 .4 .6 .8 1
.2 .4 .6 .8 1
x1 x2
0 .2 .4 .6 .8 1
.2 .4 .6 .8 1
R1
R2
R2
R2
R2
R1
R1
R1
R1
R1
Arbres de d ´ecision
13• Complexit ´e: O(dnlg n)
• Choix de traits
• Arbres multivari ´es
14
.2 .4 .6 .8 1
0 .2 .4 .6 .8
1 - 1.2 x1 + x2 < 0.1
x1 < 0.27
x2 < 0.32
x1 < 0.07
x2 < 0.6
x1 < 0.55
x2 < 0.86
x1 < 0.81
x1 x2
ω2 ω1
ω2
ω1
ω1
ω1
ω1
ω2
ω2
ω2 R2
R1
R2
R1
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
x1 x2
Choix de traits
15.2 .4 .6 .8 1
0 .2 .4 .6 .8
1 - 1.2 x1 + x2 < 0.1
x1 < 0.27
x2 < 0.32
x1 < 0.07
x2 < 0.6
x1 < 0.55
x2 < 0.86
x1 < 0.81
x1 x2
ω2 ω1
ω2
ω1
ω1
ω1
ω1
ω2
ω2
ω2 R2
R1
R2
R1
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
x1 x2
Arbres multivari ´es
160.2 0.4 0.6 0.8 1
0.2 0.4 0.6 0.8 1
0.04 x1 + 0.16 x2 < 0.11
0.27 x1 - 0.44 x2 < -0.02
0.96 x1 - 1.77x2 < -0.45
5.43 x1 - 13.33 x2 < -6.03 x2 < 0.5
x2 < 0.56 x1 < 0.95
x2 < 0.54
x1
ω1
ω2 R2
R1
0
ω2
ω1
ω1
ω1
ω1
ω2
ω2
ω2 R1
R2
R2
R1
x2
0.2 0.4 0.6 0.8 1
0.2 0.4 0.6 0.8 1
x1 0
x2