• Objectif
• classification en utilisant une s ´equence de questions ferm ´ees
• les questions sont organis ´ees dans un arbre
Color?
Size? Shape? Size?
round
Size?
yellow red green
thin medium
small small
big
Grapefruit
big small
Watermelon Apple Banana Apple
Lemon
Grape Taste?
sweet sour
Cherry Grape medium
level 0
level 1
level 2
level 3
root
• Avantages
• fonctionnent avec des donn ´ees non-m ´etriques
• invariabilit ´e par translation, par changement d’ ´echelle, par transfor- mation monotone des coordonn ´ees
• interpretabilit ´e
• entraˆınement efficace
• classification tr `es efficace
• D ´esavantages
• instabilit ´e
• Algorithmes de CART (arbres de classification et r ´egression)
• combien de d ´ecoupages par noeud?
• quel attribut faut-il tester `a un noeud?
• quand arr ˆeter de d ´ecouper?
• si l’arbre est trop grand, comment ´elaguer?
• si une feuille est non-pure, comment choisir la cat ´egorie?
• Nombre de d ´ecoupages
• tous les arbres de d ´ecision peuvent ˆetre repr ´esent ´es par un arbre de d ´ecision binaire
• Affectation de cat ´egorie
• vote par majorit ´e
• S ´election de test
• objectif: un arbre simple (rasoir d’Occam)
• choisir le d ´ecoupage qui augmente le plus la puret ´e
•
• fr ´equence de classe: µ
j= # { classe = C
j} n
• impuret ´e d’entropie: i ( N ) = − ∑
j
µ
jlg µ
j• impuret ´e de variance (deux cat ´egories):
i ( N ) = µ
1µ
2• impuret ´e de Gini: i ( N ) = ∑
i=j
µ
iµ
j= 1 − ∑
j
µ
2j• impuret ´e de mauvaise classification:
i ( N ) = 1 − max
j
µ
j• L’impuret ´e de noeud
0 1
Gini/variance
0.5
mauvaise classi
fication
entr opie i ( µ 1 )
µ 1
• S ´election de test
• chute d’impuret ´e:
∆ i ( N ) = i ( N ) − µ
(g)i ( N
(g)) − ( 1 − µ
(g)) i ( N
(d))
• approche gloutonne
• Forme g ´en ´erale de la fonction
• d ´ecoupage sur un attribut simple −→ arbre monot ´etique
• d ´ecoupage lin ´eaire
• un point par feuille: overfitting
• trop t ˆot: grande erreur d’entraˆınement
• technique g ´en ´erale: validation/validation crois ´ee
• chute d’impuret ´e < seuil
• nombre de points < seuil
• principe de MDL (minimum description length): minimiser α · taille + ∑
feuilles N
i ( N )
• m ´ethodes statistiques pour mesurer la signification de la r ´eduction
d’impuret ´e
• Elaguer
• l’effet d’horizon
• pousser l’arbre jusqu’ `a un point par feuille
• supprimer (unifier) les noeuds si le puret ´e ne diminue pas
• pas de validation crois ´ee
• plus de calcul
• ´elaguer les r `egles pour simplifier la description
x1 < 0.35 x1 < 0.69
x2 < 0.33 x2 < 0.09 x1 < 0.6
x1 < 0.69
x1 x2
*
†
ω
1ω
2ω
2ω
2ω
1ω
1ω
1ω
1ω
1ω
2ω
2.81 1.0
1.0 .76 .59
.92
0 .2 .4 .6 .8 1
.2 .4 .6 .8 1
x1 0
.2 .4 .6
.2 .4 .6 .8 1
R1
R2
R2
R2
R2
R1
R1
R1
R1
• Complexit ´e: O ( dn lg n )
• Choix de traits
• Arbres multivari ´es
.2 .4 .6 .8 1 0
.2 .4 .6 .8
1 - 1.2 x1 + x2 < 0.1
x1 < 0.27
x2 < 0.32
x1 < 0.07
x2 < 0.6
x1 < 0.55
x2 < 0.86
x1 < 0.81
x1 x2
ω2 ω1
ω2
ω1
ω1
ω1
ω1
ω2
ω2
ω2 R2
R1
R2
R1
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
x1
.2 .4 .6 .8 1 0
.2 .4 .6 .8
1 - 1.2 x1 + x2 < 0.1
x1 < 0.27
x2 < 0.32
x1 < 0.07
x2 < 0.6
x1 < 0.55
x2 < 0.86
x1 < 0.81
x1 x2
ω2 ω1
ω2
ω1
ω1
ω1
ω1
ω2
ω2
ω2 R2
R1
R2
R1
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
x1
0.2 0.4 0.6 0.8 1 0.2
0.4 0.6
0.04 x1 + 0.16 x2 < 0.11
0.27 x1 - 0.44 x2 < -0.02
0.96 x1 - 1.77x2 < -0.45
5.43 x1 - 13.33 x2 < -6.03
x2 < 0.56 x1 < 0.95
x2 < 0.54
x1
ω
1ω
2 R2R1
0
ω
2ω
1ω
1ω
1ω
1ω
2ω
2ω
2 R1R2
R2
R1
0.2 0.4 0.6 0.8 1
0.2 0.4 0.6 0.8 1
x1
0
x2