Arbres de d ´ecision

(1)

• Objectif

• classification en utilisant une s ´equence de questions ferm ´ees

• les questions sont organis ´ees dans un arbre

(2)

Color?

Size? Shape? Size?

round

Size?

yellow red green

thin medium

small small

big

Grapefruit

big small

Watermelon Apple Banana Apple

Lemon

Grape Taste?

sweet sour

Cherry Grape medium

level 0

level 1

level 2

level 3

root

(3)

• Avantages

• fonctionnent avec des donn ´ees non-m ´etriques

• invariabilit é par translation, par changement d’ échelle, par transfor- mation monotone des coordonn ées

• interpretabilit ´e

• entraˆınement efficace

• classification tr `es efficace

• D ´esavantages

• instabilit ´e

(4)

• Algorithmes de CART (arbres de classification et r ´egression)

• combien de d ´ecoupages par noeud?

• quel attribut faut-il tester `a un noeud?

• quand arr ˆeter de d ´ecouper?

• si l’arbre est trop grand, comment ´elaguer?

• si une feuille est non-pure, comment choisir la cat ´egorie?

(5)

• Nombre de d ´ecoupages

• tous les arbres de d écision peuvent être repr ésent és par un arbre de d écision binaire

• Affectation de cat ´egorie

• vote par majorit ´e

(6)

• S ´election de test

• objectif: un arbre simple (rasoir d’Occam)

• choisir le d ´ecoupage qui augmente le plus la puret ´e

(7)

• • fr ´equence de classe: µ

_j

= # { classe = C

_j

} n

• impuret ´e d’entropie: i ( N ) = − ∑

j

µ

_j

lg µ

_j

• impuret ´e de variance (deux cat ´egories):

i ( N ) = µ

₁

µ

₂

• impuret ´e de Gini: i ( N ) = ∑

i=j

µ

_i

µ

_j

= 1 − ∑

j

µ

²_j

• impuret ´e de mauvaise classification:

i ( N ) = 1 − max

j

µ

_j

(8)

• L’impuret ´e de noeud

0 1

Gini/variance

0.5 mauvaise classi

fication

entr opie i ( µ ₁ )

µ ₁

(9)

• S ´election de test

• chute d’impuret ´e:

∆ i ( N ) = i ( N ) − µ

⁽^g⁾

i ( N

⁽^g⁾

) − ( 1 − µ

⁽^g⁾

) i ( N

⁽^d⁾

)

• approche gloutonne

• Forme g ´en ´erale de la fonction

• d ´ecoupage sur un attribut simple −→ arbre monot ´etique

• d ´ecoupage lin ´eaire

(10)

• un point par feuille: overfitting

• trop t ˆot: grande erreur d’entraˆınement

• technique g én érale: validation/validation crois ée

• chute d’impuret ´e < seuil

• nombre de points < seuil

• principe de MDL (minimum description length): minimiser α · taille + ∑

feuilles N

i ( N )

• m ´ethodes statistiques pour mesurer la signification de la r ´eduction

d’impuret ´e

(11)

• Elaguer

• l’effet d’horizon

• pousser l’arbre jusqu’ `a un point par feuille

• supprimer (unifier) les noeuds si le puret ´e ne diminue pas

• pas de validation crois ´ee

• plus de calcul

• ´elaguer les r `egles pour simplifier la description

(12)

x1 < 0.35 x1 < 0.69

x2 < 0.33 x2 < 0.09 x1 < 0.6

x1 < 0.69

x1 x2

*

†

ω

1

ω

₂

ω

₂

ω

₂

ω

1

ω

1

ω

1

ω

1

ω

1

ω

₂

ω

₂

.81 1.0

1.0 .76 .59

.92

0 .2 .4 .6 .8 1

.2 .4 .6 .8 1

x1 0

.2 .4 .6

.2 .4 .6 .8 1

R1

R2

R₂

R2

R1

R₁

(13)

• Complexit ´e: O ( dn lg n )

• Choix de traits

• Arbres multivari ´es

(14)

.2 .4 .6 .8 1 0

.2 .4 .6 .8

1 - 1.2 x₁ + x₂ < 0.1

x₁ < 0.27

x₂ < 0.32

x₁ < 0.07

x₂ < 0.6

x₁ < 0.55

x₂ < 0.86

x₁ < 0.81

x₁ x₂

ω2 ω1

ω2

ω1

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x₁

(15)

.2 .4 .6 .8 1 0

.2 .4 .6 .8

1 - 1.2 x₁ + x₂ < 0.1

x₁ < 0.27

x₂ < 0.32

x₁ < 0.07

x₂ < 0.6

x₁ < 0.55

x₂ < 0.86

x₁ < 0.81

x₁ x₂

ω2 ω1

ω2

ω1

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x₁

(16)

0.2 0.4 0.6 0.8 1 0.2

0.4 0.6

0.04 x₁ + 0.16 x₂ < 0.11

0.27 x₁ - 0.44 x₂ < -0.02

0.96 x1 - 1.77x2 < -0.45

5.43 x₁ - 13.33 x₂ < -6.03

x₂ < 0.56 x1 < 0.95

x₂ < 0.54

x1

ω

1

ω

2 R2

R1

0

ω

²

ω

1

ω

¹

ω

1

ω

1

ω

²

ω

2

ω

2 R1

R2

R1

0.2 0.4 0.6 0.8 1

x1

0

x2

Arbres de d ´ecision

• Objectif

• classification en utilisant une s ´equence de questions ferm ´ees

• les questions sont organis ´ees dans un arbre

Color?

Size? Shape? Size?

round

Size?

yellow red green

thin medium

small small

big

Grapefruit

big small

Watermelon Apple Banana Apple

Lemon

Grape Taste?

sweet sour

Cherry Grape medium

level 0

level 1

level 2

level 3

root

• Avantages

• fonctionnent avec des donn ´ees non-m ´etriques

• invariabilit é par translation, par changement d’ échelle, par transfor- mation monotone des coordonn ées

• interpretabilit ´e

• entraˆınement efficace

• classification tr `es efficace

• D ´esavantages

• instabilit ´e

• Algorithmes de CART (arbres de classification et r ´egression)

• combien de d ´ecoupages par noeud?

• quel attribut faut-il tester `a un noeud?

• quand arr ˆeter de d ´ecouper?

• si l’arbre est trop grand, comment ´elaguer?

• si une feuille est non-pure, comment choisir la cat ´egorie?

• Nombre de d ´ecoupages

• tous les arbres de d écision peuvent être repr ésent és par un arbre de d écision binaire

• Affectation de cat ´egorie

• vote par majorit ´e

• S ´election de test

• objectif: un arbre simple (rasoir d’Occam)

• choisir le d ´ecoupage qui augmente le plus la puret ´e

•

• fr ´equence de classe: µ

= # { classe = C

} n

• impuret ´e d’entropie: i ( N ) = − ∑

µ

lg µ

• impuret ´e de variance (deux cat ´egories):

i ( N ) = µ

µ

• impuret ´e de Gini: i ( N ) = ∑

µ

µ

= 1 − ∑

µ

• impuret ´e de mauvaise classification:

i ( N ) = 1 − max

µ

• L’impuret ´e de noeud

0 1

Gini/variance

0.5

mauvaise classi

fication

entr opie i ( µ 1 )

µ 1

• S ´election de test

• chute d’impuret ´e:

∆ i ( N ) = i ( N ) − µ

i ( N

) − ( 1 − µ

) i ( N

)

• approche gloutonne

• Forme g ´en ´erale de la fonction

entr opie i ( µ ₁ )

µ ₁