• Aucun résultat trouvé

Arbres de d ´ecision

N/A
N/A
Protected

Academic year: 2022

Partager "Arbres de d ´ecision"

Copied!
16
0
0

Texte intégral

(1)

Objectif

classification en utilisant une s ´equence de questions ferm ´ees

les questions sont organis ´ees dans un arbre

(2)

Color?

Size? Shape? Size?

round

Size?

yellow red green

thin medium

small small

big

Grapefruit

big small

Watermelon Apple Banana Apple

Lemon

Grape Taste?

sweet sour

Cherry Grape medium

level 0

level 1

level 2

level 3

root

(3)

Avantages

fonctionnent avec des donn ´ees non-m ´etriques

invariabilit ´e par translation, par changement d’ ´echelle, par transfor- mation monotone des coordonn ´ees

interpretabilit ´e

entraˆınement efficace

classification tr `es efficace

D ´esavantages

instabilit ´e

(4)

Algorithmes de CART (arbres de classification et r ´egression)

combien de d ´ecoupages par noeud?

quel attribut faut-il tester `a un noeud?

quand arr ˆeter de d ´ecouper?

si l’arbre est trop grand, comment ´elaguer?

si une feuille est non-pure, comment choisir la cat ´egorie?

(5)

Nombre de d ´ecoupages

tous les arbres de d ´ecision peuvent ˆetre repr ´esent ´es par un arbre de d ´ecision binaire

Affectation de cat ´egorie

vote par majorit ´e

(6)

S ´election de test

objectif: un arbre simple (rasoir d’Occam)

choisir le d ´ecoupage qui augmente le plus la puret ´e

(7)

fr ´equence de classe: µ

j

= # { classe = C

j

} n

impuret ´e d’entropie: i ( N ) =

j

µ

j

lg µ

j

impuret ´e de variance (deux cat ´egories):

i ( N ) = µ

1

µ

2

impuret ´e de Gini: i ( N ) = ∑

i=j

µ

i

µ

j

= 1

j

µ

2j

impuret ´e de mauvaise classification:

i ( N ) = 1 max

j

µ

j

(8)

L’impuret ´e de noeud

0 1

Gini/variance

0.5

mauvaise classi

fication

entr opie i ( µ 1 )

µ 1

(9)

S ´election de test

chute d’impuret ´e:

i ( N ) = i ( N ) µ

(g)

i ( N

(g)

) ( 1 µ

(g)

) i ( N

(d)

)

approche gloutonne

Forme g ´en ´erale de la fonction

d ´ecoupage sur un attribut simple −→ arbre monot ´etique

d ´ecoupage lin ´eaire

(10)

un point par feuille: overfitting

trop t ˆot: grande erreur d’entraˆınement

technique g ´en ´erale: validation/validation crois ´ee

chute d’impuret ´e < seuil

nombre de points < seuil

principe de MDL (minimum description length): minimiser α · taille + ∑

feuilles N

i ( N )

m ´ethodes statistiques pour mesurer la signification de la r ´eduction

d’impuret ´e

(11)

Elaguer

l’effet d’horizon

pousser l’arbre jusqu’ `a un point par feuille

supprimer (unifier) les noeuds si le puret ´e ne diminue pas

pas de validation crois ´ee

plus de calcul

´elaguer les r `egles pour simplifier la description

(12)

x1 < 0.35 x1 < 0.69

x2 < 0.33 x2 < 0.09 x1 < 0.6

x1 < 0.69

x1 x2

*

ω

1

ω

2

ω

2

ω

2

ω

1

ω

1

ω

1

ω

1

ω

1

ω

2

ω

2

.81 1.0

1.0 .76 .59

.92

0 .2 .4 .6 .8 1

.2 .4 .6 .8 1

x1 0

.2 .4 .6

.2 .4 .6 .8 1

R1

R2

R2

R2

R2

R1

R1

R1

R1

(13)

Complexit ´e: O ( dn lg n )

Choix de traits

Arbres multivari ´es

(14)

.2 .4 .6 .8 1 0

.2 .4 .6 .8

1 - 1.2 x1 + x2 < 0.1

x1 < 0.27

x2 < 0.32

x1 < 0.07

x2 < 0.6

x1 < 0.55

x2 < 0.86

x1 < 0.81

x1 x2

ω2 ω1

ω2

ω1

ω1

ω1

ω1

ω2

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x1

(15)

.2 .4 .6 .8 1 0

.2 .4 .6 .8

1 - 1.2 x1 + x2 < 0.1

x1 < 0.27

x2 < 0.32

x1 < 0.07

x2 < 0.6

x1 < 0.55

x2 < 0.86

x1 < 0.81

x1 x2

ω2 ω1

ω2

ω1

ω1

ω1

ω1

ω2

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x1

(16)

0.2 0.4 0.6 0.8 1 0.2

0.4 0.6

0.04 x1 + 0.16 x2 < 0.11

0.27 x1 - 0.44 x2 < -0.02

0.96 x1 - 1.77x2 < -0.45

5.43 x1 - 13.33 x2 < -6.03

x2 < 0.56 x1 < 0.95

x2 < 0.54

x1

ω

1

ω

2 R2

R1

0

ω

2

ω

1

ω

1

ω

1

ω

1

ω

2

ω

2

ω

2 R1

R2

R2

R1

0.2 0.4 0.6 0.8 1

0.2 0.4 0.6 0.8 1

x1

0

x2

Références

Documents relatifs

V´ erifier que pour la valeur de p la plus d´ efavorable (dans l’in- tervalle), l’approximation normale est acceptable. La valeur la plus d´ efavorable de p est la valeur

[r]

[r]

C’est pour cela que ces formules sont en g´en´eral utilis´ees d’une mani`ere ”compos´ee”.. On sait que ses racines sont distinctes et appartiennent ` a

b - Ecrire une fonction carres qui affiche une ligne de carr´ es dont les intensit´ es de couleurs rouges, bleues et vertes sont contenues dans trois tableaux d’entier de mˆ

[r]

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on

Pour l’impl´ ementation Octave, chaque attribut, valeur d’attribut et classe sont repr´ esent´ es par un entier.. Exemple (exercice