• Aucun résultat trouvé

Arbres de d ´ecision

N/A
N/A
Protected

Academic year: 2022

Partager "Arbres de d ´ecision"

Copied!
4
0
0

Texte intégral

(1)

Arbres de d ´ecision

1

• Objectif

•classification en utilisant unes ´equence de questionsferm ´ees

•les questions sont organis ´ees dans unarbre

Arbres de d ´ecision

2

Color?

Size? Shape? Size?

round Size?

yellow red green

thin medium

small small

big

Grapefruit

big small

Watermelon Apple Banana Apple

Lemon

Grape Taste?

sweet sour Cherry Grape medium

level 0

level 1

level 2

level 3 root

Arbres de d ´ecision

3

• Avantages

•fonctionnentavec des donn ´eesnon-m ´etriques

•invariabilit ´e partranslation, parchangement d’ ´echelle, partransfor- mation monotone des coordonn ´ees

•interpretabilit ´e

•entraˆınementefficace

•classificationtr `es efficace

• D ´esavantages

•instabilit ´e

Arbres de d ´ecision

4

• Algorithmes de CART (arbres de classification et r ´egression)

•combien de d ´ecoupagespar noeud?

•quel attributfaut-iltester`a un noeud?

•quand arr ˆeterde d ´ecouper?

•si l’arbre est trop grand,comment ´elaguer?

•si une feuille est non-pure,comment choisir la cat ´egorie?

(2)

Arbres de d ´ecision

5

• Nombre de d ´ecoupages

•tous les arbres de d ´ecision peuvent ˆetre repr ´esent ´es par unarbre de d ´ecision binaire

• Affectation de cat ´egorie

•vote parmajorit ´e

Arbres de d ´ecision

6

• S ´election de test

•objectif: unarbre simple(rasoir d’Occam)

•choisir le d ´ecoupage quiaugmente le plus la puret ´e

Arbres de d ´ecision

7

• L’impuret ´e du noeud

•fr ´equence de classe:µj=#{classe=Cj} n

•impuret ´e d’entropie:i(N) =

!

j

µjlgµj

•impuret ´e devariance(deux cat ´egories):

i(N) =µ1µ2

•impuret ´e deGini:i(N) =

!

i"=j

µiµj=1−

!

j

µ2j

•impuret ´e demauvaise classification:

i(N) =1−max

j µj

Arbres de d ´ecision

8

• L’impuret ´e de noeud

0 1

Gini/variance

0.5

mauvaise classi

fi cation

entr opie i(µ

1

)

µ

1

(3)

Arbres de d ´ecision

9

• S ´election de test

•chute d’impuret ´e:

#i(N) =i(N)µ(g)i(N(g))−(1−µ(g))i(N(d))

•approchegloutonne

• Forme g ´en ´erale de la fonction

•d ´ecoupage surun attributsimple−→arbremonot ´etique

•d ´ecoupagelin ´eaire

Arbres de d ´ecision

10

• Quand arr ˆeter

•un pointpar feuille:overfitting

•tropt ˆot: grandeerreur d’entraˆınement

•technique g ´en ´erale:validation/validation crois ´ee

•chute d’impuret ´e<seuil

•nombre de points<seuil

•principe deMDL (minimum description length): minimiser

taille+

!

feuilles N i(N)

•m ´ethodes statistiques pour mesurer lasignification de la r ´eduction d’impuret ´e

Arbres de d ´ecision

11

• ´Elaguer

•l’effet d’horizon

•pousser l’arbre jusqu’ `aun point par feuille

•supprimer(unifier) les noeuds si le puret ´ene diminue pas

•pas de validation crois ´ee

•plus de calcul

•´elaguer les r `eglespour simplifier la description

12

x1 < 0.6

x2 < 0.32

x1 < 0.35

x2 < 0.61

x1 < 0.69

x2 < 0.33 x2 < 0.09 x1 < 0.6

x1 < 0.69

x1 x2

*

"1

"!

"!

"!

"1 "1

"1 "1

"1

"!

"! 1.0

.88 .65

.81 1.0

1.0 .76 .59

.92

0 .2 .4 .6 .8 1

.2 .4 .6 .8 1

x1 x2

0 .2 .4 .6 .8 1

.2 .4 .6 .8 1

R1

R2

R2

R2

R2

R1

R1

R1

R1

R1

(4)

Arbres de d ´ecision

13

• Complexit ´e: O(dnlg n)

• Choix de traits

• Arbres multivari ´es

14

.2 .4 .6 .8 1

0 .2 .4 .6 .8

1 - 1.2 x1 + x2 < 0.1

x1 < 0.27

x2 < 0.32

x1 < 0.07

x2 < 0.6

x1 < 0.55

x2 < 0.86

x1 < 0.81

x1 x2

ω2 ω1

ω2

ω1

ω1

ω1

ω1

ω2

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x1 x2

Choix de traits

15

.2 .4 .6 .8 1

0 .2 .4 .6 .8

1 - 1.2 x1 + x2 < 0.1

x1 < 0.27

x2 < 0.32

x1 < 0.07

x2 < 0.6

x1 < 0.55

x2 < 0.86

x1 < 0.81

x1 x2

ω2 ω1

ω2

ω1

ω1

ω1

ω1

ω2

ω2

ω2 R2

R1

R2

R1

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

x1 x2

Arbres multivari ´es

16

0.2 0.4 0.6 0.8 1

0.2 0.4 0.6 0.8 1

0.04 x1 + 0.16 x2 < 0.11

0.27 x1 - 0.44 x2 < -0.02

0.96 x1 - 1.77x2 < -0.45

5.43 x1 - 13.33 x2 < -6.03 x2 < 0.5

x2 < 0.56 x1 < 0.95

x2 < 0.54

x1

ω1

ω2 R2

R1

0

ω2

ω1

ω1

ω1

ω1

ω2

ω2

ω2 R1

R2

R2

R1

x2

0.2 0.4 0.6 0.8 1

0.2 0.4 0.6 0.8 1

x1 0

x2

Références

Documents relatifs

[r]

[r]

On appelle prix d’´ equilibre d’un produit, le prix pour lequel l’offre et la demande sont ´ egales.. Estimer, au centime pr` es, le prix

D´eterminer les coordonn´ees du point D tel que ABDC soit un parall´elogramme.... D´eterminer les coordonn´ees du point D tel que ABCD soit

[r]

On appelle prix d’´ equilibre d’un produit, le prix pour lequel l’offre et la demande sont ´ egales.. Quel est alors le nombre de produits demand´ es (et donc

On appelle prix d’´ equilibre d’un produit, le prix pour lequel l’offre et la demande sont ´ egales.. Quel est alors le nombre de produits demand´ es (et donc

[r]