• Aucun résultat trouvé

Arbres de décision

N/A
N/A
Protected

Academic year: 2022

Partager "Arbres de décision"

Copied!
17
0
0

Texte intégral

(1)

Julie Scholler

février 2020

M Éc E n

.

Introduction

Méthode

non paramétrique

intuitive et populaire

règles explicites

supporte les données hétérogènes, manquantes, liens non linéaires

pour la classification et la régression Idée

frontière pas un hyperplan

partitionnement de l’espace par des morceaux d’hyperplans définissant des hyper-rectangles emboîtés

(2)

Iris de Fisher

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

.

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

(3)

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

.

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

setosa

virginica versicolor

(4)

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

setosa

virginica versicolor

.

Arbre des Iris de Fisher

Longueur des pétales < 2.6

Largeur des pétales < 1.8 setosa

versicolor virginica

oui non

oui non

(5)

Situation

X = (X1,X2, . . . ,Xp) : variables explicatives ou prédicteurs (quantitatives ou qualitatives)

Y : variable à prédire (ou expliquer) qualitative à m modalités

Construction de l’arbre

trouver un partitionnement de la population en 2 rectangles les mieux différenciés possibles du point de vue de la variable à expliquer, c’est-à-dire trouver Xi et s ou M

{Xi < s} et {Xi >s} si Xi quantitative

{Xi M} et {Xi / M} avec M un sous-ensemble des modalités de Xi

chaque nouveau morceau est à son tour découpé en deux, etc.

jusqu’à une condition d’arrêt

.

Construction de l’arbre

L’algorithme considéré nécessite

1. la définition d’un critère permettant de sélectionner la meilleure division parmi toutes celles admissibles pour les différentes variables

2. une règle permettant de décider qu’un nœud est terminal : il devient alors feuille

3. l’affectation de chaque feuille à l’une des classes ou à une valeur de la variable à expliquer

Le point 2 est le plus délicat

arbre trop détaillé : sur-apprentissage, instable et donc probablement mauvaises prédictions

arbre pas assez profond : manque de précision, trop grossier

(6)

Stratégie d’optimalité

Breiman, Friedman, Olshen et Stone (Classification and Regression Trees 1984)

construire l’arbre maximal Amax

ordonner les sous-arbres selon une séquence emboîtée suivant la décroissance d’un critère pénalisé

sélectionner le sous-arbre optimal : c’est la procédure d’élagage

.

1. Critère de division 2. Critère d’arrêt 3. Règle d’affectation 4. Méthode d’élagage

(7)

Critère de division

Une division est dite admissible si aucun des segments descendants n’est vide.

Nombre de divisions binaires admissibles

variable explicative qualitative non ordinale à m modalités : 2m−1 −1.

variable explicative qualitative ordinale à m modalités : m− 1

variable quantitative à m valeurs distinctes : m− 1

.

Fonction d’hétérogénéité ou de désordre

Caractéristiques 1. positive

2. concave : assure la diminution de l’hétérogénéité

3. symétrique (ne dépend que de la proportion dans laquelle est présente chaque classe dans chaque nœud)

4. minimale et nulle quand le nœud est homogène

5. maximale quand toutes les classes sont présentes dans la même proportion

(8)

Notion de désordre

Fonction de pureté élémentaire ou taux de mal classés 1− max

i=1,...,mpi

Indice de Gini

m

X

i=1

pi(1− pi)

Entropie

m

X

i=1

pi ln (pi) avec la convention « 0 ln(0) = 0 »

.

Fonction de désordre

0.0 0.2 0.4 0.6 0.8 1.0

0.00.10.20.30.40.5

entropie renormalisée indice de Gini

taux de mal classés

(9)

Désordre d’un nœud

Fonction de pureté élémentaire ou taux de mal classés : Dm(N) = nN

1− max

i=1,...,mpi,N

Indice de Gini : DG(N) = nN

m

X

i=1

pi,N(1 −pi,N)

Entropie : DE(N) = −nN

m

X

i=1

pi,N ln (pi,N) Division optimale

celle qui maximise la baisse de désordre

{divisions admissibles demax N}D(N)− D(Nfils−a)− D(Nfils−b)

.

Exemple

Population 1000 individus

avec 500 de type A et 500 de type B : (500,500) Faut-il préférer un découpage {(400,100),(100,400)} ou un découpage {(300,0),(200,500)}?

Pureté Gini Entropie

(400,100) 0.2 0.32 0.5

(100,400) 0.2 0.32 0.5

D(N1) +D(N2) 200 320 500

Pureté Gini Entropie

(300,0) 0 0 0

(200,500) 0.29 0.41 0.60

D(N1) +D(N2) 200 286 419

(10)

Exemple

Population 1000 individus

avec 500 de type A et 500 de type B : (500,500) Quel découpage préférer ?

Pureté Gini Entropie D(400,100) +D(100,400) 200 320 500

D(325,0) +D(175,500) 175 259 386 D(300,0) +D(200,500) 200 286 419 D(275,0) +D(225,500) 225 310 449 D(250,0) +D(250,500) 250 333 477

.

Règle d’arrêt

La croissance de l’arbre s’arrête à un nœud qui devient donc feuille

s’il est homogène

si le nombre d’observations qu’il contient est inférieur à un seuil fixé par l’utilisateur dmin (en général 1 6 dmin 6 5)

si le nombre de nœuds est supérieur à nmax, nombre fixé par l’utilisateur

(11)

Affectation

Chaque feuille est affectée à la modalité de Y la plus représentée dans la feuille.

Autres solutions pour le choix de la modalité à affecter

la modalité la moins coûteuse si des coûts de mauvais classements sont donnés

la classe a posteriori la plus probable au sens bayésien si des probabilités a priori sont connues

.

Arbre complet - défaut de paiement

Errappr = 0.127 et Errtest = 0.121

(12)

Élagage

Recherche du meilleur compromis entre

un arbre très détaillé, fortement dépendant des observations ayant permis son estimation : modèle de prévision très instable

un arbre très robuste mais grossier qui donne des prédictions trop approximatives

Principe

construire une suite emboîtée de sous-arbres de l’arbre maximum par élagage successif

choisir, parmi cette suite, l’arbre optimal au sens d’un critère Remarque

Solution obtenue non nécessairement globalement optimale mais méthode efficace et fiable

.

Désordre ou qualité de discrimination d’un arbre A

D(A) =

|A|

X

k=1

D(Fk)

avec |A| le nombre de feuille de A et Fk la ke feuille de A Complexité d’un arbre A

Cγ(A) = D(A) +γ|A|

Pour γ = 0, Amax = A0 minimise C0(A).

(13)

Soit N un nœud fixé.

BN : branche à partir de N

A0 : sous-arbre de A privé de la branche BN.

C(A0) = C(A) +C(N)− C(BN) Donc

Cγ(A0) 6 Cγ(A) ⇔ γ > D(N)− D(BN)

|BN| −1 = α

.

Construction de la suite d’arbres emboîtés

Algorithme

on part de γ = 0 et A0 = Amax

on augmente γ jusqu’à ce que l’arbre minimisant Cγ ne soit plus l’arbre précédent : on obtient A1 et γ1

puis on recommence l’étape précédente jusqu’à n’avoir que la racine

Résultat

suite de complexité : 0 = γ0 < γ1 < · · · < γm

suite d’arbres emboîtés :

Amax = A0A1 ⊂ · · · ⊂ Am = {racine}

Arbre optimal : sous-arbre dont l’erreur de prédiction est la plus faible

(14)

Sélection du paramètre γ par validation croisée

1. Construire l’arbre complet à partir de toutes les données, puis la suite des arbres emboîtés et la suite des paramètres

0 = γ0 < γ1 < · · · < γm

on pose β0 = γ0 = 0, pour i = 1, . . . ,m− 1 βi = √

γi−1γi et

βm = +∞

2. Division des données en K groupes G1, . . . ,GK de taille similaire, puis pour chaque groupe :

2. construire le modèle complet sur les autres groupes et déterminer les arbres Aβi

2. calculer l’estimation de l’erreur de prédiction pour chaque arbre 3. Pour chaque βi, faire la moyenne de l’erreur de prédiction des

arbres correspondants

4. Pour le paramètre β choisi, calculer l’arbre correspondant sur les données de départ : c’est l’arbre choisi

.

Défaut de paiement - Sélection du paramètre

Paramètre β

Estimationdel’erreur

0.7 0.8 0.9 1.0 1.1 1.2

Inf 0.034 0.0047 0.0033 0.0028 0.0023 0.0019 0.0017 0.0015 0.0012 0.00099 0.00085 0.00074 0.00057 4e-04 0.00029 2e-04 0 1 2 6 7 13 17 19 26 31 45 63 90 99 148 151 174 180 184

Nombre de découpes

(15)

Arbre élagué - Défaut de paiement

PAY_0 >= 2

PAY_3 >= 1

PAY_5 >= 1

BILL_AMT3 < 8006

BILL_AMT4 >= 27e+3

PAY_AMT3 >= 727 ok 1441 5225 def

456 215 ok

985 5010 ok

222 335 def

95 87 def

15 1 ok

80 86 def

57 41 def

48 25

ok 9 16

ok 23 45

ok 127 248

ok 763 4675

yes no

.

Défaut de paiement - Performance

Inf 0.9

0.70.60.4 0.2

0.2

0.1

0.1

0

Inf 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7

0.2

0.9Inf 0.7 0.70.70.40.4

0.30.3

0.1

0.00 0.25 0.50 0.75 1.00

0.00 0.25 0.50 0.75 1.00

false_positive_fraction

true_positive_fraction

methode

base pruned1 pruned6

(16)

Choix dans la méthode

mesure de désordre pour la construction de l’arbre initial et le calcul de complexité

règle d’arrêt

règle d’affectation : pas forcément majoritaire

association d’un coût à la mesure de désordre : modifie la construction de l’arbre

.

Avantages

règles explicites pour l’interprétation

supporte les données hétérogènes, manquantes (surrogate variables), liens non linéaires

pour la classification et la régression

efficace quand absence d’hypothèse et taille d’échantillon importante

pratique quand variables nombreuses car sélection des variables intégrées à la méthode

Inconvénients

algorithme étant basé sur une stratégie pas à pas hiérarchisée, il peut passer à côté d’un optimum global

pas aussi précis que d’autres modèles classiques : amélioration possible de la précision au détriment de l’interprétation

(17)

Linéaire vs arbre

−2 −1 0 1 2

−2−1012

X1 X2

−2 −1 0 1 2

−2−1012

X1 X2

−2 −1 0 1 2

−2−1012

X1 X2

−2 −1 0 1 2

−2−1012

X1 X2

Références

Documents relatifs

On se propose de fusionner ces deux chiers en un chier unique appelé Promo_MI, qui contiendra tous les noms qui se trouvent dans les des deux chiers SectionA et SectionB et qui

• et, pour certains types de registres, d'effectuer des translations ou décalages sur ces mots,H. „ Les registres

Les situations Les situations permettant le jeu permettant le jeu. au au mini mini - -

Avec cinq graduations intermédiaires au minimum, celui-ci donne 40 configurations possibles qui incluent les deux qui viennent d’être mentionnées.. Pour L variant de 24

Quels sont les indices permettant d'estimer à quel moment de l'histoire de la Terre le dioxygène est apparu dans l'atmosphère?. (gp A) Quels sont les indices permettant de

Quels sont les indices permettant d'estimer à quel moment de l'histoire de la Terre le dioxygène est apparu dans l'atmosphère?. (gp A) Quels sont les indices permettant de

Déterminer une expression de la fonction affine dont (AB) est la représentation

Une conique étant inscrite à un quadrilatère, on sait que le triangle K i K i K^ ayant pour côtés les trois diago- nales du quadrilatère, est conjugué par rapport à la courbe :