Arbres de décision

(1)

Julie Scholler

février 2020

M Éc E n

.

Introduction

Méthode

• non paramétrique

• intuitive et populaire

• règles explicites

• supporte les données hétérogènes, manquantes, liens non linéaires

• pour la classification et la régression Idée

• frontière pas un hyperplan

• partitionnement de l’espace par des morceaux d’hyperplans définissant des hyper-rectangles emboîtés

(2)

Iris de Fisher

1 2 3 4 5 6 7

0.51.01.52.02.5

Longueur des pétales

Largeurdespétales

.

1 2 3 4 5 6 7

0.51.01.52.02.5

Largeurdespétales

(3)

1 2 3 4 5 6 7

0.51.01.52.02.5

Largeurdespétales

.

1 2 3 4 5 6 7

0.51.01.52.02.5

Largeurdespétales

setosa

virginica versicolor

(4)

1 2 3 4 5 6 7

0.51.01.52.02.5

Largeurdespétales

setosa

virginica versicolor

.

Arbre des Iris de Fisher

Longueur des pétales < 2.6

Largeur des pétales < 1.8 setosa

versicolor virginica

oui non

(5)

Situation

• X = (X₁,X₂, . . . ,X_p) : variables explicatives ou prédicteurs (quantitatives ou qualitatives)

• Y : variable à prédire (ou expliquer) qualitative à m modalités

Construction de l’arbre

• trouver un partitionnement de la population en 2 rectangles les mieux différenciés possibles du point de vue de la variable à expliquer, c’est-à-dire trouver X_i et s ou M

• {X_i < s} et {X_i >s} si X_i quantitative

• {X_i ∈ M} et {X_i ∈/ M} avec M un sous-ensemble des modalités de X_i

• chaque nouveau morceau est à son tour découpé en deux, etc.

jusqu’à une condition d’arrêt

.

Construction de l’arbre

L’algorithme considéré nécessite

1. la définition d’un critère permettant de sélectionner la meilleure division parmi toutes celles admissibles pour les différentes variables

2. une règle permettant de décider qu’un nœud est terminal : il devient alors feuille

3. l’affectation de chaque feuille à l’une des classes ou à une valeur de la variable à expliquer

Le point 2 est le plus délicat

• arbre trop détaillé : sur-apprentissage, instable et donc probablement mauvaises prédictions

• arbre pas assez profond : manque de précision, trop grossier

(6)

Stratégie d’optimalité

Breiman, Friedman, Olshen et Stone (Classification and Regression Trees 1984)

• construire l’arbre maximal A_max

• ordonner les sous-arbres selon une séquence emboîtée suivant la décroissance d’un critère pénalisé

• sélectionner le sous-arbre optimal : c’est la procédure d’élagage

.

1. Critère de division 2. Critère d’arrêt 3. Règle d’affectation 4. Méthode d’élagage

(7)

Critère de division

Une division est dite admissible si aucun des segments descendants n’est vide.

Nombre de divisions binaires admissibles

• variable explicative qualitative non ordinale à m modalités : 2^m−1 −1.

• variable explicative qualitative ordinale à m modalités : m− 1

• variable quantitative à m valeurs distinctes : m− 1

.

Fonction d’hétérogénéité ou de désordre

Caractéristiques 1. positive

2. concave : assure la diminution de l’hétérogénéité

3. symétrique (ne dépend que de la proportion dans laquelle est présente chaque classe dans chaque nœud)

4. minimale et nulle quand le nœud est homogène

5. maximale quand toutes les classes sont présentes dans la même proportion

(8)

Notion de désordre

• Fonction de pureté élémentaire ou taux de mal classés 1− max

i=1,...,mp_i

• Indice de Gini

m

X

i=1

p_i(1− p_i)

• Entropie

−

m

X

i=1

p_i ln (p_i) avec la convention « 0 ln(0) = 0 »

.

Fonction de désordre

0.0 0.2 0.4 0.6 0.8 1.0

0.00.10.20.30.40.5

entropie renormalisée indice de Gini

taux de mal classés

(9)

Désordre d’un nœud

• Fonction de pureté élémentaire ou taux de mal classés : D_m(N) = n_N

1− max

i=1,...,mp_i_,N

• Indice de Gini : D_G(N) = n_N

m

X

i=1

p_i_,N(1 −p_i_,N)

• Entropie : D_E(N) = −n_N

m

X

i=1

p_i_,N ln (p_i_,N) Division optimale

celle qui maximise la baisse de désordre

{divisions admissibles demax N}D(N)− D(N_fils−a)− D(N_fils−b)

.

Exemple

Population 1000 individus

avec 500 de type A et 500 de type B : (500,500) Faut-il préférer un découpage {(400,100),(100,400)} ou un découpage {(300,0),(200,500)}?

Pureté Gini Entropie

(400,100) 0.2 0.32 0.5

(100,400) 0.2 0.32 0.5

D(N₁) +D(N₂) 200 320 500

Pureté Gini Entropie

(300,0) 0 0 0

(200,500) 0.29 0.41 0.60

D(N₁) +D(N₂) 200 286 419

(10)

Exemple

Population 1000 individus

avec 500 de type A et 500 de type B : (500,500) Quel découpage préférer ?

Pureté Gini Entropie D(400,100) +D(100,400) 200 320 500

D(325,0) +D(175,500) 175 259 386 D(300,0) +D(200,500) 200 286 419 D(275,0) +D(225,500) 225 310 449 D(250,0) +D(250,500) 250 333 477

.

Règle d’arrêt

La croissance de l’arbre s’arrête à un nœud qui devient donc feuille

• s’il est homogène

• si le nombre d’observations qu’il contient est inférieur à un seuil fixé par l’utilisateur d_min (en général 1 6 d_min 6 5)

• si le nombre de nœuds est supérieur à n_max, nombre fixé par l’utilisateur

(11)

Affectation

Chaque feuille est affectée à la modalité de Y la plus représentée dans la feuille.

Autres solutions pour le choix de la modalité à affecter

• la modalité la moins coûteuse si des coûts de mauvais classements sont donnés

• la classe a posteriori la plus probable au sens bayésien si des probabilités a priori sont connues

.

Arbre complet - défaut de paiement

Err_appr = 0.127 et Err_test = 0.121

(12)

Élagage

Recherche du meilleur compromis entre

• un arbre très détaillé, fortement dépendant des observations ayant permis son estimation : modèle de prévision très instable

• un arbre très robuste mais grossier qui donne des prédictions trop approximatives

Principe

• construire une suite emboîtée de sous-arbres de l’arbre maximum par élagage successif

• choisir, parmi cette suite, l’arbre optimal au sens d’un critère Remarque

Solution obtenue non nécessairement globalement optimale mais méthode efficace et fiable

.

Désordre ou qualité de discrimination d’un arbre A

D(A) =

|A|

X

k=1

D(F_k)

avec |A| le nombre de feuille de A et F_k la k^e feuille de A Complexité d’un arbre A

C_γ(A) = D(A) +γ|A|

Pour γ = 0, A_max = A₀ minimise C₀(A).

(13)

Soit N un nœud fixé.

• B_N : branche à partir de N

• A⁰ : sous-arbre de A privé de la branche B_N.

C(A⁰) = C(A) +C(N)− C(B_N) Donc

C_γ(A⁰) 6 C_γ(A) ⇔ γ > D(N)− D(B_N)

|B_N| −1 = α

.

Construction de la suite d’arbres emboîtés

Algorithme

• on part de γ = 0 et A₀ = A_max

• on augmente γ jusqu’à ce que l’arbre minimisant C_γ ne soit plus l’arbre précédent : on obtient A₁ et γ₁

• puis on recommence l’étape précédente jusqu’à n’avoir que la racine

Résultat

• suite de complexité : 0 = γ₀ < γ₁ < · · · < γ_m

• suite d’arbres emboîtés :

A_max = A₀ ⊂ A₁ ⊂ · · · ⊂ A_m = {racine}

Arbre optimal : sous-arbre dont l’erreur de prédiction est la plus faible

(14)

Sélection du paramètre γ par validation croisée

1. Construire l’arbre complet à partir de toutes les données, puis la suite des arbres emboîtés et la suite des paramètres

0 = γ₀ < γ₁ < · · · < γ_m

on pose β₀ = γ₀ = 0, pour i = 1, . . . ,m− 1 β_i = √

γ_i₋₁γ_i et

β_m = +∞

2. Division des données en K groupes G₁, . . . ,G_K de taille similaire, puis pour chaque groupe :

2. construire le modèle complet sur les autres groupes et déterminer les arbres Aβ_i

2. calculer l’estimation de l’erreur de prédiction pour chaque arbre 3. Pour chaque β_i, faire la moyenne de l’erreur de prédiction des

arbres correspondants

4. Pour le paramètre β choisi, calculer l’arbre correspondant sur les données de départ : c’est l’arbre choisi

.

Défaut de paiement - Sélection du paramètre

Paramètre β

Estimationdel’erreur

0.7 0.8 0.9 1.0 1.1 1.2

Inf 0.034 0.0047 0.0033 0.0028 0.0023 0.0019 0.0017 0.0015 0.0012 0.00099 0.00085 0.00074 0.00057 4e-04 0.00029 2e-04 0 1 2 6 7 13 17 19 26 31 45 63 90 99 148 151 174 180 184

Nombre de découpes

(15)

Arbre élagué - Défaut de paiement

PAY_0 >= 2

PAY_3 >= 1

PAY_5 >= 1

BILL_AMT3 < 8006

BILL_AMT4 >= 27e+3

PAY_AMT3 >= 727 ok 1441 5225 def

456 215 ok

985 5010 ok

222 335 def

95 87 def

15 1 ok

80 86 def

57 41 def

48 25

ok 9 16

ok 23 45

ok 127 248

ok 763 4675

yes no

.

Défaut de paiement - Performance

Inf 0.9

0.70.60.4 0.2

0.2

0.1

0

Inf 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7

0.2

0.9Inf 0.7 0.70.70.40.4

0.30.3

0.1

0.00 0.25 0.50 0.75 1.00

false_positive_fraction

true_positive_fraction

methode

base pruned1 pruned6

(16)

Choix dans la méthode

• mesure de désordre pour la construction de l’arbre initial et le calcul de complexité

• règle d’arrêt

• règle d’affectation : pas forcément majoritaire

• association d’un coût à la mesure de désordre : modifie la construction de l’arbre

.

Avantages

• règles explicites pour l’interprétation

• supporte les données hétérogènes, manquantes (surrogate variables), liens non linéaires

• pour la classification et la régression

• efficace quand absence d’hypothèse et taille d’échantillon importante

• pratique quand variables nombreuses car sélection des variables intégrées à la méthode

Inconvénients

• algorithme étant basé sur une stratégie pas à pas hiérarchisée, il peut passer à côté d’un optimum global

• pas aussi précis que d’autres modèles classiques : amélioration possible de la précision au détriment de l’interprétation

(17)

Linéaire vs arbre

−2 −1 0 1 2

−2−1012

X₁ X2

−2 −1 0 1 2

−2−1012

X₁ X2

−2 −1 0 1 2

−2−1012

X₁ X2

−2 −1 0 1 2

−2−1012

X₁ X2