Julie Scholler
février 2020
M Éc E n
.
Introduction
Méthode
• non paramétrique
• intuitive et populaire
• règles explicites
• supporte les données hétérogènes, manquantes, liens non linéaires
• pour la classification et la régression Idée
• frontière pas un hyperplan
• partitionnement de l’espace par des morceaux d’hyperplans définissant des hyper-rectangles emboîtés
Iris de Fisher
1 2 3 4 5 6 7
0.51.01.52.02.5
Longueur des pétales
Largeurdespétales
.
1 2 3 4 5 6 7
0.51.01.52.02.5
Longueur des pétales
Largeurdespétales
1 2 3 4 5 6 7
0.51.01.52.02.5
Longueur des pétales
Largeurdespétales
.
1 2 3 4 5 6 7
0.51.01.52.02.5
Longueur des pétales
Largeurdespétales
setosa
virginica versicolor
1 2 3 4 5 6 7
0.51.01.52.02.5
Longueur des pétales
Largeurdespétales
setosa
virginica versicolor
.
Arbre des Iris de Fisher
Longueur des pétales < 2.6
Largeur des pétales < 1.8 setosa
versicolor virginica
oui non
oui non
Situation
• X = (X1,X2, . . . ,Xp) : variables explicatives ou prédicteurs (quantitatives ou qualitatives)
• Y : variable à prédire (ou expliquer) qualitative à m modalités
Construction de l’arbre
• trouver un partitionnement de la population en 2 rectangles les mieux différenciés possibles du point de vue de la variable à expliquer, c’est-à-dire trouver Xi et s ou M
• {Xi < s} et {Xi >s} si Xi quantitative
• {Xi ∈ M} et {Xi ∈/ M} avec M un sous-ensemble des modalités de Xi
• chaque nouveau morceau est à son tour découpé en deux, etc.
jusqu’à une condition d’arrêt
.
Construction de l’arbre
L’algorithme considéré nécessite
1. la définition d’un critère permettant de sélectionner la meilleure division parmi toutes celles admissibles pour les différentes variables
2. une règle permettant de décider qu’un nœud est terminal : il devient alors feuille
3. l’affectation de chaque feuille à l’une des classes ou à une valeur de la variable à expliquer
Le point 2 est le plus délicat
• arbre trop détaillé : sur-apprentissage, instable et donc probablement mauvaises prédictions
• arbre pas assez profond : manque de précision, trop grossier
Stratégie d’optimalité
Breiman, Friedman, Olshen et Stone (Classification and Regression Trees 1984)
• construire l’arbre maximal Amax
• ordonner les sous-arbres selon une séquence emboîtée suivant la décroissance d’un critère pénalisé
• sélectionner le sous-arbre optimal : c’est la procédure d’élagage
.
1. Critère de division 2. Critère d’arrêt 3. Règle d’affectation 4. Méthode d’élagage
Critère de division
Une division est dite admissible si aucun des segments descendants n’est vide.
Nombre de divisions binaires admissibles
• variable explicative qualitative non ordinale à m modalités : 2m−1 −1.
• variable explicative qualitative ordinale à m modalités : m− 1
• variable quantitative à m valeurs distinctes : m− 1
.
Fonction d’hétérogénéité ou de désordre
Caractéristiques 1. positive
2. concave : assure la diminution de l’hétérogénéité
3. symétrique (ne dépend que de la proportion dans laquelle est présente chaque classe dans chaque nœud)
4. minimale et nulle quand le nœud est homogène
5. maximale quand toutes les classes sont présentes dans la même proportion
Notion de désordre
• Fonction de pureté élémentaire ou taux de mal classés 1− max
i=1,...,mpi
• Indice de Gini
m
X
i=1
pi(1− pi)
• Entropie
−
m
X
i=1
pi ln (pi) avec la convention « 0 ln(0) = 0 »
.
Fonction de désordre
0.0 0.2 0.4 0.6 0.8 1.0
0.00.10.20.30.40.5
entropie renormalisée indice de Gini
taux de mal classés
Désordre d’un nœud
• Fonction de pureté élémentaire ou taux de mal classés : Dm(N) = nN
1− max
i=1,...,mpi,N
• Indice de Gini : DG(N) = nN
m
X
i=1
pi,N(1 −pi,N)
• Entropie : DE(N) = −nN
m
X
i=1
pi,N ln (pi,N) Division optimale
celle qui maximise la baisse de désordre
{divisions admissibles demax N}D(N)− D(Nfils−a)− D(Nfils−b)
.
Exemple
Population 1000 individus
avec 500 de type A et 500 de type B : (500,500) Faut-il préférer un découpage {(400,100),(100,400)} ou un découpage {(300,0),(200,500)}?
Pureté Gini Entropie
(400,100) 0.2 0.32 0.5
(100,400) 0.2 0.32 0.5
D(N1) +D(N2) 200 320 500
Pureté Gini Entropie
(300,0) 0 0 0
(200,500) 0.29 0.41 0.60
D(N1) +D(N2) 200 286 419
Exemple
Population 1000 individus
avec 500 de type A et 500 de type B : (500,500) Quel découpage préférer ?
Pureté Gini Entropie D(400,100) +D(100,400) 200 320 500
D(325,0) +D(175,500) 175 259 386 D(300,0) +D(200,500) 200 286 419 D(275,0) +D(225,500) 225 310 449 D(250,0) +D(250,500) 250 333 477
.
Règle d’arrêt
La croissance de l’arbre s’arrête à un nœud qui devient donc feuille
• s’il est homogène
• si le nombre d’observations qu’il contient est inférieur à un seuil fixé par l’utilisateur dmin (en général 1 6 dmin 6 5)
• si le nombre de nœuds est supérieur à nmax, nombre fixé par l’utilisateur
Affectation
Chaque feuille est affectée à la modalité de Y la plus représentée dans la feuille.
Autres solutions pour le choix de la modalité à affecter
• la modalité la moins coûteuse si des coûts de mauvais classements sont donnés
• la classe a posteriori la plus probable au sens bayésien si des probabilités a priori sont connues
.
Arbre complet - défaut de paiement
Errappr = 0.127 et Errtest = 0.121
Élagage
Recherche du meilleur compromis entre
• un arbre très détaillé, fortement dépendant des observations ayant permis son estimation : modèle de prévision très instable
• un arbre très robuste mais grossier qui donne des prédictions trop approximatives
Principe
• construire une suite emboîtée de sous-arbres de l’arbre maximum par élagage successif
• choisir, parmi cette suite, l’arbre optimal au sens d’un critère Remarque
Solution obtenue non nécessairement globalement optimale mais méthode efficace et fiable
.
Désordre ou qualité de discrimination d’un arbre A
D(A) =
|A|
X
k=1
D(Fk)
avec |A| le nombre de feuille de A et Fk la ke feuille de A Complexité d’un arbre A
Cγ(A) = D(A) +γ|A|
Pour γ = 0, Amax = A0 minimise C0(A).
Soit N un nœud fixé.
• BN : branche à partir de N
• A0 : sous-arbre de A privé de la branche BN.
C(A0) = C(A) +C(N)− C(BN) Donc
Cγ(A0) 6 Cγ(A) ⇔ γ > D(N)− D(BN)
|BN| −1 = α
.
Construction de la suite d’arbres emboîtés
Algorithme
• on part de γ = 0 et A0 = Amax
• on augmente γ jusqu’à ce que l’arbre minimisant Cγ ne soit plus l’arbre précédent : on obtient A1 et γ1
• puis on recommence l’étape précédente jusqu’à n’avoir que la racine
Résultat
• suite de complexité : 0 = γ0 < γ1 < · · · < γm
• suite d’arbres emboîtés :
Amax = A0 ⊂ A1 ⊂ · · · ⊂ Am = {racine}
Arbre optimal : sous-arbre dont l’erreur de prédiction est la plus faible
Sélection du paramètre γ par validation croisée
1. Construire l’arbre complet à partir de toutes les données, puis la suite des arbres emboîtés et la suite des paramètres
0 = γ0 < γ1 < · · · < γm
on pose β0 = γ0 = 0, pour i = 1, . . . ,m− 1 βi = √
γi−1γi et
βm = +∞
2. Division des données en K groupes G1, . . . ,GK de taille similaire, puis pour chaque groupe :
2. construire le modèle complet sur les autres groupes et déterminer les arbres Aβi
2. calculer l’estimation de l’erreur de prédiction pour chaque arbre 3. Pour chaque βi, faire la moyenne de l’erreur de prédiction des
arbres correspondants
4. Pour le paramètre β choisi, calculer l’arbre correspondant sur les données de départ : c’est l’arbre choisi
.
Défaut de paiement - Sélection du paramètre
Paramètre β
Estimationdel’erreur
0.7 0.8 0.9 1.0 1.1 1.2
Inf 0.034 0.0047 0.0033 0.0028 0.0023 0.0019 0.0017 0.0015 0.0012 0.00099 0.00085 0.00074 0.00057 4e-04 0.00029 2e-04 0 1 2 6 7 13 17 19 26 31 45 63 90 99 148 151 174 180 184
Nombre de découpes
Arbre élagué - Défaut de paiement
PAY_0 >= 2
PAY_3 >= 1
PAY_5 >= 1
BILL_AMT3 < 8006
BILL_AMT4 >= 27e+3
PAY_AMT3 >= 727 ok 1441 5225 def
456 215 ok
985 5010 ok
222 335 def
95 87 def
15 1 ok
80 86 def
57 41 def
48 25
ok 9 16
ok 23 45
ok 127 248
ok 763 4675
yes no
.
Défaut de paiement - Performance
Inf 0.9
0.70.60.4 0.2
0.2
0.1
0.1
0
Inf 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7
0.2
0.9Inf 0.7 0.70.70.40.4
0.30.3
0.1
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
false_positive_fraction
true_positive_fraction
methode
base pruned1 pruned6
Choix dans la méthode
• mesure de désordre pour la construction de l’arbre initial et le calcul de complexité
• règle d’arrêt
• règle d’affectation : pas forcément majoritaire
• association d’un coût à la mesure de désordre : modifie la construction de l’arbre
.
Avantages
• règles explicites pour l’interprétation
• supporte les données hétérogènes, manquantes (surrogate variables), liens non linéaires
• pour la classification et la régression
• efficace quand absence d’hypothèse et taille d’échantillon importante
• pratique quand variables nombreuses car sélection des variables intégrées à la méthode
Inconvénients
• algorithme étant basé sur une stratégie pas à pas hiérarchisée, il peut passer à côté d’un optimum global
• pas aussi précis que d’autres modèles classiques : amélioration possible de la précision au détriment de l’interprétation
Linéaire vs arbre
−2 −1 0 1 2
−2−1012
X1 X2
−2 −1 0 1 2
−2−1012
X1 X2
−2 −1 0 1 2
−2−1012
X1 X2
−2 −1 0 1 2
−2−1012
X1 X2