Algorithme CART - Algorithmes de construction d’arbres de décision

Choix de la bonne taille de l’arbre

6. Algorithmes de construction d’arbres de décision

6.2. Algorithme CART

CART introduite par Breiman et al. (1984) [BRE 84] est basée sur un partitionnement

récursif de l’espace des données. C’est une amélioration de l’algorithme ID3, il prend en compte les attributs numérique ainsi que les valeurs manquantes. C’est une méthode non- paramétrique efficace, simple à implémenter et utilisable à la fois en régression et en

classification. Le principe général de CART est de construire une règle de prédiction au moyen d’un partitionnement récursif et binaire de l’espace des données. La partition ainsi obtenue peut être représentée sous la forme d’un arbre binaire facilement interprétable. La

Figure 3.4illustre la correspondance entre une partition dyadique et un arbre binaire.

Figure 3.4 : Un exemple d’arbre CART en classification binaire. A chaque feuille est associée la classe la mieux représentée.

Construction d’un arbre CART

L’algorithme CART construit un arbre de décision d’une manière analogue à l’algorithme ID3. Contrairement à ce dernier, l’arbre de décision généré par CART est binaire et le critère de segmentation est l’indice de Gini.

Pour construire un arbre CART à partir des données de l’échantillon Dn

d’apprentissage, l’algorithme procède en deux étapes [POT 18] :

• Étape 1 : Élaboration d’un arbre maximal.

Cette étape consiste en un partitionnement récursif et dyadique de l’espace des données X. Au départ, l’espace X tout entier est associé à la racine de l’arbre, que l’on note t1.

L’algorithme commence par diviser la racine t1 en deux sous-espaces disjoints t1L et t1R

(appelés nœuds fils) comme suit :

𝑡1𝐿 = {𝑋𝑖, 𝑖 ≤ 𝑛 ∶ 𝑋𝑖𝑗 ≤ 𝑠𝑝} 𝑎𝑛𝑑 𝑡1𝑅 = {𝑋𝑖, 𝑖 ≤ 𝑛 ∶ 𝑋𝑖𝑗 > 𝑠𝑝} ,

où j =1,…,p et sp . Une division est donc définie par un couple = (j, sp) où j désigne l’indice de la variable de coupure et sp désigne une valeur seuil pour cette variable. Le choix

X1 0 1 X2 1 sp1 sp3 sp2 t4 t6 t2 t7 t1 X1 sp1 X1 > sp1 t2 t3 X2 sp2 _X₂_{> sp}₂ t4 t5 X1 sp3 _X₁_{> sp}₃ t6 t7

de ce couple repose sur la définition d’une fonction Q d’impureté. La méthode sélectionne la coupure 𝛿_𝑡∗₁_{qui maximise la décroissance d’impureté définie par :}

∆𝑄(𝑡₁, 𝛿) = 𝑛_𝑡₁𝑄(𝑡₁) − 𝑛_𝑡_1𝑅𝑄(𝑡_1𝑅) − 𝑛_𝑡_1𝐿𝑄(𝑡_1𝐿) (3.6)

où t1L et t1R désignent les deux nœuds fils de t1 définis par la coupure et nt1 (respectivement

𝑛_𝑡_1𝐿 et 𝑛_𝑡_1𝑅) désigne le nombre d’observations dans la racine t1 (respectivement dans les

nœuds fils t1L et t1R). En régression, la fonction d’impureté Q(t) correspond le plus souvent à

la variance du nœud t : 𝑄(𝑡) = 1 𝑛_𝑡 ∑ (𝑌𝑖− 𝑌̅𝑡) 2 𝑖:𝑋𝑖∈𝑡 (3.7)

où 𝑌̅𝑡 est la moyenne des 𝑌𝑖 des observations contenues dans le nœud t. En classification, l’indice de Gini est généralement utilisé pour définir l’impureté d’un nœud t :

𝑄(𝑡) = ∑ 𝜋_𝑘(𝑡) 𝐾

𝑘=1

(1 − 𝜋_𝑘(𝑡)) (3.8)

où 𝜋_𝑘(𝑡) = 1

𝑛𝑡 ∑𝑖:𝑋𝑖∈𝑡1𝑌𝑖=𝑘 est la proportion d’observations de la classe k dans le nœud t.

Dans les deux cas, l’objectif est de partager les observations de l’échantillon Dn en deux

groupes disjoints les plus homogènes possible au sens de la variable réponse Y.

Une fois la racine de l’arbre découpée, la procédure est répétée sur chaque nœud fils, puis de manière récursive sur tous les autres nœuds jusqu’à ce que chaque nœud soit homogène, c’est-à-dire que toutes les observations contenues dans le nœud partagent la même valeur pour Y. Les nœuds terminaux, qui ne sont pas découpés sont appelés feuilles. A la fin du découpage, les feuilles forment une partition fine de l’espace des données X, qui peut être représentée sous la forme d’un arbre maximal, noté Tmax. Une prédiction 𝑦̂_𝑡 est associée à

chaque feuille t de l’arbre Tmax (la moyenne empirique de la réponse Y dans le nœud t en

régression ou en classification, la classe de Y la mieux représentée dans le nœud t). De l’arbre

Tmax, on déduit alors la règle de prédiction notée 𝑓̂_𝑇_𝑚𝑎𝑥 et définie, pour toute observation

x X, par :

𝑓̂𝑇𝑚𝑎𝑥(𝑥) = ∑ 𝑦̂𝑡1𝑡(𝑥) 𝑡∈𝑇̃𝑚𝑎𝑥

où 𝑇̃_𝑚𝑎𝑥 désigne l’ensemble des nœuds terminaux de Tmax et 1t(x) désigne la fonction

indicatrice égale à 1 si x t et 0 sinon (voir figure 3.4).

Étape 2 : Élagage et sélection de l’arbre final.

L’arbre maximal Tmax souvent trop complexe n’est généralement pas optimal au sens

d’un critère de performance choisi (par exemple en classification, l’erreur de classification). Un nombre excessif de coupures conduit à un arbre qui a tendance à sur-ajuster. Pour éviter cela, Tmax est élagué suivant la méthode minimal cost-complexity pruning introduite par

(Breiman et al., 1984) [BRE 84].

Ce procédé consiste à extraire une suite de sous-arbres de Tmax par minimisation du

critère pénalisé défini pour tout sous-arbre T de Tmax, noté T Tmax, et pour tout + par :

𝑅_𝛼(𝑇) = 𝑅(𝑇, 𝐷_𝑛) + 𝛼|𝑇̃| , (3.10)

où |𝑇̃| désigne le nombre de feuilles de l’arbre T et R(T, Dn) correspond à l’erreur empirique

du modèle T estimée à partir des données de l’échantillon Dn. En régression, R(T, Dn) désigne

le critère des moindres carrés

𝑅(𝑇, 𝐷𝑛) = 1 𝑛 ∑ (𝑌𝑖 − 𝑓̂𝑇(𝑋𝑖)) 2 𝑖:(𝑋𝑖,𝑌𝑖)∈𝐷𝑛 (3.11)

et en classification, R(T, Dn) désigne l’erreur de classification

𝑅(𝑇, 𝐷_𝑛) = 1

𝑛 ∑ 1𝑌𝑖≠𝑓̂𝑇(𝑋𝑖) 𝑖:(𝑋𝑖,𝑌𝑖)∈𝐷𝑛

(3.12)

Dans l’équation (3.10), est un paramètre à régler/à choisir. Il permet de contrôler la complexité de l’arbre. Plus est grand, plus les arbres ayant beaucoup de feuilles sont pénalisés.

La méthode d’élagage consiste à trouver pour toute valeur R, le plus petit sous- arbre de Tmax optimal au sens du critère pénalisé (3.10). Une recherche exhaustive de chaque

arbre optimal se révèle souvent trop coûteuse. Aussi, Breiman et al. (1984) [BRE 84] propose une stratégie efficace, qui repose sur le résultat suivant.

Théorème : (Breiman et al., 1984) [BRE 84]. Pour tout arbre maximal Tmax, il existe une suite finie et strictement croissante de paramètres

0 = 𝛼₁ < ⋯ < 𝛼_𝐾

associée à une suite de sous-arbres emboités 𝑇_𝑚𝑎𝑥 ≥ 𝑇₁> ⋯ > 𝑇_𝐾 = {𝑡₁} tous élagués de

Tmax et vérifiant pour tout 1 ≤ 𝑘 < 𝐾,

𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝛼 ∈ [𝛼_𝑘; 𝛼_𝑘+1[, 𝑇_𝑘= argmin 𝑇≤𝑇𝑚𝑎𝑥 𝑅_𝛼(𝑇) , et 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝛼 ≥ 𝛼𝑘, 𝑇𝑘 = argmin 𝑇≤𝑇𝑚𝑎𝑥 𝑅𝛼(𝑇) .

Ainsi, l’extraction de la suite d’arbres optimaux repose sur un nombre fini de valeurs pour et chaque arbre de la suite est obtenu par élagage du précédent. En d’autres termes, pour chaque k = 1, . . . ,K, Tk est le plus petit sous arbre de Tk−1 minimisant 𝑅𝛼𝑘 (en posant ici

T0 = Tmax). De plus, la suite {Tk}1 k K contient toute l’information puisque pour tout 0, le

plus petit sous-arbre optimal au sens de R est contenu dans la suite.

L’arbre final est le meilleur sous-arbre de la suite {Tk}1 k K au sens d’un critère donné

et évalué sur un échantillon témoin ou par validation croisée. Des garanties théoriques justifiant la stratégie d’élagage et la sélection de l’arbre final ont été obtenues en régression [GEY 05] et en classification [GEY 12].

Dans le document Indexation des bases de données images. (Page 104-108)