• Aucun résultat trouvé

CHAPITRE 5 FORAGE DE DONNÉES : FORÊT ALÉATOIRE D’ARBRES DE

5.3 Arbres de décision

La technique d'arbre de décision (decision tree, DT) est l'une des méthodes d'extraction de données les plus intuitives car elle s’adapte bien avec les données hétérogènes, les données manquantes et les effets non-linéaires. De plus, grâce à sa robustesse, cette technique fournit des règles explicites, facilement interprétables et compréhensibles pour la classification. Les DT se rapprochent aussi bien des méthodes prédictives que des méthodes descriptives car ils créent une classification en segmentant la base de données à laquelle ils sont appliqués. Ils ne fournissent pas toujours la meilleure performance ; ils constituent néanmoins un bon compromis entre la simplicité d’explication et la performance.

5.3.1 Principe des arbres de décision

L'arbre de décision, comme technique de classification supervisée, permet de classer un ensemble de données décrites par des variables qualitatives et quantitatives en des classes les plus homogènes que possibles. Il est généralement présenté à l'envers comme le montre la Figure 5.2, avec la racine en haut et les feuilles au fond. En partant de la racine, l'arbre se sépare du tronc unique en deux ou plusieurs branches, aussi appelées nœuds. Le nœud est obtenu en choisissant la variable qui, par ses catégories, fournit la meilleure séparation des individus dans chaque classe contenant chacun la plus grande proportion possible des individus dans une seule classe. Cette opération est répétée sur chaque sous-ensemble obtenu de manière récursive jusqu’à ce qu’aucune autre séparation d’individus ne soit possible ou souhaitable dépendamment du type d’arbre. Le nœud terminal ainsi obtenu, est appelé une feuille. À nos jours, il existe essentiellement trois familles d’algorithmes de construction de DT : les arbres Quinlan (Kohavi et Quinlan, 2002a) – (Quinlan, 1986). les arbres CART (Classification and Regression Tree) (Breiman et al., 1999) et les arbres CHAID (CHi-squared Automatic Interaction Detector) (Kass, 1980).

64

5.3.2 Critère de segmentation

L’ensemble d’apprentissage est de la forme d’un ensemble d’instances , comme relaté dans l’équation (5.1), où désigne la variable cible et le vecteur des prédicteurs :

= ( , )

avec = ( , , … , ) (5.1)

Comme mentionné précédemment, les DT sont construits en divisant l’arbre de la racine vers les feuilles. À chaque étape, il faut choisir une variable d’entrée qui réalise le partage optimal de l’ensemble d’objets. Pour avoir la variable de séparation sur le nœud, les algorithmes évaluent les différents prédicteurs possibles et sélectionnent ceux qui maximisent un critère

65

donné. Les critères les plus utilisés sont le critère du (Nisbet, Miner et Elder IV, 2009) utilisé dans l’arbre CHAID, le critère de Twoing et celui de Twoing ordonné (Breiman et al., 1999) tous deux utilisés dans CART, l’entropie (Quinlan, 1986) elle-même employée dans les DT Quinlan et le coefficient de Gini (CART) qui est adopté dans cette thèse.

Le coefficient de Gini, noté , mesure avec quelle fréquence un élément aléatoire de l'ensemble serait mal classé si son étiquette était sélectionnée aléatoirement depuis la distribution des étiquettes dans le sous-ensemble. Il peut être calculé à partir de l’équation (5.2) en sommant la probabilité pour chaque élément d'être choisi, multipliée par la probabilité qu'il soit mal classé.

= ∑ (1 − ) = 1 − ∑ (5.2)

Où les , à sont les fréquences relatives dans les nœuds des prédicteurs. Plus les classes sont uniformément distribuées dans un nœud, plus est élevé ; plus le nœud est pur (homogénéité de l’ensemble des prédicteurs), plus son indice de est bas. En d’autres termes, l’indice de Gini mesure la probabilité que deux individus choisis aléatoirement et avec remise dans un nœud, appartiennent à deux classes différentes.

5.3.3 Taille des arbres, surapprentissage, élagage

Selon (Breiman et al., 1999), les performances d’un DT reposent principalement sur la détermination de sa taille. Cette dernière a tendance à croître avec le nombre d’observations dans la base d’apprentissage (Oates et Jensen, 1997). En pratique, dans la construction d’un arbre, on ne cherche pas à avoir un arbre dont les feuilles correspondent à des sous-ensembles parfaitement homogènes par rapport à la variable cible. En effet, le défi est de saisir l'information utile sur la structure statistique de la population, en excluant les caractéristiques spécifiques à l’échantillon étudié. Les arbres ont tendance à produire un classifieur trop complexe, corrélé exagérément aux données ; il s’agit là du phénomène de surapprentissage (overfitting). Pour éviter tout surapprentissage et avoir la taille optimale de l’arbre, on procède

66

à un élagage. Lors de ce processus, on perd en précision mais on gagne en prédiction (Breslow et Aha, 1997). Il existe deux techniques d’élagage : le pré-élagage et le post-élagage. Le premier revient à arrêter quand il y a une classe majoritaire dans le nœud ou à arrêter de diviser un nœud quand la pureté des points non dominants est non parfaite mais suffisante. Pour cela, on utilise un seuil pour détecter une classe dominante. L’inconvénient avec le pré-élagage est que l’arrêt de la construction de l’arbre peut donner un arbre sous-optimal. Le second, apparu avec la méthode CART (Breiman et al., 1999), consiste à finir la construction de l’arbre le plus profond que possible. On le simplifie en remontant des feuilles vers la racine en utilisant des critères de qualité qui mesurent un compromis entre l’erreur obtenue et la complexité de l’arbre (Wallace et Patrick, 1993). On fait appel à un ensemble de validation pour mesurer l’erreur à chaque nœud (Quinlan, 2014) – (Kohavi et Quinlan, 2002b).

Un arbre pris seul a de nombreuses limitations. La procédure d’apprentissage étant statique, les arbres ne sont pas prévus pour apprendre de manière incrémentale de nouvelles instances qui s’ajouteraient à l’ensemble d’entraînement (Caron, 2011). De plus, ils sont sensibles au bruit et ont une forte tendance à sur-apprendre les données (i.e. à apprendre à la fois les relations entre les données et le bruit présent dans l’ensemble d’apprentissage). Ajouter à cela, le problème d’optimisation global est NP-complet (Hyafil et Rivest, 1976) pour de nombreux critères d’optimalité, ce qui conduit à l’emploi de nombreux heuristiques. Pour pallier à ces faiblesses, une des solutions revient à multiplier aléatoirement le nombre de DT comme débattu dans la section suivante.

5.4 Forage de données : Forêt aléatoire d’arbres de décision, Random Forest (RF)