Construction d’arbres de d´ecision - Mesures de discrimination et leurs applications en apprent

construc-tion des arbres de décision. Ensuite, la sélecconstruc-tion d’attribut et la discrétisaconstruc-tion des attributs numériques sont respectivement présentées dans la section 2.3 et la section 2.4. Dans chacune de ces deux sections, nous introduisons des mesures de discrimina-tion généralisées utilisées dans ces processus (secdiscrimina-tion 2.3.2 et secdiscrimina-tion 2.4.2). Ce sont des formules conditionnelles de l’entropie de Rényi et de l’entropie de Daróczy. Nous proposons également dans la section 2.4.3 une mesure d’équilibre pour caractériser la discrétisation d’un attribut numérique. Dans un deuxième temps, dans la section 2.5 nous étudions l’utilisation de la logique floue dans la construction des arbres de décision pour mieux prendre en compte des imprécisions et des incertitudes en pro-posant une taxonomie des méthodes existantes. Dans cette taxonomie, une nouvelle utilisation de certaines mesures de discrimination floue est proposée. Finalement, nous concluons le chapitre.

Pour un état de l’art sur des arbres de décision, nous suggérons aux lecteurs les travaux de synthèse de Safavian et Landgrebe [139], Murthy [110], Rokach et Maimon [138]. Mitchell [109] et Cornuéjols, Miclet et Kodratoff [40] consacrent dans leurs livres des chapitres entiers aux arbres de décision. Dans [96], une étude comparative de plusieurs algorithmes de classification, y compris des algorithmes de construction d’arbres de décision, a été réalisée.

2.2 Construction d’arbres de d´ecision

Les principaux buts de la construction des arbres de décision sont : 1. une meilleure généralisation des exemples de la base d’apprentissage 2. une meilleure classification de nouveaux exemples

3. une structure aussi simple que possible.

On préfère souvent des arbres de décision simples. Ils sont plus compréhensibles et rendent plus rapide la phase de classification. Selon le principe du rasoir d’Occam, ils ont plus de chances d’avoir de bonnes capacités de généralisation. Breiman et al. [27] montrent également que la complexité d’un arbre influe sur sa performance. Entre autres, la complexité des arbres est contrôlée par les critères d’arrêt et le processus d’élagage. La complexité des arbres est, entre autres, évaluée par le nombre de nœuds, le nombre de feuilles, la hauteur des arbres (hauteur moyenne avec ou sans pondération, hauteur minimale, hauteur maximale), le nombre d’attributs utilisés. Il faut noter toutefois qu’un arbre doit être évalué par des critères spécifiques à son usage, notamment la précision, la capacité de discrimination, le coût de classification, etc. Nous en parlerons en détails dans le chapitre 3.

Le nombre d’arbres de décision qui décrivent une base d’exemples est croissant de manière exponentielle selon le nombre d’attributs K et le nombre moyen de valeurs possibles par attributs m. Selon [40], le nombre d’arbres possibles est :

K−1

i=0

La construction d’un arbre optimal, au sens où il classe parfaitement la base d’ap-prentissage et où il minimise le nombre moyen de tests nécessaires pour un exemple inconnu, est un problème NP-complet. Il faut donc chercher à construire un arbre quasi-meilleur de manière heuristique.

Dans la suite de la section, après une brève description des stratégies de construc-tion d’arbres de décision, le schéma TDIDT est détaillé. Ensuite, nous expliquons en quelques mots l’utilisation des arbres.

2.2.1 Strat´egies de construction d’arbres de d´ecision

Safavian et Landgrebe [139] divisent les méthodes de construction d’arbres de décision en quatre catégories :

1. Bottom-Up [93] : selon cette approche, à chaque étape, grâce à une mesure de distance, qui est calculée sur les exemples de la base d’apprentissage, les deux groupes dont la distance entre eux est la plus petite sont fusionnés pour avoir un nouveau groupe. La fusion continue avec un nouvel ensemble de groupes et se termine lorsqu’on obtient un seul groupe qui est à la racine de l’arbre. L’arbre ainsi construit est un arbre binaire. Plus un partitionnement est proche de la racine, plus les deux groupes sont discriminants. Cette approche a des caractéristiques en commun avec le regroupement non-supervisé.

2. Top-Down : cette approche consiste à construire un arbre depuis sa racine vers ses feuilles en partitionnant successivement la base d’apprentissage. C’est la stratégie la plus utilisée sous le nom « Induction descendante d’arbres de décision » (Top Down Induction of Decision Tree (TDIDT)). La figure 2.1 décrit le principe de la stratégie TDIDT. Dans ce chapitre, seule cette stratégie est examinée dans la suite.

3. Hybride : cette approche, proposée par Kim et Landgrebe (voir [83] et aussi [139]), consiste à utiliser un processus bottom-up pour diriger et aider un processus top-down. Le processus bottom-up fournit des informations sur des groupes au processus top-down. En les exploitant, le processus top-down par-titionne la base d’apprentissage. Ce parpar-titionnement n’est pas forcément iden-tique au partitionnement par le processus bottom-up. On procède de la même manière avec des sous-bases d’exemples jusqu’à ce que tous les exemples asso-ciés au nœud considéré appartiennent à une même classe.

4. Growing Pruning [27] : cette approche consiste à développer un arbre jusqu’à la taille maximale (les exemples associés à une feuille appartient à une seule classe) puis élaguer les branches. Cela permet d’éviter certaines difficultés du choix de critère d’arrêt.

2.2.2 Sch´ema TDIDT

La plupart des algorithmes d’induction d’arbres de d´ecision font partie de cette cat´egorie. On peut citer entre autres : ID3 (Interactive Dichotomizer version 3 ) [122],

2.2 Construction d’arbres de d´ecision 53 Base d’apprentissage ξ{A₁,A₂,...,A_K, C} Choix du meilleur i attribut A Oui Arbre de décision Non Fin ? i les valeurs de A Partition de la base d’apprentissage selon

Fig. 2.1 – Construction d’arbres de d´ecision par la strat´egie TDIDT

CART [27], C4.5 [124], etc. L’arbre est construit depuis sa racine vers ses feuilles en partitionnant successivement la base d’apprentissage. Chaque nœud est associé à un ensemble d’exemples, en particulier la racine est associée à la base entière. À chaque itération, on cherche à partitionner la base associée à un nœud selon les valeurs d’un attribut choisi. Tous les exemples ayant la même valeur pour l’attribut choisi sont regroupés dans un même nœud fils. Le processus s’arrête lorsque des critères d’arrêt sont vérifiés à toutes les feuilles.

Ce schéma d’induction d’arbres de décision a été initialement étudié pour le cas de données symboliques. Les algorithmes originels éprouvent des difficultés lorsqu’ils sont appliqués à des données numériques ou floues. La première difficulté est que le nombre de valeurs possibles pour un attribut est très grand. Cela conduit à des arbres ayant beaucoup de branches. Les données numériques sont aussi ordonnées et ainsi la proximité entre valeurs doit être prise en compte. Il n’est donc pas adéquat

de les traiter telles qu’elles sont. Aussi, le plus souvent les méthodes sont généralisées pour les données numériques en y insérant une phase de discrétisation qui permet de transformer les données numériques en données symboliques. Plus récemment, cette méthode a été étendue pour des bases décrites par des attributs flous.

Soit un nœud N contenant un ensemble d’exemples ξ.

1. Condition d’arrêt : Si l’ensemble associé au nœud N satisfait des critères d’ar-rêt, alors le nœud est une feuille. Celle-ci est alors étiquetée par la classe majoritaire.

2. Sinon, faire les ´etapes suivantes :

(a) i. Discrétiser tous les attributs numériques pour pouvoir les représenter et les traiter de la même manière que des attributs symboliques. ii. Choisir un attribut et l’affecter au nœud courant.

(b) Partitionner les exemples de N en sous-ensembles ξv1, ξv2, .., ξvm selon les valeurs v1, v2, .., vm de l’attribut choisi.

partition. Les nouveaux nœuds sont ajoutés comme les fils du nœud N . (d) Appliquer récursivement la procédure sur les nouveaux nœuds.

Suivant ce schéma, plusieurs méthodes de construction d’arbres de décision ont été proposées. Elles se différencient selon les techniques appliquées à chaque étape. Dans la suite de cette partie, nous détaillons les principales variantes.

Le choix d’un attribut pour l’affecter au nœud courant et pour partitionner la base d’apprentissage est le cœur de l’algorithme. En principe, l’attribut est choisi par une heuristique. C’est celui qui est le plus discriminant, c’est-à-dire qui maximise une mesure de discrimination. Cela permet de manière heuristique d’obtenir un arbre performant. Les deux sections suivantes se consacrent entièrement à la sélection du meilleur attribut et à la discrétisation des attributs numériques.

Etant donné l’attribut choisi, le partitionnement de la base d’apprentissage s’ap-puie sur ses valeurs. Dans le cas d’un attribut symbolique, chaque sous-base est constituée des exemples ayant la même valeur pour l’attribut en question. Dans le cas d’un attribut numérique discrétisé par des coupures précises, chaque sous-base correspond à un intervalle dans son domaine. Ainsi chaque exemple n’appartient qu’à une seule partie. Il existe toutefois des variantes de ce principe. Par exemple, un nœud peut éventuellement contenir des exemples dont la valeur pour un attribut fait partie d’un groupe de quelques valeurs possibles.

Classiquement, à chaque nœud l’algorithme s’arrête quand, soit tous les exemples associés au nœud appartiennent à une seule classe, soit le gain d’information apporté par chacun des attributs est nul. Cela signifie qu’il n’y a plus d’intérêt à partitionner la sous-base en question.

Les algorithmes de construction d’arbres de décision peuvent être complétés par des techniques d’élagage. En relâchant ces critères, le partitionnement s’arrête quand toutes les sous-bases d’apprentissage associées aux feuilles sont relativement homo-gènes. L’entropie sert alors dans la condition d’arrêt pour évaluer l’homogénéité.

2.3 S´election du meilleur attribut 55

Dans le document Mesures de discrimination et leurs applications en apprentissage inductif (Page 68-72)