• Aucun résultat trouvé

Construction d’arbres de d´ecision

construc-tion des arbres de d´ecision. Ensuite, la s´elecconstruc-tion d’attribut et la discr´etisaconstruc-tion des attributs num´eriques sont respectivement pr´esent´ees dans la section 2.3 et la section 2.4. Dans chacune de ces deux sections, nous introduisons des mesures de discrimina-tion g´en´eralis´ees utilis´ees dans ces processus (secdiscrimina-tion 2.3.2 et secdiscrimina-tion 2.4.2). Ce sont des formules conditionnelles de l’entropie de R´enyi et de l’entropie de Dar´oczy. Nous proposons ´egalement dans la section 2.4.3 une mesure d’´equilibre pour caract´eriser la discr´etisation d’un attribut num´erique. Dans un deuxi`eme temps, dans la section 2.5 nous ´etudions l’utilisation de la logique floue dans la construction des arbres de d´ecision pour mieux prendre en compte des impr´ecisions et des incertitudes en pro-posant une taxonomie des m´ethodes existantes. Dans cette taxonomie, une nouvelle utilisation de certaines mesures de discrimination floue est propos´ee. Finalement, nous concluons le chapitre.

Pour un ´etat de l’art sur des arbres de d´ecision, nous sugg´erons aux lecteurs les travaux de synth`ese de Safavian et Landgrebe [139], Murthy [110], Rokach et Maimon [138]. Mitchell [109] et Cornu´ejols, Miclet et Kodratoff [40] consacrent dans leurs livres des chapitres entiers aux arbres de d´ecision. Dans [96], une ´etude comparative de plusieurs algorithmes de classification, y compris des algorithmes de construction d’arbres de d´ecision, a ´et´e r´ealis´ee.

2.2 Construction d’arbres de d´ecision

Les principaux buts de la construction des arbres de d´ecision sont : 1. une meilleure g´en´eralisation des exemples de la base d’apprentissage 2. une meilleure classification de nouveaux exemples

3. une structure aussi simple que possible.

On pr´ef`ere souvent des arbres de d´ecision simples. Ils sont plus compr´ehensibles et rendent plus rapide la phase de classification. Selon le principe du rasoir d’Occam, ils ont plus de chances d’avoir de bonnes capacit´es de g´en´eralisation. Breiman et al. [27] montrent ´egalement que la complexit´e d’un arbre influe sur sa performance. Entre autres, la complexit´e des arbres est contrˆol´ee par les crit`eres d’arrˆet et le processus d’´elagage. La complexit´e des arbres est, entre autres, ´evalu´ee par le nombre de nœuds, le nombre de feuilles, la hauteur des arbres (hauteur moyenne avec ou sans pond´eration, hauteur minimale, hauteur maximale), le nombre d’attributs utilis´es. Il faut noter toutefois qu’un arbre doit ˆetre ´evalu´e par des crit`eres sp´ecifiques `a son usage, notamment la pr´ecision, la capacit´e de discrimination, le coˆut de classification, etc. Nous en parlerons en d´etails dans le chapitre 3.

Le nombre d’arbres de d´ecision qui d´ecrivent une base d’exemples est croissant de mani`ere exponentielle selon le nombre d’attributs K et le nombre moyen de valeurs possibles par attributs m. Selon [40], le nombre d’arbres possibles est :

K−1

X

i=0

La construction d’un arbre optimal, au sens o`u il classe parfaitement la base d’ap-prentissage et o`u il minimise le nombre moyen de tests n´ecessaires pour un exemple inconnu, est un probl`eme NP-complet. Il faut donc chercher `a construire un arbre quasi-meilleur de mani`ere heuristique.

Dans la suite de la section, apr`es une br`eve description des strat´egies de construc-tion d’arbres de d´ecision, le sch´ema TDIDT est d´etaill´e. Ensuite, nous expliquons en quelques mots l’utilisation des arbres.

2.2.1 Strat´egies de construction d’arbres de d´ecision

Safavian et Landgrebe [139] divisent les m´ethodes de construction d’arbres de d´ecision en quatre cat´egories :

1. Bottom-Up [93] : selon cette approche, `a chaque ´etape, grˆace `a une mesure de distance, qui est calcul´ee sur les exemples de la base d’apprentissage, les deux groupes dont la distance entre eux est la plus petite sont fusionn´es pour avoir un nouveau groupe. La fusion continue avec un nouvel ensemble de groupes et se termine lorsqu’on obtient un seul groupe qui est `a la racine de l’arbre. L’arbre ainsi construit est un arbre binaire. Plus un partitionnement est proche de la racine, plus les deux groupes sont discriminants. Cette approche a des caract´eristiques en commun avec le regroupement non-supervis´e.

2. Top-Down : cette approche consiste `a construire un arbre depuis sa racine vers ses feuilles en partitionnant successivement la base d’apprentissage. C’est la strat´egie la plus utilis´ee sous le nom « Induction descendante d’arbres de d´ecision » (Top Down Induction of Decision Tree (TDIDT)). La figure 2.1 d´ecrit le principe de la strat´egie TDIDT. Dans ce chapitre, seule cette strat´egie est examin´ee dans la suite.

3. Hybride : cette approche, propos´ee par Kim et Landgrebe (voir [83] et aussi [139]), consiste `a utiliser un processus bottom-up pour diriger et aider un processus top-down. Le processus bottom-up fournit des informations sur des groupes au processus top-down. En les exploitant, le processus top-down par-titionne la base d’apprentissage. Ce parpar-titionnement n’est pas forc´ement iden-tique au partitionnement par le processus bottom-up. On proc`ede de la mˆeme mani`ere avec des sous-bases d’exemples jusqu’`a ce que tous les exemples asso-ci´es au nœud consid´er´e appartiennent `a une mˆeme classe.

4. Growing Pruning [27] : cette approche consiste `a d´evelopper un arbre jusqu’`a la taille maximale (les exemples associ´es `a une feuille appartient `a une seule classe) puis ´elaguer les branches. Cela permet d’´eviter certaines difficult´es du choix de crit`ere d’arrˆet.

2.2.2 Sch´ema TDIDT

La plupart des algorithmes d’induction d’arbres de d´ecision font partie de cette cat´egorie. On peut citer entre autres : ID3 (Interactive Dichotomizer version 3 ) [122],

2.2 Construction d’arbres de d´ecision 53 Base d’apprentissage ξ{A1,A2,...,AK, C} Choix du meilleur i attribut A Oui Arbre de décision Non Fin ? i les valeurs de A Partition de la base d’apprentissage selon

Fig. 2.1 – Construction d’arbres de d´ecision par la strat´egie TDIDT

CART [27], C4.5 [124], etc. L’arbre est construit depuis sa racine vers ses feuilles en partitionnant successivement la base d’apprentissage. Chaque nœud est associ´e `a un ensemble d’exemples, en particulier la racine est associ´ee `a la base enti`ere. `A chaque it´eration, on cherche `a partitionner la base associ´ee `a un nœud selon les valeurs d’un attribut choisi. Tous les exemples ayant la mˆeme valeur pour l’attribut choisi sont regroup´es dans un mˆeme nœud fils. Le processus s’arrˆete lorsque des crit`eres d’arrˆet sont v´erifi´es `a toutes les feuilles.

Ce sch´ema d’induction d’arbres de d´ecision a ´et´e initialement ´etudi´e pour le cas de donn´ees symboliques. Les algorithmes originels ´eprouvent des difficult´es lorsqu’ils sont appliqu´es `a des donn´ees num´eriques ou floues. La premi`ere difficult´e est que le nombre de valeurs possibles pour un attribut est tr`es grand. Cela conduit `a des arbres ayant beaucoup de branches. Les donn´ees num´eriques sont aussi ordonn´ees et ainsi la proximit´e entre valeurs doit ˆetre prise en compte. Il n’est donc pas ad´equat

de les traiter telles qu’elles sont. Aussi, le plus souvent les m´ethodes sont g´en´eralis´ees pour les donn´ees num´eriques en y ins´erant une phase de discr´etisation qui permet de transformer les donn´ees num´eriques en donn´ees symboliques. Plus r´ecemment, cette m´ethode a ´et´e ´etendue pour des bases d´ecrites par des attributs flous.

Soit un nœud N contenant un ensemble d’exemples ξ.

1. Condition d’arrˆet : Si l’ensemble associ´e au nœud N satisfait des crit`eres d’ar-rˆet, alors le nœud est une feuille. Celle-ci est alors ´etiquet´ee par la classe majoritaire.

2. Sinon, faire les ´etapes suivantes :

(a) i. Discr´etiser tous les attributs num´eriques pour pouvoir les repr´esenter et les traiter de la mˆeme mani`ere que des attributs symboliques. ii. Choisir un attribut et l’affecter au nœud courant.

(b) Partitionner les exemples de N en sous-ensembles ξv1, ξv2, .., ξvm selon les valeurs v1, v2, .., vm de l’attribut choisi.

(c) Cr´eer de nouveaux nœuds pour chaque sous-ensemble ξi non vide de la

partition. Les nouveaux nœuds sont ajout´es comme les fils du nœud N . (d) Appliquer r´ecursivement la proc´edure sur les nouveaux nœuds.

Suivant ce sch´ema, plusieurs m´ethodes de construction d’arbres de d´ecision ont ´et´e propos´ees. Elles se diff´erencient selon les techniques appliqu´ees `a chaque ´etape. Dans la suite de cette partie, nous d´etaillons les principales variantes.

Le choix d’un attribut pour l’affecter au nœud courant et pour partitionner la base d’apprentissage est le cœur de l’algorithme. En principe, l’attribut est choisi par une heuristique. C’est celui qui est le plus discriminant, c’est-`a-dire qui maximise une mesure de discrimination. Cela permet de mani`ere heuristique d’obtenir un arbre performant. Les deux sections suivantes se consacrent enti`erement `a la s´election du meilleur attribut et `a la discr´etisation des attributs num´eriques.

´

Etant donn´e l’attribut choisi, le partitionnement de la base d’apprentissage s’ap-puie sur ses valeurs. Dans le cas d’un attribut symbolique, chaque sous-base est constitu´ee des exemples ayant la mˆeme valeur pour l’attribut en question. Dans le cas d’un attribut num´erique discr´etis´e par des coupures pr´ecises, chaque sous-base correspond `a un intervalle dans son domaine. Ainsi chaque exemple n’appartient qu’`a une seule partie. Il existe toutefois des variantes de ce principe. Par exemple, un nœud peut ´eventuellement contenir des exemples dont la valeur pour un attribut fait partie d’un groupe de quelques valeurs possibles.

Classiquement, `a chaque nœud l’algorithme s’arrˆete quand, soit tous les exemples associ´es au nœud appartiennent `a une seule classe, soit le gain d’information apport´e par chacun des attributs est nul. Cela signifie qu’il n’y a plus d’int´erˆet `a partitionner la sous-base en question.

Les algorithmes de construction d’arbres de d´ecision peuvent ˆetre compl´et´es par des techniques d’´elagage. En relˆachant ces crit`eres, le partitionnement s’arrˆete quand toutes les sous-bases d’apprentissage associ´ees aux feuilles sont relativement homo-g`enes. L’entropie sert alors dans la condition d’arrˆet pour ´evaluer l’homog´en´eit´e.

2.3 S´election du meilleur attribut 55