• Aucun résultat trouvé

De la sélection d'arbres de décision dans les forêts aléatoires

N/A
N/A
Protected

Academic year: 2021

Partager "De la sélection d'arbres de décision dans les forêts aléatoires"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-00334413

https://hal.archives-ouvertes.fr/hal-00334413

Submitted on 26 Oct 2008

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

aléatoires

Laurent Heutte, Simon Bernard, Sébastien Adam, Émilie Oliveira

To cite this version:

Laurent Heutte, Simon Bernard, Sébastien Adam, Émilie Oliveira. De la sélection d’arbres de décision dans les forêts aléatoires. 10ème Colloque International Francophone sur l’Ecrit et le Document (CIFED), Oct 2008, Rouen, France. pp.163-168. �hal-00334413�

(2)

De la Selection d’Arbres de Décision dans les Forêts Aléatoires

Laurent Heutte – Simon Bernard – Sébastien Adam – Emilie Oliveira

Universitéde Rouen, LITIS EA 4108 BP 12 - 76801 Saint-Etienne duRouvray, France.

{laurent.heutte,simon.bernard,sebastien.adam}@univ-rouen.fr Résumé : Dans cet article nousprésentons une étude sur

une nouvelle famille de méthodes d’Ensembles de Classi- fieurs, appelée Forêts Aléatoires (RFpour Random Forest).

Dans un processus d’induction de forêts aléatoires "tradi- tionnel", un nombrepréalablement fixéd’arbres de décision estgénéré,àl’aide notamment deprincipes d’apprentissage partiellement aléatoires. Ce type deprocessusprésente deux principaux inconvénients : i) le nombre d’arbres doit être fixéa priori ii) l’interprétabilitéet les capacités d’analyse offertespar les classifieurs de type arbres de décisions sont perdues, du fait de l’utilisation deprincipes de "randomisa- tion" au cours de leur induction. Ces constatations soulèvent alors deux questions : ce type de forêts aléatoires contient- elle des arbres de décision qui détériorent lesperformances de l’ensemble ? Si oui, ces arbres présentent-ils des pro- priétésparticulières quipourraient expliquer cetteperte de performances ? Pour répondre à ces questions, nous abor- dons cetteproblématique comme un problème de sélection de classifieurs, et montrons que de meilleurs sous-ensembles d’arbres de décisionpeuvent être obtenus en utilisant des méthodes sous-optimales de sélection de classifieurs. Les ré- sultatsprouvent notamment qu’un algorithme d’induction de forêts aléatoires "classique" n’estpas la meilleure approche pourproduire des classifieurs de type forêts aléatoires qui soientperformants.

Mots-clés: Ensemble de Classifieurs, Sélection de Classi- fieurs, Forêts Aléatoires, Arbres de Décision.

1 Introduction

Un des principaux enjeux de l’apprentissage automa- tique consiste à concevoir des systèmes de classification per- formants à partir d’un ensemble d’exemples représentatifs d’une population de données. Parmi les différentes approches permettant d’aborder ce type de problématique, combiner un ensemble de classifieurs individuels faibles pour former ununique système de classification — appeléEnsemble de Classifieurs — a suscité un intérêt grandissant de la com- munautéscientifique. Cet intérêt a généréde récents travaux de recherche qui ont montréque certains principes de com- binaison de classifieurs sont particulièrement efficaces, tel que le Boosting [FRE 96] (ouArcing [BRE 98]), le Bagging [BRE 96], le Random Subspaces [HO 98], ou plus récem- ment les Random Forests [BRE 01]. L’efficacitédes combi- naisons de classifieurs repose principalement sur leur capa- citéà tirer parti des complémentarités des classifieurs indi- viduels, dans le but d’améliorer autant que possible les per-

formances en généralisation de l’ensemble. Une explication de ce lien entre complémentaritéet performances est donnée par la notion de diversité. Bien qu’il n’y ait pas dans la littéra- ture de définition de la propriétéde diversitésur laquelle tout le monde s’accorde [KUN 03], ce concept estusuellement reconnucommeétant l’une des plus importantes caractéris- tiques pour l’amélioration des performances en généralisa- tion d’un ensemble de classifieurs [KUN 04]. On peut défi- nir la diversitécomme la capacitédes classifieurs individuels d’un ensemble à être en accord sur les bonnes prédictions et en désaccord sur les erreurs de prédiction.

Parmi les différentes approches de construction d’en- sembles de classifieurs, celles qui s’appuient sur l’aléatoire pour produire de la diversitése sont montrées particulière- ment efficaces à l’image des méthodes de Bagging [BRE 96]

oude Random Subspaces [HO 98]. Ces deux méthodes intro- duisent l’aléatoire dans le processus d’induction, dans le but de construire des classifieurs de base différents lesuns des autres, et ainsi de produire de la diversitédans l’ensemble.

Récemment Leo Breiman a proposéune nouvelle famille de méthodes d’ensembles appelée Forêts Aléatoires (RF pour Random Forest) [BRE 01], basée sur ce concept de "rando- misation". Les RF peuvent être définies commeun principe générique de combinaison de classifieurs, composée de L classifieursélémentaires de type arbres de décision et notée {h(x,Θk), k = 1, ...L}, où k} estune famille de vec- teurs aléatoires, indépendants et identiquement distribués, et xreprésenteune donnée d’entrée. La particularitéde ce type de combinaison est que chaque arbre de décision est construit à partir d’une réalisation d’un vecteur aléatoire de paramètres. Une RF peut par exemple être construite en gé- nérant des sous-ensembles aléatoires de caractéristiques pour chaque arbre (comme dans la méthode Random Subspaces), et/ouen générant des sous-ensembles aléatoires de données d’apprentissage pour chaque arbre (comme dans la méthode de Bagging).

Depuis qu’elles ont étéintroduites en 2001, les RF ont beaucoup été étudiées, d’un point de vue théorique comme d’un point de vue expérimental [BER 07, BOI 05, BRE 01, BRE 04, CUT 01, GEU 06, LAT 01, ROD 06, ROB 04].

Dans la plupart de ces travaux, il aétémontréque ces mé- thodes étaient particulièrement compétitives avec l’un des principes d’apprentissage les plus efficaces,i.e.le boosting [BRE 01, CUT 01, ROD 06]. Cependant les mécanismes qui expliquent ces bonnes performances n’ont pas encore été clairement identifiés. Par exemple, il a été mathématique- ment prouvédans [BRE 01] et expérimentalement confirmé

(3)

dans [LAT 01], qu’audelà d’un certain nombre d’arbres de décision, il n’était plusutile d’en ajouter à la forêt pour en améliorer les performances en généralisation. Cette affirma- tion concerne les processus d’induction qui utilisent l’aléa- toire pour produire des arbres sans connaissance a priori sur leur caractéristiques intrinséques. Pourtant aucun travail de recherche à notre connaissance ne s’est intéresséaux méca- nismes qui font qu’un ensemble d’arbres est plus oumoins performant qu’un autreutilisant plus oumoins d’arbres.

Dans cet article nous proposons d’apporter quelqueséle- ments pour aider à mieux comprendre ces mécanismes. Le but est de déterminer s’il est possible ou non de sélection- nerun sous-ensemble d’arbres à partir d’une forêt, meilleur en terme de performances que l’ensemble initial. Notre but n’est pas ici de trouver le sous-ensemble optimal parmiun plus large ensemble d’arbres, mais plutôt d’étudier les pro- priétés de différents sous-ensembles en fonction de leur per- formances. De cette façon, nous souhaitons apporter des pre- mierséléments permettant d’identifier les propriétés remar- quables partagées par les sous-forêts les plus performantes, obtenues aucours duprocessus de sélection. C’est la raison pour laquelle, comme nous l’expliquons dans la section 3, il n’est pas nécessaire ici de mettre en œuvre des techniques de sélection de classifieurs optimales. Nous avons doncuti- lisédeux méthodes de sélection simplesi.e.SFS (Sequential Forward Selection) et SBS (Sequential Backward Selection) [HAO 03], etétudiéensuite les taux d’erreur en classification des sous-ensembles obtenus au cours de l’expérience. Nos résultats expérimentaux montrent que l’algorithme d’induc- tion de RF "classique" n’est pas la meilleure approche pour produire des forêts performantes.

Cet article est donc organiséde la façon suivante : nous rappelons dans la section 2 le principe de l’algorithme d’in- duction de RF Forest-RI ; dans la section 3, nous commen- çons par expliquer notre approche de la sélection de classi- fieurs appliquée aux RF, et décrivons ensuite notre protocole expérimental, les bases de donnéesutilisées, ainsi que les ré- sultats obtenus avec les deux méthodes de sélectionutilisées.

Nous dressons finalement quelques conclusions et perspec- tives dansune dernière section.

2 L’algorithme Forest-RI

Le terme Forêts Aléatoires désigneune famille de mé- thodes de classification, composée de différents algorithmes d’induction d’ensemble d’abres de décision, tels que l’algo- rithme Forest-RI présentépar Breiman dans [BRE 01] et sou- vent citédans la littérature comme la méthode d’induction de référence. Dans cet algorithme deux principes de "randomi- sation" sontutilisés : le Bagging et le Random Feature Se- lection. L’étape d’apprentissage consiste donc à construire un ensemble d’arbres de décision, chacun entraîné à par- tir d’un sous-ensemble "bootstrap" issude l’ensemble d’ap- prentissage original —i.e.en utilisant le principe de Bag- ging — et à l’aide d’une méthode d’induction d’arbres ap- pelée Random Tree. Cet algorithme d’induction, habituelle- ment basésur l’algorithme CART [BRE 84], modifie la pro- cédure de partitionnement des nœuds de l’arbre, de sorte que la sélection de la caractéristiqueutilisée comme critère de partitionnement soit partiellement aléatoire. C’est-à-dire que

pour chaque nœud de l’arbre,un sous-ensemble de caracté- ristiques est généréaléatoirement, à partir duquel le meilleur partitionnement est réalisé.

Pour résumer, dans la méthode Forest-RI,un arbre de dé- cision est construit selon la procédure suivante :

– PourN données de l’ensemble d’apprentissage, tirer aléatoirementNindividus avec remise. L’ensemble ré- sultant sera celuiutilisépour l’induction de l’arbre en question.

– PourMcaractéristiques,un nombreK << Mest spé- cifiéde sorte qu’à chaque nœud de l’arbre, un sous- ensemble deKcaractéristiques soit tiréaléatoirement, parmi lesquelles la meilleure est ensuite sélectionnée pour le partitionnement.

– L’arbre est ainsi construit jusqu’à atteindre sa taille maximale. Aucunélagage n’est réalisé.

Dans ce processus, l’induction de l’arbre est principalement dirigée parun hyperparamètre,i.e.le nombreK. Ce nombre permet d’introduire plus oumoins d’aléatoire dans l’induc- tion. De cette façon, excepté quandK = M, auquel cas l’induction de l’arbre n’est pas dutout "randomisée", chaque arbre de la forêt présenteune structure et des propriétés qui ne peuvent être appréhendées a priori. Avec l’introduction de l’aléatoire dans l’induction des RF, on espère tirer parti de la complémentaritédes arbres, mais rien ne garantit qu’ajou- terun arbre à la forêt permettra effectivement d’améliorer les performances de l’ensemble. On peut même imaginer que certains arbres détériorent les performances en généralisation de l’ensemble. Cette idée nous a amenés à étudier la façon d’améliorer les performances d’une RF en ne sélectionnant qu’un sous-ensemble particulier de ses arbres.

Dans la littérature, quelques travaux de recherche seule- ment se sont intéressés au nombre d’arbres de décision à construire ausein d’une forêt. Quand Breiman a introduit le formalisme des RF dans [BRE 01], il démontra également qu’audelà d’un certain nombre d’arbres, en ajouter d’autres ne permettait pas systématiquement d’améliorer les perfor- mances de l’ensemble. Précisement, il établit que pour un nombre croissant d’arbres dans la forêt, l’erreur en générali- sation converge versune borne inférieure. Ce résultat indique que le nombre d’arbres d’une RF ne doit pas nécessairement être le plus grand possible pour produireun classifieur perfor- mant. Les travaux de Latinne et al. dans [LAT 01], ainsi que nos travaux dans [BER 07], ont expérimentalement confirmé cette affirmation. Cependant, admettre qu’audelà d’un cer- tain nombre d’arbres les performances en généralisation se stabilisent ne signifie bienévidemment pas que les perfor- mances optimales ontétéatteintes. Donc l’idée de nos expé- rimentations est d’établir si il est possible ounon d’obtenir un sous-ensemble d’arbres capable de surpasser la forêt ini- tiale.

A noter que dans la suite de cet article, le terme forêt aléatoire (ouRF) designera toujoursune forêt induite à l’aide de l’algorithme Forest-RI.

(4)

3 Sélection de Classifieurs et Forêts Aléatoires

Le principe de ce travail expérimental est d’appliquer des techniques de sélection de classifieurs àune RF d’un grand nombre d’arbres. Pour ce faire il nous faut choisir i)un critère de sélection et ii)une méthode de sélection.

En ce qui concerne le critère de sélection, deux prin- cipales approches sont proposées dans la littérature : l’ap- proche "filter" et l’approche "wrapper" [KOH 97]. L’ap- proche "filter" consiste à sélectionnerun sous-ensemble de classifieurs à l’aide d’un critère d’évaluationaprioriqui ne prend pas en compte les performances de l’ensemble. L’ap- proche "wrapper" en revanche réaliseune sélection de sous- ensembles de classifieurs en optimisantaposterioriles per- formances de l’ensemble. Notre butétant d’étabir s’il est pos- sible ounon de trouverun sous-ensemble d’arbres de déci- sion plus performant que la forêt initiale, c’est l’approche

"wrapper" qui aétéadoptée pour ces expérimentations. La sélection de classifieurs a doncétéréalisée en tentant d’op- timiser les performances des sous-ensembles d’arbres résul- tants.

Concernant les méthodes de sélection maintenant, comme nous l’avons mentionnédans la section 1, notre but n’est pas de trouverun sous-ensemble optimal de classifieurs parmiun plus large ensemble d’arbres de décision, mais plu- tôt d’étudier les propriétés des différents sous-ensembles en fonction de leurs performances. Par conséquent l’optimalité des méthodes de sélection n’est pas une prioritéici. C’est la raison pour laquelle les deux algorithmes de sélection de classifieurs SFS (Sequential Forward Selection) et SBS (Se- quential Backward Selection) ontétéchoisis. Ces deux mé- thodes sont bien connues pour être sous-optimales puisque la séquentialitéduprocessus de sélection rend le résultat de chaque itération dépendant de l’itération précédente, et de cette façon toutes les solutions ne sont pas explorées. Ce- pendant ces méthodes présentent l’avantage d’être simples et rapides. Ces deux techniques de sélection construisent de fa- çon itérativeun sous-ensemble de classifieurs sous-optimal à partir d’un ensemble plus important [HAO 03]. A chaque ité- ration de la procédure SFS par exemple,un classifieur indivi- duel est sélectionnéparmi les classifieurs restants dans l’en- semble d’origine, de sorte que sa contribution — en termes de gain de performances — au sous-ensemble courant soit maximale. De la même manière, chaque itération de la pro- cédure SBS consiste à éliminer du sous-ensemble courant le classifieur qui contribue le moins à ses performances. Le critère d’arrêt d’un tel processus itératif est généralement basésur la convergence des performances, mais il peutéga- lement être défini par un nombre maximum d’itérations de façon à fixer le nombre de classifieurs contenus dans le sous- ensemble final [ROL 01]. Pour nos expérimentations nous avons décidéde laisser les deux processus de sélection ex- plorer toutes les itérations possibles,i.e.pourun nombreL de classifieurs dans les sous-ensembles obtenus, allant de1à L, oùLreprésente le nombre d’arbres dans la forêt initiale.

De cette façon nous avons la possibilitéd’étudier l’évolution des performances des RF en fonction du nombre d’arbres qu’elles contiennent.

3.1 Bases de données

Les10bases de données qui ont étéutilisées dans nos expérimentations sont décrites dans le tableau1 : les7pre- mières de ces bases ontétésélectionnées parmi les bases du dépot de l’UCI [ASU 07] ; Twonorm et Ringnorm sont deux bases de données synthétiques conçues par Leo Breiman [BRE 98] ; et la base de données MNIST [LEC 98] estune base de chiffres manuscrits sur lesquels ontétéextraites des caractéristiques basées surune pyramide multi-résolution des niveaux de gris des images comme expliquédans [BER 07].

Ces bases de données ontétésélectionnées dansun premier temps parce qu’elles sont représentatives des problématiques d’apprentissage automatique en termes de nombre de classes, de nombre de caractéristiques et de nombres de données.

Elles ontégalementétéchoisies car elles ne contiennent pas de valeur manquante et que les caractéristiques sont toutes essentiellement numériques. Enfin pendant toutes nos expé- rimentations, les performances des RF se sont montrées très sensibles à la taille de l’ensemble d’apprentissage. Puisque notre but n’est pas d’approfondir ce point, seules les bases de données avecun nombre suffisant de données ontétéuti- lisées.

TAB. 1 – Description des bases de données

Bases Taille Caract Classes

Gamma 19020 10 2

Letter 20000 16 26

Pendigits 10992 16 10

Segment 2310 19 7

Spambase 4610 57 2

Vehicle 946 18 4

Waveform 5000 40 3

Ringnorm 7400 20 2

Twonorm 7400 20 2

Mnist 60000 84 10

A noter que pour les expérimentations décrites dans cette section nous avons séparé aléatoirement les bases de don- nées, avec deux tiers des données destinées à l’apprentissage et le tiers restant autest.

3.2 Protocole Expérimental

Nos expérimentations ont donc consisté à mettre en œuvre les deux méthodes de sélection de classifieurs présen- tées précédemment, et à les appliquer àun large ensemble d’arbres de décision générés par l’algorithme Forest-RI. Le butétant de visualiser et d’étudier l’évolution du taux d’er- reur de chaque sous-ensemble obtenudurant les processus de sélection sur les ensembles de test, le protocole expérimental exact est décrit dans cette partie.

Premièrement, chaque base de données aétédivisée en deux sous-ensembles de données comme mentionnédans la section précédente ;un pour l’apprentissage et l’autre pour le test. La séparation des données a été réalisée par tirage aléatoire, avec respectivement deux tiers des données pour l’apprentissage et le tiers restant pour le test. Comme nous l’avons déjà expliqué, notre but est d’étudier l’évolution

(5)

des performances des forêts en fonction dunombre d’arbres qu’elles contiennent. Donc seuleune séparation aétéréalisée pour chaque base de données. On note les sous-ensembles résultants parT = (Tr, Ts)TretTsreprésentent respec- tivement les ensembles d’apprentissage et de test.

Une RF a ensuiteétéinduite à partir des données deTr, avecun nombreLd’arbres fixéà300. La valeur de l’hyper- paramètreKaétéfixée à

M, qui estune valeur par défaut communémentutilisée dans la littérature. Un précédent tra- vail sur la paramétrisation des RF, présentédans [BER 08]

a montréque cette valeur deKestun bon compromis pour produire une forêt performante. Les méthodes SFS et SBS ont alors été appliquées sur cette forêt de 300 arbres, de sorte qu’à chaque itérationun arbre est ajouté(SFS) oure- tiré(SBS) ausous-ensemble courant si sa contribution — en termes de taux d’erreur — à celui-ci est minimale (SFS) ou maximale (SBS). Une troisième méthode de sélection aété mise en œuvre. Elle ajoute itérativement un arbre ausous- ensemble courant en le sélectionnant aléatoirement parmi les arbres restants dans la forêt initiale. Ce processus de sélec- tion, que nous notons SRS (pour Sequential Random Selec- tion), permet de simuler des inductions répétitives de RF avec l’algorithme Forest-RI, pourun nombre croissant d’arbres al- lant de1àL. Ainsi, trois tableaux deLvaleurs de taux d’er- reur ontétéobtenus avec cette démarche expérimentale, et ce pour chaque base de données.

Algorithm 1Protocole Expérimental

ENTRÉES: N le nombre de données disponibles.M la di- mension de l’espace de description.

Tirer aléatoirement sans remise 23×N des données de la base pour former l’ensemble d’apprentissageTr. Les don- nées restantes forment alors l’ensemble de testTs. hForest-RI(L= 300,K=

M,Tr).

h(0)SF S ← ∅.

h(0)SBSh.

h(0)SRS ← ∅.

pouri= 1to Lfaire

h(i)SF S h(i−1)SF S h(k) k = argminh(j)/∈h(i−1) SF S

{error(h(i−1)SF S h(j),Ts)}.

h(i)SBS h(i−1)SBS \h(k) k = argminh(j)∈h(i−1) SBS

{error(h(i−1)SBS \h(j),Ts)}.

h(i)SRS h(i−1)SRS h(k) k =random(j), h(j) / h(i−1)SRS .

Enregistrer les taux d’erreur deh(i)SF S,h(i)SBSeth(i)SRS. fin pour

L’algorithme 1 résume le protocole expérimental complet appliquéà chaque base de données. Cette procédure fournit en sortieun tableaude valeurs de tailleL×3(un tableaupour chaque méthode de sélection), qui contient les différents taux d’erreur obtenus. Ces résultats sont détaillés et analysés dans la section suivante.

3.3 Résultats

La figure 1 présente10 diagrammes correspondant aux 10 bases de données étudiées. Pour chacun d’eux trois courbes ont été dessinées, représentant les taux d’erreur obtenus avec les trois méthodes de sélection décrites précé- demment. Le tableau 2 résume les meilleurs taux d’erreurs obtenus pour chaque processus de sélection appliqué à chaque base de données, ainsi que le nombre d’arbres du sous-ensemble correspondant.

Lorsque l’on examine le tableau2 on peut tout d’abord observer qu’en dépit de la sous-optimalitédes méthodes SFS et SBS, ces algorithmes permettent dans la totalitédes cas de trouverun sous-ensemble d’arbres meilleur en terme de per- formances que la forêt initiale, induite avec Forest-RI. Cette observation met enévidence l’interêt d’étudier la sélection de sous-ensembles d’arbres pour une RF, dans le but d’en améliorer les performances. On peut supposer par consé- quent qu’il doit être possible d’améliorer encore plus les performances en cherchant le sous-ensemble d’arbres opti- mal, enutilisant par exemple des méthodes de sélection opti- males (comme la méthode Branch and Bound par exemple [SOM 04]) ou approchant l’optimalité (comme les Algo- rithmes Génétiques [HAO 03]).

Une deuxième observation qui peut être faite à partir des diagrammes de la figure 1 est que le taux d’erreur mini- mum obtenupour chaque base de données, est atteint pour un sous-ensemble d’un nombre d’arbres très petit en com- paraison avec l’ensemble d’origine, i.e. presque à chaque fois inférieur à 100 arbres. Cela correspond à moins d’un tiers du nombre total d’arbres dans la forêt de départ. En d’autres termes pour chaque RF induite aucours de nos ex- périmentations, au moins deux tiers des arbres ont étére- tirés de l’ensemble pour réussir à atteindre les meilleures performances. Ce nombre est même parfois beaucoup plus important puisque les meilleures performances ontété at- teintes pour certaines bases de données avec moins de 30 arbres (Segment et Vehicle), ce qui correspond à seulement 10%du nombre total d’arbres induits dans la forêt initiale.

Cela montre que parmi tous les arbres de la forêt, seuls quelques-uns peuvent être combinés pour obtenirun classi- fieur performant. En outre ces résultats mettent enévidence que quandune RF est induite avecun algorithme d’induction

"classique" tel que Forest-RI, tous les arbres ne permettent pas systématiquement d’améliorer les performances de l’en- semble, et que l’ajout de certains d’entre eux à l’ensemble a même pour conséquence de faire augmenter le nombre d’er- reurs de prédiction. De plus, le fait que le processus de re- cherche en avant (SFS) soit systématiquement l’approche la plus efficace pour trouverun sous-ensemble d’arbres sous- optimal nous laisse penser qu’il serait intéressant d’étudier la possibilitéd’induireune RF dynamiquement en n’ajoutant à l’ensemble que les arbres de décision dont on est certain qu’ils permettraient d’améliorer les performances en géné- ralisation de l’ensemble. Un tel processus d’induction dyna- mique serait intéressant à la fois en termes de coût de traite- ment et de gain de performances.

(6)

FIG. 1 – Taux d’erreur obtenus aucours duprocessus de sélection sur les10base de données. La courbe noire représente les taux d’erreur obtenus avec SFS, la courbe grise les taux d’erreur obtenus avec SBS et la courbe en pointilléles taux obtenus avec SRS.

TAB. 2 – Récapitulatif des taux d’erreur minimum obtenus et des nombres d’arbres des sous-ensembles correspondants.

Bases SFS SBS Forest-RI

taux d’erreur # arbres taux d’erreur # arbres 300arbres

Gamma 11.07 79 11.17 50 12.19

Letter 3.07 98 3.20 70 4.09

Pendigits 0.41 32 0.57 28 1,01

Segment 0.66 15 1.57 8 2.49

Spambase 3.33 31 3.98 24 5.22

Vehicle 14.29 25 19.64 9 26.79

Waveform 10.16 86 10.46 56 14

Ringnorm 1.9 34 2.15 31 3.33

Twonorm 1.82 75 2.19 51 3.2

MNIST 4.41 97 4.4 119 4.93

4 Conclusion

Dans cet article,uneétude sur la sélection d’arbres de dé- cision pour les RF aétéprésentée. Le butétait de mettre en évidence que certains sous-ensembles d’arbres de décision peuvent présenter de meilleures performances que la forêt initiale. Deux méthodes de sélection de classifieurs ont été utilisées : SFS (Sequential Forward Selection) et SBS (Se- quential Backward Selection). En dépit de la sous-optimalité de ces deux méthodes, ce travail a montré qu’il est tou-

jours possible de trouverun sous-ensemble d’arbres plus per- formant qu’une forêt induite avecun algorithme "tradition- nel" tel que Forest-RI, pour peuque ces arbres puissent être soigneusement sélectionnés. Il serait par ailleurs intéressant d’appliquer d’autres méthodes de sélection plus efficaces que SFS et SBS, telles que par exemple la méthode Branch and Bound [SOM 04] oules Algorithmes Génétiques [HAO 03]

pour notamment mieux percevoir dans quelle mesure ce ou ces sous-ensembles peuvent surpasser la forêt initiale.

(7)

Ces expérimentations ontégalement mis enévidence que la meilleure sous-forêt parmi celles que nous avons putrou- ver à l’aide de nos processus de sélection, contient toujours très peud’arbres en comparaison avec la forêt initiale. Pour toutes les bases que nous avonsétudiées, aumoins deux tiers des arbres ont dû être retirés de l’ensemble initial pour at- teindre le taux d’erreur le plus faible. Pour certains même, ce ratio s’estélevéà90%dunombre total d’arbres. Cela si- gnifie qu’aucours de l’induction d’une RF, tous les arbres ne permettent pas nécessairement d’améliorer l’erreur en gé- néralisation et que seulementun nombre réduit d’entre eux est en réaliténécessaire à l’ensemble pour obtenirun clas- sifieur performant. Par conséquent nous pensons qu’étudier la possibilitéde contrôler l’induction d’une forêt, dans le but de n’ajouter à l’ensemble que les arbres qui en améliorent les performances, seraitune bonne perspective à ce travail. Il se- rait notamment intéressant de pouvoir caractériser ces arbres dans le but de pouvoir diriger l’induction de la forêt, ce qui présenteraitun intérêt à la fois en termes de complexitéalgo- rithmique et en termes de gain de performances.

Ce travail apporte doncune réponse à la première ques- tionévoquée en introduction :une RF induite à l’aide d’un al- gorithme d’induction "classique" contient-elle des arbres de décision qui en détériorent les performances ? Cette réponse est bienévidemment oui. Cependantune problématique reste ouverte, à savoir comment peut-on identifier a priori les arbres de décision à ajouter ou à retirer de la forêt initiale, pour trouver la meilleure sous-forêt possible. Nous pensons que cette problématique devrait être abordée à travers l’étude de propriétés telles que le compromis force/corrélation tel que Breiman le définit dans [BRE 01], la propriété de di- versité, ou les spécificités intrinséques aux arbres de déci- sion comme les critères de partitionnementutilisés à chaque nœud, oules données d’apprentissageutilisées via le principe de bagging.

Références

[ASU 07] ASUNCION A., NEWMAN D., UCI Machine Learning Repository, 2007.

[BER 07] BERNARDS., HEUTTEL., ADAMS., Using Ran- dom Forests for Handwritten Digit Recognition, Inter- national Conference on Document Analysis and Recogni- tion, pp. 1043–1047, 2007.

[BER 08] BERNARD S., HEUTTEL., ADAM S., Influence of Hyperparameters on Random Forest Accuracy,Techni- cal Report, University of Rouen, , 2008.

[BOI 05] BOINEE P., ANGELIS A. D., FORESTIG., Meta Random Forests,International Journal of Computational Intelligence, vol. 2, no 3, pp. 138–147, 2005.

[BRE 84] BREIMAN L., FRIEDMAN J., OLSHEN R., STONE C.,Classification and Regression Trees, Chap- man and Hall (Wadsworth, Inc.) : New York, 1984.

[BRE 96] BREIMANL., Bagging Predictors,Machine Lear- ning, vol. 24, no 2, pp. 123–140, 1996.

[BRE 98] BREIMAN L., Arcing classifiers, The Annals of Statistics, vol. 26, no 3, pp. 801–849, 1998.

[BRE 01] BREIMAN L., Random Forests, Machine Lear- ning, vol. 45, no 1, pp. 5–32, 2001.

[BRE 04] BREIMANL., Consistency of random forests and other averaging classifiers, Technical Report, , 2004.

[CUT 01] CUTLER A., ZHAO G., PERT - Perfect Ran- dom Tree Ensembles, ComputingScience and Statistics, vol. 33, 2001.

[FRE 96] FREUND Y., SCHAPIRE R., Experiments with a New Boosting Algorithm, International Conference on Machine Learning, pp. 148–156, 1996.

[GEU 06] GEURTS P., ERNST D., WEHENKELL., Extre- mely Randomized Trees, Machine Learning, vol. 36, no 1, pp. 3–42, 2006.

[HAO 03] HAO H., LIU C., SAKO H., Comparison of ge- netic algorithm and sequential search methods for classi- fier subset selection., Seventh International Conference on Document Analysis and Recognition, vol. 2, pp. 765–

769, 2003.

[HO 98] HO T., The Random Subspace Method for Constructing Decision Forests,IEEE Transactions on Pat- tern Analysis and Machine Intelligence, vol. 20, no 8, pp. 832–844, 1998.

[KOH 97] KOHAVIR., JOHN G. H., Wrappers for Feature Subset Selection, Artificial Intelligence, vol. 97, no 1-2, pp. 273-324, 1997.

[KUN 03] KUNCHEVAL., That Elusive Diversity in Classi- fier Ensembles,IbPRIA, pp. 1126–1138, 2003.

[KUN 04] KUNCHEVAL.,CombiningPattern Recognition.

Methods and Algorithms, John Wiley and Sons, 2004.

[LAT 01] LATINNE P., DEBEIR O., DECAESTECKER C., Limiting the Number of Trees in Random Forests, 2nd International Workshop on Multiple Classifier Systems, pp. 178–187, 2001.

[LEC 98] LECUNY., BOTTOUL., BENGIO Y., HAFFNER

P., Gradient-Based Learning Applied to Document Re- cognition, Proceedings of the IEEE, vol. 86, no 11, pp. 2278–2324, 1998.

[ROB 04] ROBNIK-SIKONJA M., Improving Random Fo- rests, European Conference on Machine Learning, LNAI 3210, Springer, Berlin, pp. 359–370, 2004.

[ROD 06] RODRIGUEZ J., KUNCHEVA L., ALONSO C., Rotation Forest : A New Classifier Ensemble Method, IEEE Transactions on Pattern Analysis and Machine In- telligence, vol. 28, no 10, pp. 1619–1630, 2006.

[ROL 01] ROLIF., GIACINTOG., VERNAZZAG., Methods for Designing Multiple Classifier Systems,Multiple Clas- sifiers Systems, pp. 78–87, 2001.

[SOM 04] SOMOL P., PUDILP., KITTLER J., Fast Branch and Bound Algorithms for Optimal Feature Selection, IEEE transactions on Pattern Analysis and Machine In- telligence, vol. 26, no 7, pp. 900–912, 2004.

Références

Documents relatifs

SI tous les points de X sont de même classe, créer une feuille associée à cette classe SINON. - choisir (selon critère !)

– L’attribut avec le plus grand gain d’information est sélectionné.  Méthode ID3 pour la construction de l’arbre

la définition d’un critère permettant de sélectionner la meilleure division parmi toutes celles admissibles pour les différentes variables.. une règle permettant de décider

Contributions du chapitre : développement d’une nouvelle méthode par arbre per- mettant de construire des règles de classification à partir de variables groupées et intro-

Ensuite, quand il fait très chaud, le baobab utilise l’eau et son tronc maigrit.. Son fruit se mange et s’appelle « pain de

De vieux arbres sont aussi partis en fumée aux Canaries et près de la montagne d’Alaric, dans l’Aude, rendant notre air un peu plus irrespirable.. Cela nous a renforcés dans

Nous avons étudié une méthode statistique qui prédit de manière jointe les déplacements en latitude et en longitude sur un horizon de 120 h avec un pas de 6 h à partir des

On s’intéresse ensuite aux diagrammes de décision ordonnés, qui ont la propriété qu’une formule logique admet un unique diagramme de décision ordonné réduit, ce qui permet