Forêt à Sous espaces Aléatoires (Sub

La méthode proposée permet la création d’un ensemble de classifieurs en utilisant le procédé du SubBag [71] pour la génération des échantillons d’apprentissage tandis que les classifieurs sont des arbres de décisions générés en utilisant l’algorithme Forest-RI [51]. Cette méthode d’induction d’arbres a été nommée Sub_RF (pour Subspaces Random Forest) (Algorithme 4).

Algorithm 4 Pseudo code de l’algorithme Sub_RF

1: Entrées : L’ensemble d’apprentissage L, Nombre d’arbres N, Taille du sous-espace S.

2: Sortie : Ensemble d⁰arbres

3: Processus : 4: for i = 1 ! N do 5: Ti BootstrapSample(T ) 6: Ti SelectRandomSubSpaces(Ti; S) 7: Ci ConstructRF _tree(Ti) 8: E E [ fCig 9: end for 10: Retourner E

Cet algorithme ajoute un autre niveau de randomisation à la méthode du SubBag grâce à la fonction ConstructRF _tree() qui permet de créer des arbres à l’aide du principe des forêts aléatoires. Pendant le processus d’apprentissage des arbres, à chaque nœud, la sélection de la meilleure répartition sur la base de l’indice de Gini est effectuée non pas sur l’ensemble des attributs M mais sur un sous-ensemble sélectionné de façon aléatoire (racine de M selon l’algorithme Forest-RI).

4 Résultats et interprétations

Notre approche a été testée sur cinq bases de données du dépôt d’UCI Machine Learning Repository [84]. Les bases de données qui ont été utilisées dans nos expériences sont décrites dans le tableau (Table 15).

Bases de données # Instances # Variables # Classes

Breast 699 9 2

Ecoli 366 7 8

Isolet 7797 617 26

Liver 345 6 2

Pima 768 8 2

Table 4 – Paramètres des bases de données d’expérimentations

Dans nos expériences, quatre algorithmes différents sont mis en œuvre à savoir PERT [97], Random Forest [51], SubBag [71] et notre méthode proposée Sub_RF. L’objectif est de visualiser et d’étudier l’évolution de l’erreur de chaque technique.

Tout d’abord, chaque base de données a été divisée en deux sous-ensembles de données, une pour l’apprentissage et l’autre pour le test en utilisant la validation croisée (5-fold cross validation). La division de la base a été effectuée par tirage au hasard de la base initiale en respectant la distribution des classes. Comme il a été déjà expliqué, notre mé-thode utilise le Bootstraping pour générer les sous-bases, ainsi nous aurons en moyenne, pour chaque échantillon bootstrap 63,2% des exemples uniques à partir de l’ensemble d’origine, le reste étant des doubles (première randomisation).

CHAPITRE 2. ÉTUDE D’UNE FORÊT À SOUS ESPACES ALÉATOIRES

Pour nos expérimentations, les paramètres recommandés pour chaque algorithme seront utilisés. Dans [71], Panov et Dzeroski ont suggéré d’exploiter 75% de l’espace des at-tributs (à l’aide de la méthode RSM) pour chaque Bag (seconde randomisation). Pour le paramètre K de l’algorithme Random Forest, plusieurs travaux de la littérature ont montré qu’un nombre d’attributs égal à p

M (M est la taille de tout l’espace des attri-buts) est un bon compromis pour produire une forêt performante [51] [98].

Pour le choix de la taille de l’ensemble, nous avons développé plusieurs forêts aléatoires avec différents nombre d’arbres : 10, 50, 100, 200, 500 et 1000. Les résultats indiquent que, pour plus de 100 arbres, le taux d’erreur reste plus ou moins stable (Figure 7).

Figure 7 – Taux d’erreur de RF avec les différents nombres d’arbres

Dans ce qui suit, la taille de chaque forêt est fixée à 100 arbres. Dans un second temps, nous avons effectué une comparaison entre RF, SubBag et notre méthode proposée Sub_RF afin d’évaluer la performance de cette nouvelle technique pour générer des classifieurs à base d’arbres.

Bases de données PERT RF SubBag Sub_RF

Breast 0,0478 0,04 0,03 0,0403

Ecoli 0,2555 0,1672 0,1551 0,1499

Isolet 0,1982 0,0899 0,0808 0,0781

Liver 0,2816 0,2812 0,2603 0,2501

Pima 0,2541 0,2387 0,2311 0,2283

Table 5 – Taux d’erreurs des différents algorithmes

Les résultats (Table 5) montrent que Sub_RF donne de meilleurs performances par rapport aux autres méthodes, en raison de l’augmentation de sa randomisation. Cela peut être expliqué par le fait que, contrairement au RF, les arbres du Sub_RF sont très différents car ils n’utilisent pas tous les attributs et, contrairement à PERT, ils choisissent la meilleure variable. Sur la Base Breast Cancer, SubBag donne de meilleures performances que Sub_RF, cela peut s’expliquer par leur ressemblance dans la première et la seconde étape de randomisation. A partir de ces résultats, nous pensons que Sub_RF fournit globalement le meilleur compromis en terme de randomisation dans le cadre de la génération des forêts aléatoires.

CHAPITRE 2. ÉTUDE D’UNE FORÊT À SOUS ESPACES ALÉATOIRES

5 Conclusion

Dans ce chapitre, une nouvelle méthode de génération d’arbres appelée Subspaces Ran-dom Forest (Sub_RF ) qui utilise le Bagging, la méthode des Sous-espaces aléatoires et les Forêts Aléatoires a été essentiellement proposée. Cette méthode s’est, en fait, avérée efficace par rapport à la forêt aléatoire classique.

Pour cette raison, nous avons testé expérimentalement notre approche sur cinq bases de données du répertoire de l’UCI. Les résultats montrent que notre approche suggérée est compétitive aux méthodes existantes dans l’état de l’art.

Il reste plusieurs questions et limites de notre approche auxquelles nous souhaitons ré-pondre à l’avenir. Tout d’abord, nous voulons renforcer d’avantage ces résultats avec une analyse théorique ainsi que tester notre algorithme sur de grandes bases de données. Nous aimerions également tester certaines techniques de sélection ensemble afin de ne garder que les meilleurs arbres de la forêt vu que les arbres générés sont très différents.

CHAPITRE

3

Optimisation des Forêts Aléatoires Floues

1 Objectifs

Pour certains domaines d’application, il est essentiel de produire des procédures de clas-sification compréhensibles par l’utilisateur. C’est en particulier le cas pour l’aide au diagnostic médical où le médecin doit pouvoir interpréter les raisons du diagnostic auto-matique.

A ce titre plusieurs travaux sont effectués afin de développer des outils d’aide au diagnos-tic et de classification des maladies interprétables et transparents. Les arbres de décision répondent à ces contraintes car ils représentent graphiquement un ensemble de règles et sont aisément interprétables mais leur instabilité a conduit à l’élaboration de méthodes comme le Bagging (pour Bootstrap Aggregating) [37].

La Forêt Aléatoire «Random Forest» de Breiman [51] nous permet dans une certaine mesure de remédier à ce problème. Malgré la puissance de performance de ce dernier, la notion de stabilité n’est pas forcément présente. L’idée proposée est d’intégrer le flou pour retrouver la stabilité grâce aux arbres flous.

Dans ce travail [59], nous traitons l’extraction de la connaissance à partir des données, en appliquant les forêts aléatoires floues (Fuzzy Random Forest FRF) qui combinent la robustesse des arbres de décision, la puissance du caractère aléatoire qui augmente la diversité des arbres dans la forêt ainsi que la flexibilité de la logique floue. Les FRF’s ont la spécificité de contrôler des données imparfaites, de réduire le taux d’erreurs et de mettre en évidence plus de robustesse et plus d’interprétabilité.

De ce fait, nous nous focalisons sur l’étude des forêts aléatoires floues, et plus particu-lièrement leur l’amélioration par la méthode C-moyennes flous (FCM : Fuzzy C-Means) et ce afin d’optimiser l’apprentissage structurel des paramètres flous. Cette technique permet de réduire le nombre de sous-ensembles flous et de minimiser le nombre de règles pour une connaissance plus ciblée.

Ce chapitre est composé de 5 sections décrites comme suit : en premier lieu, un état de l’art sur les forêts aléatoires floues est réalisé dans ce contexte. En second lieu, nous présentons les méthodes et l’approche proposée. Par la suite, nous exposons les résul-tats et interprétations des algorithmes implémentés avec une synthèse sur les différentes techniques. En dernier lieu, seront présentées une conclusion générale et les perspectives futures pour ce travail .

CHAPITRE 3. OPTIMISATION DES FORÊTS ALÉATOIRES FLOUES

2 Univers flou

Nous ne pouvons aborder la forêt floue sans tout d’abord présenter les bases de la théorie floue.

Dans la vie quotidienne nous appliquons implicitement la logique floue, car les informa-tions ne sont pas toujours précises. Autrement, chaque personne peut se trouver dans des situations où elle utilise des informations incomplètes, après raisonnement, elle prend des décisions. Il a été nécessaire de créer une logique (Logique floue) qui admet des valeurs de vérité en dehors de l’ensemble binaire pour pouvoir tenir compte et manipuler ce genre d’information [99].

Dans le document Classification Semi-Supervisée des données Médicales. (Page 51-55)

Forêt à Sous espaces Aléatoires (Sub_RF )