• Aucun résultat trouvé

3.5 Evaluation du syst`eme RuLe-Clust

3.5.5 Comparaison avec d’autres classifieurs

Enfin, nous terminons ces exp´erimentations par une ´etude permettant de positionner le syst`eme RuLe-Clust par rapport `a d’autres syst`emes de r´ef´erence dans le domaine de la classification supervis´ee. Pr´ecisons que notre objectif n’´etait pas de proposer une m´ethode plus performante que des syst`emes robustes tels que C4.5 ou C5.0. Cependant, une telle ´etude comparative est l´egitim´ee par une certaine curiosit´e.

Pour cela, nous observons, toujours dans des conditions identiques d’apprentissage, le taux de bonne classification obtenu par construction d’un arbre de d´ecision avec et sans ´elagage (C4.5 [149]), puis par un classifieur bas´e sur les instances (1 Plus Proche Voisin).

RuLe-Clust C4.5 C4.5

Base

(PoBOC) (avec ´elagage) (sans ´elagage) 1-PPV Audiology 88.5±0.01 84.6±0.02 80.8±0.03 80.8±0.03 Credit 85.7±5.82 86.2±5.11 82.7±4.93 78.5±5.04 Glass 68.4±13.74 72.1±10.53 73.2±12.12 76.8±8.61 Heart disease 84.8±7.92 91.7±0.01 87.8±4.83 83.5±9.14 Hepatitis 77.6±10.64 80.5±6.23 81.2±7.21 79.6±7.82 Iris 95.5±4.81 95.3±4.92 95.2±5.13 94.8±4.14 Soybean 84.3±0.03 86.7±0.01 85.6±0.02 74.7±0.04 Thyroid 94.8±6.93 94.8±7.83 95.2±7.42 97.6±3.81 Wine 95.6±4.81 93.9±6.03 93.9±6.03 95.5±4.72 Zoology 88.8±5.94 90.7±6.53 91.2±6.82 94.4±5.61 % Moyen 86.4% 87.7% 86.7% 85.6% Classt Moyen 2.5 2.2 2.4 2.6

Tab. 3.5 – Comparaison de diff´erents classifieurs.

Les r´esultats, pr´esent´es dans le tableau 3.5, indiquent que RuLe-Clust, C4.5 (avec ´elagage) et 1-PPV, obtiennent chacun les meilleurs taux de bonne classification sur trois des dix bases de test et se placent second sur deux autres bases. En moyenne, la perfor-mance du syst`eme RuLe-Clust est comparable `a la m´ethode C4.5 sans ´elagage. Ce r´esultat est meilleur d’environ 1 point, `a celui de la m´ethode bas´ee sur les instances (1-PPV), et inf´erieur dans les mˆemes proportions, `a la performance de C4.5 avec ´elagage.

L’´elagage d’un arbre de d´ecision consiste `a simplifier l’arbre par la suppression et la fusion de certaines branches, dans le but de limiter la sur-ad´equation avec les donn´ees d’en-traˆınement. Ce traitement, g´en´eralement post´erieur `a la phase d’apprentissage, am´eliore sensiblement les performances du syst`eme, comme nous le constatons dans notre exp´erimentation. On peut alors supposer qu’un traitement similaire am´eliorerait ´egalement les performances du syst`eme RuLe-Clust. Deux strat´egies (´eventuellement compl´ementaires) sont envisa-geables : d’une part l’int´egration de la notion de “tol´erance”, en autorisant chaque r`egle `a couvrir une proportion raisonnable d’exemples n´egatifs ; d’autre part la simplification a posteriori de l’ensemble de r`egles g´en´er´ees.

3.6 Conclusion

Dans ce chapitre, nous avons pr´esent´e le syst`eme RuLe-Clust (Rule-Learning from Clustering) permettant d’apprendre un ensemble de r`egles de classification, `a partir d’une d´ecomposition des donn´ees en sous-classes “naturelles”. Deux objectifs ´etaient alors vis´es : d’une part, nous cherchions `a adapter ce principe de d´ecomposition, d´ej`a utilis´e dans des syst`emes d’apprentissage bas´e sur les instances, au cas de la classification par apprentissage de r`egles ; d’autre part, dans la continuit´e des deux chapitres pr´ec´edents, le syst`eme RuLe-Clust nous a sembl´e offrir un cadre applicatif int´eressant, pour une ´evaluation objective de l’algorithme PoBOC.

Nous avons alors motiv´e le recours `a un processus de classification non-supervis´ee, afin de cibler des sous-classes “naturelles”, susceptibles d’induire chacune une r`egle pertinente. Ce principe g´en´eral de d´ecomposition a ´et´e pr´esent´e comme alternative aux syst`emes d’apprentissage s´equentiels : AQ, CN2 ou encore pFOIL.

Dans un deuxi`eme temps, nous nous sommes int´eress´e `a l’influence que peuvent avoir les recouvrements entre clusters, issus du processus de d´ecomposition, sur la qualit´e pr´edictive des r`egles induites. Nous avons alors montr´e que, dans certaines situations, ce type de sch´emas peut aider `a orienter la construction des r`egles vers une couverture plus “naturelle” des classes.

Enfin, les exp´erimentations propos´ees ont permi de confirmer les hypoth`eses formul´ees. Sur dix ensembles de tests, traditionnellement utilis´es pour ´evaluer les syst`emes de classifi-cation supervis´ee, nous avons observ´e d’abord que RuLe-Clust g´en`ere un ensemble de r`egles davantage pertinentes que le syst`eme ´equivalent proc´edant par couverture s´equentielle. L’utilisation de la connaissance induite par le processus de clustering permet de “hisser” un syst`eme du type pFOIL, `a un niveau de performance approchant les meilleurs syst`emes existants (e.g. C4.5).

Finalement, l’algorithme PoBOC a ´et´e ´evalu´e avec succ`es, puisque nous avons montr´e empiriquement, que la d´ecomposition propos´ee par cet algorithme se traduit (via la g´en´eration d’un ensemble de r`egles), par un taux de bonne classification sup´erieur aux algo-rithmes de clustering traditionnels (hi´erarchiques ou par partitionnement). Cette sup´eriorit´e ´etant `a attribuer, d’une part, `a la qualit´e g´en´erale des clusters obtenus, et d’autre part, aux intersections entre ces clusters.

4

Apprentissage disjonctif par

d´ecomposition de concepts

Sommaire

4.1 Introduction . . . 104 4.2 Bases de la logique du premier ordre . . . 104 4.3 Apprentissage disjonctif . . . 105 4.3.1 Le syst`eme FOIL . . . 106 4.3.2 Le syst`eme GOLEM . . . 107

4.4 Extension du syst`eme RuLe-Clust `a la logique du premier ordre108

4.4.1 Apprentissage disjonctif d’un concept . . . 108 4.4.2 L’approche par d´ecomposition . . . 109 4.4.3 Exemple 1 : sous-concepts non-disjoints I . . . 110 4.4.4 Exemple 2 : description num´erique . . . 111 4.5 Mesure de similarit´e . . . 113 4.5.1 Langage infini . . . 114 4.5.2 Exp´erimentations . . . 117 4.6 Vue g´en´erale de la m´ethode . . . 122 4.6.1 Apprentissage d’une clause . . . 123 4.6.2 Complexit´e de la m´ethode globale . . . 123 4.6.3 Exp´erimentations . . . 124 4.7 Conclusion . . . 126

4.1 Introduction

Dans ce quatri`eme chapitre, nous proposons d’´etendre le principe g´en´eral illustr´e par le syst`eme RuLe-Clust, `a l’apprentissage de r`egles en logique du premier ordre (avec va-riables). Comme nous allons le voir, ce formalisme est plus expressif et permet de traiter des probl`emes difficiles voire impossibles `a repr´esenter dans le formalisme propositionnel, utilis´e jusqu’ici. Cependant, cette transition n’est pas sans poser des probl`emes, r´ecurrents en Programmation Logique Inductive (ILP), comme par exemple, la difficult´e `a tester la couverture d’un exemple par une r`egle ou la construction mˆeme de cette r`egle. L’approche par d´ecomposition, que nous avons ´etudi´e dans le chapitre pr´ec´edent, implique ´egalement la d´efinition d’une mesure de similarit´e, qui semble moins ´evidente en premier ordre.

Apr`es quelques rappels importants concernant la th´eorie de la logique du premier ordre, le probl`eme g´en´eral de l’apprentissage disjonctif dans ce formalisme est ´enonc´e. Nous pr´esentons alors deux strat´egies de base pour la construction d’une disjonction de r`egles logiques, illustr´ees par les syst`emes FOIL [150] et GOLEM [132]. Le principe d’ap-prentissage disjonctif par d´ecomposition de concepts est ensuite introduit, et compl´et´e par la proposition d’une mesure de similarit´e sur des objets d´ecrits dans ce formalisme. Des exemples adapt´es, permettent tout au long de cette ´etude d’illustrer et d’´evaluer les deux principaux choix op´er´es pour cette approche : la mesure de similarit´e et l’algorithme de classification non-supervis´ee PoBOC.