Principe de la m´ethode

3.3 S´election de r`egles prototypes en plusieurs passes

|a1,a2,a3,a5,a6|

3.3 S´election de r`egles prototypes en plusieurs passes

3.3.1 Principe de la m´ethode

3.3.2 Mat´eriels et m´ethodes . . . . 81

3.3.3 Analyse des r´esultats exp´erimentaux . . . . 82

3.4 Conclusion . . . . 82

Dans la section 2.4.4 du chapitre 2, nous avons montr´e que les JEPs avec un support

´elev´e ne couvrent pas une part importante des objets mais ont cependant une confiance

élevée. Dans le cas d’une utilisation prédictive, ce défaut de couverture implique que la

règle par défaut d’un classifieur à base de règles, s’appuyant sur les JEPs fréquents, est

sou-vent utilisée et dégrade ainsi la précision du classifieur. Nous considérons les motifs utilisés

comme des r`egles concluant sur une classe. Dans ce chapitre, nous proposons une nouvelle

approche de sélection de règles ; cette dernière utilise un ensemble de règles prototypes afin

d’obtenir un ensemble de règles ayant une couverture significativement améliorée, tout en

conservant un niveau de confiance similaire aux r`egles prototypes. L’id´ee principale de la

méthode est de considérer un ensemble de règles avec un support élevé comme les règles

prototypes et de sélectionner parmi un ensemble de règles candidates, grâce à une

m´e-thode des plus proches voisins, celles qui sont les plus similaires aux r`egles prototypes.

Nous espérons ainsi que les règles sélectionnées aient presque la même confiance que les

r`egles prototypes tout en permettant de couvrir des objets qui ne l’´etaient pas.

Après avoir expliqué son fonctionnement, nous évaluerons dans une partie

expérimen-tale la méthode de sélection afin de savoir dans quelles proportions la couverture ou la

confiance sont améliorées. Nous montrerons aussi l’intérêt de la méthode de sélection dans

un cadre de classification, notamment avec l’utilisation du classifieur CPAR. Nous verrons

si la sélection permet d’améliorer la précision du classifieur et dans quelle mesure. Nous

terminons ce chapitre par une variante itérative de la méthode de sélection qui considère

que toutes les règles sélectionnées deviennent à leur tour des règles prototypes lors d’une

s´election de nouvelles r`egles.

3.1 Compromis entre deux mesures de qualit´e :

cou-verture et confiance

3.1.1 Motivation

Soit un jeu de données composé d’objets et partitionné en plusieurs classes, chaque

objet étant décrit par des attributs et un motif correspondant à une conjonction

d’at-tributs. Dans ce contexte, l’objectif du Rule Learning [CN89] est de trouver les

rela-tions int´eressantes entre les objets et leurs descriprela-tions. En fouille de donn´ees, on peut

citer ainsi plusieurs travaux qui entrent dans ce cadre, comme par exemple, les r`egles

d’associations [AMS

96], les motifs fr´equents [HCXY07] ou les motifs clos [BHPW10].

Dans ce chapitre, nous nous int´eressons auxSupervised Descriptive Rules (SDRs) qui

d´e-crivent le relation entre les descriptions des objets et une classe du jeu de donn´ees. Des

travaux importants ont été menés dans le domaine des SDR à savoir le subgroup

disco-very [Wro97, Atz15], les motifs ´emergents [DL99] et le contrast set mining [BP01]. Un

motif ´emergent est d´efini comme une conjonction d’attributs dont le support varie

signi-ficativement d’une classe `a une autre. En subgroup discovery, l’objectif est de d´ecouvrir

les groupes d’objets dont les descriptions qui varient le plus d’une classe `a une autre. Et

en contrast set mining, ce sont les conjonctions d’attributs qui diff`erent significativement

d’un groupe `a un autre. Ces travaux ayant tous pour objectif d’extraire les

conjonc-tions d’attributs fortement corrélées à une classe, Novak et al. [NLW09] ont donc défini

un cadre commun nomm´e supervised descriptive rule discovery. Ce cadre permet

d’uni-fier la terminologie, les d´efinitions et les m´ethodes de calcul. Les motifs qui concluent

3.1. Compromis entre deux mesures de qualit´e : couverture et confiance

fortement sur une classe présentent un intérêt particulier en matière de découverte de

connaissances [CC11, KW10, LPHL

10] ou de pr´ediction [GTC14].

Pour évaluer la qualité des motifs extraits, plusieurs mesures sont utilisées. Une liste

très complète de ces mesures est donnée dans [HCGdJ11, FGL12]. Francisco Herrera et

al [HCGdJ11] ont partitionné les mesures en quatre catégories comme la complexité, la

généralité, la précision et l’intérêt. On peut citer plusieurs mesures qui sont largement

exploit´ees en fouille de donn´ees comme les mesures de couverture [LKFT04a], de

sup-port [LKFT04a], de fr´equence [HCXY07] ou de taux d’´emergence [DL99].

Dans ce travail, nous nous concentrons sur les mesures de support, de taux

d’émer-gence. Nous utilisons la notion de règle qui correspond, dans notre cas, à un

conjonc-tion d’attributs (motif) comme pr´emisse et dont la conclusion est une classe. A la

sec-tion 2.4.4 du chapitre 2, nous avons montré expérimentalement que les règles (JEPs)

avec un support élevé ne couvrent généralement pas beaucoup d’objets du jeu données

mais ont une confiance importante. Cette affirmation peut se v´erifier dans la

litt´era-ture [KCC15, FR02, TW08].

Après avoir accepté les règles avec un fort pouvoir discriminant et beaucoup supportées

par le jeu de données, la question qui se pose est : comment pourrait-on intégrer à cet

ensemble d’autres r`egles afin de couvrir une plus grande partie des objets sans pour autant

dégrader la confiance obtenues sur les règles acceptées. Cela permettrait dans un contexte

de classification de trouver une explication pour la pr´ediction de la classe des objets qui

n’étaient pas couverts, et éventuellement, d’améliorer la précision du classifieur. Pour

r´ealiser cet objectif, nous utilisons une m´ethode des plus proches voisins pour valider les

règles candidates à l’intégration.

Un classifieur k-NN (k plus proches voisins) [CH67] pr´edit la classe d’un objet comme

étant la classe majoritaire parmi ses k voisins (généralement la distance euclidienne est

utilisée pour déterminer les voisins). Cependant ces classifieurs posent le problème du

nombre de voisins à consulter qui peut être très important et ainsi des temps de calcul très

longs sans oublier la tolérance au bruit. La sélection à base de prototypes [PDP06] a été