• Aucun résultat trouvé

Calcul de motifs sous contraintes pour la classification supervisée

N/A
N/A
Protected

Academic year: 2021

Partager "Calcul de motifs sous contraintes pour la classification supervisée"

Copied!
173
0
0

Texte intégral

(1)

HAL Id: tel-00516706

https://tel.archives-ouvertes.fr/tel-00516706

Submitted on 10 Sep 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

supervisée

Dominique Gay

To cite this version:

Dominique Gay. Calcul de motifs sous contraintes pour la classification supervisée. Interface

homme-machine [cs.HC]. Université de Nouvelle Calédonie; INSA de Lyon, 2009. Français. �NNT :

2009NCAL0044�. �tel-00516706�

(2)

N˚ d’Ordre :

TH ` ESE

pr´ esent´ ee devant

L’UNIVERSIT ´ E DE LA NOUVELLE-CAL ´ EDONIE et

L’INSTITUT NATIONAL DES SCIENCES APPLIQU ´ EES DE LYON

pour obtenir

LE GRADE DE DOCTEUR

Sp´ ecialit´ e INFORMATIQUE

Ecole Doctorale Pluridisciplinaire Num´ erique des Milieux Insulaires Ultra-Marins

pr´ esent´ ee par

Dominique Jo¨ el GAY

CALCUL DE MOTIFS SOUS CONTRAINTES POUR LA CLASSIFICATION SUPERVIS ´ EE

Soutenue publiquement le 30 novembre 2009 devant le jury :

Henri Bonnel, Professeur, Universit´ e de la Nouvelle-Cal´ edonie Pr´ esident

Bruno Cr´ emilleux, Professeur, Universit´ e de Caen Rapporteur

Ho Tu-Bao, Professeur, Japan Advanced Institute of Science and Technology Rapporteur

Marc Boull´ e, Chercheur, France T´ el´ ecom R&D Examinateur

Eibe Frank, Associate Professor, Universit´ e de Waikato Examinateur

Nazha Selmaoui-Folcher, Maˆıtre de Conf´ erences, Universit´ e de la Nouvelle Cal´ edonie Co-directeur de th` ese

Jean-Fran¸ cois Boulicaut, Professeur, INSA-Lyon Co-directeur de th` ese

(3)
(4)

Remerciements

Tout d’abord, je tiens ` a remercier mes directeurs de th` ese Nazha Selmaoui-Folcher et Jean-Fran¸cois Boulicaut pour leur encadrement, leur aide, leurs conseils et encouragements tout au long de ce travail.

Je souhaite ´ egalement remercier Bruno Cr´ emilleux et Ho Tu-Bao pour m’avoir fait l’honneur d’accepter d’ˆ etre rapporteurs de ce m´ emoire de th` ese. Je remercie ´ egalement Marc Boull´ e, Eibe Frank et Henri Bonnel pour avoir particip´ e ` a l’´ evaluation de mon travail lors de la soutenance du m´ emoire.

Je remercie aussi les membres pass´ es et pr´ esents des ´ equipes PPME et ERIM de l’Uni- versit´ e de la Nouvelle-Cal´ edonie et de l’´ equipe TURING du LIRIS ` a l’INSA-Lyon pour leur accueil chaleureux. Merci en particulier ` a Christophe Rigotti, Claire Leschi, J´ er´ emy Besson et Fr´ ed´ eric Flouvat pour leurs discussions porteuses d’id´ ees. Merci ` a Isabelle Rouet pour sa collaboration et son courage . . . il en faut pour expliquer ` a des informaticiens cer- taines facettes de l’´ erosion des sols. Merci aussi ` a Lo¨ıc Cerf pour ses discussions passionn´ ees sur certains aspects de la fouille de donn´ ees mais aussi sur d’autres sujets de geek.

Je remercie bien sˆ ur ma famille et mes amis pour m’avoir soutenu pendant toute la dur´ ee de ce travail.

Enfin, merci ` a Virginie pour sa pr´ esence en chaque instant.

(5)
(6)

A Jean-Marc et Ma¨ıdhili

On se r´ ejouissait ` a ta naissance et tu pleurais.

Vis de mani` ere que tu puisses te r´ ejouir au moment de ta mort et voir pleurer les autres.

Proverbe persan

(7)
(8)

R´ esum´ e

Ces derni` eres ann´ ees, l’extraction de motifs locaux (itemsets fr´ equents et r` egles d’as- sociation) a suscit´ e beaucoup d’entrain pour la classification supervis´ ee. Cette th` ese traite du calcul et de l’usage de motifs sous contraintes pour la classification supervis´ ee. Nous nous attaquons ` a deux probl` emes difficiles en classification supervis´ ee ` a base de motifs et proposons deux contributions m´ ethodologiques :

– (i) D’un cˆ ot´ e, lorsque les attributs sont bruit´ es, les performances des classifieurs peuvent ˆ etre d´ esastreuses. Les m´ ethodes existantes consistent ` a corriger les valeurs d’attributs ou supprimer les objets bruit´ es – ce qui g´ en` ere une perte d’informa- tion. Dans ce m´ emoire, nous proposons une m´ ethode g´ en´ erique de construction de descripteurs robustes au bruit d’attributs – sans modifier les valeurs d’attri- buts ni supprimer les objets bruit´ es. Notre approche se d´ eroule en deux ´ etapes : premi` erement nous extrayons l’ensemble des r` egles δ-fortes de caract´ erisation. Ces r` egles offrent des propri´ et´ es de corps minimal, de non-redondance et sont bas´ ees sur les itemsets δ-libres et leur δ-fermeture – qui ont d´ ej` a fait leur preuve pour la caract´ erisation de groupements dans des contextes bruit´ es. Deuxi` emement, nous construisons un nouveau descripteur num´ erique robuste pour chaque r` egle extraite.

Les exp´ erimentations men´ ees dans des donn´ ees bruit´ ees, montrent que des classi- fieurs classiques sont plus performants en terme de pr´ ecision sur les donn´ ees munies des nouveaux descripteurs que sur les donn´ ees avec les attributs originaux.

– (ii) D’autre part, lorsque la distribution des classes est in´ egale, les approches exis- tantes de classification ` a base de motifs ont tendance ` a ˆ etre biais´ ees vers la classe majoritaire. La pr´ ecision sur la (ou les) classe(s) majoritaire(s) est alors ´ elev´ ee au d´ etriment de la pr´ ecision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce probl` eme est dˆ u au fait que les approches existantes ne tiennent pas compte de la r´ epartition des classes et/ou de la fr´ equence relative des motifs dans chacune des classes de la base. Pour pallier ce probl` eme, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les r` egles de ca- ract´ erisation One-Versus-Each (OVE-r` egles). Ce nouveau cadre de travail n´ ecessite le param´ etrage d’un nombre cons´ equent de seuils de fr´ equence et d’infr´ equence.

Pour ce faire, nous proposons un algorithme d’optimisation de param` etres, fitcare ainsi qu’un algorithme d’extraction d’OVE-r` egles. Les exp´ erimentations men´ ees sur des donn´ ees UCI multi-classes disproportionn´ ees et sur des donn´ ees de diagnostic de m´ eningite aigu¨ e, montrent que notre approche fitcare est plus performante que les approches existantes en terme de pr´ ecision sur les classes mineures.

L’application de notre m´ ethode de classification associative ` a l’analyse de donn´ ees d’´ erosion des sols en Nouvelle-Cal´ edonie a mis en ´ evidence l’int´ erˆ et de notre proposition pour caract´ eriser les ph´ enom` enes d’´ erosion.

Mots-cl´ es : Extraction de motifs sous contraintes, Classification Associative, Construc-

tion de Descripteurs, Tol´ erance au Bruit, Probl` emes Multi-Classes in´ egalement distribu´ ees

(9)
(10)

Abstract

Recent advances in local pattern mining (eg. frequent itemsets or association rules) has shown to be very useful for classification tasks. This thesis deals with local constraint- based pattern mining and its use in classification problems. We suggest methodological contributions for two difficult classification tasks :

– (i) When training classifiers, the presence of attribute-noise can severely harm their performance. Existing methods try to correct noisy attribute values or de- lete noisy objects – thus leading to some information loss. In this thesis, we propose an application-independent method for noise-tolerant feature construction – without modifying attribute values or deleting any objects. Our approach is two-step : Firstly, we mine a set δ-strong characterization rules. These rules own fair properties such as a minimal body, redundancy-awareness and are based on δ-freeness and δ-closedness – both have already served as a basis for a fault-tolerant pattern and for cluster characterization in noisy data sets. Secondly, from each extracted rule, we build a new numeric robust descriptor. The experiments we led in noisy environments have shown that classical classifiers are more accurate on data sets with the new robust features than on original data – thus validating our approach.

– (ii) When class distribution is imbalanced, existing pattern-based classification me- thods show a bias towards the majority class. In this case, accuracy results for the majority class are abnormally high to the expense of poor accuracy results for the minority class(es). In this thesis, we explain the whys and whens of this bias.

Existing methods do not take into account the class distribution or the error repar- tition of mined patterns in the different classes. In order to overcome this problem, we suggest a new framework and deal with a new pattern type to be mined : the One-Versus-Each-characterization rules (OVE). However, in this new framework, se- veral frequency and infrequency thresholds have to be tuned. Therefore, we suggest fitcare an optimization algorithm for automatic parameter tuning in addition to an extraction algorithm for OVE-characterization rule mining. The experimentations on imbalanced multi-class data sets have shown that fitcare is significantly more accurate on minor class prediction than existing approaches.

The application of our OVE framework to a soil erosion data analysis scenario has shown the added-value of our proposal by providing a soil erosion characterization validated by domain experts.

Keywords : Constraint-based Pattern Mining, Pattern-based classification, Feature Construction, Noise-Tolerance Classification, Imbalanced Data Sets, Multi-class Classifi- cation

Note for English readers : To enjoy the main contributions of this thesis, English

readers may refer to [GSB08, CGSB08, GSB09].

(11)
(12)

Notations utilis´ ees

r : base de donn´ ees binaires T : ensemble d’objets I : ensemble d’attributs C ensemble de classes

T

ci

: ensemble d’objets de classe c

i

T A : taux d’accroissement

IG : gain d’information E : entropie

SI : split info GR : gain ratio

CEC : class d’´ equivalence de fermeture δ-CEC : class d’´ equivalence de fermeture δ-SCR : r` egle δ-forte de caract´ erisation OVA : One-Versus-All

OVE : One-Versus-Each

OVE-CR : r` egle de caract´ erisation One-Versus-Each

(13)
(14)

Table des mati` eres

Remerciements . . . . iii

R´ esum´ e . . . vii

Abstract . . . . ix

Notations . . . . xi

I Introduction 1 II Etat de l’art 13 1 Usage multiple des motifs locaux en classification supervis´ ee 15 1.1 Contexte g´ en´ eral . . . . 15

1.2 M´ ethodes ` a base de r` egles . . . . 16

1.2.1 R` egles inductives . . . . 17

1.2.2 Classification associative . . . . 23

1.3 M´ ethodes ` a base d’itemsets ´ emergents . . . . 26

1.4 Limites . . . . 28

2 Repr´ esentations condens´ ees des itemsets fr´ equents 31 2.1 Th´ eories, bordures et repr´ esentations condens´ ees . . . . 31

2.2 Les itemsets ferm´ es . . . . 34

(15)

2.3 Les itemsets δ-libres . . . . 35

2.4 Autres repr´ esentations condens´ ees . . . . 37

2.4.1 Les itemsets ∨-libres . . . . 37

2.4.2 Les itemsets non-d´ erivables . . . . 38

2.4.3 Applications et discussion . . . . 41

2.5 Usage multiple des itemsets δ-libres . . . . 41

2.5.1 R` egles d’association δ-fortes . . . . 42

2.5.2 Motifs tol´ erants aux erreurs . . . . 43

2.5.3 Caract´ erisation de groupes . . . . 44

2.5.4 Classification supervis´ ee . . . . 46

2.6 Discussion . . . . 47

III Contributions m´ ethodologiques 49 3 Construction de descripteurs ` a base d’itemsets libres 51 3.1 Introduction . . . . 51

3.2 Arbre de d´ ecision ` a base de motifs . . . . 52

3.2.1 Principe des arbres de d´ ecision . . . . 53

3.2.2 R` egles δ-fortes et classes d’´ equivalence . . . . 56

3.2.3 δ-PDT : un arbre de d´ ecision ` a base de r` egles δ-fortes . . . . 58

3.2.4 Param´ etrage du processus et validation . . . . 62

3.2.5 Discussion . . . . 66

3.3 Processus g´ en´ erique de construction de descripteurs . . . . 66

3.4 Vers de nouveaux descripteurs num´ eriques . . . . 71

3.4.1 Nouveau codage num´ erique des descripteurs . . . . 71

(16)

Table des mati` eres

3.4.2 Param´ etrage et validation dans les contextes bruit´ es . . . . 73

3.5 Discussion et limites . . . . 81

4 Vers une solution pour les classes in´ egalement distribu´ ees 85 4.1 Introduction et probl´ ematiques . . . . 85

4.1.1 Contexte g´ en´ eral . . . . 85

4.1.2 Exemple motivant . . . . 87

4.2 Vers une approche OVE . . . . 89

4.2.1 Matrice de seuils et r` egles de caract´ erisation OVE . . . . 90

4.2.2 Contraintes entre param` etres . . . . 90

4.2.3 Extraction . . . . 92

4.2.4 Classification . . . . 93

4.3 Param´ etrage automatique avec fitcare . . . . 94

4.3.1 Hill-climbing : principe . . . . 94

4.3.2 Hill-climbing et fitcare . . . . 94

4.4 Validation exp´ erimentale . . . 100

4.5 Discussion et limites . . . 105

IV Sc´ enario de d´ ecouverte de connaissances appliqu´ e ` a l’´ erosion des sols en Nouvelle-Cal´ edonie 107 5 Caract´ erisation de l’´ erosion des sols en Nouvelle-Cal´ edonie 109 5.1 Contexte g´ en´ eral . . . 109

5.1.1 Probl´ ematique de l’´ erosion . . . 110

5.1.2 Bases de donn´ ees sur l’´ erosion . . . 110

5.2 Sc´ enario de d´ ecouverte de connaissances . . . 112

(17)

5.2.1 Pr´ e-traitement . . . 113

5.2.2 Extraction des r` egles de caract´ erisation OVE . . . 113

5.2.3 Construction d’un mod` ele pr´ edictif . . . 117

5.2.4 Estimation de l’al´ ea ´ erosion . . . 118

5.3 Discussion . . . 119

V Conclusion & Perspectives 123

Appendice - Description des donn´ ees d’exp´ erimentation 129

Appendice - Preuves 131

Appendice - Manuel de fitcare 133

(18)

Table des figures

1 Processus d’extraction de connaissances dans les donn´ ees . . . . 4

2 Processus de classification supervis´ ee et pr´ ediction . . . . 5

3 Gain d’information des k-itemsets fr´ equents . . . . 7

1.1 Processus de classification supervis´ ee ` a base de motifs . . . . 16

2.1 Repr´ esentation des itemsets ferm´ es, libres et des classes d’´ equivalence sous forme de treillis pour l’exemple de la table 2.1. . . . 36

2.2 Usage multiple des repr´ esentations d’itemsets fr´ equents . . . . 48

3.1 Arbre de d´ ecision C4.5 pour les donn´ ees weather. . . . 55

3.2 Les 4 cas typiques de (δ)-CECs. . . . 57

3.3 Arbres de d´ ecision sur weather . . . . 62

3.4 Processus g´ en´ erique de construction de descripteurs ` a base de motifs . . . . 63

3.5 Table de contingence pour la r` egle de classification π : X → c qui conclut sur la classe c. . . . 68

3.6 Table de contingence pour la r` egle δ-forte π : X → c

i

et bornes en fonction de γ et δ. . . . . 70

3.7 Processus g´ en´ erique de construction de descripteurs ` a base de motifs . . . . 72

3.8 Evolution de la pr´ ecision de FC-C4.5 en fonction de δ pour divers niveaux de bruits et seuils de fr´ equence pour les donn´ ees tic-tac-toe. . . . 76

3.9 Evolution de la pr´ ecision de FC-NB en fonction de δ pour divers niveaux de

bruits et seuils de fr´ equence pour les donn´ ees colic. . . . . 77

(19)

3.10 Evolution de la pr´ ecision de FC-SVM en fonction de δ pour divers niveaux

de bruits et seuils de fr´ equence pour les donn´ ees heart-cleveland. . . . . 78

3.11 Evolution de la pr´ ecision de FC-C4.5 en fonction du bruit pour diff´ erents seuils de γ et δ pour les donn´ ees tic-tac-toe. . . . 79

3.12 Evolution de la pr´ ecision d’entraˆınement de FC-C4.5 en fonction de δ pour diff´ erents seuils de γ et de bruit pour les donn´ ees tic-tac-toe. . . . 80

4.1 Exemple de donn´ ees aux classes disproportionn´ ees. . . . . 87

4.2 Evolution de la pr´ ecision par classe lorsque la classe 1 est minoritaire pour CPAR , fitcare et HARMONY sur la base waveform. . . 103

4.3 Evolution de la pr´ ecision par classe lorsque les classes 1 et 2 sont minori- taires pour CPAR , fitcare et HARMONY sur la base waveform. . . 103

4.4 Evolution de la pr´ ecision par classe lorsque les classes 1 et 3 sont minori- taires pour CPAR , fitcare et HARMONY sur la base waveform. . . 104

4.5 Evolution de la pr´ ecision par classe lorsque les classes 2 et 3 sont minori- taires pour CPAR , fitcare et HARMONY sur la base waveform. . . 104

5.1 Repr´ esentation de l’altitude pour les trois bassins versants de la zone d’´ etude.111 5.2 Sc´ enario d’extraction de connaissances dans les donn´ ees d’´ erosion en Nouvelle-Cal´ edonie . . . 112

5.3 Matrice confusion pour les r´ esultats de pr´ ecision sur le bassin de la Dumb´ ea.117 5.4 Matrice confusion pour les r´ esultats de pr´ ecision sur le bassin de la Ouenghi.117 5.5 Cartographie des zones d’´ erosion par pr´ ediction avec fitcare sur le bassin de la Dumb´ ea. . . 118

5.6 Cartographie des zones d’´ erosion par pr´ ediction avec fitcare sur le bassin de la Ouenghi. . . 119

5.7 Estimation de l’al´ ea ´ erosion pour le bassin de la Dumb´ ea. . . 120

5.8 Estimation de l’al´ ea ´ erosion pour le bassin de la Ouenghi. . . 120

5.9 Effet poivre et sel sur une partie zoom´ ee du bassin de la Dumb´ ea. . . 121

5.10 Table de contingence pour la r` egle X → c

i

concluant sur un attribut classe

c

i

. . . . 131

(20)

Liste des Algorithmes

1 Algorithme de couverture s´ equentielle . . . . 17

2 FOIL-ApprendreRegle . . . . 18

3 RIPPER-ApprendreRegle . . . . 19

4 CPAR-ApprendreRegle . . . . 21

5 APRIORI . . . . 24

6 Algorithme g´ en´ erique de construction d’arbre de d´ ecision . . . . 54

7 δ-PDT :Construction d’arbre de d´ ecision ` a base de motifs . . . . 60

8 FC : construction de descripteurs bas´ es sur les motifs . . . . 72

9 extract . . . . 93

10 fitcare . . . 100

(21)
(22)

Premi` ere partie

Introduction

(23)
(24)

Introduction

Ce manuscrit pr´ esente nos travaux de recherche sur l’exploitation de motifs dans des processus de classification supervis´ ee. Le domaine d’application choisi est l’analyse des ph´ enom` enes d’´ erosion des sols. Les principales contributions sont d’ordre m´ ethodologique.

Tout d’abord, nous proposons des m´ ethodes g´ en´ eriques, c’est-` a-dire ind´ ependantes d’un domaine d’application particulier, pour calculer des motifs locaux utiles ` a la construc- tion de mod` eles pr´ edictifs (classification supervis´ ee). Nous nous int´ eressons ensuite ` a des contextes de classification r´ eput´ es difficiles comme, par exemple, la construction de des- cripteurs robustes lorsque les exemples d’apprentissage sont bruit´ es ou encore le cas des r´ epartitions de classes possiblement nombreuses et d´ es´ equilibr´ ees.

Ce doctorat a ´ et´ e pr´ epar´ e sous la tutelle de deux universit´ es – l’Universit´ e de la Nouvelle-Cal´ edonie (UNC) et l’Institut National des Sciences Appliqu´ ees de Lyon (INSA- Lyon) – et nos travaux ont ´ et´ e r´ ealis´ es au sein des ´ equipes ERIM EA3791 et PPME EA3325 ` a l’UNC et de l’´ equipe TURING du LIRIS-CNRS UMR5205 ` a l’INSA-Lyon.

Contexte

Les ´ equipes TURING et l’´ equipe “Data Mining” des EA ERIM/PPME ont pour axe de recherche commun la “fouille de donn´ ees”. Une partie des efforts de recherche est d´ edi´ ee

`

a l’extraction de motifs dans les donn´ ees Bool´ eennes (dans la litt´ erature, elles sont aussi appel´ ees donn´ ees transactionnelles) et aux usages multiples de ces motifs.

La fouille de donn´ ees est une partie int´ egrante du processus de d´ ecouverte de connais- sances dans les bases de donn´ ees (en anglais KDD pour Knowledge Discovery in Data- bases). La communaut´ e internationale de fouille de donn´ ees s’accorde sur les principales

´ etapes du processus KDD [FPSSU96, HK00, TSK05]. Nous rappelons les diff´ erentes ´ etapes de ce processus en figure 1.

La premi` ere ´ etape de pr´ e-traitement consiste ` a transformer les donn´ ees brutes en un

format appropri´ e pour les ´ etapes suivantes d’analyse. Des exemples de pr´ e-traitement

(25)

Données brutes

Données préparées

Modèles

Connaissances

Pré-traitement

Fouille de données

Figure 1 – Processus d’extraction de connaissances dans les donn´ ees

sont la s´ election d’un sous-ensemble des enregistrements, la s´ election de sous-ensembles d’attributs descripteurs, la construction de nouveaux attributs descripteurs, une norma- lisation de certains attributs, la discr´ etisation ou binarisation des attributs num´ eriques, l’´ elimination du bruit dans les donn´ ees, le traitement des valeurs manquantes, etc. Il faut

´

egalement travailler ici ` a la d´ efinition des ´ eventuels param` etres d’entr´ ee de la tˆ ache de fouille de donn´ ees ` a r´ ealiser.

Selon [TSK05], les tˆ aches de fouille de donn´ ees peuvent ˆ etre consid´ er´ ees selon deux cat´ egories :

– Les tˆ aches descriptives : le but est d’extraire des motifs (e.g. des corr´ elations entre ensemble d’attributs, des tendances dans les donn´ ees, des groupes pertinents d’enre- gistrements ou clusters ou encore des anomalies dans les donn´ ees, . . . ) qui r´ esument les relations sous-jacentes aux donn´ ees.

– Les tˆ aches pr´ edictives : le but est de pr´ edire la valeur d’un attribut particulier ` a l’aide des valeurs des autres attributs. Cet attribut particulier est souvent appel´ e attribut classe ou label tandis que les autres attributs sont appel´ es des descripteurs.

Le post-traitement peut consister en la visualisation, l’interpr´ etation ou l’´ evaluation

(26)

des r´ esultats de la fouille. Mais aussi, cette ´ etape peut avoir pour but d’int´ egrer les mod` eles construits (descriptifs ou pr´ edictifs) dans des syst` emes d’aide ` a la d´ ecision.

Notez que le processus KDD se veut it´ eratif. Ainsi, l’interpr´ etation des informations ou connaissances obtenues ` a l’´ etape de post-traitement peuvent nous conduire ` a r´ eit´ erer tout ou partie du processus en utilisant ces mˆ emes connaissances selon les directives des experts du domaine d’application.

Dans ce manuscrit, nous nous focalisons sur la classification supervis´ ee pour les tˆ aches de pr´ ediction appliqu´ ees ` a des donn´ ees binaires. Les donn´ ees d’entr´ ee pour un algo- rithme de classification supervis´ ee sont des enregistrements (´ egalement appel´ es exemples).

Chaque enregistrement sera pour nous un tuple (I, c), o` u I est un ensemble d’attributs et c un attribut particulier, l’attribut cible (ou classe). Nous nous restreignons au cas o` u c est attribut nominal. Nous ne parlerons donc pas des m´ ethodes de regression qui s’appliquent lorsque l’attribut classe est de type num´ erique. Le but d’un processus de classification supervis´ ee est d’apprendre une fonction surjective qui ` a chaque enregistre- ment associe une valeur de l’attribut classe c. La fonction apprise est appel´ ee mod` ele de classification (ou classifieur). Ce mod` ele de classification peut ˆ etre utilis´ e par la suite pour la phase de pr´ ediction o` u l’on assigne une classe ` a de nouveaux enregistrements entrants (voir figure 2).

Données d’entrainement Modèle de classification

Nouvelles données

Nouvelles données classées Algorithme de

classification Prédiction

Figure 2 – Processus de classification supervis´ ee et pr´ ediction

(27)

Les domaines de l’apprentissage automatique et des statistiques ont donn´ e lieu ` a une multitude de m´ ethodes de classification supervis´ ee. Parmi les plus connues, on trouve la construction d’arbres de d´ ecision, celle de classifieurs bay´ esiens, l’induction de r` egles de classification, l’apprentissage de r´ eseaux de neurones ou encore de ”Support Vector Machines” ou SVM (appel´ es S´ eparateurs ` a Vastes Marges dans [CM02]). Nous renvoyons le lecteur, par exemple ` a [HK00], pour une ´ etude approfondie.

D’autre part, depuis le d´ ebut des ann´ ees 90, de nombreux chercheurs se sont int´ eress´ es

`

a la tˆ ache descriptive de l’extraction de motifs fr´ equents. Cet effort de recherche a mo- tiv´ e l’´ etude de m´ ethodes de classification supervis´ ee qui produiraient des classifieurs ex exploitant de tels motifs. Dans des donn´ ees transactionnelles, les motifs fr´ equents sont typiquement des sous-ensembles d’attributs (itemsets) dont le nombre d’occurrences est significatif, i.e. sup´ erieur ` a un seuil donn´ e. L’ensemble des itemsets fr´ equents capture donc certaines tendances ou r´ egularit´ es dans les donn´ ees. L’intuition serait que “Ce qui est fr´ equent peut ˆ etre int´ eressant”. En classification supervis´ ee, ce que nous recherchons, ce sont des m´ ecanismes qui sont discriminants pour l’attribut classe. Ainsi, un motif sera int´ eressant s’il s´ epare bien les objets qui le ”respectent” de ceux qui ne le ”respectent” pas au regard des ´ etiquettes de classes disponibles. La figure 3 confirme bien cette intuition.

Dans les deux graphiques, pour la base de donn´ ees UCI wine [AN07], nous repr´ esentons la valeur de gain d’information pour chaque itemset en fonction, respectivement, de leur taille k et de leur fr´ equence. Plus le gain d’information pour un motif est grand, plus ce motif est discriminant. Nous voyons clairement que les plus grandes valeurs de gain d’infor- mation sont atteintes pour des valeurs de k 6= 1 et des valeurs de fr´ equences diff´ erentes des extrˆ emes. Ainsi, il serait dommage de se limiter aux attributs simples car cela ´ equivaudrait

`

a se priver du potentiel de discrimination des k-itemsets ou ensembles de taille k. De plus, les itemsets tr` es peu fr´ equents ont une valeur de gain d’information limit´ ee. Les itemsets fr´ equents peuvent donc ˆ etre utiles pour un processus de classification supervis´ ee.

L’une des applications les plus ´ etudi´ ees des itemsets fr´ equents est la d´ ecouverte de r` egles d’association, un probl` eme introduit dans [AIS93]. Le but est d’extraire l’ensemble des r` egles de la forme π : I → J (o` u I l’ant´ ec´ edent et J le cons´ equent sont des en- sembles d’attributs ou itemsets disjoints) qui satisfont certaines contraintes d’int´ erˆ et – par exemple, selon des seuils de valeurs pour une mesure d’int´ erˆ et donn´ ee. Les premi` eres

´

etudes se sont focalis´ es sur les r` egles d’association valides, i.e., respectant une contrainte

de fr´ equence minimale et une contrainte de confiance minimale. La fr´ equence, not´ ee

f req(π, r) est le nombre d’occurrences de π dans les donn´ ees r. La confiance est la proba-

bilit´ e conditionnelle (dans les donn´ ees) que tous les attributs du cons´ equent d’une r` egle

appartiennent ` a une transaction qui implique tous les attributs de l’ant´ ec´ edent – soit

f req(π, r)/f req(I, r). Il existe d’autres mesures d’int´ erˆ et dans la litt´ erature ; la plupart

de ces mesures ´ etant souvent bas´ ees sur la notion de fr´ equence.

(28)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Taille des itemsets (k)

Gain d’information

Intérêt des k−itemsets

0 10 20 30 40 50 60 70 80 90 100 110 120

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Fréquence

Gain d’information

Intérêt des itemsets fréquents (wine)

Figure 3 – Gain d’information des itemsets en fonction de leur taille et de leur fr´ equence pour les donn´ ees wine

Bien qu’il soit important de diff´ erencier l’extraction de r` egles d’association du calcul de r` egles pour la classification supervis´ ee [Fre00], on sent bien que, sous certaines conditions, une r` egle d’association qui conclut sur un attribut classe peut ˆ etre utile pour construire un mod` ele de classification. Les pionniers en la mati` ere [LHM98] se sont donc int´ eress´ es

`

a l’ensemble des r` egles d’association concluant sur un attribut classe et respectant des seuils de fr´ equence et de confiance minimum. L’ensemble des r` egles extraites est ensuite ordonn´ ee sous forme de liste selon leur valeur de confiance et de fr´ equence. Cet ensemble ordonn´ e forme le mod` ele de classification. Ainsi, la premi` ere r` egle de la liste support´ ee par un nouvel exemple entrant t indique la classe ` a pr´ edire pour t.

Depuis, d’autres classifieurs associatifs ont ´ et´ e d´ evelopp´ es [LHP01, YH03, WK05].

Nous reviendrons en d´ etails sur ces m´ ethodes dans la seconde partie. Bien qu’il existe diff´ erentes m´ ethodes de classification supervis´ ee ` a base de motifs, les diff´ erents auteurs s’accordent sur plusieurs points cl´ es que se doit de respecter l’ensemble de motifs afin d’esp´ erer de bonnes performances de classification :

– (i) Les motifs de l’ensemble doivent ˆ etre int´ eressants selon une mesure d’int´ erˆ et discriminante pour l’attribut classe.

– (ii) L’ensemble des motifs doit offrir une bonne couverture des donn´ ees d’apprentis- sage, i.e., il faut que la quasi-totalit´ e des transactions utilis´ ees lors de l’apprentissage puissent ˆ etre couvertes par au moins un motif.

– (iii) L’ensemble des motifs doit ˆ etre concis et sans redondance.

(29)

Le contexte ´ etant pos´ e, nous identifions quelques probl` emes ouverts en classification supervis´ ee ` a base de motifs.

Repr´ esentations condens´ ees pour la classification supervis´ ee

La principale faiblesse commune aux approches de classification bas´ ees sur les motifs (itemsets ou r` egles d’associations) est le grand nombre de motifs extraits. En effet, pour capturer certaines tendances dans les donn´ ees, un seuil de fr´ equence assez bas peut ˆ etre requis. On se retrouve alors devant un tr` es grand nombre de motifs fr´ equents ` a extraire.

De plus, l’ensemble r´ esultat peut contenir et des motifs redondants et des motifs inutiles lorsqu’on est face ` a des donn´ ees imparfaites au sens o` u elles pourraient ˆ etre bruit´ ees.

Dans de tels cas, les temps d’extraction sont tr` es longs et les phases de post-traitement deviennent difficiles et tr` es couteuses.

Un progr` es essentiel pour la faisabilit´ e et la pertinence des calculs de motifs fr´ equents r´ eside dans l’´ etude des repr´ esentations condens´ ees, notamment celles qui exploitent des propri´ et´ es de fermetures [BB00, BTP

+

00, Zak00]. Intuitivement, une repr´ esentation condens´ ee d’une collection de motifs fr´ equents est une repr´ esentation alternative et plus concise permettant, si besoin est, de retrouver tous les motifs fr´ equents et leurs fr´ equences sans avoir ` a acc´ eder aux donn´ ees [MT96]. Le concept est g´ en´ eral et peut ˆ etre ´ etudi´ e pour diff´ erents types de motifs et diff´ erentes mesures, i.e., pas seulement la mesure de fr´ equence.

Les avantages des repr´ esentations condens´ ees sont clairs : elles peuvent ˆ etre extraites plus efficacement (en terme de temps et d’espace) que les collections de motifs qu’elles per- mettent de retrouver.

La formalisation de [BTP

+

00] est ´ el´ egante. Les auteurs proposent de grouper les itemsets ayant le mˆ eme support et support´ es par un mˆ eme ensemble de transactions.

Ainsi, les classes d’´ equivalence de support contiennent des itemsets qui ont le mˆ eme support et donc la mˆ eme fr´ equence. Avec un itemset par classe d’´ equivalence et sa fr´ equence, il est donc possible de d´ eduire la valeur de fr´ equence de tous les autres itemsets de la classe d’´ equivalence. Cette possibilit´ e d’inf´ erer la fr´ equence des item- sets am´ eliore consid´ erablement les performances d’extraction. Plusieurs repr´ esentations condens´ ees bas´ ees sur ces id´ ees ont ´ et´ e propos´ ees. Elles peuvent ˆ etre bas´ ees sur des itemsets particuliers des classes d’´ equivalence comme, par exemple, les itemsets ferm´ es – l’unique maximal (au sens de l’inclusion) d’une classe d’´ equivalence ou bien les itemsets cl´ es ou libres – les minimaux d’une classe d’´ equivalence. Nous renvoyons le lecteur ` a [CRB05]

pour une synth` ese sur cette question.

Puisque les itemsets d’une mˆ eme classe d’´ equivalence ont la mˆ eme fr´ equence, ils ont

(30)

aussi la mˆ eme valeur d’int´ erˆ et pour toute mesure d’int´ erˆ et bas´ ee sur la fr´ equence. Pour

´ eviter de la redondance, un seul itemset par classe d’´ equivalence peut ˆ etre retenu. Le choix d’un tel itemset repr´ esentant pour la classification supervis´ ee a ´ et´ e beaucoup discut´ e.

Certains auteurs sugg` erent les itemsets ferm´ es [GKL06, CYHH07], d’autres les itemsets libres [BC04, LLW07]. Il nous a sembl´ e important de mieux comprendre les argumentaires des uns et des autres et d’apporter ` a notre tour quelques ´ el´ ements de r´ eponse sur cette question (voir chapitre 3).

Classification supervis´ ee dans les donn´ ees bruit´ ees

Il est admis que les donn´ ees d’entr´ ee sont rarement parfaites. Souvent, la collection des donn´ ees reste probl´ ematique et impr´ ecise, les ´ etapes de discr´ etisation peuvent produire des codages Bool´ eens regrettables ou encore l’´ etiquetage des donn´ ees d’apprentissage (valeur de l’attribut classe) sera sujet ` a caution. En classification supervis´ ee, la pr´ esence de bruit peut avoir un impact n´ egatif sur la performance des classifieurs et, par cons´ equent, sur la pertinence des d´ ecisions prises avec ces mod` eles [ZW04]. On peut identifier deux types de bruits dans des donn´ ees binaires : le bruit de classe, lorsque le bruit affecte l’attribut classe ; et le bruit d’attributs lorsque le bruit affecte uniquement les attributs non-classe. Le bruit de classe a ´ et´ e intensivement ´ etudi´ e dans la litt´ erature. Le probl` eme du bruit d’attribut reste insuffisamment ´ etudi´ e. Si les m´ ethodes de traitement du bruit de classe suivant le processus “d´ etection - correction/d´ el´ etion” am´ eliorent la performance des classifieurs, rien n’est garanti lorsqu’on est face au bruit d’attribut. En effet, corriger les valeurs des attributs soi-disant d´ etect´ es ne nous rend pas des donn´ ees parfaites et supprimer les attributs ou transactions bruit´ es peut conduire ` a une perte inacceptable d’information.

Ainsi, la performance des classifieurs est d´ et´ erior´ ee.

Dans ce manuscrit, nous nous int´ eressons au probl` eme de la classification supervis´ ee bas´ ee sur les motifs en pr´ esence de bruit d’attribut. Dans un tel contexte, le nombre d’itemsets ferm´ es explose car les motifs ferm´ es que nous devrions avoir en l’absence de bruit deviennent fragment´ es. De fait, les motifs ferm´ es qui sont alors retrouv´ es ne sont plus assez repr´ esentatifs des tendances qu’il faudrait retrouver dans les donn´ ees. Ce probl` eme motive les travaux r´ ecents sur la d´ etection de motifs qui tol` erent des exceptions et, notam- ment, des extensions du concept d’itemset ferm´ es pour une tol´ erance aux erreurs (voir, par exemple, [BRB06] pour une proposition, ou encore [GFF

+

08] pour une synth` ese).

Dans [BBR00, BBR03], les auteurs proposent une repr´ esentation condens´ ee approxima- tive bas´ ee sur les itemsets δ-libres. Dans cette approche, l’approximation est gouvern´ ee par un entier δ qui indique un nombre d’exceptions maximal par attribut. Ainsi, au lieu de re- grouper les itemsets qui ont un support ´ equivalent, on regroupe les itemsets ayant presque le mˆ eme support (avec un gap maximum de δ entre les supports des diff´ erents itemsets).

Cette g´ en´ eralisation a ´ et´ e cr´ e´ ee pour pouvoir approximer la valeur de la fr´ equence des

autres itemsets (non-δ-libres) dans des contextes difficiles. Cependant, les itemsets δ-

(31)

comme l’extraction d’itemsets fr´ equents, la d´ ecouverte de sous-ensembles de r` egles d’as- sociation a priori int´ eressantes ou encore la caract´ erisation de clusters. Dans le chapitre 3, nous consid´ erons leurs utilisations dans un contexte de classification supervis´ ee en pro- posant une m´ ethode g´ en´ erique de construction de nouveaux descripteurs tol´ erants aux bruits d’attributs.

Probl` emes multi-classes in´ egalement distribu´ ees

Le probl` eme de la fouille de donn´ ees sur des classes in´ egalement distribu´ ees est l’un des dix probl` emes ouverts mis en avant par la communaut´ e scientifique

1

. Dans ce manus- crit, nous proposons des ´ el´ ements de solution pour la mise en oeuvre d’une classification supervis´ ee bas´ ee sur des motifs dans les bases de donn´ ees multi-classes et in´ egalement distribu´ ees. De mani` ere informelle, dans ce type de probl` eme, le nombre de classes est sup´ erieur ` a deux et parmi celles-ci au moins une (appel´ ee classe minoritaire) comporte beaucoup moins d’objets que certaines autres (classes majoritaires). Dans ce contexte, les approches utilisant le cadre fr´ equence-confiance atteignent leurs limites. En effet, pour esp´ erer capturer des motifs qui caract´ erisent une classe minoritaire, le seuil de fr´ equence doit ˆ etre bas (bien inf´ erieur ` a la taille de la classe minoritaire). Imposer un tel seuil global peut g´ en´ erer des motifs inint´ eressants pour la classe majoritaire. De plus, il a ´ et´ e montr´ e que le cadre fr´ equence-confiance est biais´ e vers la classe majoritaire [VC07]. Ce biais vient du fait que la taille des diff´ erentes classes n’est pas prise en compte dans un cadre fr´ equence-confiance. Les performances des classifieurs sont alors d´ et´ erior´ ees, en particulier pour les classes minoritaires.

Dans [DL99], les auteurs proposent un principe de classification bas´ e sur le concept de motif ´ emergent. Les motifs ´ emergents sont les motifs qui sont significativement plus fr´ equents dans une partie des donn´ ees que dans le reste de la base. La mesure d’int´ erˆ et qui caract´ erise les motifs ´ emergents est le taux d’accroissement. Le taux d’accroisse- ment d’un motif I pour une classe c

i

est simplement le rapport entre la fr´ equence re- lative de I dans r

ci

et la fr´ equence relative de I dans le reste des donn´ ees r \ r

ci

: soit (f req(I, r

ci

)/|r

ci

|)/(f req(I, r \ r

ci

)/|r \ r

ci

|). La construction de classifieurs bas´ es sur des motifs ´ emergents a bien ´ et´ e ´ etudi´ ee [DZWL99, LDR00b, LDR00a, LDR01, LRD01] et ces mod` eles ont fait leurs preuves. Cependant, les motifs ´ emergents d’une classe c

i

tiennent compte de la taille c

i

et de la taille du reste des donn´ ees. Malheureusement, si le reste des donn´ ees est compos´ ee de plusieurs classes, les approches actuelles ` a base de motifs

´

emergents n’en tiennent pas compte. Ainsi, dans certains cas, un motif ´ emergent pour une classe c

i

pourra tout aussi bien ˆ etre ´ emergent pour une autre classe c

j

appartenant au reste des donn´ ees. Le r´ esultat sera l’apparition de conflits de motifs et donc une d´ egradation de la performance des classifieurs utilis´ es.

1. 10 challenging problems at http://www.cs.uvm.edu/

icdm/

(32)

D’une mani` ere g´ en´ erale, les classifieurs ` a base de motifs existants suivent une approche dite OVA (One Versus All), i.e., pour un motif donn´ e, on s’int´ eresse ` a sa fr´ equence dans une classe donn´ ee et ` a sa fr´ equence dans le reste des donn´ ees. Nous pensons que la nature mˆ eme de cette approche est la raison premi` ere des probl` emes rencontr´ es par les classifieurs

`

a base de motifs dans les donn´ ees multi-classes in´ egalement distribu´ ees – en particulier en ce qui concerne la faible pr´ ecision dans les classes minoritaires et le biais des classifieurs OVA vers la classe majoritaire. Dans le chapitre 4, nous mettons en ´ evidence les probl` emes rencontr´ es par les approches OVA et proposons une nouvelle m´ ethode pour pallier aux probl` emes identifi´ es. Plus pr´ ecis´ ement, nous proposons un classifieur ` a base de motifs sp´ ecialement d´ edi´ e ` a ce type de probl` eme en suivant une approche dite OVE (One Versus Each) o` u pour un motif donn´ e, on s’int´ eressera ` a sa fr´ equence dans une classe c

i

et ` a sa fr´ equence dans chacune des autres classes c

j

(j 6= i) du reste des donn´ ees.

Organisation du m´ emoire

Ce m´ emoire est organis´ e en cinq parties de la mani` ere suivante :

La prochaine partie est consacr´ ee ` a un ´ etat de l’art de nos deux th` emes centraux.

Le chapitre 1 passe en revue les principales approches de classification supervis´ ee ` a base de motifs. Nous rappellerons les m´ ethodes ` a base de r` egles inductives, de r` egles associa- tion, et d’itemsets fr´ equents. Dans le chapitre 2, nous exposons l’existant en mati` ere de repr´ esentations condens´ ees des itemsets fr´ equents ainsi que leurs usages multiples en fouille de donn´ ees. Dans cette partie, nous poserons aussi le cadre th´ eorique de l’extraction de motifs sous contraintes [BRM05] ainsi que les d´ efinitions n´ ecessaires aux d´ eveloppements de nos contributions.

La troisi` eme partie d´ ecrit nos deux principales contributions ` a la classification su- pervis´ ee ` a base de motifs dans des contextes difficiles. Le chapitre 3 pr´ esente notre m´ ethode de construction de descripteurs bas´ ee sur les itemsets δ-libres pour la classi- fication supervis´ ee de donn´ ees binaires ´ eventuellement bruit´ ees. Puis, dans le chapitre 4, nous d´ eveloppons une nouvelle m´ ethode de classification associative d´ edi´ ee aux probl` emes multi-classes in´ egalement distribu´ ees. Ces deux chapitres contiennent ´ egalement les indis- pensables ´ etudes exp´ erimentales qui permettent l’´ etude empirique de nos propositions.

En quatri` eme partie, nous d´ eveloppons un sc´ enario d’extraction de connaissance pour l’analyse de l’´ erosion des sols en Nouvelle-Cal´ edonie.

Enfin, la cinqui` eme partie propose un bilan des travaux men´ es au cours de cette th` ese

et ouvre sur des perspectives de travaux futurs.

(33)
(34)

Deuxi` eme partie

Etat de l’art

(35)
(36)

Chapitre 1

Usage multiple des motifs locaux en classification supervis´ ee

Sommaire

1.1 Contexte g´ en´ eral . . . . 15 1.2 M´ ethodes ` a base de r` egles . . . . 16 1.2.1 R` egles inductives . . . . 17 1.2.2 Classification associative . . . . 23 1.3 M´ ethodes ` a base d’itemsets ´ emergents . . . . 26 1.4 Limites . . . . 28

1.1 Contexte g´ en´ eral

Dans ce chapitre, nous donnons le contexte de travail, i.e. les bases de donn´ ees tran- sactionnelles binaires labellis´ ees puis nous passons en revue les principales approches de classification supervis´ ee bas´ ee sur les motifs locaux (itemsets ou r` egles).

D´ efinition 1 (Base de donn´ ees transactionnelles binaires labellis´ ees) Une base

de donn´ ees binaires (ou contexte binaire) est un triplet r = {T , I, R} o` u T est un en-

semble d’objets appel´ es aussi transactions, I un ensemble d’attributs Bool´ eens appel´ es

aussi items ou propri´ et´ es et R une application telle que R : T × I 7→ {0, 1}. Lorsque

R(t, i) = 1, on dit que la transaction t contient l’item i – ou encore l’objet t res-

pecte la propri´ et´ e i. On distingue les attributs classe (ou labels) des autres attributs :

C = {c

1

, c

2

, . . . , c

p

} ⊆ I.

(37)

Utiliser les motifs locaux pour la classification supervis´ ee semble intuitif. Bien qu’il existe diff´ erentes approches, le processus utilis´ e est g´ en´ erique (cf figure 1.1) : (i) ` a partir des donn´ ees binaires, on extrait un ensemble de motifs, puis (ii) ` a partir de l’ensemble de motifs extraits, on construit un classifieur.

Données binaires Ensemble de motifs Modèle de classification

Extraction de motifs

Construction de modèle prédictif

Figure 1.1 – Processus de classification supervis´ ee ` a base de motifs

Si la mani` ere de combiner les motifs locaux (afin de construire un classifieur) est im- portante et reste un probl` eme ouvert, l’extraction de motifs est l’autre phase critique du processus. En effet, la qualit´ e (en terme de pr´ ecision) d’un classifieur ` a base de motifs d´ epend fortement de la qualit´ e de l’ensemble des motifs extraits. Dans la litt´ erature, les auteurs s’accordent sur certains points-cl´ es qui caract´ erisent un “bon” ensemble de mo- tifs pour la classification supervis´ ee : chaque motif doit ˆ etre consid´ er´ e comme int´ eressant par rapport ` a une mesure d’int´ erˆ et ; pour ˆ etre repr´ esentatif des donn´ ees d’apprentissage, l’ensemble des motifs extraits doit couvrir une grande majorit´ e des objets ; enfin l’en- semble des motifs doit ˆ etre concis et sans redondance. Dans la suite, nous ferons le lien entre chacun de ces points-cl´ es et chacune des m´ ethodes expos´ ees. Toutes les m´ ethodes pr´ esent´ ees dans ce chapitre sont de type OVA (One-versus-All) : les motifs extraits sont caract´ eristiques d’une classe par rapport ` a l’union des autres classes.

1.2 M´ ethodes ` a base de r` egles

Les m´ ethodes de classification supervis´ ee ` a base de r` egles peuvent ˆ etre regroup´ ees en deux cat´ egories : celles utilisant les r` egles inductives et celles utilisant les r` egles d’asso- ciation. Ces deux types de r` egles diff` erent par leur construction.

D´ efinition 2 (R` egle) Une r` egle est une expression de la forme π : I → J o` u I ⊆ I et

J ⊆ I \ I. I est appel´ e ant´ ec´ edent ou corps de la r` egle et J cons´ equent. Lorsque J est

un attribut classe, π est appel´ ee r` egle de classe. Un objet t ∈ T est couvert par une r` egle

π : I → J si ∀i ∈ I on a R(t, i) = 1. L’ensemble des objets couverts par π dans r, i.e., la

couverture de π est not´ ee couv(π, r).

(38)

1.2 M´ ethodes ` a base de r` egles

Intuitivement, une r` egle de classe π : I → c peut-ˆ etre interpr´ et´ ee de la mani` ere suivante : si un objet t est d´ ecrit par les attributs de I alors t est aussi de classe c. Typiquement, les r` egles de classe servent ` a d´ ecider la classe de nouveaux objets entrants – de ce fait elles sont aussi appel´ ees r` egles de d´ ecision dans la litt´ erature.

1.2.1 R` egles inductives

Dans la litt´ erature, les diff´ erentes approches d’apprentissage de r` egles inductives [QCJ93, Coh95, YH03] suivent l’approche g´ en´ erique par couverture s´ equentielle d´ ecrite dans l’algorithme 1. Par la suite, nous d´ ecrivons le fonctionnement des diff´ erentes ap- proches et proposons une discussion comparative des classifieurs trait´ es.

Approche g´ en´ erique par couverture s´ equentielle : L’algorithme de couverture s´ equentielle est un algorithme de type glouton. A chaque ´ etape, une r` egle est apprise en utilisant une heuristique (ligne 5), puis les objets couverts par cette nouvelle r` egle induite sont enlev´ es de la base (ligne 6), enfin l’algorithme s’arrˆ ete lorsque la condition d’arrˆ et (prenant en compte la couverture totale de la base par les r` egles) est remplie (ligne 4).

Les points cl´ es de cet algorithme sont bien sˆ ur la m´ ethode d’apprentissage des r` egles, la fa¸con dont les objets couverts par les r` egles sont enlev´ es et la condition d’arrˆ et – et c’est ce que diff´ erencie les m´ ethodes existantes. Dans la suite, nous d´ ecrivons trois approches d’apprentissage par r` egles inductives en fonction de ces trois points cl´ es.

Algorithme 1 : Algorithme de couverture s´ equentielle Entr´ ee : r = {T , I, R} un contexte binaire,

C = {c

1

, . . . c

p

} l’ensemble des classes par ordre croissant de taille Sortie : Π un ensemble de r` egles induites

begin

1

Π ← ∅;

2

forall c

i

∈ C do

3

while ¬ ConditionArret do

4

π ← ApprendreRegle(T , I, c

i

);

5

Enlever de T les transactions couvertes par π;

6

Π ← Π ∪ π

7

Π ← Π ∪ (π

d

: ∅ → c

k

)

8

end

9

(39)

La m´ ethode FOIL : First Order Inductive Learner. Introduite dans [QCJ93], FOIL est d´ edi´ ee ` a la logique du premier ordre. Nous reportons ici la version propositionnelle de FOIL adapt´ ee aux contextes binaires.

FOIL : Apprentissage de r` egle. FOIL construit ses r` egles selon l’algorithme 2.

Pour la classe courante c

i

, P

0

est l’ensemble courant des objets positifs, i.e. de classe c

i

et N

0

l’ensemble courant des objets n´ egatifs, i.e. des autres classes. Pour construire une r` egle, FOIL part de la r` egle vide π : ∅ → c

i

(ligne 2), rajoute successivement le meilleur attribut (selon une mesure d’int´ erˆ et) au corps de π (ligne 6) et retire de P

0

et N

0

les objets non concern´ es par la r` egle en construction, jusqu’` a ce qu’il n’y ait plus d’objets n´ egatifs dans N ou que les attributs soient ´ epuis´ es (ligne 5). La mesure d’int´ erˆ et utilis´ ee est la fonction de gain. Pour un attribut a et une r` egle π est d´ efini comme suit :

gain(a, π) = |P

| ·

log |P

|

|P

| + |N

| − log |P |

|P | + |N |

o` u |P | (resp. |N|) est le nombre d’objets positifs (resp. n´ egatifs) couverts par π et |P

| (resp. |N

|) le nombre d’objets positifs (resp. n´ egatifs) couverts par la r` egle π dont le corps a ´ et´ e augment´ e de l’attribut a.

Algorithme 2 : FOIL-ApprendreRegle

Entr´ ee : r = {T , I, R} un contexte binaire,

C = {c

1

, . . . c

p

} l’ensemble des classes par ordre croissant de taille c

i

∈ C la classe courante

P l’ensemble des objets positifs (de classe c

i

) N l’ensemble des objets n´ egatifs

Sortie : π une r` egle induite begin

1

I ← ∅;

2

N

0

← N ;

3

P

0

← P ;

4

while |N

0

| > 0 ∧ π.taille < taille max regle do

5

Trouver l’attribut a qui apporte le plus de gain ` a π selon P

0

et N

0

;

6

I ← I ∪ {a};

7

Enlever de P

0

les objets non couverts par π;

8

Enlever de N

0

les objets non couverts par π;

9

π : I → c

i

10

end

11

FOIL : Suppression des transactions couvertes. Apr` es avoir g´ en´ er´ e une r` egle

π, FOIL enl` eve de r tous les objets de classe c

i

couverts par π – donc seulement les objets

(40)

1.2 M´ ethodes ` a base de r` egles

positifs.

FOIL : Condition d’arrˆ et. FOIL s’arrˆ ete lorsque tous les objets de classe c

i

sont couverts. Il est appliqu´ e pour chacune des classes de r.

La m´ ethode RIPPER : Repeated Incremental Pruning to Produce Error Reduction.

Introduite dans [Coh95], RIPPER est une am´ elioration de l’approche IREP (Incremental Reduced Error Pruning) [FW94].

RIPPER : Apprentissage de r` egle. RIPPER construit ses r` egles selon l’algorithme 3.

Tout d’abord, pour une classe c

i

donn´ ee, on diff´ erencie l’ensemble P des objets positifs (de classe c

i

) de l’ensemble N des objets n´ egatifs. Les objets de la base sont ensuite r´ epartis al´ eatoirement en respectant la taille des classes en deux sous-ensembles P

app

∪ N

app

et P

test

∪ N

test

utilis´ es pour l’accroissement et l’´ elagage de r` egles respectivement. Noter que P

app

∪ N

app

repr´ esente 2/3 de la base courante. Apr` es accroissement ` a la FOIL d’une r` egle π : I → c

i

en tenant compte de P

app

∪ N

app

(ligne 2), celle-ci est imm´ ediatement ´ elagu´ ee en utilisant P

test

∪N

test

de la mani` ere suivante (ligne 3). On consid` ere la mesure suivante pour une r` egle π construite : v(π, P

test

, N

test

) = (p

test

−n

test

)/(p

test

+n

test

) o` u p

test

(resp. n

test

) est le nombre d’objets de P

test

(reps. N

test

) couverts par π. Noter que cette mesure ´ evolue de la mˆ eme mani` ere que la pr´ ecision de π sur l’ensemble d’´ elagage. Puis en partant du dernier attribut a ajout´ e ` a π, si v(π

0

: I \ {a} → c

i

, P

test

, N

test

) ≥ v(π : I → c

i

, P

test

, N

test

) alors on

´ elimine a. Et ainsi de suite pour les autres attributs. Noter que la fonction d’apprentissage de RIPPER contient une fonction d’arrˆ et (ligne 4) qui stoppe l’apprentissage d` es lors que le taux d’erreur de la r` egle en construction est sup´ erieur ` a 50%.

Algorithme 3 : RIPPER-ApprendreRegle Entr´ ee : r = {T , I, R} un contexte binaire,

C = {c

1

, . . . c

p

} l’ensemble des classes par ordre croissant de taille c

i

∈ C la classe courante

P l’ensemble des objets positifs (de classe c

i

) N l’ensemble des objets n´ egatifs

Sortie : π une r` egle induite begin

1

π ← FOIL-ApprendreRegle (r, c

i

, P

app

, N

app

);

2

π ← Elaguer (π, P

test

, N

test

);

3

if Taux Erreur(π, P

test

, N

test

)≥ 50% then

4

return CurrentRuleSet

5

end

6

(41)

RIPPER : Suppression des transactions couvertes. Lorsqu’une r` egle π est ra- jout´ ee, tous les exemples (positifs comme n´ egatifs) couverts par π sont enlev´ es de la base.

RIPPER : Condition d’arrˆ et. RIPPER dispose de deux conditions d’arrˆ et. Premi` ere condition : apr` es chaque construction de r` egle π, si le taux d’erreur de π exc` ede 50%

dans P

test

∪ N

test

, alors π n’est pas rajout´ e ` a l’ensemble de r` egles et RIPPER s’arrˆ ete l` a.

L’ensemble construit pour c

i

jusqu’alors est l’ensemble de r` egles finales pour c

i

. Deuxi` eme condition : si tous les objets positifs sont couverts, alors RIPPER s’arrˆ ete. Dans les deux cas, RIPPER est appliqu´ e aux classes restantes.

Noter que RIPPER dispose aussi de techniques d’optimisation suppl´ ementaires bas´ ees sur la longueur minimale de description (MDL : Minimum Description Length) pour d´ ecider si certaines r` egles de l’ensemble final peuvent ˆ etre remplac´ ees par d’autres r` egles. Ceci sort de notre cadre de travail. Toutefois les int´ eress´ es peuvent se r´ ef´ erer ` a l’article origi- nal [FW94].

La m´ ethode CPAR : Classification based on Predictive Association Rules. Introduit dans [YH03], CPAR propose deux am´ eliorations par rapport ` a FOIL et ` a RIPPER. (i) CPAR propose d’apprendre plusieurs r` egles en mˆ eme temps. (ii) Au lieu d’enlever les objets couverts par une r` egle induite, les objets couverts sont pond´ er´ es de telle sorte qu’ils puissent ˆ etre couverts ` a nouveau par de nouvelles r` egles induites.

CPAR : Apprentissage de r` egle. CPAR construit ses r` egles selon l’algorithme 4 en utilisant la mˆ eme fonction de gain que FOIL . Lors de l’accroissement du corps de la r` egle, seuls les attributs qui apportent un gain sup´ erieur ` a un gain minimum donn´ e (gain minimum = 0.7) sont retenus (ligne 6). Lorsque plusieurs attributs apportent ` a peu pr` es le mˆ eme gain (au plus 1% de diff´ erence) ` a la r` egle courante (ligne 12), alors plusieurs r` egles sont g´ en´ er´ ees avec les diff´ erents attributs et le processus d’accroissement de chacune des r` egles continue.

CPAR : Suppression des transactions couvertes. A l’initialisation de CPAR, tous les objets positifs (de classe c

i

) sont initialis´ es avec un poids de 1. Ainsi, on a P oidsDepart(P ) = |P | qui est aussi le poids total P oidsT otal(P ) des objets positifs.

Apr` es chaque g´ en´ eration de r` egle π, on d´ ecroˆıt le poids de chaque objet couvert par π en multipliant le poids par un facteur α = 2/3 et le P oidsT otal(P ) se retrouve diminu´ e.

Ainsi chaque objet positif de P pourra ˆ etre couvert par plusieurs r` egles induites.

CPAR : Condition d’arrˆ et. Pour δ = 0.05 donn´ e, lorsque P oidsT otal(P ) ≤ δ ×

P oidsDepart(P ) CPAR s’arrˆ ete. Notons que les param` etres α et δ sont li´ es, indiquent le

(42)

1.2 M´ ethodes ` a base de r` egles

Algorithme 4 : CPAR-ApprendreRegle

Entr´ ee : r = {T , I, R} un contexte binaire,

C = {c

1

, . . . c

p

} l’ensemble des classes par ordre croissant de taille c

i

∈ C la classe courante

P l’ensemble des objets positifs (de classe c

i

) N l’ensemble des objets n´ egatifs

I ⊆ I l’ensemble d’attributs de d´ epart de la r` egle ` a construire Sortie : π une r` egle induite

begin

1

N

0

← N ;

2

P

0

← P ;

3

while true do

4

Trouver l’attribut a qui apporte le plus de gain ` a π selon P

0

et N

0

;

5

if gain(a, π) < gain minimum then

6

Break;

7

else

8

I ← I ∪ {a};

9

Enlever de P

0

les objets non couverts par π;

10

Enlever de N

0

les objets non couverts par π;

11

forall b ∈ I | gain(b, π)/gain(a, π) ≥ 99% do

12

I ← I ∪ {b};

13

Enlever de P

0

les objets non couverts par π;

14

Enlever de N

0

les objets non couverts par π;

15

CPAR-ApprendreRegle (r, c

i

, P

0

, N

0

, I);

16

end

17

(43)

nombre de fois maximum qu’un objet positif peut ˆ etre couvert en fonction de |P |. Les valeurs de ces param` etres sont donn´ ees par les auteurs.

Discussion : Pour les probl` emes ` a deux classes (c

1

, c

2

telles que |r

c1

| ≥ |r

c2

|), les al- gorithmes de g´ en´ eration de r` egles de FOIL et RIPPER permettent de g´ en´ erer des r` egles inductives pour une classe donn´ ee c

1

et une r` egle par d´ efaut pour la classe majoritaire π : ∅ → c

2

. Pour les probl` emes ` a p classes (p > 2), les classes sont ordonn´ ees par ordre croissant de taille. FOIL et RIPPER est utilis´ e pour g´ en´ erer un ensemble de r` egles inductives pour s´ eparer la classe minoritaire c

1

des autres classes c

2

, . . . , c

p

. Puis les ob- jets couverts par l’ensemble de r` egles est retir´ e de r et FOIL et RIPPER sont utilis´ es pour g´ en´ erer un autre ensemble de r` egles inductives pour s´ eparer c

2

des autres classes c

3

, . . . , c

p

. Le nouvel ensemble de r` egles est mis ` a la suite de l’ensemble courant. Et ainsi de suite jusqu’` a atteindre la derni` ere classe majoritaire c

p

qui est la classe par d´ efaut – la r` egle π

def aut

: ∅ → c

p

est cr´ e´ ee. Notons que cette m´ ethode n’est pas tout ` a fait de type OVA bien que les motifs extraits sont caract´ eristiques d’une classe par rapport ` a l’union de plusieurs autres classes. Pour pr´ edire la classe d’un nouvel objet entrant t, l’ensemble de r` egles est utilis´ e comme une liste de d´ ecision ordonn´ ee par construction, i.e. la premi` ere r` egle support´ ee par t indique la classe ` a pr´ edire.

Les faiblesses de FOIL et RIPPER sont dues au fait que les exemples d’apprentissage ne sont couverts qu’une seule fois, ce qui r´ esulte en un petit ensemble de r` egles inductives. En rai- son de la nature mˆ eme de la proc´ edure Apprendre-Regle qui s´ electionne successivement le meilleur attribut pour accroˆıtre une r` egle, certaines r` egles importantes peuvent ˆ etre oubli´ ees. En effet, la s´ election du meilleur attribut occulte d’autres attributs qui peuvent ˆ

etre int´ eressants (mais un peu moins). De mˆ eme, la nature de l’algorithme de couverture s´ equentielle ne garantit pas que l’ensemble final de r` egles est le meilleur. Le fait de retirer les objets couverts implique que les valeurs de gain calcul´ ees par la suite ne sont plus globalement optimales.

CPAR au contraire, (i) g´ en` ere des r` egles inductives pour chacune des classes (en la s´ eparant des autres classes), (ii) permet de g´ en´ erer plusieurs r` egles ` a la fois si plusieurs attributs apportent un gain similaire ` a celui du meilleur attribut, (iii) permet par un syst` eme de pond´ eration de couvrir certains objets avec plusieurs r` egles. De plus, (iv) apr` es g´ en´ eration, chaque r` egle est ´ evalu´ ee par une estimation de la pr´ ecision attendue en utilisant l’estimation de l’erreur attendue de Laplace [CB91] :

Laplace estimateur(π : I → c

i

, r) = n

ci

+ 1 n

total

+ p

o` u n

total

est le nombre d’objets de r couverts par π, n

ci

le nombre d’objets de r

ci

couverts par π et p le nombre classes. Puis, (v) pour pr´ edire la classe d’un nouvel objet t entrant, CPAR s´ electionne les k meilleures r` egles selon l’estimateur de Laplace qui couvrent t pour chaque classe. La classe qui maximise la valeur moyenne de l’estimateur indique la classe

`

a pr´ edire.

(44)

1.2 M´ ethodes ` a base de r` egles

Ainsi, parmi les diff´ erentes approches par r` egles inductives, CPAR est la m´ ethode la plus r´ ecente, semble la plus ´ evolu´ ee et la plus performante au vu des r´ esultats de pr´ ecision an- nonc´ es dans l’article original. Toutefois, bien que CPAR g´ en` ere plus de r` egles que ces concur- rents, le syst` eme de pond´ eration n’assure pas d’avoir les meilleures r` egles pour chaque objet. De plus, CPAR d´ epend d’un param´ etrage plus lourd. En effet, le gain minimum, le facteur de pond´ eration α, la condition d’arrˆ et param´ etr´ ee par δ, et le nombre de r` egles ` a utiliser k sont loin d’ˆ etre intuitifs pour l’utilisateur et d´ ependra du domaine de travail.

1.2.2 Classification associative

R` egles d’association, itemsets fr´ equents et extraction. La classification asso- ciative est une m´ ethode de classification supervis´ ee bas´ ee sur les r` egles d’association.

Avant de discuter de ces m´ ethodes nous rappelons bri` evement les travaux pionniers sur l’extraction des itemsets fr´ equents et des r` egles d’association. Lors de leur introduction dans [AIS93, AS94], les auteurs proposent d’extraire les r` egles d’associations valides en utilisant l’ensemble des itemsets fr´ equents (voir d´ efinitions 3 et 4).

D´ efinition 3 (Itemset, Itemset fr´ equent, Support) Un itemset I ⊆ I est un sous- ensemble d’attributs de I. La fr´ equence d’un itemset I ⊆ I est f req(I, r) = |Objets(I, r)|, o` u Objets(I, r) = {t ∈ T |∀i ∈ I : R(t, i) = 1} est appel´ e support de I et not´ e supp(I, r).

Etant donn´ ´ e un entier positif γ, un itemset est dit γ-fr´ equent si f req(I, r) ≥ γ. Par la suite, nous utiliserons aussi la notion de fr´ equence relative d’un itemset I qui est f req

r

(I, r) = f req(I, r)/|r|.

D´ efinition 4 (R` egle d’association) Une r` egle d’association dans r est une expression de la forme π : I → J o` u I ⊆ I et J ⊆ I \ I . La fr´ equence d’une telle r` egle π dans r est f req(π, r) = f req(I ∪ J, r) et sa confiance conf (π, r) = f req(I ∪ J, r)/f req(I, r).

Soit min f req et min conf deux valeurs de seuil donn´ ees, la r` egle d’association π est dite valide si f req(π, r) ≥ min f req et conf (π, r) ≥ min conf . Lorsque J est un attribut classe c, π : I → c est appel´ ee r` egle d’association de classe.

En effet, soit I ⊆ I un itemset tel que f req(I, r) ≥ min f req. I peut ˆ etre divis´ e

en deux parties, un cons´ equent Y et un corps de r` egle X = I \ Y pour former la r` egle

fr´ equente π : X → Y . Le processus de d´ ecouverte de r` egles d’association valides ` a partir

de I est it´ eratif. Tout d’abord on consid` ere le cas Y = ∅. Dans ce cas, I → ∅ est va-

lide car fr´ equente et de confiance maximale 1. Puis, est g´ en´ er´ e l’ensemble des candidats

cons´ equents C

k+1

de taille k + 1 en partant de k = 0. On sait qu’un cons´ equent est can-

didat si tous ses ensembles sont cons´ equents de r` egles confiantes (et donc valides). Pour

calculer la confiance d’une r` egle candidate, on peut utiliser les fr´ equences de I et de X

calcul´ ees lors de l’extraction des itemsets fr´ equents.

Références

Documents relatifs

Nous avons propos´e dans [14] Pure-CP , une ap- proche g´en´erique pour l’extraction de motifs sous contraintes n-aires utilisant uniquement un solveur de CSP.. Dans le

Ces modèles sont illustrés par le cas du manguier où les collections de sous-arborescences permettent d’identifier les motifs disruptifs (juxtaposition de

Précisément, une solution de MMP est une matrice cohérente avec les contraintes et maximale pour l’exclusion forte relativement aux contraintes de domaine et de coefficients, i.e.,

Trouver une EQDF du 2nd

Nous montrons, au travers de l’application ` a la d´ecouverte de fragments mol´ecu- laires toxicophores, comment les contraintes souples de seuil permettent d’extraire des

Dans ce papier, nous montrons que, sans la prise en compte de la contrainte de temporalité entre les objets de la base de données, les sémantiques proposées dans les algorithmes

Dans ce chapitre, nous avons introduit la notion de MO et nous avons montré que les MO permettaient de modéliser de nombreux problèmes d'extraction de motifs : skypatterns,

Dans le but de réduire le nombre de motifs pour la tâche d’identification d’auteurs, dans le cas des données non équilibrées, nous avons choisi d’appliquer une opération