• Aucun résultat trouvé

Comparaison entre les diff´erents outils d’ADS

Dans le document The DART-Europe E-theses Portal (Page 43-50)

Nous avons pr´esent´e les principaux outils permettant de cr´eer, de traiter et d’analyser des donn´ees symboliques. Chacun de ces outils a ses avantages et ses inconv´enients que nous avons r´esum´es dans le tableau 1.6. A partir de ce tableau, nous pouvons constater que malgr´e la richesse de SODAS cet outil n’est pas bien maintenu,

4 Outils d’ADS 31 ce qui rend son utilisation quasi-impossible par les nouveaux utilisateurs. Cependant, le logiciel SYR ainsi que les biblioth`eques R sont en ´evolution continue et peuvent ˆetre consid´er´es comme l’avenir du d´eveloppement des m´ethodes d’ADS.

Tableau 1.6 – Comparaison entre les diff´erents outils d’ADS.

Outils Points forts Points faibles

SODAS a

• L’outil le plus complet : il int`egre le plus de m´ethodes d’ADS.

• Il offre une interface graphique qui facilite sa manipulation avec une documentation tr`es riche.

• Toutes les m´ethodes sont int´egr´ees dans le mˆeme logiciel.

• Logiciel gratuit.

a

• Absence de maintenance du logiciel qui pr´esente plusieurs probl`emes (Bugs) notamment avec les nouveaux syst`emes d’exploitation (comme Windows 8).

• Absence de modules permettant la manipulation des bases non struc-tur´ees.

• Absence des nouvelles m´ethodes d’ADS, la m´ethode la plus r´ecente date de 2003.

Tableau 1.6 – Comparaison entre les diff´erents outils d’ADS (suite).

Outils Points forts Points faibles

SYR

a

• En ´evolution avec l’int´egration pro-gressive de nouvelles m´ethodes de cr´eation et de manipulation de donn´ees symboliques.

• Des modules avec des interfaces graphiques faciles `a comprendre par les nouveaux utilisateurs avec une documentation tr`es riche.

• Le module de cr´eation de donn´ees symbolique est tr`es complet. Il permet l’extraction de donn´ees symboliques `a partir de tous types de bases de donn´ees (structur´ees ou pas), ainsi que la conversion des fichiers ”.sds” en ”.syr”.

a

• Des modules qui mettent parfois beaucoup de temps pour retourner le r´esultat (comme ClustSyr), non adapt´es `a traiter les grandes bases de donn´ees.

• Absence de modules qui int`egrent des m´ethodes pr´edictives (comme les arbres de d´ecision, les r`egles d’association, etc.)

• Modules non rassembl´es dans le mˆeme logiciel. Chaque module

• Des librairies en ´evolution conti-nue avec plusieurs ´equipes qui

• Non uniformit´e des formats des fichiers symboliques manipul´es et g´en´er´es par les diff´erentes biblioth`eques.

• Absence d’interface graphique qui pourra faciliter l’utilisation et le test des diff´erentes m´ethodes.

• L’obligation de maitriser R pour pouvoir utiliser les diff´erentes biblioth`eques.

5 Conclusion 33

5 Conclusion

Dans ce chapitre, nous avons pr´esent´e quelques aspects th´eoriques de l’ADS ainsi que les principaux outils permettant la cr´eation et l’analyse de donn´ees symboliques. A partir de ce que nous avons pr´esent´e, l’ADS pr´esente plusieurs avantages par rapport aux approches classiques qui peuvent ˆetre r´esum´es comme suit :

• L’ADS permet de r´esumer les donn´ees en conservant beaucoup plus d’infor-mations que les m´ethodes classiques d’agr´egation (centre de gravit´e, moyenne, variance, etc.).

• L’´etude des donn´ees peut se faire sur plusieurs niveaux de g´en´eralisation (individus−→classes d’individus−→classes de classes d’individus).

• L’approche symbolique r´esout le probl`eme de confidentialit´e. En effet, les individus de d´epart (les donn´ees confidentielles) n’apparaissent plus dans la description des objets symboliques.

• L’approche symbolique permet de r´esoudre le probl`eme de redondance des donn´ees, en offrant la possibilit´e de construire des donn´ees symboliques `a partir de sources multiples sans passer par la construction d’une base regroupant toutes les informations initiales.

Dans la suite de notre travail, nous allons enrichir le logiciel SYR par trois modules.

Le premier entrera dans le cadre de la premi`ere ´etape d’ADS en convertissant les variables continues en histogrammes. Alors que le deuxi`eme module concernera l’ajout d’une m´ethode de construction, de manipulation et de test d’arbres de d´ecision symbolique. Enfin, le troisi`eme module pr´esentera une extension de la cr´eation des donn´ees symboliques aux Big Data.

C

HAPITRE

2 Extraction des histogrammes les plus discriminants `a partir d’une variable continue (HistSyr)

1 Introduction . . . . 37 2 Discr´etisation d’une variable continue : ´etat de l’art . . . . 37 2.1 Discr´etiser ? . . . . 37 2.2 M´ethodes de discr´etisation . . . . 38 3 HistSyr : conversion d’une variable continue en histogrammes les

plus discriminants pour les classes d’individus . . . . 52 3.1 Pr´esentation de la probl´ematique . . . . 52 3.2 Pr´esentation de la solution . . . . 56 3.3 Les cas d’utilisation d’HistSyr . . . . 61 3.4 HistSyr Vs autres m´ethodes de discr´etisation . . . . 69 4 Conclusion . . . . 78

1 Introduction 37

1 Introduction

Le passage des donn´ees classiques aux donn´ees symboliques est une ´etape importante dans le processus d’ADS. Plusieurs travaux ont ´et´e effectu´es afin de transformer les variables classiques en symboliques. Dans la plupart de ces travaux, les variables continues ont ´et´e transform´ees en intervalles. Toutefois, il est int´eressant de discr´etiser les variables continues afin de les transformer en histogrammes lors de la cr´eation des donn´ees symboliques. Dans la litt´erature, aucune m´ethode d’ADS n’a trait´e la conversion automatique d’une variable continue en histogrammes. Pour rem´edier `a ceci, nous avons cr´e´e une m´ethode qui automatise cette op´eration.

Cette m´ethode a ´et´e inspir´ee des m´ethodes classiques de discr´etisation qui convertissent les variables du quantitatives aux qualitatives. Ces m´ethodes sont devenues un sujet d’´etude tr`es pris´e `a partir du d´ebut des ann´ees 90. D`es lors, on r´ealise l’importance de cette ´etape dans l’int´egration et l’utilisation des variables quantitatives dans les diff´erentes m´ethodes d’apprentissages qui n’acceptaient que les variables qualitatives.

Ce chapitre est organis´e en trois sections. D’abord, nous donnons un aperc¸u sur les diff´erentes m´ethodes classiques de discr´etisation. Ensuite, dans la deuxi`eme section, nous pr´esentons notre m´ethode d’extraction d’histogrammes `a partir d’une variable continue, appel´ee HistSyr. Enfin, nous exposons les r´esultats de la comparaison d’HistSyr avec d’autres m´ethodes de discr´etisation sur des donn´ees UCI[13] et sur des donn´ees issues d’´etudes effectu´ees `a Syrokko.

2 Discr´etisation d’une variable continue : ´etat de l’art

Dans le document The DART-Europe E-theses Portal (Page 43-50)