• Aucun résultat trouvé

Extension de l’ADS aux Big Data

Dans le document The DART-Europe E-theses Portal (Page 16-22)

Comme on a d´ej`a signal´e, de nos jours la taille des donn´ees recueillies est de plus en plus grande. Nous passons de l’´etude de quelques centaines de Ko `a l’´etude de donn´ees de plusieurs To. Cette ´evolution a pouss´e les ”Data Scientists” `a ´etendre les m´ethodes d’analyse de donn´ees pour pouvoir traiter ces grands volumes de donn´ees.

´Etant donn´e que les donn´ees symboliques permettent de r´eduire consid´erablement la taille des donn´ees `a ´etudier tout en gardant le maximum d’informations [14, 12], il semble int´eressant d’utiliser l’ADS pour l’´etude de Big Data. Cependant, les outils d’extraction de donn´ees symboliques existants (DB2SO de SODAS [46] et TabSyr de Syr [5]) sont incapables de traiter d’aussi grands volumes de donn´ees. D’o `u la troisi`eme probl´ematique qui est l’extension de l’extraction de donn´ees symboliques `a partir de Big Data.

3 Contributions

Afin de r´esoudre les probl´ematiques que nous avons pr´esent´ees pr´ec´edemment nous avons mis en place trois m´ethodes.

• La premi`ere appel´ee ”HistSyr” [45] transforme automatiquement les variables continues en histogrammes les plus discriminants pour les diff´erentes classes d’individus. Nous avons impl´ement´e cette m´ethode en utilisant le langage de programmation Java. Nous avons ainsi enrichi le logiciel Syr [5] par l’ajout d’un nouveau module permettant la transformation automatique des variables continues en histogrammes. Ensuite, nous avons compar´e ses r´esultats `a ceux d’autres m´ethodes de discr´etisation classiques (la discr´etisation en classes d’´egale amplitude, la discr´etisation selon les quantiles et”Multi Interval Algorithm”[50].

Nous avons ainsi d´emontr´e que les histogrammes r´esultats d’HistSyr sont plus discriminants pour les classes d’individus que ceux des autres m´ethodes [45].

• Notre deuxi`eme m´ethode est nomm´ee ”SyrTree”. Elle repr´esente une nouvelle m´ethode d’arbre de d´ecision symbolique. Elle accepte tous types de variables explicatives et traite diff´erents type de variables `a expliquer (les classes d’indivi-dus, les variables nominales et les histogrammes). Nous avons impl´ement´e cette m´ethode en utilisant le langage de programmation Java. Nous avons ainsi enrichi le logiciel Syr [5]par l’ajout d’un nouveau module permettant la construction et le test d’arbres de d´ecision symboliques. Nous avons compar´e les performances pr´edictives de SyrTree `a celles d’autres m´ethodes d’arbre de d´ecision classiques (CART[20] et C4.5 [89]) et symboliques (Stree[97]). L’´etude a montr´e que les taux d’erreurs des arbres SyrTree sur les ´echantillons de test sont meilleurs que ceux de Stree [97](voir chapitre 3). Les taux d’erreur des arbres SyrTree se rapprochent de ceux des m´ethodes classiques (CART [20] et C4.5 [89]). Nous trouvons quelques cas o `u les r´esultats de SyrTree sont meilleurs (par exemple pour la base de donn´ee

”Breast tissu” nous avons un taux d’erreur de 25% avec SyrTree contre 34% pour CART et 36% pour C4.5) avec des arbres beaucoup plus courts et plus faciles `a interpr´eter. Le chapitre 3 de cette th`ese pr´esente tous les r´esultats obtenus sur plusieurs bases de donn´ees UCI [13].

• Notre troisi`eme m´ethode nomm´ee ”CloudHistSyr” repr´esente l’extension d’HistSyr aux donn´ees scalables et distribu´ees. Cette m´ethode est compos´ee de la succession de deux programmes Map/Reduce et d’un programme local. Tous les programmes ont ´et´e impl´ement´es en utilisant Java. Les tests des programmes Map/Reduce ont ´et´e effectu´es en utilisant Amazone Web Services1[80]. Durant ces tests nous avons utilis´es diff´erentes configurations des

1. https ://aws.amazon.com/fr/

4 Plan de la th`ese 5 clusters (en augmentant le nombre de machines virtuelles et en variant leurs performances). Nous avons ainsi d´emontr´e la scalabilit´e de nos programmes Map/Reduce. En effet, en augmentant le nombre de nœuds du cluster de test le temps d’ex´ecution diminuait. Grˆace `a ”CloudHistSyr” nous avons pu construire les histogrammes les plus discriminants `a partir des donn´ees volumineuses (68 Go) issues d’une ´etude effectu´ee `a Syrokko. Cette ´etude concernait les donn´ees recueillis d’un portique de test install´e `a Nantes. Ces donn´ees ont ´et´e recueillies dans le temps par 21 capteurs install´es sur le portique d’autoroute. Vu le volume des donn´ees initiales(1.75 Go pour chaque capteur), il a ´et´e impossible d’utiliser HistSyr pour convertir les valeurs des capteurs en histogrammes. Pour cela nous avons utilis´e ”CloudHistsyr” qui a ´et´e capable au bout d’une vingtaine de minutes de nous retourner les histogrammes les plus discriminants pour l’un des capteurs du portique (`a partir de 139 millions de valeurs). A notre connaissance, c’est la 1`ere m´ethode mise en place pour convertir une variable continue en histogrammes `a partir de Big Data.

Toutes ces m´ethodes ont ´et´e utilis´ees dans le cadre d’´etudes de donn´ees de clients de la soci´et´e Syrokko2.

4 Plan de la th`ese

Le travail effectu´e dans cette th`ese s’articule autour de cinq chapitres :

• Chapitre 1 : il pr´esente pr´esente l’Analyse de Donn´ees Symboliques (ADS). Nous exposons d’abord les notions de base : la diff´erence entre individus et classes d’individus au niveau de la description, la d´efinition d’un objet symbolique et d’une variable symbolique, etc. Ensuite, nous rappelons les deux ´etapes de toute ADS en pr´esentant les principales m´ethodes existantes d’extraction et de traitement de donn´ees symboliques. Enfin, nous pr´esentons et comparons les outils d’ADS les plus connus : les logiciels SODAS, SYR et les librairies symboliques de R.

• Chapitre 2 : il pr´esente notre m´ethode ”HistSyr”. Nous commenc¸ons par la pr´esentation de l’´etat de l’art des m´ethodes de discr´etisation. Ensuite, nous d´ecrivons l’algorithme d’HistSyr. Enfin, nous comparons HistSyr `a d’autres m´ethodes de discr´etisation sur des donn´ees UCI [13] et sur des donn´ees de clients de Syrokko.

2. www.syrokko.com

• Chapitre 3 : il pr´esente notre m´ethode d’arbres de d´ecision symboliques,

”SyrTree”. Nous pr´esentons d’abord, l’´etat de l’art des m´ethodes d’arbres de d´ecision classiques et symboliques. Puis, nous pr´esentons ”SyrTree”. Nous sp´ecifions pour chaque type de variables `a expliquer ses crit`eres de d´ecoupages.

Ensuite, nous comparons SyrTree `a d’autres m´ethodes d’arbre de d´ecision. Enfin, nous pr´esentons l’utilisation de SyrTree dans des ´etudes faites au sein de Syrokko.

• Chapitre 4 : il pr´esente l’extension de la m´ethode HistSyr aux Big Data. D’abord, nous pr´esentons l’´etat de l’art des m´ethodes de data mining scalable et distribu´e.

Puis, nous pr´esentons les composants de ”CloudHistSyr”. Ensuite, nous exposons les diff´erentes combinaisons des composants de CloudHistSyr pour ´etendre HistSyr aux Big Data. Finalement, nous pr´esentons les r´esultats du test de CloudHistSyr sur des donn´ees r´eelles issues de l’´etude du portique de Nantes faite `a Syrokko.

• Chapitre 5 : il conclut cette th`ese. Nous rappelons d’abord les diff´erentes contributions de cette th`ese. Ensuite, nous discutons leurs limitations et nous finissons par proposer quelques perspectives.

C

HAPITRE

1 Analyse des donn´ees symboliques

1 Introduction . . . . 9

2 Notions de base de l’ADS . . . . 9

2.1 Des individus aux classes d’individus . . . . 9

2.2 Donn´ees, variables, objets et tableaux symboliques . . . . 10

3 ´Etapes de l’ADS . . . 13

3.1 Construction des donn´ees symboliques . . . . 13

3.2 Extension des m´ethodes d’analyses classiques aux Donn´ees Symboliques . . . . 14

4 Outils d’ADS . . . . 16

4.1 Le logiciel SODAS (Symbolic Official Data Analysis System) . . . 16

4.2 Le logiciel SYR . . . . 19

4.3 Les librairies d’ADS dans R . . . . 28

4.4 Comparaison entre les diff´erents outils d’ADS . . . . 30

5 Conclusion . . . . 33

1 Introduction 9

1 Introduction

L’analyse de Donn´ees Symbolique (ADS) est un domaine compl´ementaire `a la fouille de donn´ees classique. L’ADS permet l’´etude des unit´es statistiques `a diff´erents niveaux de g´en´eralit´e en passant des individus aux classes d’individus.

Ces derni`eres sont d´ecrites par des donn´ees symboliques conservant la variation interne des individus qui les composent. Ces donn´ees sont d´ecrites par des variables symboliques `a valeurs classiques (num´erique ou nominale) ou symboliques (intervalles, histogrammes, loi de probabilit´e, fonctions, ensemble de valeurs, etc.).

Une ADS se fait en deux ´etapes[42]. La premi`ere concerne la cr´eation des donn´ees symboliques `a partir des donn´ees classiques. La deuxi`eme ´etape consiste `a analyser les donn´ees symboliques en utilisant des m´ethodes d’analyse symboliques. Ces m´ethodes sont le r´esultat de l’extension des m´ethodes classiques aux donn´ees symboliques.

Les domaines d’applications de l’ADS sont tr`es vari´es. En effet, en passant des individus aux classes d’individus on d´efinit de nouvelles unit´es statistiques qui int´eressent les utilisateurs. Par exemple en marketing (clients→comportements), trans-ports (v´ehicules→trajectoires), g´enie civil (d´efauts→ouvrages), t´el´ecommunications (clients → abonnements), biologie (g`enes → g´enomes), cr´edit (clients → zones g´eographiques), sant´e (patients→pathologies ou r´egions de patients).

Ce chapitre est organis´e comme suit : nous introduisons d’abord, les notions de base de l’ADS. Ensuite, nous explicitons les ´etapes d’une ADS. Enfin, nous d´ecrivons et comparons les outils d’ADS les plus connus.

2 Notions de base de l’ADS

Dans le document The DART-Europe E-theses Portal (Page 16-22)