Extension de l’ADS aux Big Data - The DART-Europe E-theses Portal

Comme on a déjà signalé, de nos jours la taille des données recueillies est de plus en plus grande. Nous passons de l’étude de quelques centaines de Ko à l’étude de données de plusieurs To. Cette évolution a poussé les ”Data Scientists” à étendre les méthodes d’analyse de données pour pouvoir traiter ces grands volumes de données.

Étant donné que les données symboliques permettent de réduire considérablement la taille des données à étudier tout en gardant le maximum d’informations [14, 12], il semble intéressant d’utiliser l’ADS pour l’étude de Big Data. Cependant, les outils d’extraction de données symboliques existants (DB2SO de SODAS [46] et TabSyr de Syr [5]) sont incapables de traiter d’aussi grands volumes de données. D’o ù la troisième problématique qui est l’extension de l’extraction de données symboliques à partir de Big Data.

3 Contributions

Afin de résoudre les problématiques que nous avons présentées précédemment nous avons mis en place trois méthodes.

• La première appelée ”HistSyr” [45] transforme automatiquement les variables continues en histogrammes les plus discriminants pour les différentes classes d’individus. Nous avons implémenté cette méthode en utilisant le langage de programmation Java. Nous avons ainsi enrichi le logiciel Syr [5] par l’ajout d’un nouveau module permettant la transformation automatique des variables continues en histogrammes. Ensuite, nous avons comparé ses résultats à ceux d’autres méthodes de discrétisation classiques (la discrétisation en classes d’égale amplitude, la discrétisation selon les quantiles et”Multi Interval Algorithm”[50].

Nous avons ainsi démontré que les histogrammes résultats d’HistSyr sont plus discriminants pour les classes d’individus que ceux des autres méthodes [45].

• Notre deuxième méthode est nommée ”SyrTree”. Elle représente une nouvelle méthode d’arbre de décision symbolique. Elle accepte tous types de variables explicatives et traite différents type de variables à expliquer (les classes d’indivi-dus, les variables nominales et les histogrammes). Nous avons implémenté cette méthode en utilisant le langage de programmation Java. Nous avons ainsi enrichi le logiciel Syr [5]par l’ajout d’un nouveau module permettant la construction et le test d’arbres de décision symboliques. Nous avons comparé les performances prédictives de SyrTree à celles d’autres méthodes d’arbre de décision classiques (CART[20] et C4.5 [89]) et symboliques (Stree[97]). L’étude a montré que les taux d’erreurs des arbres SyrTree sur les échantillons de test sont meilleurs que ceux de Stree [97](voir chapitre 3). Les taux d’erreur des arbres SyrTree se rapprochent de ceux des méthodes classiques (CART [20] et C4.5 [89]). Nous trouvons quelques cas o ù les résultats de SyrTree sont meilleurs (par exemple pour la base de donnée

”Breast tissu” nous avons un taux d’erreur de 25% avec SyrTree contre 34% pour CART et 36% pour C4.5) avec des arbres beaucoup plus courts et plus faciles à interpréter. Le chapitre 3 de cette thèse présente tous les résultats obtenus sur plusieurs bases de données UCI [13].

• Notre troisième méthode nommée ”CloudHistSyr” représente l’extension d’HistSyr aux données scalables et distribuées. Cette méthode est composée de la succession de deux programmes Map/Reduce et d’un programme local. Tous les programmes ont été implémentés en utilisant Java. Les tests des programmes Map/Reduce ont été effectués en utilisant Amazone Web Services¹[80]. Durant ces tests nous avons utilisés différentes configurations des

1. https ://aws.amazon.com/fr/

4 Plan de la thèse 5 clusters (en augmentant le nombre de machines virtuelles et en variant leurs performances). Nous avons ainsi démontré la scalabilité de nos programmes Map/Reduce. En effet, en augmentant le nombre de nœuds du cluster de test le temps d’exécution diminuait. Grâce à ”CloudHistSyr” nous avons pu construire les histogrammes les plus discriminants à partir des données volumineuses (68 Go) issues d’une étude effectuée à Syrokko. Cette étude concernait les données recueillis d’un portique de test installé à Nantes. Ces données ont été recueillies dans le temps par 21 capteurs installés sur le portique d’autoroute. Vu le volume des données initiales(1.75 Go pour chaque capteur), il a été impossible d’utiliser HistSyr pour convertir les valeurs des capteurs en histogrammes. Pour cela nous avons utilisé ”CloudHistsyr” qui a été capable au bout d’une vingtaine de minutes de nous retourner les histogrammes les plus discriminants pour l’un des capteurs du portique (à partir de 139 millions de valeurs). A notre connaissance, c’est la 1^ère méthode mise en place pour convertir une variable continue en histogrammes à partir de Big Data.

Toutes ces méthodes ont été utilisées dans le cadre d’études de données de clients de la société Syrokko².

4 Plan de la th`ese

Le travail effectu´e dans cette th`ese s’articule autour de cinq chapitres :

• Chapitre 1 : il présente présente l’Analyse de Données Symboliques (ADS). Nous exposons d’abord les notions de base : la différence entre individus et classes d’individus au niveau de la description, la définition d’un objet symbolique et d’une variable symbolique, etc. Ensuite, nous rappelons les deux étapes de toute ADS en présentant les principales méthodes existantes d’extraction et de traitement de données symboliques. Enfin, nous présentons et comparons les outils d’ADS les plus connus : les logiciels SODAS, SYR et les librairies symboliques de R.

• Chapitre 2 : il présente notre méthode ”HistSyr”. Nous commençons par la présentation de l’état de l’art des méthodes de discrétisation. Ensuite, nous décrivons l’algorithme d’HistSyr. Enfin, nous comparons HistSyr à d’autres méthodes de discrétisation sur des données UCI [13] et sur des données de clients de Syrokko.

2. www.syrokko.com

• Chapitre 3 : il présente notre méthode d’arbres de décision symboliques,

”SyrTree”. Nous présentons d’abord, l’état de l’art des méthodes d’arbres de décision classiques et symboliques. Puis, nous présentons ”SyrTree”. Nous spécifions pour chaque type de variables à expliquer ses critères de découpages.

Ensuite, nous comparons SyrTree à d’autres méthodes d’arbre de décision. Enfin, nous présentons l’utilisation de SyrTree dans des études faites au sein de Syrokko.

• Chapitre 4 : il présente l’extension de la méthode HistSyr aux Big Data. D’abord, nous présentons l’état de l’art des méthodes de data mining scalable et distribué.

Puis, nous présentons les composants de ”CloudHistSyr”. Ensuite, nous exposons les différentes combinaisons des composants de CloudHistSyr pour étendre HistSyr aux Big Data. Finalement, nous présentons les résultats du test de CloudHistSyr sur des données réelles issues de l’étude du portique de Nantes faite à Syrokko.

• Chapitre 5 : il conclut cette thèse. Nous rappelons d’abord les différentes contributions de cette thèse. Ensuite, nous discutons leurs limitations et nous finissons par proposer quelques perspectives.

C

^HAPITRE

1 Analyse des donn´ees symboliques

1 Introduction . . . . 9

2 Notions de base de l’ADS . . . . 9

2.1 Des individus aux classes d’individus . . . . 9

2.2 Donn´ees, variables, objets et tableaux symboliques . . . . 10

3 ´Etapes de l’ADS . . . 13

3.1 Construction des donn´ees symboliques . . . . 13

3.2 Extension des m´ethodes d’analyses classiques aux Donn´ees Symboliques . . . . 14

4 Outils d’ADS . . . . 16

4.1 Le logiciel SODAS (Symbolic Ofﬁcial Data Analysis System) . . . 16

4.2 Le logiciel SYR . . . . 19

4.3 Les librairies d’ADS dans R . . . . 28

4.4 Comparaison entre les diff´erents outils d’ADS . . . . 30

5 Conclusion . . . . 33

1 Introduction 9

1 Introduction

L’analyse de Données Symbolique (ADS) est un domaine complémentaire à la fouille de données classique. L’ADS permet l’étude des unités statistiques à différents niveaux de généralité en passant des individus aux classes d’individus.

Ces dernières sont décrites par des données symboliques conservant la variation interne des individus qui les composent. Ces données sont décrites par des variables symboliques à valeurs classiques (numérique ou nominale) ou symboliques (intervalles, histogrammes, loi de probabilité, fonctions, ensemble de valeurs, etc.).

Une ADS se fait en deux étapes[42]. La première concerne la création des données symboliques à partir des données classiques. La deuxième étape consiste à analyser les données symboliques en utilisant des méthodes d’analyse symboliques. Ces méthodes sont le résultat de l’extension des méthodes classiques aux données symboliques.

Les domaines d’applications de l’ADS sont très variés. En effet, en passant des individus aux classes d’individus on définit de nouvelles unités statistiques qui intéressent les utilisateurs. Par exemple en marketing (clients→comportements), trans-ports (véhicules→trajectoires), génie civil (défauts→ouvrages), télécommunications (clients → abonnements), biologie (gènes → génomes), crédit (clients → zones géographiques), santé (patients→pathologies ou régions de patients).

Ce chapitre est organisé comme suit : nous introduisons d’abord, les notions de base de l’ADS. Ensuite, nous explicitons les étapes d’une ADS. Enfin, nous décrivons et comparons les outils d’ADS les plus connus.

2 Notions de base de l’ADS

Dans le document The DART-Europe E-theses Portal (Page 16-22)