Deuxi`eme approche : lancer le ”Calcul Histogramme” en utilisant

Dans cette approche (représentée par la figure 4.13), nous traitons la problématique de recherche des histogrammes les plus discriminants de cette façon :

4 CloudHistSyr : Impl´ementation et tests du programme global 159 1. Lancer le module de calcul des bornes possibles : ce module retourne `a partir de toutes

les valeurs d’une variable continue la liste de valeurs fronti`eres.

2. Lancer le module de calcul d’histogrammes en prenant la liste entière (résultat de la première étape) comme liste de bornes.

3. Utiliser un module de calcul des histogrammes de k modalités qui discriminent le mieux les différents concepts. Cet algorithme est l’adaptation de l’algorithme de Fisher afin qu’il prenne en entrée le résultat du deuxième module au lieu de travailler sur les données initiales brutes.

Data set

Calcul des hitogrammes Calcul des bornes

Map/Reduce

Recherche des meilleurs histogrammes de k modalités

Centralized

F^IGURE4.13 – Composition de CloudHistSyr suivant la deuxi`eme approche.

4.2.1 Test de la deuxi`eme approche sur les donn´ees des Iris

Pour tester cette deuxième approche nous avons utilisé les données des iris Fisher (de taille 13.6Go) avec un cluster EMR composé d’un master et de 16 nœuds de types m3.xlarge.

L’exécution des deux jobs ”Calcul bornes” et ”Calcul Histogrammes ” a nécessité presque 7 minutes. La figure 4.14 illustre les détails de l’exécution du job sur EMR. D’après cette figure :

• Le premier module a été exécuté au bout de 281.150 sec = 4min 42 sec .

• La liste des bornes I ={4.85 ; 4.95 ; 5.05 ; 5.15 ; 5.25 ; 5.35 ; 5.45 ; 5.55 ; 5.65 ; 5.75 ; 5.85 ; 5.95 ; 6.05 ; 6.15 ; 6.25 ; 6.35 ; 6.45 ; 6.55 ; 6.65 ; 6.75 ; 6.85 ; 6.95 ; 7.05}

F^IGURE 4.14 – Temps d’ex´ecution des deux jobs de calcul des bornes suivi du calcul d’histogrammes.

• Le deuxième module a été exécuté au bout de 147.379 sec = 2 min 27 sec.

Les fichiers résultats du module de calcul d’histogrammes sont regroupés dans un même fichier. Ce dernier sera introduit avec le fichier contenant les bornes possibles au programme centralisé de recherche du meilleur histogramme. Ce programme retourne alors les histogrammes de 3 modalités les plus discriminants en 94 ms. L’ensemble des fichiers générés par ce programme sont représentés dans la figure 4.15.

FÎGURE 4.15 – Les fichiers résultats du module de recherches des histogrammes les plus discriminants.

NB :Ces résultats sont identiques à celles obtenues en lançant HistSyr sur la base de données initiale de 150 Iris. Ce qui permet de valider la justesse de l’ensemble des modules constituants CloudHistSyr.

4.2.2 Avantages et inconv´enients de la deuxi`eme approche Avantages :

• Cette solution est moins couteuse que la premi`ere.

5 Application de CloudHistSyr sur les donn´ees r´eelles du portique de Nantes 161

• Les résultats des jobs Map/Reduce sont réutilisables puisqu’ils permettent : de calculer la liste des bornes frontières et de résumer les données initiales par rapport à cette liste.

Ce qui rend possible de changer le nombre des modalit´es des histogrammes sans refaire les tests dans le Cloud.

Inconv´enients :

• Le temps d’exécution du deuxième module peut augmenter de façon considérable si le nombre de bornes possibles augmente (voir section 5).

• Le dernier composant de cette solution (l’algorithme centralisé de recherche des meilleurs bornes de découpages), peut avoir des limites avec des données ayant plusieurs milliers de bornes possibles.

La problématique du temps d’exécution du deuxième module peut être résolue soit en augmentant le nombre de nœuds dans le cluster, soit en lançant d’une façon parallèle des jobs de calcul d’histogrammes prenant des sous liste de la liste initiale des bornes. Ce qui reviendrait

à subdiviser la liste des bornes et lancer un nombre négligeable de clusters en parallèle comparé

à ce qui est proposé dans la première approche.

5 Application de CloudHistSyr sur les donn´ees r´eelles du portique de Nantes

5.1 Pr´esentation des donn´ees initiales

Les données ont été recueillies dans le temps par 21 capteurs installés sur un portique d’autoroute^≪test^≫. Les 21 capteurs peuvent être divisés en deux groupes différents :

• 11 capteurs de changement d’état dont : – 3 accéléromètres ACC1, ACC2, ACC3 ; – 2 inclinomètres INC1, INC2

– 6 jauges de d´eformation GAG1 `a GAG6

• 1 station météo composée de 10 capteurs dont : – 5 capteurs de pression PR1 à PR5

– 2 capteurs de temp´eratures TEMP1 et TEMP2

Trois états différents ont été simulés chronologiquement ”Avant”, ”Pendant” et ”Après” :

• Un premier état sans défaut = Avant le 20 février 2013

• Un second état d û à l’ajout de deux masses sur le portique. L’ajout de ces deux masses est considéré équivalent à un défaut = Pendant (entre le 21 février le 03 mars 2013)

• Un troisième état après le retrait des masses = Après le 4 mars 2013

Les données considérées ont été enregistrées entre le 19 décembre 2012 et le 15 avril 2013.

Durant cette période, plusieurs enregistrements sont effectués chaque jour durant une durée limitée (le nombre d’enregistrements quotidiens et leurs durées ne sont pas toujours les mêmes sur la période étudiée). Ces enregistrements sont appelés ”évènements dynamiques”. Par exemple, ”Event 2013-01-15 08” désigne l’évènement du 15 janvier 2013 numéro 8. Nous avons au total 2100 évènements dynamiques. Chaque évènement dynamique produit un fichier de données recueillant les mesures à chaque instant. Dans ce fichier, les lignes sont des instants et les colonnes représentent les valeurs relatives à chacun des 21 capteurs (changement d’état + station météo).

Dans le document The DART-Europe E-theses Portal (Page 171-175)