• Aucun résultat trouvé

Conclusion

Dans le document Résumé de flux de données ditribués (Page 37-39)

De plus en plus de données circulent sous la forme de ux (data streams) de façon continue, à un rythme rapide (par rapport aux capacités de traitement du système qui les reçoit) et éventuellement de manière innie. Les techniques classiques d'interrogation et d'extraction de connaissances sur des données statiques deviennent inadaptées à un contexte aussi dynamique puisque la majorité de ces approches requiert plusieurs passages sur les données. Les Systèmes de Gestion de Flux de Données ont été développés an de traiter ces données arrivant en continu et à un taux rapide. La diérence de ces systèmes avec les Systèmes de Gestion de Bases de Données résident dans le fait que les données sont persistantes dans les SGBD et les requêtes sont transitoires (éphémères). Alors que dans les SGFD, ce sont les requêtes qui sont persistantes et les données sont transitoires. Les données continues sont considérées comme des ux innis de données sur lesquels les requêtes sont évaluées de manière continue. Pour des opérateurs bloquants, des fenêtres temporelles ou des fenêtres logiques (en nombres d'éléments) sont utilisées an de construire un ensemble ni d'éléments à partir des ux innis.

Les requêtes sur les ux de données concernent généralement des tâches de su- pervision et d'envoi d'alertes. Ces tâches peuvent nécessiter de garder une trace des données historiques. Ne pouvant pas stocker la totalité des données des ux en raison des ressources limitées, il est souvent utile voire nécessaire de disposer de techniques de résumé ecace des ux de données entrants. Ainsi, de nombreux travaux de re- cherche ont été récemment proposés [6] pour répondre au principal dé induit par la dynamicité des ux de données : trouver le meilleur compromis entre l'ecacité (traitement au l de l'eau) et la précision des résultats.

Chapitre 3

Résumé de ux de données individuel

Sommaire

3.1 Introduction . . . 19 3.2 Techniques déterministes . . . 20 3.2.1 Histogramme . . . 20 3.2.2 Compression par ondelettes . . . 21 3.2.3 Segmentation de courbe . . . 25 3.3 Techniques probabilistes . . . 27 3.3.1 Sketch . . . 27 3.3.2 Approche par clustering . . . 30 3.3.3 Echantillonnage . . . 32 3.4 Conclusion . . . 35

3.1 Introduction

La volumétrie et le taux d'arrivée des ux de données représentent des contraintes temporelles (temps de traitement) et spatiales (espace de stockage) qui doivent être prises en compte dans le processus de traitement des données. Dans plusieurs appli- cations, des structures de résumés (appelés aussi synopsis dans la littérature) sont construites an de répondre approximativement à des tâches de traitement de don- nées. Csernel [47] dénit un résumé sur ux de données selon deux vues : une vue fonctionnelle du résumé ou avec une vue plus large. Dans la vue fonctionnelle, un résumé vise à rassembler une partie des informations contenues dans le ux sur une période donnée de façon à pouvoir résoudre une problématique particulière sur cette période. Dans la vue plus générale, le résumé vise à garder des informations compactes sur un ux de données dans son intégralité temporelle, sans envisager de problématique a priori. Cette vue du résumé est donc bien plus contraignante, elle est aussi plus dicile à évaluer, car par nature, un bon résumé généraliste doit pouvoir permettre n'importe quel type d'analyse et fournir des résultats satisfaisants à défaut d'être précis. C'est cette seconde vue qui nous intéresse dans le cadre de la problématique de la thèse. En eet, l'objectif de notre étude est de maintenir un

Chapitre 3. Résumé de ux de données individuel

historique des ux de données provenant de multiples capteurs de telle sorte qu'on puisse répondre à des traitements sur le présent et sur le passé des ux telles que : l'agrégation des ux, l'estimation de la fréquence, l'estimation des quantiles, détec- tion de changement, etc.

Il existe une variété de techniques qui peuvent être utilisées pour la construction des résumés de ux de données. Nous détaillons dans ce qui suit quelques unes de ces méthodes qui ne sont que des améliorations de techniques qui existaient déjà dans le cadre du traitement des données statiques pour des données massives. La plupart de ces méthodes respectent les contraintes liées à notre problématique, à savoir :

 La généricité : les applications nécessitant des structures de résumés sont nombreuses, il est donc préférable de construire un résumé qui soit assez gé- nérique. Ainsi le temps de traitement et l'espace de stockage sont optimisés, puisqu'on n'a pas besoin de construire un résumé pour tout type d'application.  Une seule passe : en raison de la volumétrie des données provenant des ux, on a besoin d'un algorithme permettant de faire une seule passe sur les données et générant une réponse rapide.

 Des ressources limitées : il s'agit des contraintes en temps de traitement et en espace de stockage qui doivent être optimisées. Ces contraintes sont assez classiques dans l'élaboration d'un résumé et plus généralement dans le traite- ment de données massives.

 La dynamicité : le résumé doit s'adapter aux évolutions rapides des données du ux. Les résumés peuvent être utilisés pour répondre à des requêtes de prévisions et doivent donc être sensibles à d'éventuels changements dans les données.

Nous avons limité notre étude aux techniques qui s'appliquent à des données quantitatives et uni-dimensionnelles. Néanmoins, certaines des techniques présentées dans ce chapitre peuvent aussi être appliquées à des données qualitatives et/ou multi- dimensionnelles. Nous avons classé les techniques de résumé selon deux catégories. La première catégorie concerne les techniques probabilistes où le résumé a une probabilité donnée d'être sélectionné. Ceci signie que si on applique ces techniques à plusieurs reprises sur le même jeu de données, le résultat à l'issue du résumé pourra varier. (2) La seconde catégorie concerne les techniques déterministes. L'application répétitive de cette dernière catégorie sur le même jeu de données fournira toujours le même résultat.

Dans le document Résumé de flux de données ditribués (Page 37-39)