Discussion - Extension et interrogation de résumés de flux de données

4.4 Expérimentations

4.4.4 Discussion

Les expérimentations réalisées ont révélé un comportement reproductible des performances des algorithmes quelque soit l’analyse effectuée. Nous observons trois phases dis- tinctes au cours desquelles les algorithmes adoptent des comportements différents. La pre- mière phase représente les évaluations sur le passé proche pour lesquelles les algorithmes d’échantillonnage progressif occupent la première place en terme de performance. La troi- sième phase regroupe les instants du passé lointain pour lesquels CluStream prend la main sur les performances réalisées. Sur ces deux phases, nous distinguons clairement un algorithme par rapport à un autre ce qui n’est pas le cas des évaluations sur la période intermédiaire où parfois StreamSamp est meilleur (e.g. cas de la classification supervisée), d’autres fois CluStream (e.g. cas de la médiane). En effet les performances des algorithmes sur cette période dépendent fortement de l’analyse réalisée. Nous interprétons dans ce qui

suit les résultats observés au cours de ces expérimentations. Pour cela, nous étudions les facteurs qui influencent la qualité des résumés.

t ) ( X Q CluStream 1 StreamSamp t ) (T Q CluStream 1 StreamSamp t ) (X T Q × CluStream 1 StreamSamp p

a) Évolution de la qualité des estimations b) Évolution de la précision temporelle

c) Évolution des algorithmes dans l’espace à deux dimensions p

Figure 4.22 – Évolution des performances des algorithmes au cours du temps.

Les performances d’un algorithme de résumé dépendent de deux facteurs : (i) la disposition temporelle des données et, (ii) leur disposition dans l’espace de représentation. On parle ainsi d’un espace à deux dimensions : l’espace du temps (X) et, l’espace des valeurs (T). Le premier concerne le positionnement des fenêtres et, le second concerne la technique utilisée pour représenter les données. La qualité des résumés diffère en fonction de ces facteurs.

– Sur l’espace du temps (T) : les algorithmes CluStream et StreamSamp adoptent un système de fenêtre logarithmique (fenêtres inclinées). Ce système génère une erreur exponentielle34 _{sur T (cf. Figure 4.22 b). Cette erreur engendre par conséquent une}

dégradation rapide des performances au cours du temps.

– Sur l’espace des données (X) : contrairement à l’espace temporel où les algorithmes adoptent la même stratégie pour le traitement du temps, la représentation des données diffère d’un algorithme à un autre.

Dans le cas de CluStream, il y a une dégradation initiale des estimations mais qui reste constante au cours du temps (cf. Figure 4.22 a). En effet, lorsqu’un cliché est sauvegardé, il représente l’état du système à un instant donné et, tant que ce cliché n’est pas supprimé du résumé, il reste toujours représentatif (i.e. les clichés ne se dégradent pas avec l’ancienneté de la période). Cependant, la dégradation

34. Du fait que les fenêtres inclinées suivent une échelle logarithmique, la précision retournée pour une période temporelle évaluée décroît exponentiellement.

de CluStream observée pour toute analyse sur le passé proche s’explique par une dégradation liée au volume dédié. Plus on augmente le nombre de micro-classes Nc,

meilleurs sont les résultats retournés.

Dans le cadre de StreamSamp, la dégradation de la qualité des résultats est pro- gressive, il s’agit de la conséquence logique liée à l’effet du ré-échantillonnage. En dépit de cette dégradation, les premières estimations sont de bonne qualité (erreur initiale nul pour un α = 1). Nous entendons par premières évaluations, l’exécution de l’algorithme de la requête sur les échantillons d’ordre 0.

D’un point de vue général, CluStream est contraint par un seul facteur (le positionnement des fenêtres de la requête sur le système de fenêtres inclinées), ce qui explique sa dégradation au cours du temps. En revanche, la dégradation de StreamSamp est influencée par les deux facteurs (le positionnement des fenêtres et la représentation des données). La combinaison des deux espaces fournit le résultat suivant (cf. Figure 4.22 c)) : les performances de StreamSamp se dégradent progressivement, elles se caractérisent par une précision initiale de bonne qualité mais, une vitesse de dégradation importante. Tandis que CluStream se caractérise par une précision moindre à celle de StreamSamp mais, une vitesse de dégradation plus lente. Par conséquent, les performances des algorithmes se dégradent à vitesse différente provoquant un croisement des courbes au point p. Il s’agit du point à partir duquel les performances de CluStream vont être meilleures que celles de StreamSamp. Ce point de transit se situe dans la période intermédiaire. Il dépend du jeu de données et des tâches à réaliser.

Ainsi, chacun de ces deux algorithmes présente des avantages et des inconvénients. Dans le chapitre suivant, nous proposons de combiner le meilleur des deux afin de produire une approche hybride.

4.5 Synthèse

L’objectif de ce chapitre consistait à étudier en profondeur les caractéristiques des algorithmes StreamSamp et CluStream (e.g. paramètres, évolution des résumés, etc.). Les expérimentations ont révélé la robustesse de l’échantillonnage progressif lors de l’évaluation des requêtes et des tâches de fouille sur le passé proche. Cependant, ces performances se dégradent en fonction de l’ancienneté de la période. En revanche CluStream montre un comportement assez stable au cours du temps, il ne présente pas des performances meilleures que StreamSamp pour le passé proche mais reste plus performant pour le passé lointain. Un résumé plus stable serait de tirer profit des avantages de ces approches. L’approche hybride, décrite dans le chapitre suivant, vise à combiner StreamSamp et CluStream de façon

à obtenir le meilleur des deux algorithmes. Elle permet par ailleurs de réduire le temps de calcul et de traitement des évènements du flux observé avec l’algorithme CluStream.

Par ailleurs, nous avons étudié dans ce chapitre l’exploitation statique des résumés aux différentes tâches d’analyses. Adapter l’algorithme de la requête à la structure de résumé n’est pas toujours trivial. Nous discutons dans le chapitre 6 une approche plus dynamique permettant de pallier à ces difficultés d’adaptation.

Résumé Hybride de flux de

données

Sommaire

5.1 Introduction . . . 129

Dans le document Extension et interrogation de résumés de flux de données (Page 148-152)