Paramétrage de l’approche - Résumé hybride

5.5 Résumé hybride

5.5.1 Paramétrage de l’approche

L’approche hybride ajoute trois nouveaux paramètres aux algorithmes StreamSamp et CluStream à savoir β (paramètre du critère de variance), (paramètre du critère de la position des barycentres) et δ (paramètre de la réserve). Il est vrai que cette approche fait intervenir plus de paramètres que les algorithmes StreamSamp et CluStream cependant, l’utilisation de ces paramètres présente les avantages suivants : (i) réduction de la charge et, (ii) qualité du résumé. Pour le premier avantage, ces paramètres font que CluStream fonctionne sur un flux échantillonné (plus léger que le flux d’origine), ce qui lui assure un

état 1 t1 t2 état 2 t3 état 3 Résumé composé uniquement par des échantillons Résumé composé par des échantillons

et des clichés échantillon _cliché Résumé composé uniquement par des clichés temps

Figure 5.5 – Cycle de vie des évènements du flux dans l’approche hybride.

traitement plus rapide. De plus, ces paramètres garantissent un résumé de meilleure qualité sur toute la période temporelle étant donné qu’ils contrôlent le processus d’échantillonnage de StreamSamp.

Nous notons que dans le cadre d’un flux monodimensionnel, les critères de passage seront évalués deux fois, étant donné que les contraintes sur β et donnent le même résultat dans le cas d’une seule variable. Cependant, dans le cadre d’un flux multidimmensionnel, les contraintes β impliquent sur chaque variable une contrainte sur qui n’est pas assez forte. Inversement, une contrainte sur implique une contrainte sur les β mais qui n’est pas assez forte. D’où l’utilité de spécifier ces deux contraintes.

Paramétrage de δ. Le choix de la valeur de δ n’a pas d’effet sur le processus de CluS- tream. La seule différence entre une grande et une petite valeur de δ est le temps néces- saire à CluStream pour traiter le lot d’échantillons en entrée. Nous distinguons entre les évènements initiaux (évènements avant leur passage à StreamSamp) et, les évènements échantillonnés (évènements après leur passage à StreamSamp). Ainsi, ce qui a un effet sur CluStream est le débit avec lequel les évènements éhantillonnés lui sont envoyés. Ces évè- nements sont envoyés avec un débit inférieur au débit avec lequel les évènements initiaux entrent au système. Néanmoins, si malgré la phase de ré-échantillonnage de StreamSamp, l’algorithme CluStream ne peut faire face au débit des évènements échantillonnés, un processus de délestage doit alors être appliqué engendrant ainsi la perte de certains évènements. Ce système de délestage peut être appliqué soit sur les évènements initiaux (c’est à dire avant leur entrée dans StreamSamp), soit sur les évènements échantillonnés (c’est à dire avant leur passage à CluStream). Etant donné que StreamSamp est rapide, on conserve le

plus possible ces échantillons et, leur perte sera planifiée au niveau de leur passage vers CluStream.

5.5.2 Tâches d’analyse

Comme indiqué dans le cas des résumés StreamSamp et CluStream, afin d’analyser des portions précises (e.g. la période [ta, tb]) de l’histoire du flux, il est nécessaire d’extraire

la partie du résumé qui respecte la période en question. Cependant, l’approche hybride combine deux structures de données différentes. A cet effet, en fonction de la période évaluée [ta, tb], trois scénarios sont possibles :

– Tous les évènements inclus dans la période appartiennent au résumé StreamSamp. – Tous les évènements de la période sont inclus dans le résumé CluStream.

– Les évènements de [ta, tb] sont partagés entre le résumé StreamSamp et celui de

CluStream.

Nous nous intéressons dans ce qui suit au troisième cas de figure étant donné que le traitement des deux premiers scénarios revient à ce qui a été présenté dans les sections 4.2.3.1 et 4.3.2.1.

présent passé

cliché _échantillon

Figure 5.6 – Composition du résumé hybride sur la période interrogée [ta, tb].

5.5.2.1 Réponse aux requêtes

Dans le cadre de l’approche hybride l’ensemble des analyses sont réalisées sur le résumé de la période [ta, tb]. Ce résumé peut être constitué d’un ensemble d’échantillons et d’un

ensemble de micro-classes. Les évènements des échantillons sont pondérés et, les micro- classes seront représentées par leurs barycentres pondérés par l’effectif total observé dans les micro-classes. Nous notons Ef_{[T ,tb]} la partie du résumé hybride extraite du résumé

StreamSamp et, Ef_{[ta,T ]} la partie récupérée du résumé CluStream. Dans la plupart des cas,

il est possible d’estimer la requête indépendamment sur Ef_{[ta,T ]} et Ef_{[T ,tb]} et combiner par

la suite les deux résultats. Cependant, cette règle ne peut être généralisée (e.g. cas de la médiane) et dépend de l’analyse à effectuer.

Calcul de la moyenne et de la variance. Pour calculer ces agrégats sur le résumé

hybride de la période [ta, tb], il suffit de calculer l’agrégat séparément sur le résumé fourni

par StreamSamp ainsi que celui fourni par CluStream. Ainsi dans la cas de la moyenne :

X_[t_a_,t_b_]= X i∈E_f[T,t b] xiwi+ Nc X i=1 CF1(i)_[T a,T ] X i∈E_f[T,t b] wi+ Nc X i=1 ni (5.6)

De même pour la variance :

S2_[t_a,tb]= S 2 [ta,T ]+ S 2 [T ,tb] (5.7) avec S2

[ta,tb]l’estimateur de la variance calculé au niveau de la période [ta, tb]. De même

pour les périodes [ta, T] et [T, tb]. Nous estimons leurs variances comme suit :

S2_[t_a_{,T ]} = Nc X i=1 CF2(i)_[t a,T ]− X 2 Nc X i=1 ni−1 (5.8) S_{[T ,t}2 b]= 1 |E_f [T ,tb]| −1    X i∈E_f[T,t b] wi(xi− X) 2    (5.9)

Calcul de la médiane. Le calcul de la médiane pour une variable x ne peut être réalisé

en deux parties. En effet, cette statistique est basée sur l’ordre des évènements. Il est ainsi nécessaire de concaténer les évènement résultants du résumé StreamSamp ainsi que les barycentres issus du résumé CluStream. La médiane est calculée sur l’ensemble des évènements. Pour cela le système procède comme suit :

– Concaténation des deux résumés : Ef_[ta,tb] = Ef[ta,T ] ∪ Ef[T ,tb];

– Tri des valeurs dans le résumé Ef_[ta,tb];

– Calcul du poids cumulé. Notons que sur la partie du résumé extraite de CluStream, la valeur wi dans la formule est égale à ni (i.e. effectif total de chaque micro-classe).

P oids= X i∈E_f[ta,t b] wi – Calcul de la médiane p : argmin p X rang(i)≤rang(p) wi− 1 2 Ef[ta,t_b] X i wi

Classification supervisée et non supervisée. Pour les tâches de classification su-

pervisée et non supervisée, nous utiliserons la même démarche utilisées spéraément pour les algorithmes StreamSamp et CluStream. Il s’agit de faire l’union entre les évènements générés à partir du résumé CluStream ainsi que les échantillons du résumé StreamSamp. Pour la classification non supervisée, les classes sont construites à partir de l’union de ces évènements. De même, pour la construction du modèle dans le cas de la classification supervisée. La phase d’évaluation reste identique à celle appliquée pour les algorithmes StreamSamp et CluStream.

5.6 Expérimentations

Nous comparons dans cette section les performances de notre approche avec les algorithmes StreamSamp et CluStream. Des comparaisons faisant intervenir l’approche hybride sans réserve et l’approche hybride avec réserve permettent de mettre en avant l’utilité de la réserve dans l’étude des performances. Comme précédemment, nous nous intéressons à l’évolution des résultats sur une période temporelle qui vieillit au cours du temps. Les tableaux 5.2, 5.4 et 5.3 illustrent les paramètres des différents algorithmes lors des expéri- mentations. Ces paramètres ont été définis de façon à obtenir un même volume de résumé pour tous les algorithmes. Le jeu de données utilisé pour les expérimentations est KDD99 (cf. Annexe A.1). Cependant, pour la classification supervisée le jeu de données utilisé est Cover Type (cf. Annexe A.2).

Table 5.2 – Paramètres de l’algorithme CluStream. CluStream

Nc: nombre de micro-classes = 50

Nombre de clichés par ordre = 17 (α = 2, Lc= 4) m : nombre d’évènements pour l’initialisation = 2000

Table 5.3 – Paramètres de l’algorithme StreamSamp. StreamSamp

α = 1

T = 500 évènements par échantillon L = 8 échantillons par ordre

Dans le document Extension et interrogation de résumés de flux de données (Page 162-166)