Effet des paramètres - Structure du résumé

4.2 Résumé de StreamSamp

4.2.1 Structure du résumé

4.2.1.2 Effet des paramètres

A l’instant de l’évaluation d’une requête sur un résumé de StreamSamp, nous ne dispo- sons que d’un ensemble d’échantillons. Ainsi, la réponse ne peut être exacte mais fournie par des estimations. Nous nous intéressons en premier lieu à l’effet de l’échantillonnage sur la qualité des estimations. Nous nous basons sur la théorie des sondages [20] pour étudier cet effet. Un des points fondamentaux est la nature de l’aléa introduit dans l’échantillon- nage. L’échantillonnage fait appel essentiellement à trois notions : le biais, la variance et l’erreur quadratique moyenne.

On considère une population de taille N finie dans laquelle on tire un échantillon sans remise de taille n finie. L’échantillon est tiré avec un taux de sondage de n/N. Nous limitons les analyses proposées dans ce qui suit aux variables quantitatives ainsi qu’aux requêtes d’agrégat de type Count, Somme, Moyenne, Variance et Médiane.

Soit X une variable quantitative, m la moyenne exacte de la population et X la moyenne estimée calculée sur l’échantillon.

X= 1 n n X i=1 xi (4.1)

X est un estimateur sans biais de la moyenne. Nous avons ainsi E[X] = m.

Pour quantifier l’erreur liée à l’opération d’échantillonnage, nous calculons l’erreur quadratique moyenne. Cette erreur est en fonction du biais et de la variance :

EQM(X) = V ar(X) + (Biais(X))2 (4.2)

Biais(X) = E[X] − m (4.3)

V ar(X) = E[X − E(X)]2 (4.4)

L’intervalle de confiance de la moyenne pour un coefficient de risque a est : [X − t.qV ar(X); X + t.

V ar(X)] (4.5)

avec t un nombre tel que Q(t) = 1 − a

2 (

Q(t) est donnée par la table de la loi de

Student).

En théorie de sondage, l’écart type σ(X)30 _{et la variance permettent de mesurer la}

précision. Plus ils sont grands, moins bon est le sondage. Il faut soit agir sur l’expression de l’estimateur (X), soit modifier la probabilité du tirage.

Nous étudions par la suite l’effet des paramètres de l’algorithme sur le volume occupé et la qualité des résultats. Nous posons Ne le nombre d’évènements passés avant l’arrivée

de l’évènement e. Ainsi l’ordre de e est déterminé par la formule suivante :

Ordre(e) = log₂ _N e L ∗ T (4.6) En tenant compte de l’échantillonnage initial, l’ordre de l’évènement devient alors :

Ordre(e) = log₂

_Ne

(L ∗ T )/α

(4.7) Nous rappelons que les paramètres de l’algorithmes StreamSamp sont α, T et L. Le taux d’échantillonnage α contribue au remplissage des échantillons du premier ordre (ordre

0). Dans le reste de ce chapitre, nous considérons que la totalité des évènements du flux

sont traités (α = 1).

Les paramètres L et T ont un effet sur le vieillissement du résumé en agissant sur la vitesse de croissance des ordres. Par conséquent, ces deux paramètres ont un rôle important sur le processus de mise à jour du résumé ainsi que la qualité des résultats des requêtes. Pour ralentir le vieillissent des échantillons au cours du temps et avoir un résumé "jeune", il suffit d’augmenter la valeur de L ∗ T , compte tenu de l’espace mémoire disponible.

1. Volume occupé : une des principales contraintes qui doit être prise en considération est l’espace mémoire disponible pour conserver les résumés de flux. Cet espace est généralement inférieur au volume du flux. Pour cela, il est nécessaire de bien para- métrer les algorithmes de résumé en prenant en considération cette contrainte. Dans ce qui suit, nous étudions l’importance du produit L ∗ T dans le volume occupé à l’instant courant t. Nous désignons par VM ax la taille maximale du résumé. Il s’agit

de la composition du résumé lorsque tous les ordres sont complètement remplis (cf. Figure4.3 où pour chaque ordre on a L ∗ T évènements du flux).

– Si, on a un seul ordre, le résumé contient L ∗ T évènements ; – Si, on a 2 ordres, le résumé contient 2 ∗ L ∗ T évènements ; – ...

– Si, on a n ordres, le résumé contient n ∗ L ∗ T évènements. Ainsi, le volume maximum occupé est :

VM ax(t) ≈ (L ∗ T ) ∗ nbOrdres(t) (4.8)

avec nbOrdres(t), le nombre d’ordres permettant de stocker les t évènements du flux.

nbOrdres(t) = Ordre(t) + 1 (4.9)

D’après 4.6, nous avons :

Ordre(t) = log2[ t L ∗ T] (4.10) Ainsi, nbOrdres(t) = log2[ t L ∗ T] + 1 (4.11)

Lorsqu’on atteint le volume maximale VM axet qu’un nouvel échantillon entre au sys-

tème à l’instant t, des mises à jours sont propagées pour créer un nouvel ordre. Cet ordre va contenir l’échantillon de taille T propagé par le processus de ré- échantillonnage. Une fois cet échantillon placé dans le nouvel ordre, il reste alors

t − T évènements à distribuer entre les ordres précédents (au nouvel ordre créé). Ces

ordres contiennent L−1 échantillons. Ainsi, le volume atteint à t noté VM inest donné

par la formule suivante (pour t ≥ T ) :

VM in(t) ≈ T + (L − 1) ∗ T [log2(1 + t − T (L − 1) ∗ T)] (4.12) 1 2 … 100 101 102 … 200 201 202 … 300 301 302 … 400 T=100, L=4

Opérations de ré-échantillonnage effectuée à t= 401, 601, 801, e tc. 30 45 … 184 T*L = 400 Ordre 0 Ordre 1 … 1 2 3 4 5 6 7 8 397 398 399 400 T=4, L=100 … 2 4 7 8 9 11 15 16 … 9 10 11 12 Ordre 0 Ordre 1

Opérations de ré-échantillonnage effectuée à t= 401, 409, 417, etc.

…

a. T >> L b. L >> T

Figure 4.4 – Mise à jour du résumé cas du T >> L et L >> T à valeur L ∗ T constante. Nous supposons qu’on a un évènement par unité de temps.

Nous constatons que les deux paramètres ont un effet important sur le volume du résumé. Ils interviennent sous la forme de leur produit. Par conséquent, à valeur L∗T constante, ces deux paramètres ont des effets différents que nous décrivons ci-dessous. 2. Puissance de calcul : le paramètre T contribue à la régularité du processus de ré-échantillonnage. En effet, plus la taille d’un échantillon (T ) est grande, moins souvent sera activée l’opération de ré-échantillonnage. Par conséquent, les opérations d’écriture sur le disque (qui sont assez coûteuses) seront moins fréquentes. Dans l’exemple (cf. Figure 4.4), pour L = 4 et T = 100, il y a une opération de mise à jour tous les 200 évènements du flux, aux instants t = 401, t = 601, t = 801, etc. Tandis que pour L = 100 et T = 4, des opérations de mise à jour sont prévues tous les 8 évènements du flux, aux instants t = 401, t = 409, t = 417, etc. Ainsi, plus T est petit, plus le nombre d’E/S sur disque est important.

3. Qualité du résumé : la qualité du résumé se traduit par deux notions. La première est la pondération associée aux échantillons et qui par conséquent reflète la qualité de ces derniers. La deuxième est le positionnement des fenêtres qui contribue dans la précision du résultat de la requête.

(a) Pondération : nous avons indiqué précédemment que le paramètre T contrôle le nombre de mises à jour (opération de ré-échantillonnage) effectuées sur le résumé. Chaque opération de mises à jour double le poids d’un échantillon et produit par conséquent la dégradation de sa qualité.

(b) Positionnement des fenêtres : le choix du paramètre T a un effet sur la taille de l’échantillon final (cf. section 4.2.3.1) sur lequel sera évaluée la requête. Plus la taille de ce paramètre est petite, meilleure est la précision étant donné qu’on conserve plus d’estampilles temporelles. Ainsi le résumé va contenir plusieurs échantillons (de petites tailles) et pour chaque échantillon, les dates de début et de fin de constitution sont sauvegardées. Par conséquent, meilleur est le positionnement des bornes de la requête sur la fenêtre inclinée, meilleurs seront les résultats retournées.

T=100, L=4 T=4, L=100

Requête posé à t410et portant sur la période [t4,t45] 30 45 … 184 1 t t200 100 évènements d’ordre 1 2 4 5 8 1 t t₈ 9 10 11 12 4 évènements d’ordre 1 13 14 15 16 45 46 47 48 40 évènements d’ordre 0 … 9 t 12 t 45 t t₄₈ a. T >> L b. L >> T

Figure 4.5 – Ensemble des échantillons du résumé couvrant la période interrogée [t4, t45].

Le tableau 4.1 résume les effets des paramètres L ∗ T et T . Deux compromis distincts apparaissent. Ils permettent de régler respectivement les valeurs de L ∗ T et du paramètre

T; la valeur de L s’en déduit.

– Compromis entre le volume occupé et la qualité d’estimation : en augmentant le produit L ∗ T , le résumé occupera un espace mémoire plus important (ce qui pose

Table 4.1 – Effet des paramètres T et L

Contrainte Si L ∗ T % Si T %

Volume occupé %

E/S sur disque &

Qualité de l’échantillon %

Positionnement des fenêtres &

un problème vu qu’on est limité en ressources). En contre partie, ceci améliorera la qualité des échantillons ;

– Compromis entre la fréquence des opérations d’E/S sur disque et le positionnement des fenêtres : en augmentant la valeur de T , les opérations de lecture/écriture se feront moins souvent étant donné qu’il y aura moins d’opérations d’échantillonnage. Cependant, plus la taille des échantillons est grande, plus la précision sur le positionnement des fenêtres est mauvaise étant donné qu’on ne conserve pas les estampilles temporelles des évènements.

Dans le document Extension et interrogation de résumés de flux de données (Page 114-118)