Algorithme général - DPE en flux - Résumés linguistiques de périodicité 63

Partie 2 Résumés linguistiques de périodicité 63

6.3 DPE en flux

6.3.2 Algorithme général

Nous présentons sur la figure 6.7 un schéma indiquant les étapes principales d’un algorithme pour DPE en flux.

Vis-à-vis de l’approche DPE présentée au chapitre 5, le score d’érosion esi du point est calculé en même temps que esi, le score d’érosion de xi. Les deux branches des étape de niveau Points sont donc exécutées en parallèle.

Il convient de noter que la première étape de ces branches est la normalisation du point reçu. En notant W ⊂ X l’ensemble des points disponibles dans la fenêtre à un moment donné, il n’est plus possible de valider la contrainte de l’éq. (5.1) p. 98, en particulier qu’à tout moment ∃xi, xj tels que xi = 0 et xj = 1. Cette contrainte est simple à obtenir par pré-traitement lorsque l’ensemble des données à étudier est disponible au début de l’algorithme, mais ne peut plus être exigée en flux, sauf à les contraindre de manière très importante. Ainsi, nous proposons d’étendre le calcul du score d’érosion et de la fonction γespour des valeurs dans R. Les formules à jour pour le calcul de la normalisation des points, du score d’érosion et de γes sont détaillées dans l’annexe E p. 223. L’impact de ce changement sur les algorithmes est discuté dans le paragraphe suivant.

Les étapes de niveau Points suivant celles de normalisation sont identiques à celles de DPE telle que présentées au chapitre 5.

Une fois déterminé le type du nouveau point reçu lors de la dernière étape de niveau

Points, les étapes de niveau Groupes démarrent. Ces dernières sont également présentées

b x_i ∈R

Préparation x_i = xb_i− m

M − m les deux x_i= ^{M −}xb_i

M − m

Score d’érosion ^esi= P^zⁱ j=0

^j_i es_i = P^zⁱ

j=0 ^j_i

Max Mes= max esi M_es= max esi

Normalisation ês^∗i = êsi Mes ês ∗ i = êsi Mes Type γ_es(xi) = ( H si es∗ i ≥ es^∗_i L sinon Regroupement g= gH + gL

Tailles de groupes s^H_j l’un ou l’autre s^L_j

Taille moyenne ^µ^H = PgH j=1s^H gH = ⁿ^H gH µ^L= PgL j=1s^L gL = ⁿ^L gL Déviation absolue moyenne d^H = PgH j=1|µH − sH| gH d^L= PgL j=1|µL− sL| gL Régularité ρ^H = ^d^H µH ρ^L= ^d^L µL Période candidate ^p^c= µH + µL Periodicité π = ^ρ^H ^{+ ρ}₂ ^L

normalisation ^{normalisation et}_{complément à 1}

Groupes H Groupes L P oin ts Grou pe s

6.3. DPE en flux 131

reçu est de type H (resp. L), la branche de gauche (resp. droite) est exécutée. Les étapes représentées pour le calcul des groupes sont identiques à celles du chapitre précédent.

Spécificités de DPE en flux Le relâchement de la contrainte de l’éq. (5.1) p. 98 rend l’implémentation de DPE plus complexe mais également plus générale. En effet, comme précisé dans la section 5.2.2 p. 101, la convergence du score d’érosion es est assurée par la présence d’au moins une valeur nulle dans les données sur lesquelles il est calculé. De manière symétrique, la convergence d’es l’est par la présence d’une valeur 1.

Dans le cadre d’un flux, seule la présence d’une valeur minimale m et d’une valeur maximale M est garantie dans les données de la fenêtre W . Ainsi, comme détaillé dans l’annexe E p. 223, es et es dépendent des valeurs égales à m et M respectivement. Leur mise à jour dépend du type de flux considéré, incrémental ou fenêtré.

Dans le premier, les données reçues sont conservées et les seuls changement dans W sont liés à l’arrivée de nouvelles données. En ce cas, les valeurs de m et M sont simples à maintenir et sont monotones, i.e. m ne peut que décroître et M que croître. Nous détaillons ci-après l’impact de l’arrivée d’une nouvelle donnée sur les valeurs déjà calculées d’esi, les mêmes principes étant applicables à esi.

Lorsqu’une nouvelle donnée est reçue, elle est ou non inférieure à m. Si elle ne l’est pas, la méthode décrite dans la section 6.1.4 p. 119 pour la mise à jour incrémentale des scores d’érosion est directement applicable. Si elle l’est en revanche, l’ensemble des scores d’érosion de la fenêtre doivent être recalculés car la valeur m change de position. D’une manière générale, lorsque m décroît, les esisont plus importants relativement aux esi et les groupes hauts sont plus nombreux et/ou plus larges. Ce phénomène s’explique intuitive-ment par l’effet de la normalisation des données dans [m, M]. Supposons par exemple des oscillations comprises entre 9,9 et 10, interprétées comme des alternances de groupes haut et bas, suivies d’une valeur soudainement plus basse, 0 par exemple : une fois renormalisées dans [0,10], les oscillations sembleront planes et les données seront vues comme composées d’un groupe haut contenant les données précédentes et d’un groupe bas débutant avec la valeur 0.

Dans le cas d’un flux fenêtré, le problème est plus complexe car les changements de W sont dus à l’arrivée de nouvelles données mais également au retrait des plus anciennes. Dans ce cadre, le maintien des valeurs m et M n’est plus trivial et leur évolution n’est plus monotone, i.e. la valeur de m peut croître et celle de M décroître d’un instant au suivant.

Un certain nombre de solutions sont toutefois envisageables dans ce cadre. D’une part, des méthodes efficaces de mise à jour de m et M existent, comme celle de Lemire (2006) mentionnée plus haut. D’autre part, la technique de mise à jour incrémentale du score peut être appliquée de manière symétrique au cas du retrait des données en ne mettant à jour que les scores d’érosion des points situés sur la moitié gauche de l’intervalle entre le point retiré et le premier point inférieur dans W .

identifiés et donc la période et la périodicité. En effet, puisque les groupes haut et bas peuvent être amenés à changer avec l’arrivée de données et le départ des plus anciennes, il est possible qu’un point appartenant à un groupe H à un instant appartienne à un groupe L à l’instant d’après. En reprenant l’exemple ci-dessus, lorsque seules les oscillations dans [9,9 ; 10] sont présentes, le flux peut paraître périodique, mais lorsque la valeur 0 arrive, alors seuls deux groupes sont définis et la série n’est plus périodique.

Plusieurs approches peuvent être retenues pour traiter ce cas, notamment la contex-tualisation des résultats, i.e. l’association d’une période et d’une périodicité à un sous-ensemble de points de la fenêtre. Nous proposons une méthode de ce type au chapitre 8.

Plus généralement, la formalisation des approches par flux constitue une perspective de la méthode DPE.

Comparaison avec les implémentations présentées

À différents égards, les algorithmes incrémentaux présentés dans les sous-sections 6.2.4 et 6.2.5 pp. 126-127 sont plus spécifiques que la méthode générale présentée ici.

D’abord, ils fonctionnent en flux incrémental et non en flux fenêtré, ce qui pose le problème de l’occupation mémoire au bout d’un certain moment. De plus, les calculs de es et es sont réalisés en deux passes séquentielles au lieu du calcul simultané proposé ici. D’autre part, ils n’intègrent pas le calcul incrémental des groupes et la question de leur mise à jour. Enfin, même dans le cadre du flux incrémental, ils éludent la question du maintien de m et M en ajoutant en début de flux une valeur 0 et une valeur 1. Cette approche est correcte si les données suivantes contiennent des 0 et des 1 auquel cas ces valeurs deviendront les nouvelles valeurs de référence pour les données ultérieures. Si au contraire le 0 et le 1 ajoutés en début de flux sont les seuls, alors ils entraînent un biais important dans l’analyse des valeurs suivantes.

Ainsi, les implémentations présentées dans la section précédente apportent un éclairage indispensable pour la compréhension du score d’érosion mais méritent d’être généralisées au cadre présenté dans cette section.

6.4 Bilan

Nous avons présenté dans ce chapitre les différentes approches retenues pour mettre en œuvre la méthode DPE introduite au chapitre 5. Du fait de l’importance du score d’érosion dans la méthode et de sa nouveauté, nous nous sommes attaché dans un premier temps à introduire des approches efficaces pour son calcul : par niveaux, incrémental, et incrémental par niveaux.

Par la suite, nous avons présenté dans la deuxième section différentes implémentations de ces approches ainsi que leurs complexités.

Dans la dernière section, nous avons proposé un modèle général en flux pour DPE, étendant les méthodes de calcul efficace du score d’érosion à l’ensemble des étapes de la méthode.

Chapitre 7

Expériences

Plongeur sous-marin débutant, cherche équipement réduit pour expérimentation en lavabo.

—Pierre Dac, L’Os à moelle

La méthode DPE et ses variantes, présentées au chapitre 5, ainsi que les algorithmes et leurs implémentations, détaillés au chapitre 6, ont fait l’objet d’un nombre important d’expériences présentées dans ce chapitre.

Ces dernières sont réparties en deux études expérimentales : la première vise à valider la pertinence de DPE et la seconde ses performances. Ces deux études utilisent de nombreuses données synthétiques de formes, de tailles et de bruit variés, créées par un générateur présenté dans la section 7.1. Elles se réfèrent également à un ensemble de critères et à un

protocole expérimental permettant de les vérifier.

Dans l’étude de la pertinence de DPE, détaillée dans la section 7.2 p. 139, les critères retenus sont liés au comportement des méthodes de regroupement et de calcul de la période et de la périodicité en fonction des différents types de bruit utilisés pour générer le jeu de données. Plus précisément, le degré de périodicité doit décroître avec le bruit dans les données, cette décroissance doit être régulière, pour des niveaux de bruits équivalents la méthode doit renvoyer des résultats équivalents, la période estimée doit être la plus proche possible de la période « réelle » et l’appartenance des points aux groupes hauts ou bas renvoyée par la méthode de regroupement doit être la plus précise possible.

Cette première étude présente les résultats obtenus selon ces critères avec les différentes variantes de DPE sur des jeux de données créés dans le cadre de scénarios qui détaillent les paramètres de génération utilisés. Parmi ces paramètres, l’un contrôle le bruit par paliers successifs entre 0 et 1 afin de permettre la création de jeux de données du moins bruité, donc strictement périodique, au plus bruité, apériodique.

Dans l’étude de la performance de DPE présentée dans la section 7.3 p. 151, les dif-férentes approches liées à l’étape de regroupement par score d’érosion sont comparées. Une attention particulière est portée à cette étape du fait de sa complexité importante,

Tableau 7.1 – Étapes et paramètres de génération des données artificielles

Étape Paramètres(τ ∈ {H, L})

1. Génération des étiquettes H et L

p^τ : taille des groupes

ν_s^τ : bruit sur la taille des groupes

ν_o^τ : bruit d’oubli sur les groupes

2. Génération des valeurs ^{forme : Rectangle, Sinus, Vague, Triangle}ν_v : bruit sur les valeurs

νt : paramètre de tendance 3. Normalisation des données

-montrée dans dans la section 6.2 p. 123 du chapitre précédent.

Les critères retenus pour les performance sont le temps et l’occupation mémoire consom-més par les différentes variantes de DPE. Le scénario utilisé génère des données croissantes en taille jusqu’à un million de points, avec des paramètres de formes et de bruits variés afin de comparer les méthodes dans les cas les plus divers. Nous présentons également une ver-sion plus précise de la complexité des méthodes en fonction des paramètres de génération, permettant de retrouver analytiquement les résultats obtenus expérimentalement.

Enfin, la section 7.4 p. 157 présente une application de la méthode DPE sur un jeu de données réelles permettant de vérifier la pertinence des trois résultats qu’elle renvoie, à savoir le degré de périodicité, la période et le rendu linguistique.

Les expériences menées sur la pertinence de DPE ont été publiées dans (Moyse et al., 2013a) et (Moyse et al., 2013b) et celles sur sa performance dans (Moyse & Lesot, 2014).

7.1 Générateur de données artificielles

Un grand nombre d’expériences ont été exécutées sur des données artificielles dans le but de tester un ou plusieurs points spécifiques des méthodes comparées. L’intérêt des données artificielles réside dans la connaissance des paramètres utilisés pour leur génération et donc de la réponse attendue pour la méthode.

Le générateur de données que nous présentons permet de tester l’ensemble des cas de période et de périodicité présentés sur la figure 4.2 p. 71 à l’exception des séries symboliques et de période non constante, ces dernières faisant l’objet du chapitre 8.

Il fonctionne en trois étapes : d’abord des groupes H et L de points hauts et bas respectivement sont créés selon les paramètres de taille donnés en entrée, puis des valeurs sont associées à chaque point des groupes selon les paramètres de forme et de bruit et enfin normalisées dans [0, 1].

Ces étapes sont résumées dans le tableau 7.1 et détaillées dans les trois sous-sections suivantes. De plus, la figure 7.1 donne des exemples de jeux de données générés par la méthode en fonction de ses paramètres.

para-7.1. Générateur de données artificielles 135

Étape 1 : taille pτ des groupes, bruit en taille ντ

s et en oubli ντ o 0 0,2 0,4 0,6 0,8 1 νH s = 1 - Sinus, pH = 10, pL= 10 0 0,2 0,4 0,6 0,8 1 νH o = 0.5 - Vague, pH = 10, pL= 10 0 0,2 0,4 0,6 0,8 1 νL s = 1 - Sinus, pH = 10, pL= 10 0 0,2 0,4 0,6 0,8 1 νL o = 0.5 - Vague, pH= 10, pL= 10

Étape 2 : forme des groupes, bruit en tendance ν_t et en valeur ν_v

0 0,2 0,4 0,6 0,8 1

Triangle, pH = 10, pL= 5 - bruit nul

0 0,2 0,4 0,6 0,8 1

Sinus, pH = 10, pL= 10 - bruit nul

0 0,2 0,4 0,6 0,8 1

Rectangle, pH= 10, pL= 5 - bruit nul

0 0,2 0,4 0,6 0,8 1

Vague, pH= 10, pL= 10 - bruit nul

0 0,2 0,4 0,6 0,8 1 ν_t= 0.5 - Sinus, pH= 10, pL = 10 0 0,2 0,4 0,6 0,8 1 ν_y= 0.3 - Triangle, pH = 10, pL= 10

Figure 7.1 – Jeux de données générés. Les figures illustrent l’influence du premier para-mètre indiqué dans la légende.

mètres de génération, utilisées par la suite pour l’évaluation des critères de qualité.

Dans le document Résumés linguistiques de données numériques : interprétabilité et périodicité de séries (Page 142-148)