• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

7.4 Application à des données réelles

0.0 0.2 0.4 0.6 0.8 1.0 01/ 16 00h 01/ 16 05h 01/ 16 10h 01/ 16 15h 01/ 16 20h 01/ 17 01h 01/ 17 06h 01/ 17 11h 01/ 17 16h 01/ 17 21h 01/ 18 02h 01/ 18 07h 01/ 18 12h 01/ 18 17h 01/ 18 22h 01/ 19 03h 01/ 19 08h 01/ 19 13h 01/ 19 18h 01/ 19 23h 01/ 20 04h 01/ 20 09h 01/ 20 14h 01/ 20 19h 01/ 21 00h

Figure 7.10 – Quantité de CO2 par heure du 16/01/2012 au 21/01/2012 à la station Châtelet (RATP, 2012).

plus, l’utilisation des structures alternatives l et r mentionnée dans la section 6.1.3 p. 117 permet théoriquement de ramener leur occupation mémoire à 2n. Le développement de ces approches est proposé en perspectives de cette thèse.

7.4 Application à des données réelles

Cette section décrit l’utilisation de DPE pour générer un résumé linguistique décrivant la périodicité de données réelles. Les données utilisées sont les mesures horaires de la quantité de CO2 à la station de métro Châtelet, mises à disposition sur la plate-forme

open data de la RATP1, l’opérateur du métro parisien.

La figure 7.10 illustre ces données entre le 16 et le 21 janvier 2012. Un motif périodique quotidien présent du lundi au vendredi et composé de deux pics à 9h et à 18h est présent. Ces deux pics correspondent aux horaires de bureau en semaine.

DPE détecte la périodicité du motif, pas sa forme, et les deux pics sont simplement considérés comme un groupe de valeurs hautes. Leur identification spécifique pourrait être réalisée avec une des méthodes par actogramme présentée dans la section 4.2.3 p. 75, par transformée de Fourier présentée dans section 4.3.1 p. 78, auquel cas les phases des sinusoïdes de plus forte puissance devraient correspondre aux deux pics, ou encore à l’aide d’une des méthodes symboliques détaillées dans la section 4.5.2 p. 90 susceptibles de renvoyer un motif contenant des caractères correspondants aux pics.

La période de référence pref est 24h et le protocole du scénario S1 est utilisé, à savoir une comparaison entre les méthodes de regroupement γes et γBL avec les para-mètres tv = 0, 7 et tm = 8% et les cardinalités C et Xe pour le calcul de la taille des groupes. Le tableau 7.4 présente les résultats obtenus.

Résultats Conformément à nos attentes, le degré de périodicité est élevé, entre 0,72 et 0,86. La méthode de regroupement γBL renvoie des degrés de périodicité plus faibles que γes, confortant le fait que cette dernière est plus pertinente pour DPE car les données étudiées sont très périodiques et doivent être associées à une périodicité élevée.

Tableau 7.4 – Résultats obtenus sur les données réelles de la figure 7.10. Méthode Cardinalité π Période Phrase générée

γBL C 0,73 20,60 h La période est environ 20 heures

γBL Xe 0,72 17,05 h La période est exactement 17 heures

γes C 0,82 24,20 h La période est exactement 1 jour

γes Xe 0,86 17,05 h La période est exactement 17 heures De plus, la seule combinaison détectant la période de 24h est celle basée sur γes et la cardinalité C, ce qui confirme sa supériorité sur la cardinalité Xe, en accord avec les résultats des expériences sur les données synthétiques. Il convient d’ailleurs de noter que l’évaluation de la période est très précise puisque l’erreur effectuée est de |24, 20−24|/24 = 0, 8%, nettement moins élevée que celles réalisées par les autres méthodes qui s’échelonnent entre 14,2% et 29,0%.

Le fonctionnement du rendu linguistique est également visible dans l’approximation qui est faite des périodes calculées. Par exemple, 20,60h est représenté par « environ 20 heures » et 24,20h par « exactement 1 jour ». C’est cette dernière formulation qui est la plus conforme au résultat attendu.

7.5 Bilan

Ce chapitre présente deux études expérimentales permettant de valider la méthode DPE en termes de pertinence et de performance. La première étudie la méthode selon différents critères : décroissance régulière du degré de périodicité avec le bruit dans les données, évaluation juste de la période, robustesse de l’analyse pour des niveaux de bruits équivalents et étiquetage correct des groupes hauts et bas.

A l’aide de plusieurs scénarios permettant de comparer plusieurs variantes des diffé-rentes étapes de DPE détaillées dans les sections 5.2 p. 98 et 5.3 p. 105, nous avons établi que la plus efficace est basée sur la méthode de regroupement γeset utilise une cardinalité crisp pour évaluer la taille des groupes identifiés, une moyenne et une déviation abso-lue moyenne pour calculer leur régularité et une moyenne pour l’agréger et déterminer la périodicité de la série.

La seconde étude expérimentale est dédiée à la comparaison des performances des différentes méthodes de calcul du score d’érosion détaillées au chapitre 6. Cette étude montre que la méthode incrémentale par niveaux est la plus efficace et permet de calculer le score d’érosion d’un jeu de données d’un million de points en 1,5 seconde.

La méthode DPE est donc pertinente et efficace. Différents axes d’amélioration ont été identifiés au cours du chapitre comme l’évaluation par questionnaire du rendu linguistique, l’utilisation de la médiane dans les calculs de régularité ou la correction d’un biais de la méthode γes par rapport aux valeurs faibles érodées de nombreuses fois.

Chapitre 8

Contextualisation de la périodicité

Notre histoire particulière dépend de nous encore, non le contexte dans lequel elle s’inscrit : ce qui ne signifie pas qu’elle nous échappe. Agir en tenant compte du contexte.

—François Mauriac, Le nouveau Bloc-Notes

La méthode LDPE (Local Detection of Periodic Events) de détection locale des évé-nements périodiques est une généralisation de la méthode DPE qui contextualise dans le temps la périodicité π, la période p et l’expression linguistique pour chaque partie du jeu de données qu’elle identifie comme localement périodique.

LDPE permet donc l’analyse de séries à périodicité locale comme les séries (h) et (i) de la figure 4.2 p. 71 rappelées sur la figure 8.1. Ces séries sont non stationnaires et leurs caractéristiques de périodicité évoluent dans le temps. Pour celle de gauche, la périodicité est faible aux extrémités et élevée en son centre tandis que celle de droite affiche une périodicité élevée dans l’ensemble mais avec deux périodes différentes.

Dans les deux cas, DPE renvoie un degré de périodicité faible et une période non significative car ces résultats sont calculés sur l’ensemble des groupes H et L identifiés lors de la première étape de la méthode détaillée dans la section 5.2 p. 98. Nous proposons donc avec LDPE d’identifier automatiquement les sous-ensembles de groupes ou zone de périodicité homogène puis de calculer leur période de la même manière qu’avec DPE. Comme illustré sur la figure 8.2, LDPE est une généralisation de DPE qui prend en entrée les groupes extraits de la première étape de DPE par la méthode de regroupement et renvoie un résultat équivalent, soit une période, une périodicité et une phrase, pour

0 0,2 0,4 0,6 0,8 1

Périodicité locale - 1 période

0 0,2 0,4 0,6 0,8 1

Périodicité locale - 2 périodes

Figure 8.1 – Séries à périodicité locale 159

���������� � ������� �������� ����������� �� �� �� ��������� ������� ����� ����������� ������ ������� � �������� � ��������

���

����

��� ��������� ������ �� ����������� ������� ����� ����������� ����� �� �� �� ��������� ��� �� ������� ����������� ����������� ����

Figure 8.2 – Vue générale de la méthode LDPE englobant DPE

chaque zone périodique détectée. Un exemple de phrase générée est « Environ de Mars à Juin, les données sont périodiques de période exactement 2 semaines ». Dans le cas d’une série stationnaire pour laquelle la périodicité est constante, une seule zone est détectée et le résultat de LDPE est le même que celui de DPE.

La première phase de LDPE dédiée à l’identification des zones périodiques est réalisée en trois temps : d’abord, la périodicité locale de la série est calculée, comme détaillé dans la section 8.1, puis son front de périodicité présenté dans la section 8.2 p. 162 est déterminé, et les zones périodiques sont extraites selon l’approche décrite dans la section 8.3 p. 164.

La phase de calcul de la période, identique à celle de DPE, n’est pas représentée ici. En revanche, celle de génération linguistique, plus complexe du fait de la présence de l’information de contexte temporel, est détaillée dans la section 8.4 p. 167. Enfin, les nombreuses expériences réalisées sur des données artificielles et réelles pour valider notre approche sont présentées et discutées dans la section 8.5 p. 170.

Les travaux de ce chapitre ont fait l’objet de la publication (Moyse & Lesot, 2015).