• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

4.6 Autres représentations

également être exécutée pour un intervalle de périodes candidates.

Elfeky et al. (2005b) proposent une méthode équivalente en utilisant la distance DTW. Le seuil d’écart maximal disparaît mais un autre paramètre équivalent lui est substitué pour définir cette distance. Elfeky et al. (2006) accélèrent cette approche en permettant son calcul de manière fenêtrée.

Huang & Chang (2005) étendent ces méthodes afin de permettre l’identification de la périodicité de l-k-itemsets. Leur algorithme bénéficie des différents atouts des proposi-tions précédentes mais sa complexité est importante. Elle est de plus très dépendante des différents paramètres fournis par l’utilisateur.

4.6 Autres représentations

D’autres représentations des séries temporelles ont été proposées pour calculer leur période. Ces dernières, nettement moins courantes que celles présentées dans les sections précédentes, sont brièvement décrites dans les paragraphes suivants.

4.6.1 Approches par graphes

Ferreira & Zhao (2014) proposent de convertir une série temporelle en graphe en divi-sant la série initiale en plusieurs segments correspondants chacun à un nœud du graphe. Un lien est établi entre deux nœuds si deux valeurs égales de la série sont présentes dans les deux segments correspondants. Un algorithme de détection de communautés est ensuite exécuté et une période est renvoyée lorsque l’appartenance aux communautés des valeurs de la série prises séquentiellement est cyclique. La méthode est décrite comme robuste aux valeurs manquantes mais est dépendante de sa discrétisation initiale.

4.6.2 Espace de phases

La représentation d’un signal dans un espace de phases en deux dimensions est une représentation paramétrique telle que ∀t = 1, ..., n − 1, x(t) = xt et y(t) = xt+k où k est un retard ou lag. Ces représentations sont également appelées lag scatter plot (Percival & Walden, 1998, p.4).

Elles possèdent des propriétés topologiques particulières et sont notamment fermées lorsqu’elles correspondent à un signal périodique (Gerhard, 2003). Dans le cas de signaux réels toutefois, cette propriété n’est pas exactement vérifiée, entraînant l’utilisation de techniques variées comme la triangulation de Delaunay pour la retrouver (Emrani et al., 2014).

4.6.3 Approches floue

Règles Novák et al. (2008) proposent d’évaluer la périodicité d’une série temporelle à l’aide de règles floues définies par l’utilisateur. Ces dernières sont basées sur une mé-trique Q calculée comme la différence entre deux valeurs séparées de k points. Pour celles

correspondant à la période du signal, Q(k) doit être faible. La périodicité du signal est donc évaluée à l’aide de la règle « Si Q(k) est Très Faible et Q(2k) est Très Faible alors la périodicité est Très Élevée », où Faible et Élevé sont des variables linguistiques définies par l’utilisateur et Très est un modificateur.

Machine à états finis Dans le cadre de l’étude de la marche humaine, Sanchez-Valdes & Triviño (2013) proposent d’associer l’une des modalités d’une variable linguistique à chaque valeur de la série temporelle puis à rapprocher cette modalité d’un état d’une machine floue à états finis.

Du fait des paramètres nécessaires à la définition de la variable linguistique et des transitions d’un état au suivant dans la machine à états finis, cette approche permet de reconnaître un type de signal donné. Elle n’est pas bien adaptée cependant au calcul d’une période inconnue a priori.

4.6.4 Méthodes hybrides

Différentes représentations du signal peuvent être utilisées afin de consolider l’analyse produite par différents points de vue ou bien pour initialiser certains paramètres.

Kedem (1986) propose par exemple d’utiliser le nombre de croisements du signal avec l’axe des abscisses, rapidement calculé et dont le comportement statistique est connu, pour confirmer ou infirmer une période détectée avec une autre méthode.

Un certain nombre de méthodes utilisent également la FFT en complément d’autres approches. Berberidis et al. (2002) par exemple l’exploitent pour détecter rapidement les périodes candidates avant d’identifier plus précisément les motifs périodiques d’une série symbolique avec la méthode de Han et al. (1999).

Vlachos et al. (2005) introduisent l’algorithme AUTOPERIOD qui utilise les pics de la DSP pour identifier les périodes candidates et les valident en s’assurant que ces dernières correspondent également à des pics dans la séquence d’autocorrélation.

Plautz et al. (1997) initialisent le calcul des paramètres d’un modèle construit comme une somme de sinusoïdes à l’aide d’une FFT dont les valeurs les plus importantes donnent les périodes. Les paramètres d’amplitude et de phase sont ensuite déterminés par régression au sens des moindres carrés. Yang & Su (2010) utilisent une méthode similaire avec une DSP calculée à l’aide d’un processus AR.

Papadimitriou et al. (2003) proposent la méthode incrémentale AWSOM de mise à jour d’un modèle AR basé sur les coefficients d’ondelettes calculés sur les données déjà reçues.

Enfin, Leise et al. (2013) proposent d’analyser automatiquement les segments utilisés pour les actogrammes en détectant leur phase à l’aide des coefficients d’ondelettes associés aux fréquences basses.

4.7. Bilan 95

Tableau 4.1 – Comparaison des méthodes en fonction de leur domaine de représentation

Domaine Avantages Inconvénients

Temporel - Diversité des méthodes adaptées

à de nombreux cas de figure - Signaux stationnaires Fréquentiel - Standard - Rapide - Multi composantes - Tests statistiques - Signaux stationnaires

Temporo-fréquentiel - Rapide- Multi composantes - Périodicité locale - Périodicité évolutive

- Exploitation complexe - Tests statistiques variables - Choix de l’ondelette Symbolique - Motifs - Nombreuses méthodes en multivarié - Périodicité locale - Complexité - Paramètres nombreux

4.7 Bilan

Cet état de l’art propose une vision large des différentes approches existantes pour le calcul de la période et de la périodicité dans une série temporelle. Il est à notre connais-sance le seul recensant les propositions faites dans différents domaines pour résoudre ces questions, du fait peut être du nombre très important de travaux proposés dans des champs scientifiques variés.

Deux taxonomies sont également introduites, l’une pour classer les séries temporelles, représentée sur la figure 4.1 p. 68, et l’autre pour désigner les différents cas de figures pris en compte dans ce chapitre, représentée sur la figure 4.2 p. 71.

Les avantages et les inconvénients des différentes représentations utilisées pour la dé-termination de la période et de la périodicité présentées dans ce chapitre sont synthétisés dans le tableau 4.1.

Enfin, cet état de l’art permet de situer la méthode DPE que nous présentons au cha-pitre suivant qui permet de calculer la période d’une série temporelle sans paramètre a priori, de manière rapide et qui fournit de plus une estimation de sa périodicité, contrai-rement à la majorité des méthodes présentées précédemment.

Chapitre 5

Détection d’évènements

périodiques : la méthode DPE

Je doute qu’il arrive jamais à cette simplification, cette « puissante érosion des contours » dont parle Nietzsche, et sans laquelle il n’y a pas de parfaite œuvre d’art.

—André Gide, Journal 1889-1939

Ce chapitre décrit la méthode DPE (Detection of Periodic Events) que nous avons proposé pour calculer la période et la périodicité d’une série temporelle ainsi que pour produire une phrase la décrivant, de la forme « M toutes les p unités, les valeurs sont élevées », où M est un adverbe et p unités une mesure de période. DPE repose sur le principe que la série est périodique si elle alterne de manière régulière des groupes de

valeurs hautes et basses, où la régularité est fonction de leurs tailles respectives.

Par rapport aux méthodes présentées au chapitre précédente, DPE calcule la périodi-cité de la série temporelle, en propose un rendu linguistique et fonctionne sans paramètre ni modèle a priori sur les données.

La première section de ce chapitre introduit le principe de fonctionnement de la mé-thode. Les trois sections suivantes détaillent ses trois étapes, à savoir le clustering des données en groupes de valeurs hautes et groupes de valeurs basses, le calcul de statis-tiques liées à ces groupes et permettant la détermination de la périodicité et de la période candidate, et enfin le rendu linguistique des éléments calculés.

Les travaux présentés dans ce chapitre ont fait l’objet des deux publications (Moyse et al., 2013a) et (Moyse et al., 2013b).

���������� � �������� ��������� ����������������� ����������������� �� �� �� ��������� ����� �� ��� ����������� ������� ������ ������� ����� �������

Figure 5.1 – Architecture de la méthode DPE

5.1 Architecture

Entrées X est une série à temps régulier de fréquence d’échantillonnage ∆t (cf. sec-tion 4.1.1 p. 68) à valeurs dans [0,1], telles que ces bornes sont atteintes :

X = {xi, i= 1, ..., n} tel que ∀i xi[0, 1] et ∃i, j tels que xi = 0 et xj = 1 (5.1)

X peut en particulier représenter une série temporelle de degrés d’appartenance à des modalités floues.

Sorties Les résultats produits par DPE sont une période candidate pc et une périodi-cité π décrites dans la section 4.1.2 p. 70, ainsi qu’une phrase descriptive de la forme « M toutes les p unités, les valeurs sont élevées ». Lorsque les données en entrée sont des degrés d’appartenance à la modalité P , cette phrase peut être interprétée comme « M toutes les

p unités, les x sont P ».

Dans la phrase renvoyée, M représente un adverbe comme « exactement », « envi-ron » ou « grossièrement » et p unités est la représentation textuelle de pc avec unités représentant une unité de temps comme « heures », « jours » ou « secondes ».

Les trois étapes de la méthode La méthode DPE repose sur le postulat intuitif qu’une série est périodique si elle alterne de manière régulière des groupes de valeurs hautes et

basses, où la régularité est fonction de leurs tailles respectives. DPE fonctionne donc par

identification des groupes de valeurs hautes et basses puis par estimation de la régularité de leur alternance.

Plus précisément, la méthode est composée des trois étapes illustrées sur la figure 5.1. La première étape, décrite dans la section 5.2, réalise un regroupement ou clustering des données en groupes de valeurs hautes et groupes de valeurs basses. Dans un second temps, détaillé dans la section 5.3 p. 105, des statistiques visant à estimer la régularité de la taille de ces groupes sont calculées afin de renvoyer le degré de périodicité π et la période candidate pc. Enfin, ces valeurs sont rendues textuellement lors de la troisième étape de rendu linguistique présentée dans la section 5.4 p. 109.