• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

4.5 Représentations symboliques

4.5.2 Exploitation des séries symboliques

L’intérêt principal des méthodes symboliques réside dans leur capacité à décrire un mo-tif périodique et pas uniquement à renvoyer une période comme les méthodes précédentes. Elles permettent aussi de prendre en charge l’analyse de séries multivariées, souvent plus complexe dans les domaines présentés précédemment.

Elles sont en revanche moins souples que ces dernières concernant les approximations en temps et en valeurs des éléments périodiques (cf. section 4.1.2 p. 70) du fait de leur représentation dans un espace discret.

Les paragraphes suivants présentent successivement les méthodes traitant les séries univariées puis celles multivariées.

Séries univariées

Li et al. (2015) proposent une méthode de détection de la périodicité pour des séries symboliques univariées à deux symboles et à temps irrégulier. Le principe utilisé est simi-laire à celui des méthodes par actogramme présentées dans la section 4.2.3 p. 75 et permet donc de détecter les composantes de même période et de phases différentes. La méthode est justifiée théoriquement et robuste au bruit ainsi qu’aux valeurs manquantes. Elle est ce-pendant de complexité quadratique car elle nécessite d’être exécutée pour chaque période candidate.

Ergün et al. (2010) proposent une approche en flux permettant de traiter des données symboliques univariées à temps régulier basée sur l’algorithme de hachage de Rabin-Karp qui permet de détecter rapidement l’occurrence ou non d’un motif dans une série. L’al-gorithme proposé a une complexité en O(n log n) et renvoie la période de la série si elle existe, sinon ne renvoie rien. Une mesure de périodicité basée sur le nombre d’opérations à effectuer sur la série pour la rendre périodique est également proposée. La méthode ne gère pas en revanche les approximations en temps et en valeur.

Otunba et al. (2014) introduisent un algorithme de détection de la périodicité de séries numériques dans un espace symbolique après symbolisation par SAX. Les règles de réécri-ture issues d’une grammaire (cf. ci-dessus) sont mises à profit pour identifier les motifs

4.5. Représentations symboliques 91

fréquents. L’écart moyen entre deux instances successives d’un motif en donne la période et la variabilité de cet écart sa périodicité. La méthode a l’avantage d’être simple et de permettre une fonctionnement incrémental. Elle dépend en revanche des paramètres de symbolisation, notamment la taille de l’alphabet.

Arora et al. (2008) analysent des séquences d’ADN en supposant un modèle cyclosta-tionnaire, i.e. où les propriétés statistiques du signal sont périodiques de période k dans le temps et non constantes comme dans le cas de la stationnarité. L’intérêt de cette mé-thode est qu’elle permet d’identifier des motifs disjonctifs, par exemple AG(C/T)A qui correspond à AGCA ou AGTA.

Adalbjornsson et al. (2015) traitent le problème des répétitions de symboles et non de motifs et le résolvent en estimant la distribution de chaque symbole pour des ensembles d’indices périodiques. Ainsi, la période estimée ne correspond qu’à des caractères simples.

Séries multivariées

Les méthodes d’analyse de la périodicité pour les séries symboliques multivariées sont majoritairement issues du domaine de l’extraction des règles d’association temporelles. Dans ce contexte, un k-itemset est un ensemble de k symboles associés à une date.

Un l-k-itemset est un motif composé de l k-itemsets associés à des dates successives. Le terme générique d’itemset peut être utilisé pour désigner un l-k-itemset ou un k-itemset lorsque le contexte est suffisant.

La recherche de motifs périodiques passe par celle des itemsets fréquents. Un itemset est fréquent si son support, calculé comme son nombre d’occurrences rapporté à la longueur n de la série, est supérieur à un seuil utilisateur minsup. Le support est à la base de diverses optimisations dans la recherche d’itemsets fréquents (Agrawal et al., 1993, 1995).

Les méthodes dédiées au calcul de la période des k-itemsets sont présentées dans un premier temps, suivies par celles traitant des l-k-itemsets.

Périodicité des k-itemsets Ozden et al. (1998) proposent une méthode de détection de la périodicité par augmentation des k-itemsets, i.e. en calculant d’abord la période des caractères (1-itemsets), puis celle des 2-itemsets, des 3-itemsets etc. Le calcul de la périodicité des (k + 1)-itemsets est basé sur une optimisation similaire à celle d’Apriori et basée sur le constat qu’un (k + 1)-itemset périodique est nécessairement constitué de

k-itemsets périodiques. Les (k + 1)-itemsets candidats sont donc construits à partir des

k-itemsets fréquents et périodiques et non à partir des combinaisons possibles de k + 1 caractères tirés de l’alphabet Σ.

De plus, les périodes potentielles des (k + 1)-itemsets sont celles des k-itemsets ou de leurs multiples. Si par exemple les périodes des 1-itemsets A et B sont 2 et 3 respectivement et que leur première occurrence est à t1, les seules dates à étudier pour le 2-itemset AB sont les multiples de 6, i.e. t1, t7, t13etc. Cette méthode est peu robuste au bruit en temps et en valeurs.

Ma & Hellerstein (2001) proposent une méthode exploitant des données à temps irrégu-lier et basée sur le principe d’augmentation mais plus robuste au bruit. Concernant le bruit en valeur, un seuil sur le support de l’itemset est utilisé afin de retenir ceux dont quelques occurrences seulement sont manquantes. Pour le bruit en temps, le méthode exploite un paramètre de tolérance δ fourni par l’utilisateur destiné à identifier comme périodiques une occurrence de l’itemset et sa suivante si leur écart dans le temps est compris dans [p − δ; p + δ] où p est une période candidate. Le nombre d’occurrences d’un symbole véri-fiant cette propriété rapporté à celui qui serait obtenu si les symboles étaient distribués de manière aléatoire selon une loi du χ2, qui permet la définition d’un test statistique pour retenir les périodes candidates.

La méthode fonctionne rapidement mais est sensible au bruit car la robustesse de l’algorithme est dépendante du paramètre utilisateur δ.

Périodicité des l-k-itemsets D’autres méthodes utilisant des concepts similaires ont été proposées pour étudier la périodicité de l-k-itemsets, i.e. de motifs de taille l composés d’itemsets de taille inférieure ou égale à k.

Han et al. (1999) introduisent une approche permettant de rechercher des motifs dis-jonctifs utilisant des jokers, comme par exemple a{b,c}d**f, qui peut correspondre à abd**f ou acd**f et où les jokers * peuvent prendre une valeur quelconque de l’alphabet Σ.

Comme pour les méthodes précédentes, la périodicité des symboles (motifs constitués d’un seul caractère) est étudiée pour une période candidate donnée. Les motifs extraits sont ensuite combinés pour définir le motif potentiel le plus précis, i.e. contenant tous les symboles périodiques trouvés. Si par exemple les motifs a***, *b**, **c* sont déterminés lors de la première passe, le motif le plus précis est abc*.

La série est ensuite découpée en segments consécutifs de taille p et les motifs les plus précis sont comptés et les plus fréquents d’entre eux sont renvoyés.

La méthode est intéressante en ce qu’elle permet l’identification de motifs périodiques complexes. Elle est néanmoins coûteuse en temps de calcul puisque le processus doit être répété pour chaque période candidate.

Aref et al. (2004) proposent une version incrémentale plus rapide de cette méthode et Elfeky et al. (2005a) une version accélérée à l’aide d’un calcul des périodes pour les symboles basé sur une convolution évaluée par transformée de Fourier rapide.

Néanmoins, la méthode de Han et al. (1999) suppose que les motifs se répètent parfai-tement tout au long de la série, i.e. que la série n’est composée que de leur répétition, sans espace ni recouvrement. Yang et al. (2000) détaillent une approche permettant d’assouplir cette contrainte en ajoutant deux paramètres, l’un pour le nombre minimal de répétitions du motif, l’autre pour déterminer l’écart maximal entre deux occurrences successives. Le nombre minimal de répétitions permet l’identification de la périodicité locale d’un motif, par opposition au support qui est calculé sur l’ensemble des données. Le paramètre d’écart maximal permet lui d’introduire de la souplesse dans la répétition des motifs. L’expres-sivité qu’offre la méthode est contrebalancée par sa complexité. D’autre part, elle doit