Représentation par symbolisation - Représentations symboliques

Partie 2 Résumés linguistiques de périodicité 63

4.5 Représentations symboliques

4.5.1 Représentation par symbolisation

Le processus de symbolisation permet de convertir une série numérique en série sym-bolique. Il a l’intérêt de réduire la complexité de la série et d’en retirer le bruit (Daw et al., 2003; Sant’Anna & Wickstrom, 2011).

La symbolisation agit en discrétisant la série numérique en temps et/ou en valeurs dans un alphabet Σ = {a1, ..., a_α}contenant α caractères. La discrétisation en temps est appelé

segmentation temporelle et celle en valeur quantification (quantization). Les w segments

L’évaluation de la période et de la périodicité dans le domaine symbolique utilise la comparaison des segments entre eux et nécessite donc la définition de distances particu-lières, présentées dans le premier paragraphe. Par la suite, les différentes méthodes de symbolisation sont détaillées, en valeurs uniquement, en temps et en valeurs et enfin en temps seulement. Sant’Anna & Wickstrom (2011) proposent une comparaison de de cer-taines d’entre elles.

Distances

En supposant deux segments a et b, la distance la plus simple dans le domaine sym-bolique est la distance de Hamming dH, égale au nombre de caractères différant entre les séquences, i.e. dH =P[ai 6= bi] où [.] est le crochet d’Iverson qui renvoie 1 si l’expression évaluée est vraie et 0 sinon (Knuth, 1992).

Cette distance est cependant très sensible aux variations même légères en temps et en valeurs. Afin de remédier à ce problème, différentes adaptations ont été proposées.

La plus courante est la distance DTW (Dynamic Time Warping) qui est une distance d’édition entre segments permettant de rendre la distance de Hamming plus souple aux dé-calages temporels au prix d’un coût de calcul plus important (Keogh & Ratanamahatana, 2005). Elle est définie récursivement par dD(a, b) = dH(a1, b₁) + min dD(a2:, b), dD(a, b2:),

d_D(a2:, b2:) (Elfeky et al., 2005b), où a2: et b2: désignent les séquences a et b privées de leur premier caractère.

D’autres adaptations plus spécifiques ont également été proposées. Han et al. (1998) proposent l’utilisation de jokers représentés par le caractère * égal par convention à tous les caractères. La distance de Hamming avec joker est définie par dH∗(a, b) = P[ai 6=

b_i∧ a_i 6= ∗ ∧ bi= ∗].

Mannila et al. (1997) proposent également de rendre la distance de Hamming insensible aux permutations. Les auteurs ne définissent pas de distance à proprement parler, mais cette dernière peut être définie comme dM(a, b) = P

∈ (ai, b) où la fonction /∈ (x, y) renvoie 1 si le symbole x n’est pas dans la séquence y et 0 sinon.

Enfin, Lin et al. (2002) proposent une distance exploitant l’ordre des symboles d’une séquence symbolisée à l’aide de seuils (cf. paragraphe suivant). Par exemple, la quantifi-cation si = a si xi < 0 et b sinon définit un ordre sur l’alphabet Σ = {a, b}, ici a < b. La distance définie permet alors de considérer comme égaux deux symboles dont l’un est successeur de l’autre, i.e. dL(a, b) = P[ai 6= bi∧ a_i 6= succ(bi) ∧ bi 6= succ(ai)] où succ(x) désigne le successeur de x dans l’ensemble ordonné des symboles Σ.

Plus généralement, les noyaux de séquence (Lodhi et al., 2002) permettent la comparai-son entre deux segments. Ces derniers ne comparai-sont pas détaillés ici car les méthodes présentées ci-dessous n’en font pas usage.

Quantification seule

Les méthodes de quantification seule symbolisent la série numérique en associant un symbole à chacune de ses dates, générant une série symbolique de même taille (w = n).

4.5. Représentations symboliques 89

Les méthodes les plus simples sont basées sur une échelle a priori associant un symbole à une valeur dans un intervalle, par exemple a si xi<0, 5 et b sinon (Daw et al., 2003).

D’autres méthodes utilisent une échelle construite sur la moyenne empirique µ de la série numérique. Par exemple, si = a si xi≤ µ et b sinon (Bagnall et al., 2006).

La symbolisation des tendances plutôt que des valeurs de la série est aussi envisa-gée (Andre-Jonsson & Badal, 1997).

Enfin, Mörchen & Ultsch (2005) proposent la méthode Persist qui prend en entrée la taille de l’alphabet α > 1 et dont l’objectif est de renvoyer une série composée d’un maximum d’états persistants, i.e. dont les valeurs successives sont globalement constantes.

Quantification avec segmentation

Les méthodes de quantification avec segmentation discrétisent la série sur les deux dimensions temps / valeurs (w < n).

La méthode SAX (Lin et al., 2002) réalise la segmentation d’une série supposée gaus-sienne avec un nombre de symboles α et une taille des segments l fournis par l’utilisateur. Le principe de SAX est de générer une série symbolique contenant un nombre d’occurrence à peu près égal de chaque symbole. Cette méthode, quoique couramment utilisée (Androu-lakis, 2005; Tanaka et al., 2005; Minnen et al., 2007) et rapide d’exécution (Renard et al., 2015), est fortement dépendante de ses paramètres.

Une variante proposée par Li et al. (2012) pour s’affranchir du paramètre l repose sur le découpage de la série en fenêtres recouvrantes.

Qu et al. (1998) proposent une symbolisation en deux temps. D’abord, la série est di-visée en segments de taille l fournie par l’utilisateur, puis la pente des valeurs sur chaque segment est évaluée par régression linéaire. Si l’erreur quadratique entre la droite de ré-gression et les données est supérieure à un seuil, le segment est ignoré.

La méthode PLA (Piecewise Linear Agregation) de linéarisation par morceaux (Keogh et al., 2001; Morinaka et al., 2001) permet de représenter une série temporelle par une suite de droites affines dont la taille en nombre de points n’a pas à être spécifiée en amont.

Symbolisation par clustering Le principe de ces approches est de diviser la série en segments de taille l et de les regrouper par similarité en α groupes, l et α étant spécifiés par l’utilisateur. A la différence de SAX, ces méthodes peuvent renvoyer des segments de tailles différentes.

Wang & Megalooikonomou (2008) utilisent un algorithme de type k-moyennes pour réaliser cette opération. Zhou et al. (2008) proposent la méthode ACA, également basée sur les k-moyennes mais utilisant DTW au lieu de la distance euclidienne et permettant que les symboles codent pour des segments de tailles potentiellement différentes. Hugueney (2006) propose la méthode SBSR-L0 qui fonctionne également par clustering mais sans contrainte sur la taille des segments.

Segmentation seule

Les méthodes de segmentation seule permettent de découper la série dans le temps sans en modifier les valeurs. Ces approches, également dites de discrétisation, sont décrites par Liu et al. (2002); Ramírez-Gallego et al. (2016). Elles peuvent être utilisées pour des séries symboliques, l’objectif étant d’en diminuer la taille.

Tanaka et al. (2005) proposent d’associer un symbole aux groupes de symboles récur-rents d’une série symbolique, par exemple obtenus avec SAX. Otunba et al. (2014) utilisent une approche similaire basée sur l’extraction automatique d’une grammaire à partir de la série en entrée : ainsi la série abcdbcabcd est représentée par CAC à l’aide d’une grammaire possédant les deux règles A = bc et C = aAd.

Dans le document Résumés linguistiques de données numériques : interprétabilité et périodicité de séries (Page 100-103)