• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

4.2 Représentations temporelles

Ces domaines peuvent être temporel, fréquentiel, temporo-fréquentiel, symbolique ou autre. Dans les trois premiers, les séries étudiées sont numériques, la plupart du temps issues de l’enregistrement de phénomènes physiques. Dans le domaine symbolique, les séries sont à valeurs dans des ensembles finis et discrets de caractères, comme par exemple une séquence d’ADN ou un log d’événements. Enfin, dans le domaine « Autre » sont rassemblées des méthodes plus marginales, présentées pour des raisons d’exhaustivité.

Les sections suivantes détaillent les méthodes développées pour calculer la période et la périodicité des différents types de séries présentés ci-dessus dans chacun de ces domaines. La plupart des méthodes ignorent toutefois le calcul de la périodicité et la majorité d’entre elles se concentrent sur celui de la période.

A l’exception du domaine temporel où la représentation est directe, les sections sont réparties en deux sous-sections, la première détaillant l’étape de représentation des données et la seconde présentant les traitements effectués sur ces représentations permettant le calcul de la période et des différents aspects de la périodicité pris en charge.

4.2 Représentations temporelles

La représentation d’une série de données dans le domaine temporel est celle donnée par l’éq. (4.1) p. 68. C’est la représentation la plus simple et la plus intuitive d’une série temporelle : elle met en relation une date et une valeur.

Différentes approches présentées dans les paragraphes suivants ont été développées pour permettre le calcul de la période et de la périodicité dans ce cadre. Les premières sont basées sur le calcul de statistiques simples dans le domaine temporel, comme le nombre de croisements avec l’axe des abscisses ou la mesure de corrélation des données, les secondes sur des techniques de segmentation du signal et les dernières sur des approches par régression.

4.2.1 Croisement avec l’axe des abscisses ou zero-crossing

Le principe de la méthode de zero-crossing est de dénombrer le nombre de croisements de la série avec l’axe des abscisses, c = |{j ∈ 1...n−1|(xj >0∧xj+1<0)}| (Kedem, 1986). Dans le cas d’une série stationnaire à moyenne nulle additionnée d’un bruit gaussien,

cπ/(n − 1) tend vers la fréquence dominante du signal.

La méthode est cependant sensible au bruit dans les données (Tsuji & Yamada, 2001). Elle est utilisée dans le cas où les données sont peu bruitées, par exemple dans le domaine de la production électrique (Backmutsky et al., 2000; Ratanamahatana et al., 2005) ou pour confirmer une fréquence calculée avec une autre méthode (Kedem, 1986).

4.2.2 Mesures de corrélation

La mesure de corrélation d’une série est l’évaluation du lien γk entre les points xi

pour k = 0, ..., n − 1. Deux méthodes de calcul de γk sont détaillées dans les paragraphes suivants.

Autocorrélation En supposant une série de moyenne nulle et de variance unitaire, l’autocorrélation évalue le lien entre xiet xi+kpar le produit xixi+k divisé par les n points de la série. C’est une mesure statistique définie pour des séries infinies et son calcul pour des séries finies est réalisé par deux estimateurs respectivement, biaisés et non biaisés, définis par γb

k=Pn

i=1(xixi+k)/n et γnb

k =Pn

i=1(xixi+k)/(n − k). Le biais du premier est compensé par sa faible variance (Stoica & Moses, 2005, p.23). Le choix de l’estimateur dépend de l’utilisation qui en est faite. L’estimateur biaisé notamment est utilisé dans le calcul des représentations fréquentielles, comme détaillé dans la section 4.3.1 p. 79.

Les valeurs d’autocorrélation pour k = 0...n − 1 constituent la séquence d’autocor-rélation (SA), ou corrélogramme, et ses maxima déterminent les périodes candidates de la série. Pour une série périodique de période p, la SA est maximale aux indices kp avec

k ∈N et kp < n.

Dans le cas des séries pseudo-périodiques, les pics de la SA peuvent être liés au bruit ou à une période. Afin de les distinguer, un seuil peut être défini, soit par l’utilisateur (De Cheveigné & Kawahara, 2002), soit par l’expression 2/n qui permet de les distinguer à 95% de confiance. Cette dernière n’est robuste que pour n grand (Chatfield, 1996, p. 21). L’autocorrélation est couramment utilisée pour le calcul de la période et donne de bons résultats avec des signaux sinusoïdaux et stationnaires principalement (Gerhard, 2003). Ses résultats sont moins bons avec d’autres signaux et la méthode est notamment susceptible « d’erreurs d’octaves », i.e. de sélection d’une fréquence autre que la fréquence de base (De Cheveigné & Kawahara, 2002).

Aussi, différentes améliorations ont été proposées afin de rendre la méthode plus ro-buste, en particulier dans le domaine de l’analyse de la voix : De Cheveigné & Kawahara (2002) proposent la méthode YIN qui intègre un certain nombre d’opérations postérieures au calcul de l’autocorrélation, Talkin (1995) introduit l’autocorrélation normalisée et la méthode RAPT, améliorée plus tard par Zahorian & Hu (2008) ou Rashidul Hasan & Shimamura (2012).

Fonction de fluctuation moyenne, AMDF La fonction de fluctuation moyenne (Ro-senblum & Kurths, 1995) étudiée par ailleurs sous le nom d’Average Magnitude Difference

Function (Ross et al., 1974), met en œuvre une approche fenêtrée dépendant d’un

para-mètre w qui définit la taille de la fenêtre : la corrélation est ensuite calculée comme la moyenne des différences sur la fenêtre, plus précisément γk= (P

i=1...w|xi− xi+k|) /w. A l’inverse de l’autocorrélation, les données sont d’autant plus corrélées que γk est faible et les indicateurs dans ce contexte sont liés à la recherche des minima de cette séquence. Aucun seuil statistique n’est en revanche donné pour cette approche.

4.2. Représentations temporelles 75

4.2.3 Segmentation

Les méthodes par segmentation consistent à découper la série en blocs de p points consécutifs où p est la période candidate. Formellement, la série est décomposée seg-ments sj pour j = 1... bn/pc dont le i`eme point sj[i] est défini comme sj[i] = xi avec (j − 1)p < i ≤ jp. Si p ne divise pas n, les points restants sont ignorés.

Ces méthodes sont dédiées à l’analyse de séries discrètes à temps régulier. Elles dé-tectent une composante périodique dans le signal et ne sont pas adaptées aux périodicités locales, variables, tendancielles : elles déterminent une unique composante périodique. Elles renvoient en revanche un motif périodique, qui peut être le segment moyen dans le cas des méthodes par actogramme ou le segment le plus représentatif, comme détaillé ci-dessous.

Actogramme La représentation par actogramme ou tableau de Buys-Ballot est couram-ment utilisée en biologie dans la recherche de rythmes circadiens (Enright, 1965; Refinetti et al., 2007). Elle consiste à étudier les propriétés d’un segment S de p points définis par Si =Pbn/pc

j=1 sj[i] pour i = 1...p.

Si la distribution de S est à peu près uniforme, alors p n’est pas la période de la série puisqu’en ce cas ses valeurs sont régulièrement réparties dans les segments. Si au contraire la distribution de S contient un ou plusieurs pics, alors p peut être la période de la série car en ce cas la majorité des valeurs similaires apparaît tous les p points. De plus, les différents pics correspondent aux phases des différentes composantes périodiques du signal (cf. série (e) de la figure 4.2 p. 71).

Différents tests statistiques sont proposés afin d’exploiter S, directement ou au travers de formes dérivées, comme la moyenne ou le carré de ses valeurs selon le test considéré : ana-lyse de la variance (Schwarzenberg-Czerny, 1989), efficace même pour les séries contenant peu de points, test du χ2 avec des variantes pour les signaux non sinusoïdaux (Larsson, 1996), test de Rayleigh (Brazier, 1994), statistiques Z2

m (Buccheri, 1988) et QP (Enright, 1965), également mentionnées par Refinetti et al. (2007) et Zielinski et al. (2014). Zucker (2015) propose une comparaison de ces méthodes dans le cas de séries discrètes localement régulières.

D’une manière générale, l’intérêt de ces méthodes est leur simplicité, mais elles re-quièrent une connaissance a priori de la période recherchée pour ne pas avoir à tester toutes les valeurs possibles.

Segments représentatifs A l’inverse des méthodes par actogramme, celles présentées dans ce paragraphe n’agrègent pas les segments sj mais cherchent à identifier le plus significatif d’entre eux, i.e. permettant la reconstruction de la série la plus similaire à la série d’origine. La reconstruction est ici entendue comme la génération d’une série de taille n par répétition du segment candidat.

La recherche naïve du meilleur motif est computationnellement trop complexe puis-qu’elle implique, pour chaque période p, le calcul de tous les segments de longueur p qu’il

est possible d’extraire de la série d’origine et pour chacun d’entre eux la distance entre la reconstruction et la série.

Indyk et al. (2000) proposent une méthode probabiliste permettant de déterminer le segment le plus représentatif en construisant des segments candidats de longueur croissante en partant du premier point de la série. Si l’algorithme fonctionne en O(n log n), il ne peut toutefois pas identifier de segment dont le premier point ne coïncide pas avec celui de la série. Ces seuls segments sont également pris en compte par la méthode APT d’Otunba & Lin (2014) qui font référence à d’autres approches de comparaison rapide de segments via des techniques de hachage ou de structures de données spécifiques (Indyk & Motwani, 1998). D’autres solutions détaillées dans la section 4.5 p. 87 utilisent une représentation symbolique pour accélérer le traitement.

4.2.4 Régression

Le principe des méthodes par régression est de déterminer à partir des données les paramètres d’un modèle périodique défini analytiquement et fixé a priori. En fonction du modèle utilisé, différents types de périodicité peuvent être détectés.

Trois formules de régression sont présentées ici par complexité croissante : locales, au sens des moindres carrés et par processus gaussiens.

Régression simple Les méthodes de régression les plus simples consistent en l’extrac-tion des paramètres d’un modèle déterministe, donc sans bruit, à partir de points consécu-tifs de la série. Comme indiqué dans les références ci-dessous, ces modèles sont utilisés en particulier dans le cadre du suivi de production électrique où les données sont régulières.

Mahmood et al. (1985) estiment à l’aide de trois points consécutifs les paramètres d’un modèle de la forme xt= V sin(wt) où V est l’amplitude de la sinusoïde et ω sa fréquence radiale, i.e. ω = 2πf. Moore et al. (1994) développent le modèle en y intégrant la phase et Zayezdny et al. (1992) utilisent de plus les dérivées premières et secondes du modèle sur 3 ou 7 points consécutifs.

Ces méthodes sont simples et donnent un aperçu de la période locale du signal, comme illustré sur les séries (h) et (i) de la figure 4.2 p. 71. Elles ne permettent pas en revanche de déterminer d’autres types de période et ne renvoient pas de périodicité.

Régression au sens des moindres carrés Les méthodes de régression au sens des moindres carrés permettent de déterminer les paramètres d’un modèle minimisant l’erreur quadratique entre le modèle et les données réelles. Par rapport aux méthodes de régression simple, ces deniers permettent de prendre en compte le bruit sur les données. Formellement, en notant θ les paramètres d’un modèle f(xi; θ), les meilleurs paramètres au sens des moindres carrés sont définis comme arg minθPni=1(xi− f(xi; θ))2.

La méthode COSOPT (Straume, 2004) détermine de la sorte les paramètres d’un modèle trigonométrique additionné d’un bruit gaussien et d’une composante linéaire. AR-SER (Yang & Su, 2010) ajoute un degré de complexité en prenant en compte la

superpo-4.2. Représentations temporelles 77

sition de plusieurs composantes périodiques. Des tests statistiques sont proposés pour ces deux méthodes.

Ces méthodes permettent d’exploiter des données à temps discret localement régulier et d’analyser des séries multi-composantes pour ARSER. Elles nécessitent cependant la connaissance a priori d’un modèle. Il faut noter que lorsqu’un modèle construit sur une somme de sinusoïdes est utilisé, ces méthodes sont équivalentes à la transformée de Fourier présentée dans la section suivante, puisque cette dernière est précisément la solution du problème de minimisation exposé ci-dessus (Scargle, 1982).

Régression par processus gaussiens Le principe de ces méthodes est d’effectuer une régression des données à l’aide d’un processus gaussien, i.e. telle que la distribution jointe d’un sous-ensemble consécutifs des variables aléatoires qui le composent est gaussienne. L’intérêt de cette modélisation est sa relative simplicité puisqu’un tel processus est entiè-rement défini par sa moyenne et sa matrice de covariance, cette dernière pouvant être vue comme un noyau (Rasmussen & Williams, 2006, p. 13).

L’utilisation d’un noyau périodique (Rasmussen & Williams, 2006, p. 92) permet la détection de périodicité dans les données. Preotiuc-Pietro & Cohn (2013) en proposent une utilisation pour évaluer la périodicité de hashtags Twitter.

Différents noyaux peuvent être combinés pour déterminer des modèles plus complexes (Du-venaud et al., 2013). Par exemple, Durrande et al. (2013) utilisent un noyau défini comme la somme d’un noyau périodique et d’un noyau apériodique, leur permettant de définir la périodicité comme la part de la variance du signal portée par la régression avec le noyau périodique rapportée à celle donnée par le noyau complet. L’article présente également une comparaison avec les méthodes COSOPT et ARSER présentées plus haut.

Sur le même principe, Duvenaud et al. (2013) utilisent d’autres noyaux, chacun décri-vant une caractéristique particulière du signal, comme sa linéarité, sa périodicité ou l’évo-lution de ses variations, et recherchent une combinaison de noyaux définissant le processus gaussien optimal au regard des données, i.e. maximisant sa vraisemblance et minimisant sa complexité calculée par le critère d’information de Bayes (BIC).

Lloyd et al. (2014), dans le projet Automated Statistician, développent cette méthode et y ajoutent un module linguistique générant une description des données en fonction des noyaux utilisés et des paramètres déterminés. Cette approche de rendu textuel est également utilisée par les méthodes DPE et LDPE présentées dans les chapitres suivants de cette thèse.

Les méthodes de régression par processus gaussiens ont l’avantage de permettre l’ana-lyse d’un grand nombre de cas de périodicité, comme la périodicité tendancielle, approxi-mative ou locale. De plus, les séries temporelles traitées peuvent être à temps irrégulier et multivariées. Cependant, elles optimisent un nombre important de paramètres sur un espace de fonctions important et ont une complexité en O(n3) (Barber, 2012, p.396).

Figure 4.3 – Signal correspondant à la note La d’une guitare : représentations tempo-relle (gauche) et fréquentielle (droite) (Nelson Lee - http://bit.ly/1MxXp7c)