• Aucun résultat trouvé

De nombreuses applications doivent aujourd’hui g´erer des donn´ees dat´ees g´en´er´ees en continu et `a grande vitesse. La d´etection des anomalies dans les s´eries tempo-relles est un sujet crucial pour des domaines tels que la d´etection des intrusions, la consommation ´energ´etique, la finance mais ´egalement en ´ecologie pour la d´etection d’´ev´enement exceptionnel sur des donn´ees climatiques ou hydrologiques.

Le probl`eme de la d´etection des anomalies consiste `a identifier des donn´ees, des observations ou des ´ev´enements appel´es anomalies (outlier en anglais) qui ne sont pas conformes a ce qui peut-ˆetre attendu dans un groupe de donn´ees. La d´efinition qui nous parait le plus pr´ecise est celle donn´ee par [CBK09] : “Les instances de donn´ees normales se produisent dans les r´egions `a probabilit´e ´elev´ee d’un mod`ele stochastique, tandis que les anomalies se produisent dans les r´egions `a faible pro-babilit´e du mod`ele stochastique”. Ce champ d’investigation est largement couvert dans la litt´erature pour les donn´ees statiques et repose sur le calcul de distance `

a l’aide de m´ethodes telles que les plus proches voisins ou d’autres techniques de clustering. La principale contrainte des flux de donn´ees rel`eve de l’incapacit´e de vi-siter plusieurs fois les donn´ees permettant de garantir une faible complexit´e pour autoriser un traitement en ligne, tout en tenant compte de l’´evolution possible des r´ef´erences ou concepts au cours du temps. Une premi`ere cat´egorie d’algo-rithmes proposent de s’appuyer sur le calcul de distance pour la d´etection des ano-malies (STORM [ABP06], CORM [ELN+08], DBOD-DS [SG10]). Ces m´ethodes n´ecessitent cependant l’intervention de l’utilisateur pour d´efinir les seuils limitant leur usage pratique. Des m´ethodes statistiques s’affranchissent de cette contrainte mais s’appuient sur une hypoth`ese qui est la distribution des donn´ees, information n´ecessaire `a l’apprentissage des mod`eles. [LF14] propose la d´etermination d’un seuil probabiliste permettant de discriminer les donn´ees normales et anormales. La limite de cette m´ethode se trouve dans le nombre important mais n´ecessaire d’´echantillons d’apprentissage permettant l’obtention d’un taux faible de faux po-sitifs.

Les contributions d’Alban Siffer proposent une m´ethode de d´etection des ano-malies pour des s´eries temporelles univari´ees et unimodales sans aucune hypoth`ese de distribution a priori sur les donn´ees. L’approche repose sur la th´eorie des va-leurs extrˆemes [BGST06]. Cette th´eorie met en lumi`ere le r´esultat suivant : la distribution des valeurs extrˆemes est quasi ind´ependante de la distribution des donn´ees. La th´eorie des valeurs extrˆemes peut ainsi inf´erer la distribution des ´

ev´enements extrˆemes sans hypoth`ese forte sur la distribution originale, ce qui per-met de pr´edire des valeurs extrˆemes sans pr´ec´edent (comme des crues exception-nelles ou des vagues anormalement hautes par exemple).

Le probl`eme fondamental peut ˆetre exprim´e de la mani`ere suivante :

Soit X une mesure d’interˆet et X1, . . . Xn, n des observations ind´ependantes de cette mesure. Est-il possible de trouver un seuil zq telle que la probabilit´e de voir X > zq est plus petite que q (avec q aussi petit que souhait´e) ?

L’objectif de la th´eorie des valeurs extrˆemes consiste `a d´efinir la loi de distribu-tion de ces valeurs extrˆemes. D’apr`es [FT28] et [Gne43], les ´ev´enements extrˆemes suivent une mˆeme distribution appel´ee Distribution des Valeurs Extrˆemes (DVE) ind´ependamment de leur distribution d’origine. Pour la plupart des distributions, la probabilit´e d´ecroit lorsque les valeurs sont extrˆemes : P(X > x) → 0 quand x croit. La fonction ¯F (x) = P(X > x) repr´esente la queue de la distribution de X. La DVE a pour objectif de d´efinir la distribution de cette queue. En d´efinissant une DVE de la queue d’une distribution en entr´ee inconnue, il est donc pos-sible d’´evaluer la probabilit´e des valeurs extrˆemes. La contribution s’appuie sur le th´eor`eme POT (Peaks-Over-Threshold) [BDH74, PI75] en calculant l’estima-teur grˆace `a la m´ethode du maximum de vraisemblance qui a le m´erite d’ˆetre efficace et robuste. Il est ainsi possible d’estimer zq tel que P(X > zq) < q sans aucune hypoth`ese sur la distribution de X et sans mˆeme disposer de connaissance sur sa distribution. L’id´ee repose sur une phase d’initialisation (ou calibration) qui fixe un seuil relativement haut t `a partir des n premi`eres observations, recherche les valeurs extrˆemes (sup´erieures `a ce seuil) et d´efinit une loi de Pareto G´en´eralis´ee (GPD) qui les repr´esente. Les d´etails th´eoriques de l’approche propos´ee se trouvent dans la publication suivante [SFTL17].

Figure 4.1 – Principe de l’algorithme SPOT `

A partir de ce r´esultat, il est possible d’estimer zq et d’envisager un algorithme de d´etection des anomalies sur une s´erie temporelle. Une premi`ere phase d’initiali-sation calcule un seuil zq `a partir de n observations X1, . . . Xn. Ce seuil est ensuite mis `a jour `a partir des donn´ees entrantes et est utilis´e comme crit`ere de d´ecision pour la d´etection des anomalies. Deux algorithmes ont ´et´e propos´es : SPOT qui

travaille sur des cas stationnaires et DSPOT (pour Drift SPOT) qui prend en consid´eration le changement de concept. L’algorithme SPOT est capable de dis-tinguer les valeurs extrˆemes, les valeurs sup´erieures au seuil zq, des anomalies, les valeurs sup´erieures au seuil t qui sont alors utilis´ees pour mettre `a jour le mod`ele (cf. figure 4.1).

Pour le cas de DPSOT, on consid`ere que la distribution des valeurs peut ´evoluer au cours du temps comme la saisonnalit´e par exemple. Dans ce cas, les valeurs re-latives entre variables, au sein d’une fenˆetre temporelle, sont ´egalement prises en compte dans l’algorithme. Afin d’optimiser la vitesse et la robustesse de l’algo-rithme des optimisations ont ´et´e propos´ees pour l’estimation des param`etres, en particulier l’usage d’une m´ethode analytique pour la recherche des racines de la fonction de vraisemblance (cf. [SFTL17] pour plus de d´etail).

Des exp´erimentations ont ´et´e men´ees sur des jeux de donn´ees r´eels, disponibles sur internet, dans plusieurs domaines : r´eseaux, physique et finance. La fiabilit´e de la m´ethode a ´et´e ´evalu´ee en comparant le taux d’erreur de l’algorithme utilisant le seuil zq estim´e par rapport au seuil th´eorique en fonction des observations et du nombre d’observations n prises en compte pour l’initialisation. On constate que le seuil converge quel que soit n, la seule contrainte ´etant de prendre un n suffisamment grand pour ˆetre capable d’´evaluer correctement la DVE. Une des exp´erimentation porte sur le cours de la bourse des actions EDF au sein d’une journ´ee. Le 9 f´evrier 2017, une explosion a eu lieu sur le site de Flamanville, `a 11 heures. Nous avons appliqu´e DSPOT sur les donn´ees du cours pour cette p´eriode pour laquelle nous disposons d’une donn´ee par minute. Sur la figure 4.2, on constate que DSPOT suit bien le comportement des donn´ees et une anomalie est d´etect´ee aux alentours de 11 heures. L’algorithme a ´et´e ex´ecut´e avec q = 10−3 et la taille de la fenˆetre fix´ee `a 10 observations. Les tests de performances ont montr´e que ces algorithmes ´etaient capables d’analyser des s´eries temporelles en traitant plus de 1000 valeurs par seconde.

Ce travail permet de proposer un outil efficace, sˆur et simple d’usage pour la d´etection des anomalies sur les s´eries temporelles. Son principal int´erˆet est qu’il peut traiter tout type de donn´ees sans aucune connaissance sur leur distribution initiale, sans avoir `a fixer manuellement un seuil et qui s’adapte `a l’´evolution des donn´ees dans le temps. Alban Siffer a r´ealis´e une biblioth`eque Python1 d´ej`a uti-lis´ee par les membres de notre ´equipe pour analyser leurs donn´ees qui y trouvent un r´eel b´en´efice. C’est le premier travail `a proposer l’approche de la th´eorie des valeurs extrˆemes pour la recherche des anomalies sur les s´eries temporelles. Sa

1. Les algorithmes SPOT et DSPOT sont disponibles ici : https ://github.com/Amossys-team/SPOT

Figure 4.2 – Ex´ecution de l’algorithme DSPOT sur le prix des actions EDF le 9 f´evrier 2017 (explosion sur le site de Flamanville)

limitation est qu’aujourd’hui l’approche ne traite que le cas des s´eries univari´ees. La perspective la plus ´evidente serait sans doute de s’int´eresser au probl`eme mul-tivari´e, toujours avec cette mˆeme th´eorie qui offre de nombreux pans non explor´es, mais difficiles d’acc`es.