• Aucun résultat trouvé

Dans cette section la méthodologie en deux étapes proposées pour la détection d’ano-malies est détaillée. La première étape de clustering pour l’identification des types de jour fera l’objet d’une attention particulière et sera décrite dans un premier temps. Les indicateurs proposés pour l’évaluation de la méthodologie seront ensuite détaillés.

3.3.1 Description de la méthodologie

Considérant les données journalières de comptage en entrée de station agrégées au quart d’heure, par chaque couple (station, jour) un vecteur des validations par quart d’heure Xs,d est défini. L’ensemble des vecteurs Xs,d forme le jeu de données initial.

La figure 3.2 illustre le principe de la méthodologie de détection. A partir des données journalières, une aggrégation sur l’ensemble de la ligne de métro est appliquée afin d’obtenir les comptages de validations au quart d’heure sur toute la ligne de métro et non plus par station. Chaque journée est alors définie par un vecteur Xd :

Xd= (xd,1, . . . , xd,N) =X

s

Xs,d.

La première étape consiste en un clustering de l’ensemble des journées étudiées. Le but est de regrouper dans un même cluster les journées ayant un profil d’activité similaire. L’étape de détection s’effectue ensuite non pas sur les données globales mais par cluster et par station. Cette première étape permet de simplifier grandement la problématique de détection d’anomalie car chaque cluster est composé de courbes globalement homo-gènes. Deux méthodes classiques ont été appliquées pour la détection, le boxplot (aussi appelé boxplot classique ou boxplot ponctuel dans le cadre de ces travaux) et le boxplot fonctionnel. Elles sont détaillées en A.1.

3.3.2 Classification des courbes de validations par Classification ascen-dante hiérarchique

Dans cette section les jours de la période d’étude sont classés en fonction de leur profil d’activité. Deux approches sont proposées. La première ne pose aucune contrainte et consiste simplement en un clustering des courbes représentant le nombre de validations enregistrées au quart d’heure sur l’ensemble de la ligne. La deuxième approche va quant à elle introduire des contraintes sur les types de jours et forcer les courbes correspondants à un même type de jour à appartenir au même cluster.

Figure 3.2 – Méthodologie pour la détection d’anomalie.

Approche sans a priori : Dans ce cas, il s’agit de procéder le plus simplement possible en effectuant une classification globale sur l’ensemble des courbes de comptage de la ligne

Xd. Une classification ascendante hiérarchique avec le critère de Ward est donc appliquée directement sur l’ensemble des vecteurs Xd.

Approche avec a priori sur le type de jours : Sachant que l’activité d’une journée d sur la ligne de métro, représentée par le vecteur Xd, dépend de nombreux facteurs comme par exemple le jour de la semaine (lundi, ..., dimanche), la saison, la présence ou non d’un jour férié, d’un pont ou bien de vacances scolaires, il s’agit d’effectuer une classification en prenant en compte des facteurs calendaires connus pour impacter l’activité enregistrée.

L’ensemble de ces facteurs ne peut pas être directement utilisés pour définir des groupes de courbes homogènes. En effet, par exemple le produit cartésien défini par les variables : mois, jour de la semaine, vacances, jours fériés conduit à certaines modalités avec un nombre très faible de courbes (il existe ainsi un seul jeudi férié en mai au sein des deux ans de données étudiés dans ce chapitre). Pour que les méthodes de détection d’outliers fonctionnent celles-ci doivent s’appuyer sur un nombre minimal de courbes de manière à estimer correctement la variance des situations nominales, ce qui n’est pas possible avec une approche aussi directe. L’approche adoptée ici a pour but de créer des classes avec chacune un nombre significatif de courbes. Elle se décompose en trois étapes. La première consiste à définir des groupes dépendants des facteurs précédemment énoncés (type de jour, mois, etc.). Pour chaque jour d de la période d’étude un vecteur de variables catégorielles

pouvant impacter l’activité d’une station est défini :

catd= (jour, mois, f erie, vacances, pont),

jour ∈ {1, . . . , 7}, mois ∈ {1, . . . , 12}, (f erie, vacances, pont) ∈ {0, 1}3). Sont alors af-fectées à un même groupe Gcat, toutes les journées possédant les mêmes valeurs pour leur vecteur cat. La deuxième étape consiste à calculer une courbe médiane pour chaque groupe. En effet la médiane étant un estimateur robuste, elle est moins sensible aux ano-malies. La médiane est calculée en chaque point (quart d’heure). Le vecteur médianXgcat

d’un groupe ayant pour variable catégorielle cat peut s’écrire :

g

Xcat= (M ({xd,1: d ∈ Gcat}), . . . , M ({xd,N : d ∈ Gcat})),

avec M (x1, . . . , xn) la médiane de l’ensemble {x1, . . . , xn}. Enfin la troisième étape consiste en une classification ascendante hiérarchique des courbes médianes ainsi obtenues.

Cette approche de classification des courbes d’activité a plusieurs avantages. Elle offre tout d’abord un outil de prévision. En effet l’hypothèse initiale est ici que les groupes formés par le produit cartésien des variables catégorielles (jour, mois, vacances, pont et jour férié) regroupent uniquement des courbes d’activité similaires (hors courbe correspondant à un événement atypique). C’est sur ces groupes qu’est appliqué le clustering, ce qui implique que pour un type de jour donné (par exemple lundi hors vacances scolaire de décembre, non férié) tous les jours correspondant à ce type de jour seront dans le même cluster. Il est alors possible d’établir un calendrier prévisionnel de l’activité d’une station en l’attribuant par avance au cluster qui lui correspond à l’aide de son type de jour. Cette approche force des courbes dont l’activité doit être similaire, car elle correspond au même type de jour, à être dans le même groupe ce qui permet d’éviter que certaines courbes correspondant à des événements atypiques soient mal classées.

3.3.3 Définition d’indicateurs d’anormalité

Les deux méthodes de détection d’anomalies étudiées dans ce chapitre (cf Annexe A.1) fournissent en sortie une liste de quart d’heure détectés comme anormaux. En plus de cette liste et de manière à simplifier l’analyse des résultats, deux indicateurs permettant de quantifier l’envergure des anomalies sont fournis. Le premier est un indicateur global sur la journée afin de savoir si celle-ci est globalement en anomalie, tandis que le second est calculé à l’échelle du quart d’heure et permet d’identifier les quarts d’heure pour lesquels le nombre de validations est éloigné de la situation nominale.

Anomalies à la journée : Deux indicateurs d’anomalies à la journée sont définis par agrégation du nombre d’anomalies détectées au quart d’heure. Si N désigne le nombre de quarts d’heure dans une journée, l’indicateur d’anomalies positives (resp. négatives) est défini comme étant le nombre de quarts d’heure détectés en anomalie positive (resp. négative) sur une journée.

Ipos(s, d) = N P i=0 δpos(s, d, i) Ineg(s, d) = N P i=0 δneg(s, d, i) (3.1)

avec δpos(s, d, i) = 1 si le iième quart d’heure de la journée d à la station s est en anomalie positive et δpos(s, d, i) = 0 sinon. De même δneg(i, d, s) = 1 si le iième quart d’heure est en anomalie négative et δneg(i, d, s) = 0 sinon.

Anomalies au quart d’heure : Une analyse plus fine (au quart d’heure) est considérée en vue de détecter des anomalies plus ponctuelles plutôt qu’une modification de l’activité sur une journée. Contrairement au paragraphe précédent, les données ne sont pas agrégées et un indicateur d’éloignement aux données "nominales" est calculé pour chaque point (càd en chaque quart d’heure). Pour chaque quart d’heure i d’un jour d, la distance de son nombre de validations au reste des données valides est donnée par :

If in(s, d, i) = xs,d,i− M ({xs,e,i: k(e) = k(d)})

Q3({xs,e,i: k(e) = k(d)}) − Q1({xs,e,i: k(e) = k(d)}), (3.2)

avec k(d) une fonction associant à chaque jour son numéro de cluster et Q1 et Q3 les premier et troisième quartiles.

Documents relatifs