Types de méthodes de détection d'anomalies

Il n'existe pas une classication universelle des méthodes de détection d'anomalies.

Cependant, pour les résultats présentés de façon étiquetée, on peut en distinguer trois

types :

des méthodes non-supervisées : Ces méthodes ne disposent d'aucune connaissance

préalable et la séparation des données se fait en considérant les éléments les plus

éloignés comme des anomalies. Ce type de méthodes capte bien les nouveautés,

mais par contre, le taux de fausses alarmes peut être très élevé ;

des méthodes supervisées : Dans ce cas, on dispose d'un ensemble de données

labellisées et la classication de nouveaux éléments se fait par des comparaisons

avec les anomalies connues. Ce type de méthode a l'avantage d'avoir très peu de

fausses alarmes, mais le désavantage de ne pas découvrir les nouvelles anomalies ;

des méthodes semi-supervisées : Dans ce cas nous avons une connaissance partielle

des anomalies ou des comportements normaux. La majorité de ces méthodes

dis-pose des connaissances sur les comportements normaux. La méthode deDasgupta

& Majumdar (2002) est une des rares méthodes à travailler avec des anomalies

labellisées.

Les méthodes de détection d'anomalies peuvent aussi se diviser en méthodes

uni-variable et multi-uni-variables. Une anomalie peut ne pas se révéler si on utilise une

ap-5.3 Types de méthodes de détection d'anomalies

proche uni-variée, mais en considérant une approche multi-variéeBen-Gal(2005).Zhang

& Selinus(1998) proposent une comparaison des méthodes de détection d'anomalie

uni-variée et multi-uni-variée.Ben-Gal(2005) contient une classication détaillée des méthodes

de détection d'anomalies en fonction de ce critère. Ben-Gal (2005) décrit les eets de

masquage (masking) et de couverture (swamping). On appelle un eet de masquage

quand une anomalie empêche une autre d'être repérable, et donc celle-ci ne peut être

détectée comme anomalie qu'en la considérant toute seule (donc pas en présence de la

première anomalie). Une anomalie de couverture couvre une autre, c'est à dire que

la deuxième ne se révèle comme anomalie que dans la présence de la première. Une

minutieuse étude des méthodes de détection d'anomalies est faite parCh et al. (2007).

SelonCh et al. (2007) on a neuf types de techniques de détection d'anomalies : basées

sur le clustering, sur la classication, sur la méthode du plus proche voisin, sur les

tech-niques statistiques, sur la théorie de l'information, sur la décomposition spectrale, sur

les techniques visuelles, sur les techniques manuelles contextuelles et sur les techniques

manuelles collectives.Williams et al.(2002) parle des méthodes de détection d'anomalies

paramétriques et non-paramétriques, alors queLazarevic & Kumar(2005) trouve que la

majorité des techniques de détection d'anomalies peuvent se grouper en quatre types :

approches statistiques, approches basées sur des distances, méthodes qui utilisent des

prols et méthodes basées sur des modèles. Enn pourHodge & Austin (2004) les

mé-thodes de détection d'anomalies ne sont dérivées que de trois domaines : des statistiques

(basées sur la proximité, paramétriques, non-paramétriques et semi-paramétrique), des

réseaux neuronaux (supervisées et non-supervisées) et de l'apprentissage automatique.

Dans la suite, je présente les principales caractéristiques de quelques types de ces

méthodes.

5.3.1 Approches basées sur des algorithmes de clustering

Considérées par certains (Ben-Gal (2005)) comme faisant partie des méthodes de

détection d'anomalies basée sur la fouille de données, les approches basées sur des

mé-thodes de clustering sont très populaires. Dans le cas des mémé-thodes de détection

d'ano-malies basées sur un algorithme de clustering, la sélection des anod'ano-malies se fait sur la

base de l'idée que les clusters de taille petite sont des anomalies. La limitation parmi les

clusters se fait par des critères de taille, de densité, de pourcentage, de distance jusqu'au

centre des clusters etc. Un point faible de ces méthodes est lié à leur grande complexité

de calcul (beaucoup de calculs de distance). Un point fort est qu'elles peuvent

fonction-ner de manière non-supervisée. Quelques exemples des méthodes utilisant le clustering

sont : Eskin et al. (2002);Kaufman & Rousseeuw(1990);Otey et al. (2003).

5.3.2 Approches basées sur des distances

Ce type d'approche a été proposé pour la première fois par Knorr & Ng (1997,

1998b,1999);Knorr et al. (2000). Une étape de calcul des distances entre les éléments

voisins précède la détection des anomalies. La condition de détection d'anomalies est

basée sur un calcul d'une fraction d'objets qui sont plus éloignés de l'élément considéré.

Diérentes méthodes de calculs des distances existent selon le type des données : distance

Euclidienne, distances basées sur des graphes, distances basées sur la plus longue

sous-séquence commune etc. Il y a des méthodes qui détectent les anomalies selon la densité et

les régions de faible densité contiendront les anomalies. Ce type de méthode est considéré

comme un sous-type des méthodes basées sur les distances par Ch et al. (2007), alors

que Papadimitriou et al. (2003) les considère comme une approche distincte. Breunig

et al.(2000a) ont été les premiers à proposer ce type de méthode.Breunig et al.(2000b);

Chawla & Sun (2006) illustrent un désavantage des méthodes basées sur le calcul des

distances qui contiennent en même temps des données denses et rares : si la distance

"d" entre les éléments d'un cluster est grande, alors on ne va pas dépister les anomalies

qui sont éloignées d'une distance plus petite ou égale à "d". Un avantage est que par

contre ce type de méthodes fonctionne de manière non-supervisée et ne suppose aucune

distribution sur les donnéesCh et al. (2007).

5.3.3 Approches statistiques

Les méthodes statistiques se basent sur la construction d'un modèle statistique (une

distribution, généralement la distribution normale) et par des comparaisons à ce

mo-dèle. D'habitude, le modèle décrit les comportements normaux et les éléments qui sont

conformes à ce modèle seront considérés comme normaux, alors que les autres seront

pris pour des anomalies. Un point négatif de ces méthodes est qu'elles sont trop liées à

un modèle de représentation des données et souvent, il est dicile de trouver un modèle

qui soit en parfaite adéquation avec les situations réelles. En plus, ces méthodes ne sont

pas appropriées pour les ensembles de données multidimensionnelles. Un exemple de

résultat erroné est illustré parChawla & Sun(2006) le milieu d'un ensemble de données

5.4 Discussion

Dans le document Extraction de motifs séquentiels dans les flux de données (Page 61-64)