Il n'existe pas une classication universelle des méthodes de détection d'anomalies.
Cependant, pour les résultats présentés de façon étiquetée, on peut en distinguer trois
types :
des méthodes non-supervisées : Ces méthodes ne disposent d'aucune connaissance
préalable et la séparation des données se fait en considérant les éléments les plus
éloignés comme des anomalies. Ce type de méthodes capte bien les nouveautés,
mais par contre, le taux de fausses alarmes peut être très élevé ;
des méthodes supervisées : Dans ce cas, on dispose d'un ensemble de données
labellisées et la classication de nouveaux éléments se fait par des comparaisons
avec les anomalies connues. Ce type de méthode a l'avantage d'avoir très peu de
fausses alarmes, mais le désavantage de ne pas découvrir les nouvelles anomalies ;
des méthodes semi-supervisées : Dans ce cas nous avons une connaissance partielle
des anomalies ou des comportements normaux. La majorité de ces méthodes
dis-pose des connaissances sur les comportements normaux. La méthode deDasgupta
& Majumdar (2002) est une des rares méthodes à travailler avec des anomalies
labellisées.
Les méthodes de détection d'anomalies peuvent aussi se diviser en méthodes
uni-variable et multi-uni-variables. Une anomalie peut ne pas se révéler si on utilise une
ap-5.3 Types de méthodes de détection d'anomalies
proche uni-variée, mais en considérant une approche multi-variéeBen-Gal(2005).Zhang
& Selinus(1998) proposent une comparaison des méthodes de détection d'anomalie
uni-variée et multi-uni-variée.Ben-Gal(2005) contient une classication détaillée des méthodes
de détection d'anomalies en fonction de ce critère. Ben-Gal (2005) décrit les eets de
masquage (masking) et de couverture (swamping). On appelle un eet de masquage
quand une anomalie empêche une autre d'être repérable, et donc celle-ci ne peut être
détectée comme anomalie qu'en la considérant toute seule (donc pas en présence de la
première anomalie). Une anomalie de couverture couvre une autre, c'est à dire que
la deuxième ne se révèle comme anomalie que dans la présence de la première. Une
minutieuse étude des méthodes de détection d'anomalies est faite parCh et al. (2007).
SelonCh et al. (2007) on a neuf types de techniques de détection d'anomalies : basées
sur le clustering, sur la classication, sur la méthode du plus proche voisin, sur les
tech-niques statistiques, sur la théorie de l'information, sur la décomposition spectrale, sur
les techniques visuelles, sur les techniques manuelles contextuelles et sur les techniques
manuelles collectives.Williams et al.(2002) parle des méthodes de détection d'anomalies
paramétriques et non-paramétriques, alors queLazarevic & Kumar(2005) trouve que la
majorité des techniques de détection d'anomalies peuvent se grouper en quatre types :
approches statistiques, approches basées sur des distances, méthodes qui utilisent des
prols et méthodes basées sur des modèles. Enn pourHodge & Austin (2004) les
mé-thodes de détection d'anomalies ne sont dérivées que de trois domaines : des statistiques
(basées sur la proximité, paramétriques, non-paramétriques et semi-paramétrique), des
réseaux neuronaux (supervisées et non-supervisées) et de l'apprentissage automatique.
Dans la suite, je présente les principales caractéristiques de quelques types de ces
méthodes.
5.3.1 Approches basées sur des algorithmes de clustering
Considérées par certains (Ben-Gal (2005)) comme faisant partie des méthodes de
détection d'anomalies basée sur la fouille de données, les approches basées sur des
mé-thodes de clustering sont très populaires. Dans le cas des mémé-thodes de détection
d'ano-malies basées sur un algorithme de clustering, la sélection des anod'ano-malies se fait sur la
base de l'idée que les clusters de taille petite sont des anomalies. La limitation parmi les
clusters se fait par des critères de taille, de densité, de pourcentage, de distance jusqu'au
centre des clusters etc. Un point faible de ces méthodes est lié à leur grande complexité
de calcul (beaucoup de calculs de distance). Un point fort est qu'elles peuvent
fonction-ner de manière non-supervisée. Quelques exemples des méthodes utilisant le clustering
sont : Eskin et al. (2002);Kaufman & Rousseeuw(1990);Otey et al. (2003).
5.3.2 Approches basées sur des distances
Ce type d'approche a été proposé pour la première fois par Knorr & Ng (1997,
1998b,1999);Knorr et al. (2000). Une étape de calcul des distances entre les éléments
voisins précède la détection des anomalies. La condition de détection d'anomalies est
basée sur un calcul d'une fraction d'objets qui sont plus éloignés de l'élément considéré.
Diérentes méthodes de calculs des distances existent selon le type des données : distance
Euclidienne, distances basées sur des graphes, distances basées sur la plus longue
sous-séquence commune etc. Il y a des méthodes qui détectent les anomalies selon la densité et
les régions de faible densité contiendront les anomalies. Ce type de méthode est considéré
comme un sous-type des méthodes basées sur les distances par Ch et al. (2007), alors
que Papadimitriou et al. (2003) les considère comme une approche distincte. Breunig
et al.(2000a) ont été les premiers à proposer ce type de méthode.Breunig et al.(2000b);
Chawla & Sun (2006) illustrent un désavantage des méthodes basées sur le calcul des
distances qui contiennent en même temps des données denses et rares : si la distance
"d" entre les éléments d'un cluster est grande, alors on ne va pas dépister les anomalies
qui sont éloignées d'une distance plus petite ou égale à "d". Un avantage est que par
contre ce type de méthodes fonctionne de manière non-supervisée et ne suppose aucune
distribution sur les donnéesCh et al. (2007).
5.3.3 Approches statistiques
Les méthodes statistiques se basent sur la construction d'un modèle statistique (une
distribution, généralement la distribution normale) et par des comparaisons à ce
mo-dèle. D'habitude, le modèle décrit les comportements normaux et les éléments qui sont
conformes à ce modèle seront considérés comme normaux, alors que les autres seront
pris pour des anomalies. Un point négatif de ces méthodes est qu'elles sont trop liées à
un modèle de représentation des données et souvent, il est dicile de trouver un modèle
qui soit en parfaite adéquation avec les situations réelles. En plus, ces méthodes ne sont
pas appropriées pour les ensembles de données multidimensionnelles. Un exemple de
résultat erroné est illustré parChawla & Sun(2006) le milieu d'un ensemble de données
5.4 Discussion
Dans le document
Extraction de motifs séquentiels dans les flux de données
(Page 61-64)