Reconnaître plusieurs situations - Décision de ré-apprentissage

6.7 Décision de ré-apprentissage

6.7.1 Reconnaître plusieurs situations

A l’issue de la deuxième phase (i.e., identification et clustering des points invalides), les données atypiques ou invalides sont regroupées dans plusieurs clusters d’anomalie. La dernière phase consiste à étudier la nature de ces clusters et prendre (si nécessaire) la décision de mise à jour du système. La décision de mettre à jour le système est fonction de plusieurs paramètres. Le premier paramètre est la similarité entre les nouvelles données projetées et les comportements types existants. Si au cours du temps on remarque qu’un pourcentage important de données projetées est considéré comme invalide, alors les comportements types déjà existants ne sont pas des bons représentants de ces nouvelles données et par conséquent il faut réapprendre le système en tenant compte de ces nouvelles données.

Le deuxième paramètre intéressant est l’importance des clusters d’anomalie obtenus. Comme men-tionné dans les chapitres précédents, nous avons classifié les alertes suivant trois niveaux de dangérosité. De plus, la nature de chaque comportement type est déterminé par les 5 Top alertes du vecteur proto-type. Ainsi, nous pouvons aussi distinguer les clusters d’anomalie obtenus suivant leur dangerosité. La présence des nouveaux clusters dangereux est un indicateur pour reconfigurer le système.

Le troisième paramètre à étudier est la répartition des points dans les clusters d’anomalie. Une accu-mulation des points dans un nombre limité de clusters d’anomalie est le signe d’apparition de nouveaux comportements types. Par contre, les clusters qui contiennent des points dispersés correspondent plutôt à du bruit.

Enfin, le glissement des vecteurs prototypes des clusters existants signifie que les anciens prototypes ne sont plus les bons représentants des données projetées et par conséquent, il est indispensable de prendre ces nouvelles données en compte pour la détermination des nouveaux centres ou prototypes.

En résumé, la décision de ré-apprendre la carte est fonction des quatres indicateurs suivants illustrés dans la troisième partie de la figure 6.5 :

– pourcentage des points rejetés

– gravité des clusters d’anomalie

– répartition des clusters d’anomalie

6.7. Décision de ré-apprentissage

6.7.1.1 Pourcentage des points rejetés

Soit p_tle pourcentage des vecteurs d’apprentissage qui sont considérés comme invalides. Maintenant, suite à la projection des nouveaux vecteurs, nous pouvons distinguer les données valides de celles qui ne le sont pas. Cependant, un pourcentage important de données invalides est une signe de l’incompatibilité de la carte avec les nouvelles données projetées. La question qui se pose maintenant est : à quelle instant peut-on considérer la carte SOM insuffisante et la necessité de re-apprendre la carte ? En d’autre termes, pour quel pourcentage des données invalides est-il inévitable de réapprendre le système ?

Pour répondre à cette question, nous reformulons le problème sous la forme d’un test d’hypothèse statistique. La question est alors quel est le pourcentage acceptable de points invalides ? Ceci nous amène à faire un test de comparaison de deux pourcentages. Soient P_o le pourcentage observé des données invalides parmi les nouvelles données projetées et P_t le pourcentage théorique. Dans le cas d’un test unilatéral à droite, les hypothèses se posent donc de la facon suivante :

(

H0: Po = Pt

H1: P_o >P_t

Dans le cas d’un échantillon de grande taille, le test d’hypothèses pour un pourcentage repose sur les mêmes principes que le test d’hypothèses pour une moyenne car un pourcentage peut être considéré comme la moyenne d’un ensemble de variables de Bernoulli. Comme nous ne travaillons qu’avec des bases de grande taille (> 30), on peut considérer que la distribution d’échantillonnage suit une loi nor-male. Nous trouverons donc la valeur de z_α correspondant au seuil de signification désiré dans la table de Gauss.

Le rapport critique est exprimé par :

R.C. = |Po− Pt| σ_p avec σ_p= √ P_o(1 − Po) √ n

et n la taille de l’échantillon des nouvelles données projetées. Si R.C. est inférieur à la valeur de la table de Gauss z_αcorrespondant au seuil de signification α, alors on ne rejette pas l’hypothèse H0. Une autre manière est de calculer la fonction de répartition pour la valeur R.C. : si F(R.C.) > F(z_α) = α alors on rejete l’hypothèse.

6.7.1.2 Gravité des clusters d’anomalie

Pour l’interprétation des clusters obtenus, rappelons que nous avons admis dans le chapitre 4 que chaque vecteur prototype d’un cluster est le représentant des vecteurs projetés dans ce cluster et avons déterminé les variables les plus significatives de chaque prototype (les 5 top variables). De même, nous avons classé les alertes suivant trois niveaux de sévérité :low (L), medium (M) et high (H). Cf. La sec-tion 4.2.2.1 pour des exemples de valeurs numériques testées pour L, MetH. Ici et à partir de ces deux suppositions, nous définissons la gravité d’un cluster par la somme (normalisée) des sévérités des 5 top variables du vecteur prototype de ce cluster. Supposons que xi (i = 1, . . . , 5) sont les 5 top variables et N = {L, M, H} les trois niveaux de sévérité, alors la gravité d’un cluster est calculée par la formule suivante :

Gr(Cluster) = P5

i=1N(x_i) 5.H

L’apparition d’un nouveau cluster de gravité importante (i.e. proche de 1) peut être le signe de l’ap-parition d’une nouvelle attaque grave qui n’existe pas dans l’ensemble d’apprentissage.

6.7.1.3 Répartition des points dans les clusters d’anomalie

Une fois les données invalides regroupées dans les clusters d’anomalie par l’algorithme "online Kmeans", l’étape suivante consiste à étudier la répartition des données dans ces clusters. Une réparti-tion non uniforme de ces points dans les clusters est le signe qu’une majorité des données est regroupée dans quelques clusters et le reste est dispersé dans les autres clusters. Ce cumul de points dans peu de clusters peut être le signe d’apparition de nouveaux comportements types qu’il faut prendre en compte. Comme pour les autres indicateurs, nous formulons ce problème sous forme d’un test d’hypothèse sta-tistique sous les hypothèses suivantes :

(

H0: répartition uniforme des points dans les clusters H1: répartition non uniforme

Le test classiquement utilisé pour étudier ce genre de problème est le test de Khi2 (χ2). Le test du χ2

fournit une méthode pour déterminer la nature d’une répartition, qui peut être continue ou discrète. Nous nous occuperons ici de déterminer si une répartition est uniforme dans le cas discret.

Soit N l’ensemble des points considérés comme invalides par la décision de rejet. Cet ensemble constitue en effet l’échantillon sujet de ce test. Cet échantillon est reparti dans K classes d’anomalie distinctes (C₁, . . . ,CK). Soient o_i(i = 1, . . . , K) les effectifs11 observés et e_i les effectifs théoriques12. On calcule Q = PK

i=1^(oⁱ^−eⁱ⁾

ei . La statistique Q donne une mesure de l’écart existant entre les effectifs théoriques attendus et ceux observés dans l’échantillon13. On compare ensuite cette valeur Q avec une valeur χ_K−1,α, où K − 1 est le nombre de degrés de liberté et α est la tolérance. Si Q > χK−1,α, et si N est suffisamment grand, alors l’hypothèse d’avoir effectivement affaire à la répartition théorique voulue est à rejeter avec une probabilité d’erreur d’au plus α.

6.7.1.4 Glissement des comportements-types de la SOM

En projetant de nouvelles données dans la carte, il peut arriver que le vecteur prototype de chaque comportement type ne soit pas un bon représentant des données projetées. Le nombre de comportements types peut rester le même mais leur "description" peut évoluer au cours de temps. Par conséquent, il est indispensable de prendre ces nouvelles données en compte pour la détermination des nouveaux centres ou prototypes. Rappelons que la distribution des points dans chaque comportement type est supposée suivre une loi gaussienne centrée au vecteur prototype. La variance est supposée la même pour tous les comportements-types.

Pour contrôler l’évolution des vecteurs prototypes et détecter s’il y a apparition des nouveaux échan-tillons de distribution différente, nous allons poser le problème sous forme d’un test statistique inspiré du test CUSUM [144, 22].

En effet, soit {X1, . . . ,X_n_A} l’ensemble des données d’apprentissage de taille nA. Pour chaque vecteur Xi on calcule sa distance à son bmu. Alors, on obtient un vecteur d’erreur Err_Adéfini par :

ErrA = {E1, . . . ,EnA}^t Ei= dist(X_i,bmui)

11oi: le nombre de points projetés dans le cluster ωi

12théoriquement chaque classe doit contenir le même nombre de points en cas d’une repartition uniforme

6.7. Décision de ré-apprentissage

et qui suit aussi la même loi avec des paramètres (µ_A,σ). L’idée ici est de comparer la distribution du vecteur d’erreur Err_Ades points d’apprentissage avec le vecteur d’erreur formé par le cumul de Err_A et les erreurs des nouvelles données projetées. Comme nous travaillons sur des échantillons de grande taille, alors le problème se réduit à un test de comparaison de moyenne de deux échantillons qui suivent une loi normale.

Soit Err_B _{= {E}₁,E2, . . . ,EnA,EnA+1, . . . ,EnA+k} le vecteur d’erreur cumulé et soient µA et µ_B les moyennes respectifs des deux vecteurs aléatoires Err_A et Err_B. Pour simplifier le problème nous allons supposer que les deux vecteurs ont la même variance. Les hypothèses de test sont alors définies par :

(

H0 : µ_A = µ_B H1 : µ_A ,µ_B

Soient ¯X_A, ¯X_Bles moyennes empiriques respectives de Err_Aet Err_B. Alors, ¯X_A− ¯X_Best une variable aléatoire qui suit une loi normale. Comme σ_Aet σ_Bsont connues et supposées égales, le rapport critique se calcule suivant la formule :

R.C. = | ¯XA− ¯XB| σ_X¯_A_{− ¯}_X_B où σ_X¯_A_{− ¯}_X_B = s σ² n_A ⁺ σ² n_B

avec σ = σA = σB. La valeur de R.C est estimée à partir des données et comparée avec la valeur zα/2 correspondante de la table de Gauss. Si R.C. < zα/2, l’hypothèse nulle n’est pas rejetée et dans le cas contraire, R.C. > z_α/2, l’hypothèse nulle est rejetée. Une autre facon pour prendre la décision est la comparaison des valeurs de la fonction de repartition F(R.C.) et F(z_α/2) = α/2. Si F(R.C.) > α/2 alors on rejete l’hypothèse.

Dans le document Une architecture semi-supervisée et adaptative pour le filtrage d'alarmes dans les systèmes de détection d'intrusions sur les réseaux (Page 127-130)