Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

(b) Sous forme tabulaire

Dans le document Observation, caractérisation et modélisation de processus d'attaques sur Internet (Page 59-62)

Fig. 2.11 – Evolution du nombre de jours pour la sous-p´eriode, en fonction du nombre de

p´eriodes de silence suspectes et du nombre d’environnements minimum

Il est `a noter que si nous augmentons le nombre d’environnements souhait´e, la

période satisfaisant le seuil de disponibilité devient plus petite. Le même constat peut

être effectué par rapport au seuil de disponibilité fixé. Plus il est élevé, plus la période

satisfaisant le crit`ere est courte. Un compromis est donc n´ecessaire pour obtenir une

période suffisamment longue avec un nombre d’environnements suffisamment élevé.

Nous avons choisi les valeurs n

e

= 8 et s= 80%. Le nombre d’environnements choisi

est suffisant pour r´ealiser des analyses comparatives significatives, tout en permettant

facilement de pr´esenter les r´esultats.

En appliquant l’algorithme précédent, nous avons sélectionné une sous-période de

637 jours, du 27 octobre 2005 au 26 juillet 2007 et 8 environnements : 9, 13, 14, 28,

31, 32, 42 et 62. Ces 8 environnements sont r´epartis entre la France, la Belgique, la

Pologne, l’Italie, l’Allemagne et le Royaume-Uni. Nous assurons, pour la sous-p´eriode,

au moins une disponibilité supérieure à 80% pour chacun des environnements. De

plus, la sous-période considérée est assez longue pour mener des analyses significatives

(environ deux ans). Ces disponibilités et les nombres d’intervalles à considérer pour la

suite des analyses sont présentés dans le tableau 2.5. Le minimum n’est pas présenté

dans ce tableau, car il ´egale 0 pour les 8 environnements.

Dans cette section, nous avons identifi´e les valeurs aberrantes pour chacun des

environnements. Cette identification permet de caract´eriser la disponibilit´e. Ensuite,

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR

DES POTS DE MIEL BASSE INTERACTION

env. k |T

_k,n^′

| Q

1

(T

_k^′

) Q

2

(T

_k^′

) Q

3

(T

_k^′

) max(T

_k^′

) T

′

k

σ(T

_k^′

) disp.

(sec.) (min.) (min.) (min.) (min.) (min.) (%)

9 134161 56 3 8 53 6 7 93

13 15742 538 32 73 382 52 59 89

14 42670 107 7 24 158 18 25 85

28 10200 578 35 96 650 73 100 82

31 90580 76 4 11 52 8 9 81

32 65962 161 7 16 76 11 12 84

42 38826 102 7 25 278 19 29 84

62 25042 435 19 40 199 29 30 80

Tab. 2.5 – Caractéristiques des environnements séléctionnés pour la sous période

nous avons déterminé le sous ensemble des environnements et une sous période tels

que les disponibilit´es des environnements du sous ensemble, pendant la sous p´eriode,

sont supérieures à 80%. Nous minimisons ainsi les risques d’avoir des résultats biaisés

dûs à des indisponibilités des environnements. Les analyses qui suivent se basent sur

ces donn´ees.

2.5 Mod´elisation des intervalles entre attaques

L’identification d’un mod`ele refl´etant les temps entre sessions est utile pour

carac-t´eriser le processus d’occurrence des attaques. Il peut servir pour guider les

adminis-trateurs en servant d’indicateur. De tels modèles peuvent aussi servir à générer des

traces d’attaques représentant du trafic malveillant réel, pouvant être utilisé pour des

test de validation de systèmes et mécanismes de protection vis-à-vis des malveillances.

Différents modèles et distributions de probabilité peuvent être testés pour identifier

ceux qui correspondent mieux aux donn´ees observ´ees. Dans le cadre de nos travaux,

nous avons étudié plus particulièrement des modèles paramétriques où les valeurs des

paramètres doivent être estimées à partir des données observées.

Nous distinguons deux étapes principales. Tout d’abord, une étape d’inférence

per-met de calibrer le modèle. L’objectif visé lors de cette étape est de déterminer, sur la

base des observations, les paramètres du modèle qui permettent de minimiser l’écart

entre les valeurs observées et les valeurs estimées par le modèle. Pour ce faire, l’écart

entre le modèle et les observations est déterminé en fonction des paramètres du

mo-d`ele. La fonction obtenue est la fonction de coˆut. Des algorithmes d’optimisation font

alors évoluer ces paramètres jusqu’à trouver les paramètres pour lesquels la fonction

de coût est minimisée. Ensuite, une étape de validation permet de vérifier l’adéquation

des valeurs estimées par le modèle aux valeurs observées. Cette étape se base sur des

tests statistiques pour aider à la décision de rejet ou d’acceptation du modèle.

Dans la suite, nous pr´esentons dans un premier temps les algorithmes

d’optimi-sation permettant d’estimer les paramètres des modèles. Ensuite, nous présentons

les tests statistiques utilis´es pour estimer l’ajustement d’un mod`ele. Pour finir, nous

appliquons ces outils aux donn´ees.

2.5.1 Estimation des param`etres : l’algorithme Em

La vraisemblance quantifie la probabilité qu’un échantillon observéx = (x

i

)

1≤i≤n

soit issu d’un ´echantillon th´eorique X = (X

i

)

1≤i≤n

, lui-mˆeme issu d’une loi th´eorique

f(x|θ). La probabilité que l’échantillon observé soit une réalisation de l’échantillon

théorique est égale au produit des probabilités que chaque donnée de l’échantillon

observ´ex

i

soit une réalisation de la variable aléatoire de l’échantillon théorique

cor-respondanteX

i

. Cette quantit´e est not´ee L(x, θ).

L(x, θ) =

n

Y

i=1

f(x

i

|θ) (2.16)

La méthode du maximum de vraisemblance permet d’inférer les paramètres d’une

loi d’un échantillon. Elle part de l’hypothèse que l’échantillon observé est

effective-ment issu de l’échantillon théorique. Son principe est le suivant : nous avons observé

l’échantillon x; cet échantillon est une réalisation de l’échantillon théorique X; la

probabilité que l’échantillon observé soit effectivement observé doit donc être très

éle-vée ; la vraisemblance doit, elle aussi, être très éleéle-vée. La méthode du maximum de

vraisemblance inf`ere les param`etresθ qui maximisent la vraisemblance.

La vraisemblance est un produit. Maximiser un produit revient `a trouver les valeurs

qui annulent sa dérivée. Cette étape peut être fastidieuse pour une taille d’échantillon

observé très élevée. Le logarithme – fonction croissante sur R utilisée, entre autres,

pour réaliser des bijections – est donc employé pour substituer une somme à ce produit

et ainsi simplifier le traitement. Maximiser la vraisemblance revient `a maximiser le

logarithme de la vraisemblance. D’un point de vue pratique, diff´erentes proc´edures

d’optimisation num´erique existent pour trouver le maximum de vraisemblance. Citons,

par exemple, la procédure itérative de Newton-Raphson, la procédure de quasi Newton

et la proc´edure num´erique de recherche directe d’optimum de Powell.

Parfois, la loi théorique manipulée possède une expression compliquée. Elle peut

être un mélange de densités de probabilités. Un mélange de densité, notée f(x|Π,Θ),

est une somme pondérée de densités de probabilité. Trouver les paramètres d’un

mé-lange avec les méthodes classiques d’optimisation (Nelder-Mead, Newton, . . . ) est très

difficile. Par la m´ethode du maximum de vraisemblance, le logarithme pour un

mé-lange de densités nous amène à traiter un logarithme d’une somme, qui est difficile à

maximiser. Le principal probl`eme vient du fait que nous ne savons pas a priori quelles

sont les données générées par chacune des parties du mélange.

Θ =(θ

i

)1≤

i≤l

(2.17)

Π =(π

i

)1≤

i≤l

π

i

>0,∀i et

l

X

i=1

π

i

= 1 (2.18)

f(x|Π,Θ) =

l

X

i=1

π

i

·f

i

(x|θ

i

) (2.19)

L’algorithme Esp´erance-Maximisation (Em) permet de contourner cette difficult´e.

Em est un algorithme itératif très utilisé en statistique pour l’estimation de

para-m`etres. Il a fait l’objet d’une importante litt´erature[DLR77, Bil97, Del02, Col97]. Il

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR

DES POTS DE MIEL BASSE INTERACTION

est utilis´e dans plusieurs domaines, de la construction d’une chaˆıne de Markov cach´ee

à l’identification des paramètres d’un processus ON/OFF. Son application à

l’estima-tion des paramètres d’un mélange de densités est très efficace. L’idée de base de cet

algorithme est simple : alterner entre l’´etape d’estimation de l’esp´erance de la

vrai-semblance (E) et l’´etape de maximisation de cette vraivrai-semblance (M). L’estimation

des paramètres est améliorée à chaque itération.

Dans l’algorithmeEm, les associations entre les donn´ees et les parties du m´elange

de densités sont considérées comme des valeurs manquantes. Nous observons x et il

nous manque les associations not´ees y. y

i,j

vaut 1 si la donn´ee x

i

a été générée par

la densit´ef

j

(x|θ

i

), sinon elle vaut 0. Connaissant une approximation de Θ, l’´etape E

permet de trouver les valeurs moyennes pour les donn´ees manquantesycorrespondant

aux associations. Connaissant a priori les valeurs des donn´ees manquantes, l’´etape M

permet de trouver une meilleure approximation de Θ. L’algorithme 2 pr´esente une

implémentation. Sachant que la phase M est fortement liée au mélange de densité

employé, l’implémentation ne peut que très difficilement être générique. Il est plus

facile de la r´ealiser au cas par cas.

y= (y

i,j

)1≤

i≤n,1≤j≤l

(2.20)

Algorithme 2 AlgorithmeEm

Dans le document Observation, caractérisation et modélisation de processus d'attaques sur Internet (Page 59-62)

Télécharger maintenant "Observation, caractéri..."

Outline

Documents relatifs