• Aucun résultat trouvé

Fig. 2.11 – Evolution du nombre de jours pour la sous-p´eriode, en fonction du nombre de

p´eriodes de silence suspectes et du nombre d’environnements minimum

Il est `a noter que si nous augmentons le nombre d’environnements souhait´e, la

p´eriode satisfaisant le seuil de disponibilit´e devient plus petite. Le mˆeme constat peut

ˆetre effectu´e par rapport au seuil de disponibilit´e fix´e. Plus il est ´elev´e, plus la p´eriode

satisfaisant le crit`ere est courte. Un compromis est donc n´ecessaire pour obtenir une

p´eriode suffisamment longue avec un nombre d’environnements suffisamment ´elev´e.

Nous avons choisi les valeurs n

e

= 8 et s= 80%. Le nombre d’environnements choisi

est suffisant pour r´ealiser des analyses comparatives significatives, tout en permettant

facilement de pr´esenter les r´esultats.

En appliquant l’algorithme pr´ec´edent, nous avons s´electionn´e une sous-p´eriode de

637 jours, du 27 octobre 2005 au 26 juillet 2007 et 8 environnements : 9, 13, 14, 28,

31, 32, 42 et 62. Ces 8 environnements sont r´epartis entre la France, la Belgique, la

Pologne, l’Italie, l’Allemagne et le Royaume-Uni. Nous assurons, pour la sous-p´eriode,

au moins une disponibilit´e sup´erieure `a 80% pour chacun des environnements. De

plus, la sous-p´eriode consid´er´ee est assez longue pour mener des analyses significatives

(environ deux ans). Ces disponibilit´es et les nombres d’intervalles `a consid´erer pour la

suite des analyses sont pr´esent´es dans le tableau 2.5. Le minimum n’est pas pr´esent´e

dans ce tableau, car il ´egale 0 pour les 8 environnements.

Dans cette section, nous avons identifi´e les valeurs aberrantes pour chacun des

environnements. Cette identification permet de caract´eriser la disponibilit´e. Ensuite,

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR

DES POTS DE MIEL BASSE INTERACTION

env. k |T

k,n

| Q

1

(T

k

) Q

2

(T

k

) Q

3

(T

k

) max(T

k

) T

k

σ(T

k

) disp.

(sec.) (min.) (min.) (min.) (min.) (min.) (%)

9 134161 56 3 8 53 6 7 93

13 15742 538 32 73 382 52 59 89

14 42670 107 7 24 158 18 25 85

28 10200 578 35 96 650 73 100 82

31 90580 76 4 11 52 8 9 81

32 65962 161 7 16 76 11 12 84

42 38826 102 7 25 278 19 29 84

62 25042 435 19 40 199 29 30 80

Tab. 2.5 – Caract´eristiques des environnements s´el´ectionn´es pour la sous p´eriode

nous avons d´etermin´e le sous ensemble des environnements et une sous p´eriode tels

que les disponibilit´es des environnements du sous ensemble, pendant la sous p´eriode,

sont sup´erieures `a 80%. Nous minimisons ainsi les risques d’avoir des r´esultats biais´es

dˆus `a des indisponibilit´es des environnements. Les analyses qui suivent se basent sur

ces donn´ees.

2.5 Mod´elisation des intervalles entre attaques

L’identification d’un mod`ele refl´etant les temps entre sessions est utile pour

carac-t´eriser le processus d’occurrence des attaques. Il peut servir pour guider les

adminis-trateurs en servant d’indicateur. De tels mod`eles peuvent aussi servir `a g´en´erer des

traces d’attaques repr´esentant du trafic malveillant r´eel, pouvant ˆetre utilis´e pour des

test de validation de syst`emes et m´ecanismes de protection vis-`a-vis des malveillances.

Diff´erents mod`eles et distributions de probabilit´e peuvent ˆetre test´es pour identifier

ceux qui correspondent mieux aux donn´ees observ´ees. Dans le cadre de nos travaux,

nous avons ´etudi´e plus particuli`erement des mod`eles param´etriques o`u les valeurs des

param`etres doivent ˆetre estim´ees `a partir des donn´ees observ´ees.

Nous distinguons deux ´etapes principales. Tout d’abord, une ´etape d’inf´erence

per-met de calibrer le mod`ele. L’objectif vis´e lors de cette ´etape est de d´eterminer, sur la

base des observations, les param`etres du mod`ele qui permettent de minimiser l’´ecart

entre les valeurs observ´ees et les valeurs estim´ees par le mod`ele. Pour ce faire, l’´ecart

entre le mod`ele et les observations est d´etermin´e en fonction des param`etres du

mo-d`ele. La fonction obtenue est la fonction de coˆut. Des algorithmes d’optimisation font

alors ´evoluer ces param`etres jusqu’`a trouver les param`etres pour lesquels la fonction

de coˆut est minimis´ee. Ensuite, une ´etape de validation permet de v´erifier l’ad´equation

des valeurs estim´ees par le mod`ele aux valeurs observ´ees. Cette ´etape se base sur des

tests statistiques pour aider `a la d´ecision de rejet ou d’acceptation du mod`ele.

Dans la suite, nous pr´esentons dans un premier temps les algorithmes

d’optimi-sation permettant d’estimer les param`etres des mod`eles. Ensuite, nous pr´esentons

les tests statistiques utilis´es pour estimer l’ajustement d’un mod`ele. Pour finir, nous

appliquons ces outils aux donn´ees.

2.5.1 Estimation des param`etres : l’algorithme Em

La vraisemblance quantifie la probabilit´e qu’un ´echantillon observ´ex = (x

i

)

1≤i≤n

soit issu d’un ´echantillon th´eorique X = (X

i

)

1≤i≤n

, lui-mˆeme issu d’une loi th´eorique

f(x|θ). La probabilit´e que l’´echantillon observ´e soit une r´ealisation de l’´echantillon

th´eorique est ´egale au produit des probabilit´es que chaque donn´ee de l’´echantillon

observ´ex

i

soit une r´ealisation de la variable al´eatoire de l’´echantillon th´eorique

cor-respondanteX

i

. Cette quantit´e est not´ee L(x, θ).

L(x, θ) =

n

Y

i=1

f(x

i

|θ) (2.16)

La m´ethode du maximum de vraisemblance permet d’inf´erer les param`etres d’une

loi d’un ´echantillon. Elle part de l’hypoth`ese que l’´echantillon observ´e est

effective-ment issu de l’´echantillon th´eorique. Son principe est le suivant : nous avons observ´e

l’´echantillon x; cet ´echantillon est une r´ealisation de l’´echantillon th´eorique X; la

probabilit´e que l’´echantillon observ´e soit effectivement observ´e doit donc ˆetre tr`es

´ele-v´ee ; la vraisemblance doit, elle aussi, ˆetre tr`es ´ele´ele-v´ee. La m´ethode du maximum de

vraisemblance inf`ere les param`etresθ qui maximisent la vraisemblance.

La vraisemblance est un produit. Maximiser un produit revient `a trouver les valeurs

qui annulent sa d´eriv´ee. Cette ´etape peut ˆetre fastidieuse pour une taille d’´echantillon

observ´e tr`es ´elev´ee. Le logarithme – fonction croissante sur R utilis´ee, entre autres,

pour r´ealiser des bijections – est donc employ´e pour substituer une somme `a ce produit

et ainsi simplifier le traitement. Maximiser la vraisemblance revient `a maximiser le

logarithme de la vraisemblance. D’un point de vue pratique, diff´erentes proc´edures

d’optimisation num´erique existent pour trouver le maximum de vraisemblance. Citons,

par exemple, la proc´edure it´erative de Newton-Raphson, la proc´edure de quasi Newton

et la proc´edure num´erique de recherche directe d’optimum de Powell.

Parfois, la loi th´eorique manipul´ee poss`ede une expression compliqu´ee. Elle peut

ˆetre un m´elange de densit´es de probabilit´es. Un m´elange de densit´e, not´ee f(x|Π,Θ),

est une somme pond´er´ee de densit´es de probabilit´e. Trouver les param`etres d’un

m´e-lange avec les m´ethodes classiques d’optimisation (Nelder-Mead, Newton, . . . ) est tr`es

difficile. Par la m´ethode du maximum de vraisemblance, le logarithme pour un

m´e-lange de densit´es nous am`ene `a traiter un logarithme d’une somme, qui est difficile `a

maximiser. Le principal probl`eme vient du fait que nous ne savons pas a priori quelles

sont les donn´ees g´en´er´ees par chacune des parties du m´elange.

Θ =(θ

i

)1≤

i≤l

(2.17)

Π =(π

i

)1≤

i≤l

π

i

>0,∀i et

l

X

i=1

π

i

= 1 (2.18)

f(x|Π,Θ) =

l

X

i=1

π

i

·f

i

(x|θ

i

) (2.19)

L’algorithme Esp´erance-Maximisation (Em) permet de contourner cette difficult´e.

Em est un algorithme it´eratif tr`es utilis´e en statistique pour l’estimation de

para-m`etres. Il a fait l’objet d’une importante litt´erature[DLR77, Bil97, Del02, Col97]. Il

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR

DES POTS DE MIEL BASSE INTERACTION

est utilis´e dans plusieurs domaines, de la construction d’une chaˆıne de Markov cach´ee

`a l’identification des param`etres d’un processus ON/OFF. Son application `a

l’estima-tion des param`etres d’un m´elange de densit´es est tr`es efficace. L’id´ee de base de cet

algorithme est simple : alterner entre l’´etape d’estimation de l’esp´erance de la

vrai-semblance (E) et l’´etape de maximisation de cette vraivrai-semblance (M). L’estimation

des param`etres est am´elior´ee `a chaque it´eration.

Dans l’algorithmeEm, les associations entre les donn´ees et les parties du m´elange

de densit´es sont consid´er´ees comme des valeurs manquantes. Nous observons x et il

nous manque les associations not´ees y. y

i,j

vaut 1 si la donn´ee x

i

a ´et´e g´en´er´ee par

la densit´ef

j

(x|θ

i

), sinon elle vaut 0. Connaissant une approximation de Θ, l’´etape E

permet de trouver les valeurs moyennes pour les donn´ees manquantesycorrespondant

aux associations. Connaissant a priori les valeurs des donn´ees manquantes, l’´etape M

permet de trouver une meilleure approximation de Θ. L’algorithme 2 pr´esente une

impl´ementation. Sachant que la phase M est fortement li´ee au m´elange de densit´e

employ´e, l’impl´ementation ne peut que tr`es difficilement ˆetre g´en´erique. Il est plus

facile de la r´ealiser au cas par cas.

y= (y

i,j

)1≤

i≤n,1≤j≤l

(2.20)

Algorithme 2 AlgorithmeEm