Fig. 2.11 – Evolution du nombre de jours pour la sous-p´eriode, en fonction du nombre de
p´eriodes de silence suspectes et du nombre d’environnements minimum
Il est `a noter que si nous augmentons le nombre d’environnements souhait´e, la
p´eriode satisfaisant le seuil de disponibilit´e devient plus petite. Le mˆeme constat peut
ˆetre effectu´e par rapport au seuil de disponibilit´e fix´e. Plus il est ´elev´e, plus la p´eriode
satisfaisant le crit`ere est courte. Un compromis est donc n´ecessaire pour obtenir une
p´eriode suffisamment longue avec un nombre d’environnements suffisamment ´elev´e.
Nous avons choisi les valeurs n
e= 8 et s= 80%. Le nombre d’environnements choisi
est suffisant pour r´ealiser des analyses comparatives significatives, tout en permettant
facilement de pr´esenter les r´esultats.
En appliquant l’algorithme pr´ec´edent, nous avons s´electionn´e une sous-p´eriode de
637 jours, du 27 octobre 2005 au 26 juillet 2007 et 8 environnements : 9, 13, 14, 28,
31, 32, 42 et 62. Ces 8 environnements sont r´epartis entre la France, la Belgique, la
Pologne, l’Italie, l’Allemagne et le Royaume-Uni. Nous assurons, pour la sous-p´eriode,
au moins une disponibilit´e sup´erieure `a 80% pour chacun des environnements. De
plus, la sous-p´eriode consid´er´ee est assez longue pour mener des analyses significatives
(environ deux ans). Ces disponibilit´es et les nombres d’intervalles `a consid´erer pour la
suite des analyses sont pr´esent´es dans le tableau 2.5. Le minimum n’est pas pr´esent´e
dans ce tableau, car il ´egale 0 pour les 8 environnements.
Dans cette section, nous avons identifi´e les valeurs aberrantes pour chacun des
environnements. Cette identification permet de caract´eriser la disponibilit´e. Ensuite,
CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR
DES POTS DE MIEL BASSE INTERACTION
env. k |T
k,n′| Q
1(T
k′) Q
2(T
k′) Q
3(T
k′) max(T
k′) T
′k
σ(T
k′) disp.
(sec.) (min.) (min.) (min.) (min.) (min.) (%)
9 134161 56 3 8 53 6 7 93
13 15742 538 32 73 382 52 59 89
14 42670 107 7 24 158 18 25 85
28 10200 578 35 96 650 73 100 82
31 90580 76 4 11 52 8 9 81
32 65962 161 7 16 76 11 12 84
42 38826 102 7 25 278 19 29 84
62 25042 435 19 40 199 29 30 80
Tab. 2.5 – Caract´eristiques des environnements s´el´ectionn´es pour la sous p´eriode
nous avons d´etermin´e le sous ensemble des environnements et une sous p´eriode tels
que les disponibilit´es des environnements du sous ensemble, pendant la sous p´eriode,
sont sup´erieures `a 80%. Nous minimisons ainsi les risques d’avoir des r´esultats biais´es
dˆus `a des indisponibilit´es des environnements. Les analyses qui suivent se basent sur
ces donn´ees.
2.5 Mod´elisation des intervalles entre attaques
L’identification d’un mod`ele refl´etant les temps entre sessions est utile pour
carac-t´eriser le processus d’occurrence des attaques. Il peut servir pour guider les
adminis-trateurs en servant d’indicateur. De tels mod`eles peuvent aussi servir `a g´en´erer des
traces d’attaques repr´esentant du trafic malveillant r´eel, pouvant ˆetre utilis´e pour des
test de validation de syst`emes et m´ecanismes de protection vis-`a-vis des malveillances.
Diff´erents mod`eles et distributions de probabilit´e peuvent ˆetre test´es pour identifier
ceux qui correspondent mieux aux donn´ees observ´ees. Dans le cadre de nos travaux,
nous avons ´etudi´e plus particuli`erement des mod`eles param´etriques o`u les valeurs des
param`etres doivent ˆetre estim´ees `a partir des donn´ees observ´ees.
Nous distinguons deux ´etapes principales. Tout d’abord, une ´etape d’inf´erence
per-met de calibrer le mod`ele. L’objectif vis´e lors de cette ´etape est de d´eterminer, sur la
base des observations, les param`etres du mod`ele qui permettent de minimiser l’´ecart
entre les valeurs observ´ees et les valeurs estim´ees par le mod`ele. Pour ce faire, l’´ecart
entre le mod`ele et les observations est d´etermin´e en fonction des param`etres du
mo-d`ele. La fonction obtenue est la fonction de coˆut. Des algorithmes d’optimisation font
alors ´evoluer ces param`etres jusqu’`a trouver les param`etres pour lesquels la fonction
de coˆut est minimis´ee. Ensuite, une ´etape de validation permet de v´erifier l’ad´equation
des valeurs estim´ees par le mod`ele aux valeurs observ´ees. Cette ´etape se base sur des
tests statistiques pour aider `a la d´ecision de rejet ou d’acceptation du mod`ele.
Dans la suite, nous pr´esentons dans un premier temps les algorithmes
d’optimi-sation permettant d’estimer les param`etres des mod`eles. Ensuite, nous pr´esentons
les tests statistiques utilis´es pour estimer l’ajustement d’un mod`ele. Pour finir, nous
appliquons ces outils aux donn´ees.
2.5.1 Estimation des param`etres : l’algorithme Em
La vraisemblance quantifie la probabilit´e qu’un ´echantillon observ´ex = (x
i)
1≤i≤nsoit issu d’un ´echantillon th´eorique X = (X
i)
1≤i≤n, lui-mˆeme issu d’une loi th´eorique
f(x|θ). La probabilit´e que l’´echantillon observ´e soit une r´ealisation de l’´echantillon
th´eorique est ´egale au produit des probabilit´es que chaque donn´ee de l’´echantillon
observ´ex
isoit une r´ealisation de la variable al´eatoire de l’´echantillon th´eorique
cor-respondanteX
i. Cette quantit´e est not´ee L(x, θ).
L(x, θ) =
n
Y
i=1
f(x
i|θ) (2.16)
La m´ethode du maximum de vraisemblance permet d’inf´erer les param`etres d’une
loi d’un ´echantillon. Elle part de l’hypoth`ese que l’´echantillon observ´e est
effective-ment issu de l’´echantillon th´eorique. Son principe est le suivant : nous avons observ´e
l’´echantillon x; cet ´echantillon est une r´ealisation de l’´echantillon th´eorique X; la
probabilit´e que l’´echantillon observ´e soit effectivement observ´e doit donc ˆetre tr`es
´ele-v´ee ; la vraisemblance doit, elle aussi, ˆetre tr`es ´ele´ele-v´ee. La m´ethode du maximum de
vraisemblance inf`ere les param`etresθ qui maximisent la vraisemblance.
La vraisemblance est un produit. Maximiser un produit revient `a trouver les valeurs
qui annulent sa d´eriv´ee. Cette ´etape peut ˆetre fastidieuse pour une taille d’´echantillon
observ´e tr`es ´elev´ee. Le logarithme – fonction croissante sur R utilis´ee, entre autres,
pour r´ealiser des bijections – est donc employ´e pour substituer une somme `a ce produit
et ainsi simplifier le traitement. Maximiser la vraisemblance revient `a maximiser le
logarithme de la vraisemblance. D’un point de vue pratique, diff´erentes proc´edures
d’optimisation num´erique existent pour trouver le maximum de vraisemblance. Citons,
par exemple, la proc´edure it´erative de Newton-Raphson, la proc´edure de quasi Newton
et la proc´edure num´erique de recherche directe d’optimum de Powell.
Parfois, la loi th´eorique manipul´ee poss`ede une expression compliqu´ee. Elle peut
ˆetre un m´elange de densit´es de probabilit´es. Un m´elange de densit´e, not´ee f(x|Π,Θ),
est une somme pond´er´ee de densit´es de probabilit´e. Trouver les param`etres d’un
m´e-lange avec les m´ethodes classiques d’optimisation (Nelder-Mead, Newton, . . . ) est tr`es
difficile. Par la m´ethode du maximum de vraisemblance, le logarithme pour un
m´e-lange de densit´es nous am`ene `a traiter un logarithme d’une somme, qui est difficile `a
maximiser. Le principal probl`eme vient du fait que nous ne savons pas a priori quelles
sont les donn´ees g´en´er´ees par chacune des parties du m´elange.
Θ =(θ
i)1≤
i≤l(2.17)
Π =(π
i)1≤
i≤lπ
i>0,∀i et
lX
i=1π
i= 1 (2.18)
f(x|Π,Θ) =
lX
i=1π
i·f
i(x|θ
i) (2.19)
L’algorithme Esp´erance-Maximisation (Em) permet de contourner cette difficult´e.
Em est un algorithme it´eratif tr`es utilis´e en statistique pour l’estimation de
para-m`etres. Il a fait l’objet d’une importante litt´erature[DLR77, Bil97, Del02, Col97]. Il
CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR
DES POTS DE MIEL BASSE INTERACTION
est utilis´e dans plusieurs domaines, de la construction d’une chaˆıne de Markov cach´ee
`a l’identification des param`etres d’un processus ON/OFF. Son application `a
l’estima-tion des param`etres d’un m´elange de densit´es est tr`es efficace. L’id´ee de base de cet
algorithme est simple : alterner entre l’´etape d’estimation de l’esp´erance de la
vrai-semblance (E) et l’´etape de maximisation de cette vraivrai-semblance (M). L’estimation
des param`etres est am´elior´ee `a chaque it´eration.
Dans l’algorithmeEm, les associations entre les donn´ees et les parties du m´elange
de densit´es sont consid´er´ees comme des valeurs manquantes. Nous observons x et il
nous manque les associations not´ees y. y
i,jvaut 1 si la donn´ee x
ia ´et´e g´en´er´ee par
la densit´ef
j(x|θ
i), sinon elle vaut 0. Connaissant une approximation de Θ, l’´etape E
permet de trouver les valeurs moyennes pour les donn´ees manquantesycorrespondant
aux associations. Connaissant a priori les valeurs des donn´ees manquantes, l’´etape M
permet de trouver une meilleure approximation de Θ. L’algorithme 2 pr´esente une
impl´ementation. Sachant que la phase M est fortement li´ee au m´elange de densit´e
employ´e, l’impl´ementation ne peut que tr`es difficilement ˆetre g´en´erique. Il est plus
facile de la r´ealiser au cas par cas.
y= (y
i,j)1≤
i≤n,1≤j≤l(2.20)
Algorithme 2 AlgorithmeEm
Dans le document
Observation, caractérisation et modélisation de processus d'attaques sur Internet
(Page 59-62)