Autrement dit, un environnement n’est cibl´e que par un sous ensemble des adresses
d’Internet, et pas forc´ement le mˆeme que celui d’un autre environnement. De plus,
pour chacune des adresses, le nombre de sessions r´ealis´ees sur leur environnement
privil´egi´e est relativement faible compar´e au nombre total de sessions. Nous constatons
en g´en´eral que les sessions des adresses les plus actives sont relativement bien r´eparties
sur l’ensemble des environnements qu’elles ont cibl´e.
2.2.2 Probl`eme li´e aux p´eriodes de silence suspectes
Comme tout syst`eme informatique, les environnements peuvent connaˆıtre des
p´e-riodes d’indisponibilit´e plus ou moins longues. Leur disponibilit´e est tributaire aussi
de l’´etat du r´eseau l’accueillant. A titre d’exemple, le soir du samedi 4 novembre 2006,
en raison d’incidents sur le r´eseau ´electrique allemand, des millions de foyers en
Al-lemagne, Espagne, France et Italie, entre autres, ont ´et´e priv´es de courant[GdRdTd].
La coupure a aussi rendu indisponibles les environnements install´es dans les r´egions
affect´ees. Ces indisponibilit´es se traduisent par des attaques non observ´ees et, au
ni-veau des donn´ees, elles entraˆınent de longues p´eriodes d’inactivit´es. Que penser d’un
long silence soudain des attaquants sur un environnement, alors qu’habituellement
des milliers d’entre eux s’acharnent sur lui ?
L’intervalle indiqu´e sur la figure 2.2 pour chaque environnement, qui correspond au
temps ´ecoul´e entre la date de la premi`ere session et de la derni`ere, peut aussi inclure
des p´eriodes plus ou moins longues pendant lesquelles aucune activit´e malveillante
n’a ´et´e enregistr´ee. De telles p´eriodes peuvent ˆetre dues `a des coupures d’electricit´e
ou `a des probl`emes d’inaccessibilit´e de l’environnement correspondant.
0 5 10 15 20 25 30 dates nombre de Large_Session 2005−05−05 2005−09−03 2006−01−02 2006−05−03 2006−09−02
Fig. 2.5 – Evolution du nombre de sessions observ´ees par jour sur l’environnement 37
A titre d’illustration, la figure 2.5 montre l’´evolution du nombre de sessions
obser-v´ees par jour sur l’environnement 37. Nous pouvons constater que, entre novembre
2005 et avril 2006, aucune attaque n’a ´et´e enregistr´ee. Nous ne pouvons que
diffici-lement envisager que cette p´eriode soit due `a un silence des attaquants `a l’´egard de
cet environnement. Nous sommes plutˆot enclin `a penser que cette longue p´eriode de
CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR
DES POTS DE MIEL BASSE INTERACTION
silence de 5 mois est due `a une indisponibilit´e.
2.2.3 Discussion
Ces analyses de haut niveau montrent que les attaques observ´ees sur Internet
suivent des processus compliqu´es et bruit´es par des indisponibilit´es. Nous avons
be-soin d’outils statistiques pour mieux caract´eriser ces processus d’attaque et faire des
analyses comparatives.
Notre objectif est d’´elaborer des mod`eles des processus d’attaque qui soient
re-pr´esentatifs des processus r´eels, `a partir des donn´ees observ´ees. Il est donc n´ecessaire
d’identifier les p´eriodes d’indisponibilit´e pour att´enuer leur impact sur les r´esultats et
de s´electionner les donn´ees qui sont utilis´ees pour l’´elaboration de mod`eles. La
stra-t´egie d’analyse, propos´ee dans la suite, proc`ede en deux ´etapes. La premi`ere ´etape
est bas´ee sur l’hypoth`ese que les p´eriodes d’indisponibilit´e, qui risquent d’affecter la
validit´e des r´esultats, correspondent `a des valeurs qui s’´ecartent de fa¸con significative
de la dynamique du processus d’attaque. Ces p´eriodes, appel´ees valeurs aberrantes,
peuvent ˆetre estim´ees en utilisant des outils statistiques. Nous appellerons par la
suite p´eriode de silence suspecte, une p´eriode que nous supposons ˆetre une p´eriode
d’indisponibilit´e. La deuxi`eme ´etape consiste `a s´electionner la plus grande p´eriode
d’observation pendant laquelle un nombre important d’environnements ont ´et´e
dispo-nibles. Les donn´ees correspondant `a cette p´eriode nous serviront `a l’´elaboration des
mod`eles des processus et `a analyser de fa¸con comparative les comportements observ´es
sur diff´erents environnements.
2.3 M´ethodologie d’analyse
Dans cette section, nous d´efinissons les notations que nous utilisons. Les donn´ees
´etant issues d’un processus d’exp´erimentation, elles sont bruit´ees. Nous pr´ecisons alors
quelles sont les variables qui nous int´eressent en tenant compte du bruit des donn´ees dˆu
aux p´eriodes de silence suspectes. Ensuite, nous exposons la m´ethodologie d’analyse
des donn´ees.
2.3.1 Notations et d´efinitions
Chaque session, not´ee LS
i, poss`ede plusieurs caract´eristiques. Nous pouvons
ci-ter, entre autres, l’adresse de l’attaquant (adr(LS
i)), sa localisation g´eographique
(geo(LS
i)), l’environnement cibl´e (env(LS
i)), la date du d´ebut de l’activit´e (datedebut(LS
i))
et la date de fin de l’activit´e (datef in(LS
i)).
adr(LS
i) = adr(p)/p∈LS
i(2.1)
geo(LS
i) = geo(adr(p))/p∈LS
i(2.2)
env(LS
i) = env(p)/p∈LS
i(2.3)
datedebut(LS
i) = min{date(p)/p∈LS
i} (2.4)
datef in(LS
i) = max{date(p)/p∈LS
i} (2.5)
Les sessions repr´esentent les activit´es des attaquants sur les environnements de
pot de miel pendant leurs attaques. Le processus `a leur origine correspond au
com-portement des attaquants. Le comcom-portement est alors observ´e `a travers les donn´ees
collect´ees sur les pots de miel. SoitX
k(t) un processus stochastique binaire indiquant
si une session a d´emarr´e `a l’instant t (X
k(t) = 1) ou non (X
k(t) = 0), sur le pot de
mielk. Soit τ
k,il’instant de la i-`eme session de X
k(t). Les valeurs des τ
k,ipermettent
de d´eterminer les dur´ees s´eparant deux sessions cons´ecutives. Soit T
k,nla dur´ee
s´e-parant les (n −1)-i`eme et n-i`eme sessions. Ces diff´erentes variables sont li´ees de la
mani`ere suivante :
τ
k,i=
(
0, si i= 0
min(t/t > τ
k,i−1∧X
k(t) = 1), sinon (2.6)
T
k,n=τ
k,n−τ
k,(n−1)(2.7)
Id´ealement, nous voudrions observer X
k(t) pour mener nos analyses. Or, Les
dis-positifs d’observation ne sont pas parfaits. Concernant les environnements, nous avons
identifi´e une source d’imperfection : les p´eriodes de silence suspectes.
Dans le document
Observation, caractérisation et modélisation de processus d'attaques sur Internet
(Page 44-47)