3. Caractérisation des types de côte
3.1 Caractérisation côtière de la baie de Plaisance
3.1.1 Côte à falaise rocheuse de la baie de Plaisance
Essa seção discute os procedimentos utilizados na pesquisa e apresenta problemas encontrados durante o seu desenvolvimento. Os principais problemas encontrados, em específico no coletor, foram o CAPTCHA (um teste de desafio cognitivo, utilizado como
ferramenta anti-spam) e o popup (uma janela que abre no navegador Web). Esses problemas são apresentados a seguir, além de outras dificuldades.
O primeiro passo da pesquisa consistiu na criação da base de dados. Pretendíamos obter a base diretamente do Zone-H, porém, ao entrar em contato com o administrador, o mesmo informou que não era possível fornecer a base de dados. Com isso, foi dado início a implementação do coletor automático (Web Crawler).
Antes de utilizar o Selenium para resgatar o HTML e as informações necessárias, foi utilizado métodos padrões como GET e seus derivados, porém, todas sem sucesso, pois através da requisição que era feita para o Zone-H, a resposta obtida não era o HTML desejado do sítio (isso era esperado pois o administrador informou que o sítio continha algumas técnicas contra Web Crawler). Porém como o Selenium habilita o controle de um Navegador e “simula” um humano operando sobre o sítio, assim, foi possível a manipulação e navegação no HTML. O CAPTCHA: quando era definido o domínio .BR (pois era desejado apenas o sítios Web brasileiros) o Zone-H solicitava autenticação de um CAPTCHA o que impedia a automatização da coleta, para isso, foi descoberto que o Zone-H possui um sítio brasileiro que contém apenas desfigurações com o domínio .BR. Porém isso continua sendo um problema, sendo que em um determinado período de tempo o CAPTCHA é solicitado novamente.
Outra dificuldade foi em relação ao domínio, nas primeiras versões do Web Crawler, o mesmo não acessava a cópia da desfiguração, acessava apenas a lista de desfiguração que já apresentava os campos citados acima, porém o domínio de alguns sítios era extenso e não exibia por completo, sendo utilizado “...”. Portanto foi necessário, a partir disso, acessarmos a cópia da desfiguração.
Haviam registros que eram feitos exatamente na mesma hora, assim, o coletor dava o registro como duplicado, pois já existia um registro com aquela data no banco de dados. Para isso foi adicionada uma comparação, para verificar o domínio, portanto, se aquele registro que continha horas iguais tivesse o domínio diferente, ele ainda não tinha sido armazenado no banco.
Como o campo dataRegistro é uma chave primária no banco de dados, ao corrigir o problema citado de registro duplicado, mais um problema surgiu, como já existia registro com aquela data, no momento de salvar, o registro (ou a chave) já existia e apesar do domínio ser diferente ele não permitia a inserção, pois a chave seria duplicada, para isso o campo dataRegistro foi modificado e deixou de ser uma chave primária.
O coletor salva todos os mirrors presentes em uma página e visita todos eles, passando assim para a próxima página caso não tenha nenhum registro duplicado, porém se algum registro novo for notificado, um dos registro já salvo irá para outra página e o coletor ao
compará-lo notifica que o registro já existe e interpreta que o restante também já foi coletado, porém pode existir registros que ainda não foram salvos a partir daquele que foi pra a próxima página. A solução foi, não parar a coleta com apenas o alerta de um registro duplicado, mas sim ter uma “margem de erro” para cobrir esses casos, parando a execução da coleta apenas quando houver 5 registros duplicados.
Quando o invasor insere algum popup o coletor não reage bem a essa ação, para isso foi verificada a exceção que era lançada e adicionado try/exceptions para quando a execeção do popup for lançada a coleta continua para os próximos registros. Apesar de finalizado o coletor ainda precisa de melhorias.
Os primeiros procedimentos realizados para investigação das questões de pesquisa com o intuito de encontrar os principais grupos/indivíduos foram padrões e eficientes. Padrões e eficientes pois consistiam em consultas SQL e como se tratava de uma base de dados bem estruturada, foi a melhor abordagem.
A extração de redes sociais obteve resultados desejados, porém de uma forma não tão eficiente. Tanto utilizando a biblioteca NLTK, quanto o algoritmo desenvolvido, os resultados devolvidos continham muita informação irrelevante, sendo necessário que o especialista removesse essas informações manualmente. Uma forma mais eficiente e automatizada seria a construção de uma expressão regular com mais restrições na seleção das redes sociais, além de uma verificação que comparasse as redes sociais resgatadas com o grupo/indivíduo, analisando uma similaridade entre os dois.
Os procedimentos aplicados para extração de padrões individuais e gerais, apesar de utilizar alguns métodos já utilizados na extração de redes sociais, como associação de palavras, quando somada a extração de termos mais frequentes e quando aplicado janelas de tempo, obteve-se resultados importantes para a caracterização dos grupos/indivíduos e extração de seus padrões.
A análise de similaridade foi aplicada para expressar essa semelhança entre as desfigurações através de números, porém o processo de analisar essa igualdade foi dada ao especialista, tornando o método não tão eficiente quanto podia. Era possível uma combinação de todas essas técnicas, tornando as caracterizações melhores e automatizadas.
5
Conclusões e Trabalhos Futuros
Neste trabalho foram identificados os principais grupos/indivíduos que atuam em desfigu- ração de páginas no Brasil, como também foram extraídas informações para o monitoramento desses grupos/indivíduos, como perfis de redes sociais e padrões de desfigurações. Além disso, também foram caracterizadas outras questões interessantes, como a tendência de ataques a domínios, dias da semana e hora que comumente são publicadas as desfigurações.
Em relação à identificação dos perfis dos atacantes nas redes sociais, observou-se que há divulgação delas nas desfigurações, além de que, ataques são divulgados através dessas redes sociais. Portanto, uma vez que resgatadas, obtém-se informações de grande importância para mecanismos de monitoramento e de detecção antecipada.
Quanto a padrões de desfigurações por grupos, notou-se que esses padrões existem e podem variar conforme o integrante que realiza o ataque. Nota-se também que há desfigurações parciais e completas, muitos blogs, sítios de notícias ou sítios de prefeituras recebem apenas a inserção de uma postagem dentro de seus “painéis de notícias” e outros realmente sofrem alterações do sítio por completo.
O Zone-H mostrou-se uma excelente fonte de extração de informações relevantes, devido ao grande número de desfigurações que são divulgadas nele, criando assim uma rica fonte de base de dados. No entanto, foi uma limitação por conta do difícil acesso às informações.
Como uma das principais contribuições, os resultados dessa pesquisa podem ser usados em mecanismos de alerta antecipado, já que foi gerado uma base de informações inteligentes. Redes sociais já foram disponibilizadas para o projeto GT-EWS1 que é um sistema de alerta
antecipado e que monitora essas redes. Além das redes sociais, o coletor desenvolvido foi
1https://gtews.ime.usp.br/
adaptado e está sendo usado como um sensor no Hórus2 dentro do GT-EWS.
Ainda há desafios para a pesquisa, como a questão de melhorar o processo automático de identificação de redes sociais e extração de padrões, como já comentado na Seção 4.5, existe uma dependência da análise especialista futuramente pode ser reduzido por melhoramento no uso de técnicas de Aprendizado de Máquina e novas heurísticas.
Como trabalhos futuros são propostos: (i) Automatização geral dos processos de extração de redes sociais e padrões de desfigurações. (ii) Solucionar limitações do coletor, que seria resolver o problema do CAPTCHA e dos popups, pois além de não ter a coleta interrompida, desfigurações não serão perdidas. (iii) Fazer utilização do HTML original em conjunto com o espelho da desfiguração, para auxiliar na criação de um mecanismo que detecte a permanência da desfiguração no sítio original, ou seja, no momento da coleta, o espelho do sítio original e o espelho da desfiguração passaria por uma análise de similaridade e em caso de uma porcentagem alta de similaridade, emite-se um alerta para o sítio, para que ocorra um reparo no mesmo.
AMARAL, Daniela O. F. do; VIEIRA, Renata. O reconhecimento de entidades nomeadas por meio de conditional random fields para a língua portuguesa. In: , 2013. p. 59–68. BARTOLI, Alberto; DAVANZO, Giorgio; MEDVET, Eric. The reaction time to web site defacements. IEEE Internet Computing, v. 13, n. 4, p. 52–58, 2009. ISSN 10897801.
BENJAMIN, Victor; LI, Weifeng; HOLT, Thomas; CHEN, Hsinchun. Exploring threats and vulnerabilities in hacker web: Forums, IRC and carding shops. 2015 IEEE International
Conference on Intelligence and Security Informatics: Securing the World through an Alignment of Technology, Intelligence, Humans and Organizations, ISI 2015, p. 85–90, 2015.
BERTOGLIO, Daniel Dalalana.; ZORZO, Avelino Francisco. Um Mapeamento Sistemático
sobre Testes de Penetração. Dissertação (Mestrado) — PONTIFÍCIA UNIVERSIDADE
CATÓLICA, 2015.
CAMPIOLO, Rodrigo. Análise e extração de aleras antecipados sobre ameaças e incidentes
de segurança em sistemas computacionais usando fontes de dados não estruturados. Tese
(Doutorado) — Instituto de Matemática e Estatística da Universidade de São Paulo, Setembro 2016.
CERT.BR. Incidentes Reportados ao CERT.br – Janeiro a Dezembro de 2016. Julho 2017. Https://www.cert.br/stats/incidentes/2016-jan-dec/total.html, disponível em 14/07/2017, acessado em 24/11/2017.
CHAVES, Edu. Leet (1337) - linguagem secreta dos hackers. Abril 2010. Http://www.sequelanet.com.br/2010/04/leet-1337-linguagem-secreta-dos-hackers.html, Disponível em 21/04/2010. Acessado em 24/11/2017.
CONRADO, Merley da Silva. O efeito do uso de diferentes formas de extração de termos na
compreensibilidade e a representatividade dos termos em coleções textuais na língua portuguesa.
Dissertação (Mestrado) — Instituto de Ciências Matemáticas e de Computação - ICMC-USP, 2009.
DAVANZO, Giorgio; MEDVET, Eric; BARTOLI, Alberto. A comparative study of anomaly detection techniques in web site defacement detection. In: IFIP International Federation for
Information Processing, 2008. v. 278, p. 711–716. ISBN 9780387096988. ISSN 15715736.
FELDMAN, Ronen; SANGER, James. The Text Mining Handbook. [S.l.: s.n.], 2007. 423 p. ISSN 14653133. ISBN 978-0-511-33507-5.
HACKING, Loops. 6 Ways to Hack or Deface Websites Online. Janeiro 2016. Https://www.hackingloops.com/6-ways-to-hack-or-deface-websites-online/, Disponível em 04/2016. Acessado em 24/11/2017.
HENRY, Kevin. Penetration Testing: Protecting Networks and Systems. [S.l.]: IT Governance Publishing, 2012.
JOHARI, Rahul; SHARMA, Pankaj. A survey on web application vulnerabilities (SQLIA, XSS) exploitation and security engine for SQL injection. In: Proceedings - International
Conference on Communication Systems and Network Technologies, CSNT 2012, 2012. p.
453–458. ISBN 9780769546926.
LI, W.; CHEN, H. Identifying top sellers in underground economy using deep learning-based sentiment analysis. In: 2014 IEEE Joint Intelligence and Security Informatics Conference, 2014. p. 64–67.
MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. Language models for information retrieval. In: PRESS, Cambridge University (Ed.). An Introduction to Information Retrieval. [S.l.: s.n.], 2008.
MORAIS, Edison Andrade Martins; AMBRóSIO, Ana Paula L. Mineraçao de textos. Relatório
Técnico–Instituto de Informática (UFG), 2007.
MOTA, C.; SANTOS, D.; RANCHHOD, E. “avaliação de reconhecimento de entidades mencionadas: Princípio de harem”. In: PRESS, IST (Ed.). Avaliação Conjunta: Um novo
paradigma no processamento computacional da língua portuguesa. [S.l.]: Diana Santos, 2007.
p. capítulo 14, p. 161–176.
NAHM, Un Yong; MOONEY, Raymond J. Text mining with information extraction. AAAI
Technical Report SS, SS-02-06, p. 60–67, 2002.
OWASP. OWASP Top 10 Application Security Risks - 2010. Abril 2010. Https://www.owasp.org/index.php/Top_10_2010-Main, Disponível em 26/04/2010. Acessado em 24/11/2017.
OWASP. Cross-site Scripting (XSS). Abril 2016. Https://www.owasp.org/index.php/Cross- site_Scripting_(XSS), Disponível em 06/04/2016. Acessado em 24/11/2017.
PREATONI, Roberto. Zone-H. Setembro 2017. Https://en.wikipedia.org/wiki/Zone-H, Disponível em 23/09/2017. Acessado em 24/11/2017.
SALATIEL, José Renato. Crimes virtuais: Hackers promovem onda de ataques no Brasil. Ju- lho 2011. Https://vestibular.uol.com.br/resumo-das-disciplinas/atualidades/crimes-virtuais- hackers-promovem-onda-de-ataques-no-brasil.htm, Disponível em 01/07/2011. Acessado em 24/11/2017.
SANTOS, Maria Angela Moscalewski Roveredo dos. Extraindo regras de associação a partir
de textos. Curitiba, 2002. 51 p. Dissertação (Mestrado) — Pontifícia Universidade Católica
do Paraná, 2002.
SUREKA, A.; GOYAL, V.; CORREA, D.; MONDAL, A. Polarity classification of subjective words using common-sense knowledge-base. Lecture Notes in Computer Science Rough Sets,
Fuzzy Sets, Data Mining and Granular Computing, p. 486–493, 2009.
WENDT, Emerson. Os ataques crackers no Brasil e seus efeitos penais decorrentes. Junho 2011. Http://www.emersonwendt.com.br/2011/06/os-ataques-crackers-no-brasil-e-seus.html, Disponível em 26/06/2011. Acessado em 24/11/2017.
ZONE-H. Estatísticas geral Anual/Mensal/diária. Novembro 2017. Http://zone- h.com.br/stats/ymd, Disponível em 01/11/2017. Acessado em 24/11/2017.
O Código 1, apresenta o coletor automático desenvolvido para o estudo, que realiza Web Crawling no sítio Zone-H.
def c r a w l e r ( ) :
copia = [ ] #v a r i a v e l pra s a l v a r os mirrors
print( " Aguarde , abrindo f i r e f o x e acessando o s i t e . . . " )
wd_firefox = webdriver . F i r e f o x ( ) # abro o f i r e f o x
f o r i in range ( 1 , 5 1 ) : del copia [ : ]
wd_firefox . get
( " http : / / br . zone−h . org / a r c h i v e / p u b li s h e d =0/page=" + str ( i ) ) source_html = lxml . html . f r o m s t r i n g ( wd_firefox . page_source )
# Pegando a c e s s o a m i r r o r , e s a l v a n d o t o d o s o s m i r r o r s a l i s t a c o p i a
print( " Salvando m i r r o r s . . . Pagina : " + str ( i ) )
f o r coluna in source_html . xpath ( " . / / t a b l e [ @id=’ l d e f a c e ’ ] / / t r " ) : f o r l i n h a in coluna . xpath ( " . / / td //a/ @href " ) :
i f " / mirror " in l i n h a :
copia . append ( " http : / / br . zone−h . org " + l i n h a )
#Navegando em t o d o s o s m i r r o r s
f o r mirror in copia : try:
time . s l e e p ( 6 0 )
wd_firefox . get ( mirror )
html_mirror = lxml . html . f r o m s t r i n g ( wd_firefox . page_source )
data = html_mirror . xpath ( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 1 ] / t e x t ( ) " ) data = formatData ( data )
v e r i f i c a D = v e r i f i c a D a t a ( data )
i f( v e r i f i c a D == 1 ) :
dominio = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 2 ] / a/ t e x t ( ) " ) i n v a s o r = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 1 ] / t e x t ( ) " ) sistema = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 3 ] / ul / l i [ 1 ] / t e x t ( ) " ) end_ip = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 3 ] / t e x t ( ) " ) web_service = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 3 ] / ul / l i [ 2 ] / t e x t ( ) " )
#dominio do s i t e d e s f i g u r a d o no m i r r o r
html_deface = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / iframe / @src " )
#Capturando h t m l do s i t e d e s f i g u r a d o no m i r r o r
wd_firefox . get ( html_deface ) content = wd_firefox . page_source
html_deface = BeautifulSoup ( content , " lxml " ) html_deface = str ( html_deface )
#Acessando s i t e d e s f i g u r a d o p a r a c a p t u r a do h t m l
wd_firefox . get ( dominio )
content = wd_firefox . page_source
html_dominio = BeautifulSoup ( content , " lxml " ) html_dominio = str ( html_dominio )
#O b s e r v a c o e s :
#html_dominio = h t m l do s i t e d e s f i g u r a d o #h t m l _ d e f a c e = h t m l do s i t e no m i r r o r
saveDB ( data , str ( i n v a s o r ) , str ( dominio ) , str ( sistema ) , str ( end_ip ) ,
s t r( web_service ) , html_dominio , html_deface ) e l s e:
dominio = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 2 ] / a/ t e x t ( ) " ) v e r i f i c a D o = v e r i f i c a D o m i n i o ( str ( dominio ) , data )
i f( v e r i f i c a D o == 1 ) :
i n v a s o r = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 1 ] / t e x t ( ) " ) sistema = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 3 ] / ul / l i [ 1 ] / t e x t ( ) " ) end_ip = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 2 ] / ul / l i [ 3 ] / t e x t ( ) " ) web_service = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / ul / l i [ 3 ] / ul / l i [ 2 ] / t e x t ( ) " ) html_deface = html_mirror . xpath
( " / / ∗ [ @id=’ propdeface ’ ] / iframe / @src " ) wd_firefox . get ( html_deface )
content = wd_firefox . page_source
html_deface = BeautifulSoup ( content , " lxml " ) html_deface = str ( html_deface )
#Acessando s i t e d e s f i g u r a d o p a r a c a p t u r a do h t m l
wd_firefox . get ( dominio )
content = wd_firefox . page_source
html_dominio = BeautifulSoup ( content , " lxml " ) html_dominio = str ( html_dominio )
saveDB ( data , str ( i n v a s o r ) , str ( dominio ) , str ( sistema ) , str ( end_ip ) ,
s t r( web_service ) , html_dominio , html_deface ) e l s e: print( " R e g i s t r o duplicado ! " ) #b r e a k ; except ValueError : print( " Captcha s o l i c i t a d o " ) e x i t ( 0 ) ; except: print( " Popup " ) wd_firefox . c l o s e ( )
A base de dados está estruturada da seguinte forma: Nome da base de dados: zonehDB;
Tabela existente na base: dataDefacers; •Campos presentes na tabela
–dataRegistro= Data do Registro –dataRegistro= Data do Registro –invasor= nick do invasor
–dominio= domínio atacado
–enderecoIP = endereço IP atacado –webService = Serviço Web
–html = corresponde ao html do sítio desfigurado
–htmlMirror = corresponde ao espelho da desfiguração registrado no Zone-H
A Tabela 1 apresenta os grupos/invasores presentes na base de dados da pesquisa que realizaram pelo menos 10 desfigurações.
Grupo/Indivíduo Quantidade de desfiguração
VandaTheGod 461 MuhmadEmad 283 SA3D HaCk3D 214 Sillent_Attack 154 DARKRON 151 Tsunami Faction 145 Yunkers Crew 133 Zedan-Mrx 129 Tux Society 126 BRLZPoC 124 suliman_hacker 93
Ashiyane Digital Security Team 91
BALA SNIPER 88 XwoLfTn 83 Alarg53 82 GeNErAL 80 ./CryptonKing 77 Umbrella Gang 75 Mo3Gza HaCkEr 73 ProtoWave Reloaded 73 CyberTeam 69 Mister Spy 67 4Ri3 60ndr0n9 66 HolaKo 65 Imam 63 Sons of Anarchy 63 53
ZoRRoKiN 62 TeaM_CC 61 Cooldsec 59 Strike King 56 Spy_Unkn0wn 53 Xinox Crew 52 MonstersDefacers-Padocas 49 AB15 Team 47 chinafans 47 RxR 46 m1n3r 46 Ex0rsec 44 w4l3XzY3 43 ayyildiz 41 Itachi.sz 41 jok3r 39 Collapse Gang 39 Mr ER 38 BILGEKULTIGIN 38 UserGhost 38 Default 35 fast 34 Kashif HaxOr 33 aDriv4 32
Brazilian Cyber Army 32
vbsdz17 29 Cater 29 Anarchy Ghost 29 @Sprek3rsSec 28 GAZA 28 Dr.S4mom 27 CyBeRiZM 27
Toxic Security Team 26
TheWayEnd 24
HighTech 23
VM 23 SynnX 23 Ex0rcist 23 spl0it3r 23 EvilBoyz 22 GHoST61 22 Colder 22 AnoaGhost 21
Astrologyc Hack Team 20
13CHMOD37 20
Anon Ghost Portugal 20
magelang6etar 20 Pak MOnster 20 dkr 19 etownteam 19 CandySec 19 Aj4x 18 0x1999 18 SilentAngel 18 By_uMuT 18 Mr Virus Dz 18 nginxDEX 17 Fallaga Team 17 hamaminho 17 Sxtz 17 Dr.SiLnT HilL 17 BrazilObscure 17 Ayy˘0131ld˘0131z Tim 17 aPTx4869 16
black hell ahmed 16
Hitler El Maghribi 16 KingSkrupellos 16 An0n 3xPloiTeR 16 Mr.Medo 16 Mr.Vangke404 16 Unknown Al 15
cyber_hunter 15 adam tnx 15 Anonymous Indonesia 15 N3X0000S 15 Ramil Feyziyev 14 TeaMGhost 14 Mr.XaaD 14 Moroccan Revolution 14 nikkO 14 mtz13 14 LOST3R 14 h4lyz0r1337 14 xin0x w0 13 Shade 13 R3tr1ng 13 r00tkit 13 v4p0r 13 Index Php 13 b33ck 13 Mr.Rizgar.halshoy.kurdish.blackhat 12 ArchS3x 12 kefiex404 12 Panataran 12 veryhax 12 MiLwrOM_Dz 12 folps 12 E7 11 Monsters Defacers 11 Santi boy 11 Ara-C@esar 11 SNAKE2K1 11 zakiloup 11 Mr.DreamX196 11 NeT.Defacer 10 AbsenceTM 10 Hacker Khan 10
KkK1337 10
pr0s3x 10
Chucky.sh 10