Essa seção descreve ameças aos resultados obtidos que podem oferecer variações nos números apresentados. As ameaças foram agrupadas por semântica para maior entendimento.
6.3.1 Ameaças no contexto geral
As ameaças descritas nessa seção são compartilhadas por todos os dois experimentos ela- borados, basicamente descrevem limitações sobre a elaboração das amostras ou processo de reconhecimento heurístico.
6.3.1.1 Ameaças na detecção de marcas
Em relação a detecção de comportamentos, a solução adota medidas e contramedidas de iniciativa própria para investigar padrões suspeitos na atividade da navegação. Contudo, em relação ao reconhecimento de marcas, a heurística do procedimento precisa ser acompanhada periodicamente, uma vez que mudanças podem ser adotas por seus proprietários.
Por exemplo, o proprietário da marca pode modificar padrões visuais e textuais da iden- tificação de sua marca. Apesar da pesquisa fazer um levantamento preliminar e exploratório sobre algumas marcas, a fim de prover um cenário minimamente operacional, a clareza na definição dos padrões visuais é indispensável se for considerar o cenário real de atuação. Ou seja, o levantamento de padrões visuais e textuais é uma atividade que precisa ser definida com o apoio do proprietário da marca, e essa dependência torna-se crítica.
Também foi possível evidenciar o problema da heterogeneidade ou falta de detalhes no conteúdo, o que dificulta detectar o direcionamento do ataque para uma marca. No caso da heterogeneidade remete aos casos que duas ou mais marcas ficam em evidencia. Já a falta de detalhes dificulta a conclusão em alguma marca específica. Além disso, muitos elementos embutidos (mashups) ou demais referências cruzadas podem dificultar a detecção da marca.
Outra limitação foi o processamento interno de extração de informações por OCR e Re- conhecimento de Imagem (RI) com o Google Vision. Devido a natureza complexa em termos de custos em processamento, essas atividades são executadas em último caso, visando não comprometer o tempo de resposta de cada página. Os testes com OCR foram executados em situações que a página continha pouca informação no código-fonte, como casos de templates construídos com arquivos embutidos ou elementos mashups anteriormente citados.
Já os testes de RI, como sempre são executados após uma investida não suficiente de OCR, tem o atenuante de reutilizar uma imagem já existente, além disso, a imagem criada tem um tamanho relativamente pequeno, como dito anteriormente, em torno de 13.4KB. Todavia, ainda sim é um processo custoso e que acaba comprometendo o tempo de resposta. Foi possível observar no experimento que as requisições que percorriam toda a árvore, ou seja, que extraíam todas as informações possíveis, apresentaram em média um tempo de resposta de 3.8s, isso em casos que não era necessário realizar os procedimentos de OCR e RI. Já nos casos que haviam a necessidade de realizar tais procedimentos, o tempo subiu para 9.18s.
Diante disso, também é preciso considerar outros fatores subjetivos, como a velocidade de conexão do ambiente de execução do experimento e a banda de transferência disponibilizada pelo servidor que hospeda a página maliciosa. É fato que muitas dessas páginas maliciosas são hospedadas em servidores com baixo custo, o que sugere alta latência nas requisições. Por fim, algumas preocupações, como desfocar rostos em possíveis imagens no conteúdo da página, bem como outros tratamentos em determinadas informações sensíveis precisariam ser consideradas visando a privacidade do usuário final, uma vez que nesse modelo proposto, imagens do conteúdo da aba do navegador seriam geradas de forma arbitrária pela solução. 6.3.1.2 Ameaças na construção das amostras
Além disso, alguns casos de phishing válidos eram páginas que apresentaram conta suspensa no servidor de hospedagem ou mesmo apresentar erros de HTTP amigáveis, fazendo com que o resultado do carregamento da página apresentasse uma página padrão do servidor Web e não exatamente a página maliciosa. O processo de detecção do status code do HTTP minimizou
esse problema, contudo, alguns casos precisaram ser tratados, devido apresentar situações improcedentes, como páginas offline que ao invés de apresentarem código 404, o servidor exibia páginas personalizadas retornando o código 200. Apesar do tratamento, ainda sim a avaliação fica suscetível a ruídos dessa natureza. O mesmo vale para o processo de detecção de páginas padronizadas informando a suspensão.
Não obstante, como em qualquer tipo de experimento, a automação pode ocasionar em riscos na precisão dos resultados obtidos. Contudo, o estudo considera que a confiabilidade da metodologia adquiriu considerável precisão com a decisão de eliminar o caráter subjetivo da avaliação, no caso, a intervenção manual.
Outro fator importante é a possibilidade da existência de clones de phishing no processo, o que poderia enviesar alguns resultados. Contudo, o processo de detecção desse tipo de situação foi atenuado pelo experimento da seguinte forma: criado um hash do conteúdo da página e com isso mitigar possíveis colisões. Contudo, é importante mencionar que qualquer mudança, por menor que seja, é suficiente para modificar o hash e, consequentemente, o mesmo não ser julgado como um clone. O conteúdo da página é algo muito dinâmico, e geralmente o mesmo é modificado periodicamente. Além disso, existe os casos do conteúdo poder ser modificado a cada acesso, nos casos dos serviços gratuitos de hospedagens que inserem anúncios de propaganda de forma aleatória, o que faria modificar o hash resultante.
Por fim, conforme mencionado no Capítulo 5, o protótipo utilizou a API do unshorten.me para “desencurtar” URL encurtadas. Contudo, uma prática relativamente comum entre os fraudulentos é realizar encurtamento em profundidade, que seria encurtar uma URL já encur- tada. Esses casos foram identificados, contudo, limitando-se até 3 investidas de encurtamento. Apesar de raro, pode acontecer casos com mais saltos, todavia, estes foram descartados. 6.3.1.3 Ameaças no processo de filtragem por lista de permissão
O processo baseado em lista de permissões também é suscetível a problemas de sequestro. Além do já mencionado sobre o sequestro de HOST, também é importante considerar que uma vez que a entrada seja registrada, a mesma será ignorada de todo o processo de checagem, pondo em cheque a precisão da proposta. Outro ponto é que apesar da presença de certificado trazer prestígio a página, é preciso considerar a possibilidade de algum desses certificados serem forjados ou mesmo clonados, trazendo um impacto significativo na heurística.
Outro fator que merece menção é a ausência de testes no serviço de lista de permissão na presente Tese de doutorado. A justificativa é que o grande desafio em si desse recurso da proposta seria a adesão dos proprietários de marcas no processo de alimentação da lista de permissão. Outro ponto é que um mal intencionado pode forjar diversos elementos da identidade de uma marca, como criar uma empresa fictícia, clonar um certificado digital ou mesmo realizar o sequestro de um HOST legítimo, tais situações não encontram-se no escopo da proposta. Contudo, trabalhos futuros para atenuar esses problemas são descritos no Capítulo 7, na Seção 7.4.
6.3.2 Ameaças no experimento com phishing válidos e inválidos
Essa seção descreve limitações especificas ao primeiro experimento. Quanto à limitação de
escopo, no estado atual, foram considerados apenas os phishing de 2020 com o status “con-
firmado”, contudo, foi suficiente para ter um considerável número de URL maliciosas para análise. A justificativa de considerar os phishing mais recentes é que a grande relevância do filtro se dar por sua rápida resposta sobre um novo phishing que surge, ou seja, o menor tempo da janela de vulnerabilidade.
Outro fato que reforça a preocupação dessa dependência é que existem casos de phishing publicados no repositório que ainda não passaram pelo crivo da administração da plataforma, representando uma janela de vulnerabilidade no repositório. Por exemplo, o PhishTank, por ser uma plataforma colaborativa onde qualquer pessoa denuncia de forma irrestrita, o phishing uma vez cadastrado, é classificado como “não confirmado”, pois será submetido à uma análise manual por parte dos administradores do PhishTank para então ser uma ameaça “confirmada”. Esse fato constata um atraso significativo da plataforma sobre um phishing que representa um perigo real ao usuário final, evidenciando o problema de falsos negativos. Contudo, a análise manual é um preço que se paga para evitar falsos positivos.
6.3.3 Ameaças no experimento comparativo entre as soluções nativas
Essa seção descreve limitações especificas ao segundo experimento. É notória a dificuldade em responder à phishing recém-criados por mecanismos baseados em lista de bloqueio, justificando assim a inferioridade entre as opções existentes e a solução proposta. Além disso, há um atraso na sincronização da lista de bloqueio do navegador com os registros do respectivo repositório, representando assim uma janela de vulnerabilidade através do uso do navegador. Isso também confirma que o experimento ao ser rodado em um momento posterior pode não ter os mesmos resultados descritos no estado atual.
Outro ponto, é que os testes foram baseados em navegadores para desktop, portanto, não é possível considerar que os resultados seriam os mesmos em ambientes de dispositivos móveis. De toda forma, talvez fosse interessante comparar entre as versões de cada plataforma. Todavia, existem certos aspectos da computação móvel, como repositório de aplicativos, que merecem análises voltadas para esse cerne.
6.4 CONSIDERAÇÕES FINAIS
Diante o exposto, esse capítulo teve o intuito de apresentar uma avaliação que evidencia resultados preliminares da proposta. O intuito foi apresentar uma metodologia formal, com base nos princípios da engenharia de software experimental, um experimento controlado que visa analisar o resultado do protótipo com base nos objetivos específicos. O Capítulo 7 apresentará as conclusões e considerações finais da proposta da Tese em seu estado atual, bem como trabalhos futuros planejados com a conclusão dessa Tese.
7 CONCLUSÃO
A presente Tese propôs uma solução que visa minimizar incidentes de fraudes durante a navegação do usuário final através da Web. Conforme mencionado no Capítulo 2, phishing direcionados são fraudes de escopo fechado, a exemplo do spear phishing e SMiShing. Devido sua natureza morfológica, com riqueza em detalhes, esses ataques sugerem uma abordagem preditiva mais direcionada ao contexto do ataque. Diante disso, os resultados dessa pesquisa visam oferecer modelos de predição mais eficientes em relação à proteção da marca de uma organização. Uma solução dessa natureza visa monitorar aspectos sobre a identidade textual em domínios, subdomínios e uso de palavras-chave em motores de busca. Além disso, também visa proteger a identidade visual, ou seja, o abuso de elementos que representam visual- mente a organização, como templates e logomarcas. Nesse contexto, a pesquisa apresentou
características intrínsecas à marca alvo, oferecendo apoio na capacidade de resposta
e tempo de resposta do modelo preditivo proposto.
A metodologia da proposta, apresentada no Capítulo 4, define a solução como um sistema especialista para proteger o usuário durante sua navegação, considerando as diversas ameaças nos cenários de internet banking, e-commerce e redes sociais, âmbitos que trafegam dados sensíveis e constantemente são explorados por mal intencionados. A proposta foi fundamentada por resultados obtidos em estudos empíricos, conforme descritos no Capítulo 3. A proposta também apresentou no Capítulo 5 a elaboração de um protótipo com base nos fundamentos descritos, possibilitando nortear o desenvolvimento desse tipo de solução.
Apesar das lacunas e ameças existentes, conforme expostas no Capítulo 4, a proposta, na ótica da pesquisa, ofereceu um nível satisfatório de combate a fraudes visando a proteção ma marca conforme evidenciado na avaliação de um protótipo, descrita no Capítulo 6. Foram dois experimentos controlados, no primeiro, com 4039 phishing reais, a solução apresentou uma resposta aos incidentes de 90.17% como taxa de acerto e 9.83% de erro, sendo que dos 9.83%, 8.45% foram considerados suspeitos e apenas 1.38% foram sugeridos erroneamente como confiáveis. Além disso, visando observar o desempenho em falsos positivos, a proposta foi submetida a uma amostra com 953 páginas legítimas (não maliciosas), e apresentou uma taxa de acerto de 61.49%, contudo, 29.91% foram consideras como suspeitas, ainda sim permitido o acesso as mesmas, portanto, a taxa de erro foi de fato 7.55%.
Já na segunda avaliação, em que confronta a solução com outras existentes, a proposta teve uma precisão de 92.45% e erro de 7.55%, em um cenário que as demais opções apre- sentaram resultados abaixo dos 75%. Adicionalmente, como a proposta também se apresenta como uma opção complementar as existentes, foi possível observar que a proposta minimizou consideravelmente as falhas nas soluções existentes, com cobertura acima de 90%.
Por ter extraído um considerável número de phishing reais, a análise realizada por essa pesquisa considera aspectos quantitativos, a exemplo dos gráficos expostos. Não obstante, por
considerar o conteúdo e contexto, bem como identificar relevância e similaridades, a pesquisa também oferece resultados qualitativos. Com esses dados, fica possível concluir que aspectos temporais, que consideram o ciclo de vida da página, bem como do domínio e respectivo cer- tificado digital, na perspectiva dessa pesquisa, influenciaram na relevância das características comumente adotadas em heurísticas para sistemas especialistas.
Além disso, a proposta também desenvolveu protótipos que adotam estratégias distintas de técnicas de IA com o objetivo de avaliar qual melhor abordagem na aplicabilidade em questão. Foram apresentados dados que trazem fundamentos sobre a decisão da Tese em adotar a utilização da estratégia baseada em sistemas especialistas ao invés da aprendizagem de máquina. Portanto, além do cenário da segurança da informação, a discussão e reflexões presentes nessa Tese de doutorado trazem contribuições também no cerne da inteligência artificial, uma vez que apresenta experimentos empíricos que fazem uso das tecnologias e abordagens debatidas na literatura.