As injeções dos ataques foram realizadas a partir da perspectiva do atacante promotor, representado na Figura 4.7. Neste cenário de ataque procura-se, dentro do conjunto de dados anonimizados, uma pessoa específica sobre a qual se tem mais informações. Conforme descrito na Seção 4.5 - Injeção de ataques de reidentificação, este ataque foi replicado para cada registro do conjunto de dados original, buscando as combinações possíveis. Os ataques foram executados para cada registro anonimizado, então o número de ataques executados por conjunto de dados é igual ao número de registros existentes no conjunto de dados elevado ao quadrado, por exemplo, para o conjunto de dados Adults que possui 32.560 registros, foram executados um total de 1.060.153.600 (32.560 * 32.560) ataques de reidentificação.
Para realizar os experimentos dos ataques de maneira completa, foi utilizado cada registro conhecido (do conjunto de dados original não anonimizado, emulando uma lista de registros públicos) e procurou-se por ele no conjunto de dados anonimizados. Para os conjuntos de dados sociais foram realizados um total de 3.493.251.276 ataques e, para dados médicos, 3.640.758. Os resultados são apresentados nas Figuras 5.21 e 5.22.
Os limites de risco configurados e os respectivos valores de κ alcançados nas etapas de anonimização foram apresentados para cada conjunto de dados nos segmentos dos dados sociais (CMC, Internet, Adultos) e para os dados médicos (Mamografia, Hepatite, WDBC, Dermatologia, CCRF). Cada ataque realizado retornou a quantidade de possíveis registros cujos atributos combinam com os dados pesquisados no ataque. O resultado do ataque são apresentados em quartis, considerando-se a variabilidade e extensão dos resultados para cada conjunto de dados. Para melhor entendimento, os dados foram agrupados da seguinte forma: menor valor possível, primeiro, segundo e terceiro quartil, seguido pelo maior valor. Isto significa que quanto maior a quantidade de registros que correspondem à pesquisa de ataque, melhor será a proteção de privacidade.
Nas Figuras 5.21 e 5.22 observa-se que a quantidade de registros que corresponderam ao ataque do promotor permaneceu constante para a maioria dos conjuntos de dados médicos. Isso se deve às características do conjunto de dados (quantidade de atributos identificadores, semi-identificadores e sensíveis) e ao baixo número de registros no conjunto de dados, atingindo o limite com um valor baixo de κ.
Para os conjuntos de dados sociais (que contém número mais alto de registros), foi possível implementar um valor mais alto de κ para o modelo κ-anonymity. Como era esperado, as possibilidades de combinações aumentam, conforme o aumento do κ, logo a probabilidade de reidentificação diminui.
Para melhor representação dos resultados obtidos com os ataques, os resultados (Figu- ras 5.25 e 5.26) foram apresentados em gráficos do tipo caixas (box plot ), que é utilizado para avaliar a distribuição empírica dos dados. Nos dois gráficos (tanto para os dados sociais quanto médicos), as linhas (verticais) das caixas representam, respectivamente, o primeiro quartil, mediana (segundo quartil) e terceiro quartil. As hastes inferiores e su- periores, conectadas à caixa central (primeiro, segundo e terceiro quartis) representam os limites inferior e superior. As bolhas representam outliers, ou seja, pontos fora da curva (valores isolados). As tabelas 5.5e 5.6, respectivamente, mostram os valores registrados para cada ponto nos gráficos 5.25 e 5.26.
As Tabelas 5.5 e 5.6 apresentam informações complementares aos gráficos das Figuras 5.25 e 5.26. Devido ao fato do resultado do ataque apresentar os mesmos valores para alguns conjuntos de dados, são apresentados apenas os valores com limite mais restritivo alcançado, sendo identificados (na Tabela 5.5 e 5.6) pelo valor implementado para o
Figura 5.25: Distribuição dos resultados dos ataques para os dados Sociais
Figura 5.26: Distribuição dos resultados dos ataques para os dados Médicos modelo κ-anonymity. A primeira linha das tabelas representa o limite de risco aceitável ao qual a coluna pertence. A primeira coluna apresenta o significado de cada dado das colunas subsequentes, sendo, respectivamente, o valor limite superior, o terceiro quartil,
Tabela 5.5: Resultados dos ataques para conjunto de dados Sociais Estatísticas CMC T1 (K¯2,5,13) CMC T0.5 (K¯55) Internet T10 (K¯2) Internet T1 (K¯11) Internet T.0.5 (K¯351) Adults T1 (K¯2,4,48) Adults T0.5 (K¯123,1546) Maior Valor 210 565 322 960 9798 4363 21101 3o Quartil 186 565 276 774 9798 4193 21101 2o Quartil (Meio) 164 451 224 646 5153 3913 21101 1o Quartil 112 317 194 540 5153 2795 11460 Menor Valor 18 53 71 189 309 807 11460 Qtd. de Registros 1473 1473 10104 10104 10104 32560 32560 Média 150,45 423,80 564,47 654,38 7151,42 3405,65 17250,52
Tabela 5.6: Resultados dos ataques para conjunto de dados Médicos
Estatísticas Hepatities.T100 (K=2) Mamography.T.100 (K=2) WDC.T.100 (K=2) Dermatology.T10 (K=12) RCCF.T50 (K=2) Maior Valor 155 652 199 209 93 3oQuartile 155 652 199 209 85 2oQuartil (Meio) 155 652 199 209 70 1oQuartil 155 277 199 140 52 Menor Valor 155 277 199 140 3 Qtd. de Registros 155 960 199 358 858 Média 155 533,25 199 176,43 65,56
mediana ou segundo quartil, primeiro quartil, número de registros no conjunto de dados e o valor médio para a série de dados.
Na segunda coluna da Tabela 5.5 são apresentados os resultados das possíveis combi- nações para o conjunto de dados CMC, para o limite de risco aceitável (Threshold Set - T ) igual a 1% (CMC.T1), na terceira coluna para o limite de 0,5% CMC.T0.5). Na quarta coluna são apresentados os resultados para o conjunto de dados Internet (Internet.T1), para o limite de risco aceitável igual a 10%, e assim por diante.
Podemos verificar na Tabela 5.5 que os registros atacados com menor número de combinações possíveis ainda são maiores do que o valor de κ implementado para o modelo κ-anonymity. Os valores mais baixos representam o pior cenário, pois possuem maior risco de reidentificação. Para o conjunto de dados CMC, o registro com menor risco de reidentificação apresentou 210 combinações possíveis, logo, calculando a probabilidade de reidentificação é de 0,4% (1 / 210) para os valores de κ iguais a 2, 5 e 13. Nesta etapa, o pior cenário, com maior risco de reidentificação, possui 18 combinações possíveis, com probabilidade de reidentificação de 5,5%. O maior número de ocorrências possíveis, registrado no conjunto de dados Adultos (adults), possui 21101 ocorrências possíveis. A probabilidade de reidentificação é a mais baixa registrada com 0,0047%.
Similar ao verificado no conjunto de dados sociais, na Tabela 5.6, os registros refe- rentes aos dados médicos atacados com menor número de combinações possíveis ainda são maiores do que o valor κ implementado para o modelo κ-anonymity. O registro com menor risco de reidentificação possui 652 combinações possíveis para o conjunto de da- dos Mamografia (Mamography), com probabilidade de reidentificação de 0,15% para os valores de κ igual a 2. O pior cenário foi registrado para o conjunto de dados RCCF com maior risco de reidentificação, com apenas 3 combinações possíveis e probabilidade de reidentificação de 33%.
Capítulo 6
Conclusão
Nesta dissertação foi apresentada uma abordagem baseada no processo de anonimização de dados que utiliza uma politica de anonimização e o risco de reidentificação. A aborda- gem foi desenvolvida e integrada a plataformas de análise de grandes volumes de dados (Ophidea e LEMONADE), buscando melhorar o equilíbrio na relação entre a utilidade dos dados e a proteção da privacidade dos indivíduos envolvidos. A abordagem apresentada utilizou as técnicas e modelos de anonimização existentes na literatura, combinando-as e adaptando-as de forma a proporcionar melhor eficácia em relação ao trade-off entre anonimização e utilidade de dados e em relação ao impacto da anonimização na acurácia e desempenho na mineração e classificação dos dados. A partir da abordagem proposta foi implementado um framework para a execução de duas fases de de anonimização. A primeira fase, menos restritiva, foi executada no processo de ETL (Extração, Transforma- ção e Carga de dados); A segunda fase, mais restritiva, foi executada na saída dos dados da plataforma de análise considerando o risco de reidentificação do conjunto de dados a ser disponibilizado publicamente. A abordagem para anonimização proposta faz uso de políticas de anonimização de anonimização de Matsunaga et al. (2017), adotando a recentes legislações e normativas nacionais e internacionais.
O framework construído foi utilizado no projeto EUBra-BIGSEA, e integrado com a plataforma Ophidia sem que exigisse esforços significativos. Posteriormente, também foi integrada ao ambiente LEMONADE com pequenas adaptações. Isto foi possível dado o funcionamento modular e independente dos componentes de privacidade desenvolvidos.
Durante o estudo de caso, foram avaliados os impactos da anonimização dos dados na acurácia e o desempenho dos classificadores de mineração de dados. O estudo de caso
inicial foi executado utilizando dados providos pelo projeto EUBra-BIGSEA, referentes a dados do transporte público da cidade de Curitiba. Esses experimentos foram pos- teriormente estendidos utilizando conjuntos de dados para aprendizado de máquina da UCI.
De acordo com os resultados apresentados nos estudos de caso, pode-se concluir que é possível adaptar as técnicas de anonimização e combiná-las com diferentes técnicas (de injeção de ataques e mineração de dados) para manter a utilidade dos dados em diferen- tes contextos e, consequentemente, aumentar a proteção de privacidade dos indivíduos em plataformas de análise de dados utilizando as fases de anonimização. Quando a anonimi- zação é aplicada cuidadosamente, avaliando a perda de informação, seu impacto sobre a acurácia e o desempenho dos classificadores pode ser aceitável, e até mesmo melhora-los em alguns casos. Os resultados obtidos nessa dissertação corroboram com estudos ante- riores, que afirmam que a aplicação das técnicas de anonimização não causam impactos relevantes na acurácia e desempenho dos classificadores. Além disso, o componente de anonimização que inclui o risco diminuiu a possibilidade de reidentificação dos indivíduos. Mesmo com a injeção de ataques, em duas perspectivas diferentes (ataque do promotor e do jornalista) nenhum indivíduo foi reidentificado.
Este trabalho também se propôs a responder quatro questões de pesquisa (ver seção 1.1 Motivação) que justificam o tema e as contribuições do trabalho. As discussões e respostas são desenvolvidas a seguir.
Q1. A anonimização de dados contribui ou prejudica a qualidade dos resultados dos algoritmos de classificação utilizados no processo de mineração de dados?
A anonimização executada em estágios, na primeira etapa do estudo de caso, permitiu uma melhor avaliação do impacto da anonimização dos diferentes atributos nos algoritmos de classificação. De acordo com nossos experimentos podemos verificar que a aplicação de técnicas de anonimização não causaram impactos relevantes na acurácia e no desempenho dos classificadores. A avaliação da terceira etapa do estudo de caso, utilizando os dados estendidos do repositório da UCI, demonstrou que a anonimização não causa grandes impactos na acurácia e desempenho dos classificadores para que se impeça seu uso nos ambientes de análise de dados. Dessa forma, os resultados da avaliação dos classificadores na terceira etapa corroboram com os resultados obtidos na primeira etapa.
Mais especificamente a respeito da avaliação do impacto na classificação, algumas par- ticularidades observadas nos experimentos devem ser consideradas. Quando a técnica de generalização é aplicada em atributos que serão alvo da classificação, observamos que a acurácia dos classificadores tende a aumentar, até que a perda de informação seja alcan- çada, pois a generalização diminui a frequência de classes possíveis. A redução da entropia dos dados facilita a execução dos cálculos necessários para a classificação, aumentando a acurácia. Porém, quando a perda de informação chega a 100%, isto significa que a generalização chegou ao seu limite. Em termos práticos, restou apenas 1 possibilidade de classe (faixa de dados que engloba todas as possibilidades). Nesse caso, não faz mais sentido classificar este atributo pois todas as saídas serão iguais.
A técnica de supressão, por sua vez, deve ser executada com cautela, observando o resultado de saída da classificação. Os atributos sensíveis precisam ser removidos com cuidado, sempre observando a saída dos dados, de modo que a supressão não inviabilize a classificação.
Com relação à implementação do modelo κ-anonymity, é recomendável remover do conjunto de dados as tuplas que não atendam ao critério estabelecido pelo modelo, onde a quantidade de registros únicos não deve ser menor que κ. Como verificado na primeira etapa do estudo de caso, alguns valores da classe Veículo (alvo da classificação), ao im- plementar o modelo κ-anonymity, foram substituídos por asterisco, causando uma falsa melhoria da acurácia na classificação.
Diante dos resultados apresentados, entende-se que a anonimização, se realizada de forma adequada, pode contribuir para o processo de classificação na mineração de dados quando executada no processo de ETL.
Q2. Duas fases de anonimização, uma menos restritiva e outra mais restritiva, podem contribuir para manter a utilidade dos dados utilizados em plataformas analíticas?
A anonimização realizada em duas fases foi importante para evitar a perda da utilidade (qualitativa) dos dados e isso foi constatado principalmente por meio dos estudos de caso realizados após a integração do framework proposto com a plataforma de análise de dados Ophidia. A primeira etapa considerou as principais regulamentações e leis existentes para aplicação das técnicas de anonimização. Essa anonimização foi executada no processo de ETL, onde foram removidos principalmente dados identificadores. Nessa etapa não houve um impacto significativo na análise de dados quando o processo de mineração de dados foi
executado nas plataformas. Por sua vez, a anonimização na segunda etapa, utilizando κ- anonymity, foi importante para aumentar a proteção da privacidade dos indivíduos antes dos dados serem disponibilizados para usuários externos à plataforma (para visualização pública). Essa anonimização em daus fases, portanto, permitiu lidar com o trade-off entre a privacidade e a utilidade de dados em diferentes momentos, facilitando a análise de dados, e ainda preservando a privacidade dos indivíduos envolvidos (foco principal do projeto EUBra-BIGSEA).
Os resultados na primeira fase, aplicando a política menos restritiva, atendem os valo- res requisitados pelas leis e a conformidade com as diretrizes do proprietário do conjunto de dados. Além disso, a anonimização menos restritiva também viabilizou a utilidade dos dados para análise nas plataformas analíticas. Quando verificamos os dados estendidos antes e depois da execução da anonimização na segunda fase, percebemos que apesar da anonimização introduzir perda da informação (avaliação quantitativa), do ponto de vista de mineração de dados (avaliação qualitativa) os resultados apresentaram pouca varia- ção ou até melhoraram. Essa melhora foi evidenciada até o momento em que perda de informação alcançasse 100%, conforme a linha verde nas Figuras 5.21 e 5.24. Para o con- junto de dados sociais (Figura 5.21) o melhor ponto de equilíbrio entre a privacidade e a utilidade se deu com o limite de risco configurado em 0,5%, abaixo do recomendado na literatura.
Os resultados obtidos no segundo estágio de anonimização mostraram um baixo risco de reidentificação, mesmo sob ataques de ligação. Mesmo no pior cenário da injeção de ataques, onde o atacante conhecia a identidade do alvo dos ataques de reidentificação, na maioria dos casos o risco de reidentificação ficou em torno de 1% e nenhum ataque foi bem sucedido a ponto de identificar o indivíduo alvo. No entanto, cabe destacar que es- ses valores podem ser reajustados alterando o limite de risco aceito e, consequentemente, aumentando ou diminuindo o nível da anonimização de acordo com as necessidades. A utilização das duas fases de anonimização foi positiva, de forma que cada etapa disponibi- lizou os dados mais adequadamente anonimizados para a análise de dados na plataforma ou externa a ela.
Resultados semelhantes foram obtidos por meio de estudos de caso utilizando dados o repositório do UCI. No entanto, neste caso, os dados disponíveis no repositório já eram anonimizados, atendendo aos critérios do primeiro nível de anonimização (menos restri-
tivo). Dessa forma, o componente que inclui o risco foi utilizado na segunda etapa sem ter sido integrado em uma plataforma específica.
Q3. Considerando os dados utilizados nos experimentos, é possível determinar um ponto de equilíbrio entre a privacidade e a utilidade dos dados?
O ponto de equilíbrio entre a privacidade e a utilidade dos dados é relativo, dependendo do limite de risco estabelecido e da característica dos dados. Observando os resultados da última avaliação (Figuras 5.21 5.22), no momento exatamente anterior à perda de informação alcançar 100%, temos os seguintes valores para os dados médicos: para o limite de risco aceito igual a 10%, o valor implementado de K foi igual a 4, com uma perda de 88% e o risco de reidentificação implementado em torno de 2,27%. Diferentemente, para os dados sociais o limite de risco para 10%, o valor implementado de K foi 63, a perda de informação 50% e o risco de reidentificação implementado foi 0,137%; para os dados integrados o equilíbrio se deu com o limite de risco aceito de 0,5%, onde, o valor implementado de κ foi igual a 2, a perda de informação foi 25% e risco de reidentificação implementado foi 0,3%. Diante disso, percebe-se que não existem valores comuns de trade-off para todos os conjuntos de dados que possa determinar um valor similar de ponto de equilíbrio. Entretanto, o componente de anonimização que inclui o risco de reidentificação pode ser utilizado para que o melhor balanceamento seja determinado pelo próprio usuário, proprietário dos dados, que poderá reajustar o limite aceito até que sejam satisfeitos os requisitos de equilíbrio desejado ou exigidos em cada contexto.
Q4. O processo de anonimização, utilizando o risco de reidentificação, é viável, sob o aspecto da utilidade de dados e da eficácia da proteção da privacidade?
Os resultados obtidos nesta dissertação indicam que o componente de anonimização que inclui o risco pode contribuir para promover um melhor balanceamento entre manter a privacidade das informações de identificação pessoal e manter (ou até melhorar) os resultados dos classificadores na mineração de dados. Com o componente de anonimização que inclui o risco, foi possível a definição de limites de risco de reidentificação aceitáveis, e ao final do processo o usuário ser informado sobre os valores alcançados para o risco em três cenários distintos (promotor, jornalista e marketing), complementando-se com a informação do valor para a perda de informação. Com isso, o limite de risco aceitável pode ser reajustado de acordo com as necessidades de cada conjunto de dados, plataforma ou requisitos das organizações.
Os resultados apresentados nessa dissertação mostraram e validaram as soluções pro- postas, tanto para integração com a plataforma de análise de dados quanto para a preser- vação da privacidade dos indivíduos envolvidos. Os estágios de anonimização permitiram que a proteção de privacidade de indivíduos fosse aumentada com menor impacto na utilidade de dados, indicando que a abordagem proposta é viável.
6.1
Trabalhos futuros
Trabalhos futuros podem implementar outros modelos de anonimização, tais como `- diversity e τ -closeness no framework definido para abordagem proposta neste trabalho. Esses modelos devem ser executados nos experimentos com o objetivo de melhorar a preservação da privacidade dos dados. Além disso, pode-se ampliar os experimentos para melhor validação da abordagem proposta, utilizando diferentes conjuntos de dados para diversos contextos.
Um trabalho futuro de maior proporção pode ser desenvolvido implementando-se um componente para detecção de Violação de Privacidade, tal como descrito na abordagem geral da proposta nessa dissertação (4.1). Este componente, similarmente aos atuais Siste- mas de Detecção de Intrusão (IDS), deve monitorar, coletar e avaliar eventos que indiquem possível violação de privacidade na divulgação de dados. O objetivo desse componente é detectar e evitar vazamentos de dados e ataques de ligação. A ferramenta de detecção da violação da privacidade poderá fazer parte também de uma implementação futura de um painel (dashboard ) para a interação de usuários. Esse painel pode permitir que os usuários (especialistas em privacidade) validem os resultados do risco de reidentificação, perda de informação e ataques de privacidade para que, observando os resultados do cálculo do risco, possam decidir se continuam ou não o processo de anonimização.