• Aucun résultat trouvé

Image quality and accuracy of attenuation, and

5. ACCEPTANCE TEST PROCEDURES

5.1. PET acceptance testing

5.1.5. Image quality and accuracy of attenuation, and

Os gráficos ROC (Receiver Operating Characteristic) são uma ferramenta muito útil para visualizar e avaliar os classificadores. Eles são capazes de fornecer uma medida mais rica do desempenho de classificação do que medidas escalares, como precisão ou taxa de erro.

A curva ROC é uma medida de desempenho para problemas de classificação em várias configurações de limites. O ROC é uma curva de probabilidade e a área sob a curva representa o grau ou medida da separabilidade. Ela informa quanto o modelo é capaz de distinguir entre as classes. Quanto maior a área sob a curva, melhor o modelo é em distinguir entre as classes. A curva ROC, figura 2.1, é traçada com a Sensibilidade contra a Especificidade onde a Sensibilidade está no eixo das ordenadas e a Especificidade no eixo das abcissas. As curvas consideradas como satisfatórias estarão acima da linha diagonal tracejada (classificação aleatória) (Bradley 1997).

Para definir os termos usados na Curva ROC é calculada a Sensibilidade e a Especifi- cidade pelas equações 2.10 e 2.11, respectivamente.

Figura 2.1: Curva ROC.

16 CAPÍTULO 2. REFERENCIAL TEÓRICO Sensibilidade= T P T P+ FN (2.10) Especi f icidade= 1 −  T N FP+ T N  (2.11)

Capítulo 3

Estado da Arte

Com o objetivo de obter trabalhos correlatos foi realizada uma busca na literatura como ponto de partida, apresentando o estado da arte de 2013 a 2018, abordando os periódicos mais relevantes dentro desse período e consiste em demonstrar o que a pesquisa científica está fazendo de inovador na atribuição, reconhecimento de autoria e análise de textos. As pesquisas foram feitas nas bases de dados:

• Scielo; • ACM;

• Science Direct; • IEEE Xplore.

Os artigos foram organizados utilizando uma combinação das palavras chaves como mostrado na tabela 3.1. A Scielo não foi adicionada à tabela, pois, foram encontrados apenas 2 artigos relacionados ao tema.

Tabela 3.1: Palavras chaves utilizadas no estado da arte

Palavras Chaves ACM Science Direct IEEE Xplore

Authorship + Intelligence Systems 41 53 50

Authorship Attribution + Intelligence Systems 14 14 19

Authorship 132 652 341

Authorship Attribution 24 32 96

Authorship Identification Algorithm 3 10 19

Authorship Attribution + Stylometric Analysis 1 33 9

Authorship Recognition 28 13 50

Authorship Recognition + Intelligence Systems 28 24 4

Authorship Recognition + Machine Learning 6 5 -

O Estado da Arte está organizado por temas pertinentes dentro da Atribuição de Au- toria.

3.1

Atribuição de Autoria

Identificar características de estilo distintas e únicas de cada autor em um documento de texto sempre foi uma das áreas de interesse das pesquisas em Atribuição de Autoria.

18 CAPÍTULO 3. ESTADO DA ARTE

Analisar se um documento foi realmente escrito por um autor estabelecido ou de quem é a autoria deste determinado texto são indagações relevantes e provocam a curiosidade dos pesquisadores. Para tal, modelos de textos de vários autores são reunidos e guardados em um banco de dados. A partir daí são extraídas as características de estilo de cada autor. É feito o reconhecimento de um determinado autor entre todos os autores que estão no con- junto do experimento. Pode-se citar os casos do texto questionado do Federalist Papers, utilizado em Cerra et al. (2014), da investigação de crimes digitais (Schmid et al. 2015) e da identificação de mensagens terroristas através da web. Muitos deles consideram con- juntos de dados coletados de fontes on-line, como sites, blogs, redes sociais, etc. Muitos seguem a mesma abordagem geral de pré-processar ou filtrar o texto, a fim de remover caracteres indesejados,dígitos, sinais de pontuação, etc. Então, a extração de característi- cas é feita e, se necessário, técnicas de redução são aplicadas. Finalmente, classificadores padrões como Naive Bayes (NB), Árvore de Decisão (DT), K-Nearest Neighbor (KNN) e Support Vector Machine (SVM), entre outros, são usados com diferentes configurações de teste.

A Atribuição de Autoria no campo científico foi consideravelmente desenvolvida, no decorrer da última década, aproveitando os avanços nas áreas da computação como apren- dizado de máquina, recuperação de informação e processamento de linguagem natural. A diversidade de textos digitais disponíveis: mensagens de e-mail, blogs, fóruns on-line, códigos fonte, etc, aponta que a tecnologia existente, em virtude de uma ampla vari- edade de aplicações, pode ser capaz de lidar com textos ruidosos de diversos autores candidatos. (Stamatatos 2011) O termo Atribuição de Autoria está relacionado ao estilo e refere-se a tarefa de reconhecimento do autor de um texto em um grupo de autores candidatos, baseado em características relevantes extraídas do texto. Estilometria ocorre com a identificação de atributos relevantes que definem um espaço em que autores podem ser diferenciados uns dos outros. Os escritores utilizam a linguagem seguindo diferen- tes caminhos para expressar suas ideias e esta variação na linguagem faz a Atribuição de Autoria ser possível.

Em estudos recentes, por exemplo, Akimushkin et al. (2018),Albadarneh et al. (2015) e Al-Ayyoub et al. (2017) entre outros, grande parte dos algoritmos de Atribuição de Au- toria é fundamentado em um modelo de representação simplificada usado no processa- mento de linguagem natural e recuperação de informações, conhecido como bag of words (BoW). Na abordagem de BoW, os textos são representados pela frequência das palavras sem considerar a relação gramatical. Os algoritmos feitos utilizando BoW conjecturam que o estilo de um autor é basicamente descrito pela distribuição de probabilidade de cer- tas palavras, frases ou qualquer outra estrutura relevante. (Neme et al. 2015) A Atribuição de Autoria possui as seguintes tarefas, sendo a primeira o foco da proposta deste trabalho: • Verificação/Reconhecimento de autoria (ou seja, para decidir se um determinado texto foi escrito por um determinado autor, ou qual é a autoria do texto) (Brocardo et al. 2015).

• Detecção de plágio (isto é, comparar dois textos e encontrar semelhanças de escrita) (Franco-Salvador et al. 2016).

• Perfil do autor ou caracterização (ou seja, extração de informações sobre a idade, educação, sexo, ideologia, etc., do autor de um determinado texto). (Ashraf et al.

3.1. ATRIBUIÇÃO DE AUTORIA 19

2016)

• Detecção de inconsistências estilísticas (como pode acontecer na escrita colabora- tiva). (Tschuggnall & Specht 2013)

Em seguida, será concentrado no problema de verificação e reconhecimento de autoria expondo os critérios dos métodos de Atribuição de Autoria.

3.1.1

Características estilométricas

O estilo é um reflexo da variação individual ou em grupo na linguagem escrita. A variação de escrita individual é o resultado das escolhas do escritor, de um modelo fora do arranjo de todos os modelos disponíveis. As escolhas representam variações dentro de uma norma (diferentes maneiras “corretas” de dizer a mesma coisa), desvios de uma norma (erros) e idiossincrasias (formas específicas do autor). O estilo de um escritor é demonstrado por seu conjunto único de padrões gramaticais agregados, que geralmente é o resultado do uso recorrente (habitual) do escritor de algumas ou de todas as formas do conjunto. A estilística linguística é a análise científica de marcadores de estilo individuais, como observado e descrito no idioleto de um único escritor conforme identificados na linguagem ou dialeto de um grupos de escritores. A estilometria, também conhecida como fins de verificação de autoria para determinar o autor original de um determinado texto, é também a análise estatística de modificações nos estilos literários de autoria. (Sarwar, Yu, Tungare, Chitavisutthivong, Sriratanawilai, Xu, Chow, Rakthanmanon & Nutanong 2018) Métodos de análise estilométrica são categorizados em dois tipos: supervisionados e não supervisionados. Os métodos de análise estilométrica supervisionada exigem rótulos de classe de amostras de texto para classificação, enquanto métodos não supervisiona- dos classificam objeto desconhecido sem nenhuma informação prévia de classes (autores candidatos).

As características estilométricas são marcadores de estilo de escrita que podem ser usados para identificação do autor e discriminar efetivamente as obras literárias dos auto- res. Muitas características estilométricas foram usadas em estudos existentes, incluindo características sintáticas, semânticas e lexicais. As características sintáticas incluem parte da fala, estrutura das frases, etc. As características estruturais ou semânticas baseiam- se na organização do texto, ou seja, a duração média de uma frase ou um parágrafo em termos de contagem de palavras. Os recursos lexicais incluem medidas estatísticas ba- seadas em caracteres e palavras de variações lexicais. Por exemplo, comprimentos de palavras e caracteres e riqueza de vocabulário (Vorobeva 2016). Nos tópicos seguintes estará descrito com mais detalhes o estado da arte das características estilométricas.

A Análise Forense voltada para sistemas objetiva o combate ao surto de crimes ci- bernéticos, onde torna-se necessário mais profissionais e organizações especializadas nas técnicas de análise forense para perícia de textos com informações ilegais. A revisão de literatura vai envolver desde a Atribuição de Autoria até a análise forense, figura 3.1.

20 CAPÍTULO 3. ESTADO DA ARTE

Figura 3.1: Diagrama das características estilométricas e análise forense. Fonte:Abbasi & Chen (2005) (adaptada)

3.1.2

Características Híbridas

As características léxicas, sintáticas, semânticas e outras podem ser utilizadas em con- junto formando um conjunto de características híbridas. Alguns trabalhos fizeram essa abordagem, o método retratado em Bogdanova & Lazaridou (2014) propõem uma nova tarefa de atribuição de autoria em várias línguas, onde o objetivo é determinar o autor de um documento escrito na linguagem Y, onde X 6= Y. Utiliza uma série de características híbridas estilísticas de linguagem cruzada para a tarefa, como as baseadas em sentimentos e marcadores emocionais (Pure HLF), 275 textos divididos para seis autores e a utilização dos classificadores LR, KNN e NB. O método de Otoom et al. (2014) aborda o problema da atribuição de autoria no texto árabe, utiliza um novo conjunto de características híbri- das, composto por: características léxicas, sintáticas, estruturais e de conteúdo específico para 456 textos e sete autores, utilizou os classificadores NB, SVM e outros.

3.1.3

Características Léxicas

Vários estudos obtiveram resultados utilizando características léxicas, Altheneyan & Menai (2014) e Shojaee et al. (2013a), esse último utilizou Hápax legómenon, palavra que aparece registrada apenas uma vez, e Hápax dilegómenon, palavra que aparece regis- trada duas vezes, em um idioma. Em particular, os n-gramas de caracteres são os mais populares devido a tolerância ao ruído e sua efetividade em documentos não-estruturados como e-mails, por exemplo. Embora os recursos n-gramas tenham se mostrado eficazes, a classificação baseada na mesma é complexa, ao mesmo tempo que o processamento de dados é demorado. (Brocardo et al. 2015)

A estilometria possui como uma de suas funções a atribuição de autoria, com o obje- tivo principal focado na denominação do autor do texto. Diferentes tipos de recursos ou medidas podem ser analisados para capturar as características lexicais: (Baron 2014)

• Medidas de complexidade; • Palavras funcionais/Stopwords; • Sintaxe e partes de fala;

3.1. ATRIBUIÇÃO DE AUTORIA 21

• Taxonomias lexicais funcionais; • Palavras contidas;

• N-gramas de caracteres.

Para determinar os atributos lexicais, medidas estatísticas como número total de ca- racteres ou palavras, número médio de palavras ou caracteres por frase, frequência de uso de letras ou palavras podem ser empregadas. O estilo de construção de sentenças, o uso de diferentes sinais de pontuação é descrito por características sintáticas. A lista mostrada abaixo consiste nos elementos lexicais e sintáticos e está dividida em dois subconjuntos e se mostra de boa qualidade para textos específicos:

• elementos lexicais - mas, e, não, dentro, com, no, em, de, isto, como, aquilo, o que, por, para, se;

• elementos sintáticos - ponto final, vírgula, ponto de interrogação, ponto de excla- mação, ponto e vírgula, dois pontos, parênteses, hífen.

Como pode ser notado, todos os elementos lexicais são palavras funcionais, enquanto os sintáticos são sinais de pontuação. A utilização desses elementos agrupados chama-se sequência de Tokens.(Baron 2014) Uma sequência de tokens agrupados é um modo na- tural e simples de visualizar o texto, onde cada token corresponde a um numeral, palavra ou sinal de pontuação. Os primeiros experimentos utilizando atribuição de autoria foram fundamentados com simples critérios, comprimento de palavra, comprimento de frase, frequências de palavras e riqueza de vocabulário. Esses recursos possuem uma vanta- gem relevante de conseguirem ser aplicados a qualquer idioma e qualquer corpus sem adição de requisitos, afora a acessibilidade de uma ferramenta para segmentar o texto em Tokens, um Tokenizer. Contudo, não seria seria uma tarefa trivial para todas as línguas naturais a exemplo do Chinês, que não há fronteiras separando as palavras. Em textos com uso abundante de abreviações ou acrônimos, por exemplo, mensagens de e-mail, uti- lizar esses recursos pode incluir em suas medidas um ruído considerável. (Altheneyan & Menai 2014)

Pesquisas produziram várias medidas de riqueza de vocabulário, Sarwar, Li, Rakthan- manon & Nutanong (2018), para quantificar a diversidade do vocabulário de um texto. No entanto, essas medidas dependem do idioma e só podem ser calculadas com preci- são quando as ferramentas de processamento de linguagem natural permitem a extração precisa de frases no respectivo idioma do texto. No entanto, as medidas de riqueza de vocabulário tentam compreender o uso do vocabulário e a complexidade da linguagem do autor. Várias medidas foram propostas, incluindo o número de Hápax legómenon ,Shojaee et al. (2013a), a razão entre o número de palavras diferentes (V) e o número de total de palavras no texto (N), isso significa que quanto maior for o número N, maior será a riqueza e a variedade do vocabulário e quanto menor for o número, mais pobre é o texto,Ashraf et al. (2016) e outras. O tamanho do vocabulário depende muito do tamanho do texto (à medida que o tamanho do texto aumenta, o vocabulário também aumenta).

Várias funções têm sido propostas para estabilizar o comprimento do texto, incluindo: -A medida K de Yule (Ashraf et al. 2016) que assume que a ocorrência de uma palavra é baseada no acaso e pode ser modelada de acordo com uma distribuição de Poisson; -A

22 CAPÍTULO 3. ESTADO DA ARTE

Lei de Zipf (Markov et al. 2016), que mensura como as palavras são distribuídas dentro de um determinado texto; -A medida I de Yule, demonstrada na fórmula:

M1M1 M1M2

(3.1) onde M1é o número total de palavras em um texto e M2é a soma de formas de palavras

ponderadas com uma determinada frequência. Um resultado maior indica um vocabulário mais rico. (Neal et al. 2017)

Maior parte dos estudos de atribuição de autoria é, relativamente, fundamentada em atributos para representar o estilo de escrita. As palavras funcionais que são as mais utili- zadas na escrita como, por exemplo, artigos, preposições, pronomes, etc, geralmente são excluídas do conjunto de características dos métodos de classificação de textos. Logo, classificar textos usando características léxicas demanda uma dimensionalidade bem me- nor, ou seja, para se realizar a atribuição de autoria algumas centenas de palavras são necessárias em relação a tarefa de categorização textual, que utiliza milhares de palavras. Um modo que possui êxito e é simples para determinar um conjunto de características léxicas para atribuição de autoria é extrair do corpus do texto as palavras mais frequentes abrangendo também os textos dos autores candidatos. Assim, será feita uma análise sobre a quantidade de palavras frequentes que serão utilizadas como características de estilo.

Bag of words, é o classificador textual tradicional, que fornece uma solução simples e eficiente, mas desconsidera as informações contextuais do texto. Um experimento foi rea- lizado em Markov et al. (2017) utilizando BoW, obtendo uma precisão de 76,2% e 73,6% na base de teste CCAT_10, 46,0% e 55,0% na base de teste Guardian usando classifica- dores SVM e MNB, respectivamente. Utilizando a abordagem de n-gramas de caracteres superou a BoW em ambos os corpus para os classificadores em 1,8%-6,5%. Os n-gramas de caracteres são muito eficazes e muito conhecido na pesquisa de Atribuição de Autoria (Schwartz et al. 2013), (Gómez-Adorno et al. 2018), (Stamatatos 2018). Alguns traba- lhos,Sidorov et al. (2014), com o Syntactic n-grams (sn-gram),Peng et al. (2016a),com o binary n-gram, fazem essas variações ao método n-grama para alcançar resultados me- lhores. O Shrestha et al. (2017) utiliza uma Neural Network Language Model (NNLM), similar ao método n-gram, que é usada para responder a um dos modelos fundamentais de linguagem que ditam a melhor palavra-alvo, dado um contexto de palavras. Os carac- teres n-gramas são especialmente úteis para atribuição de autoria em micro-mensagens, uma vez que são relativamente tolerantes a erros de digitação e uso não padrão de pontu- ação. Nos n-gramas de palavras são usadas frases curtas e repetidas. Com a abordagem n-grama de caractere é possível capturar muitas particularidades do estilo de escrita, que são simples de ser extraídas de qualquer texto e em qualquer idioma (Markov et al. 2017). Contudo, n-gramas de caracteres nem sempre são melhores na precisão de classificação (Cerra et al. 2014). Em textos especialmente curtos a abordagem n-gramas de palavras se torna esparsa, pois a combinação das palavras não é encontrada, o que dificulta a classifi- cação pelos algoritmos.

Os autores Segarra et al. (2013) sugeriram a função redes de adjacência de palavra do inglês, Word Adjacency Networks (WANs), no qual os nós são palavras funcionais e os cantos representam a probabilidade de encontrar na proximidade ordenada uma pala-

3.1. ATRIBUIÇÃO DE AUTORIA 23

vra funcional de destino a palavra funcional de origem. A precisão alcançada por essa abordagem é maior que a obtida por outras metodologias tradicionais que dependem da frequência das palavras funcionais por exemplo. Em compensação as WANs obtém taxas de precisão razoáveis para textos pequenos. Em 2015, o Segarra et al. (2015) escreveu também sobre WANs.

Caracteres

Um texto é visto como uma simples sequência de caracteres. Deste modo, várias abordagens utilizando caracteres podem ser definidas, abrangendo contagem dos caracte- res alfabéticos, contagem de caracteres maiúsculos e minúsculos, contagem dos sinais de pontuação, contagem da frequência das letras, entre outros. Os caracteres estão acessí- veis em qualquer banco de dados e linguagem natural, Stamatatos (2013) mostrou que os caracteres produzem modelos mais eficazes e robustos do que aqueles baseados em carac- terísticas das palavras em condições de cross-topic, que é a mistura de temas ou tópicos em um documento, e cross-genre, par de documentos que combina elementos de dois ou mais gêneros diferentes. Na tarefa de verificação de autoria, neste caso, o gênero e/ou tópico podem diferir bastante entre os documento conhecidos e descohecidos, já que não é possível ter controle sobre gênero/tópico dos documentos.

Phani et al. (2017) e Markov et al. (2017) relataram resultados muito bons usando in- formações de n-grama de caracteres. Uma abordagem mais elaborada mas simples com- putacionalemente, é extrair os n-gramas de caractere mais frequentes. (Phani et al. 2017) utilizou bigramas e trigramas de caracteres mais frequentes. A vantagem da representação baseada em n-grama de caracteres é sua capacidade de tolerar o ruído. Principalmente nos casos em que os textos são ruidosos, contendo erros gramaticais ou com o uso estranho de pontuação, como geralmente acontece em e-mails ou em mensagens de fóruns.

Shrestha et al. (2017) é o primeiro trabalho a apresentar um modelo Convolutional Neural Network (CNN) baseado em n-gramas de caracteres para Atribuição de Autoria em textos curtos. A arquitetura proposta obtém como entrada uma sequência de n-gramas de caracteres que são então processados por três modulos: Um de inclusão de caracteres, um módulo convolucional e um módulo softmax. O módulo de inclusão de caracteres aprende uma representação vetorial contínua.

Howedi & Mohd (2014) utilizou n-grama de caracteres em seus experimentos, como sinais de pontuação, porque os sinais de pontuação podem apresentar o estilo do autor. Um exemplo, é que enquanto um autor pode utilizar pontos de exclamação com mais frequência em outros casos, um outro autor raramente os utiliza. Alguns autores usam ponto final mais frequentemente porque gostam de frases curtas, enquanto outros usam vírgulas mais vezes usando frases longas em seus textos. Estes tipos de detalhes nos textos têm importância vital na tarefa de reconhecimento de autoria. Assim, dois experimentos foram feitos, um incluindo todos os sinais de pontuação e outro excluindo-os.

Em um estudo recente, Stamatatos (2017), aborda um novo método que utiliza uma etapa de distorção do texto extraindo os atributos estilométricos que aumenta a eficácia da atribuição de autoria. Para essa distorção é fornecida uma nova versão do texto for- mada por tópicos neutros, mantendo a maior parte das informações relacionadas ao estilo

24 CAPÍTULO 3. ESTADO DA ARTE

pessoal do autor. Dadas as palavras mais frequentes, o método transforma a entrada co- locando hashtags ou asteriscos se for letra ou dígito. Sendo W k uma lista das k palavras mais frequentes, a distorção do texto possui dois métodos: DV-MA, onde cada palavra não incluída em W k é substituída por um asterisco (*) em cada um dos caracteres e cada dígito no texto é substituído pelo símbolo (#) e DV-SA, onde cada palavra não incluída em W k é substituída pela ocorrência de cada palavra por um único asterisco () e cada sequência de dígitos no texto é substituída por um único símbolo #.

3.1.4

Características Sintáticas

Um recurso para apresentar um texto mais aprimorado é aplicar informações sintá- ticas. A reflexão é que os autores são tendenciados a usar inconscientemente padrões sintáticos similares. Portanto, a informação sintática é considerada uma "impressão digi-