• Aucun résultat trouvé

Les chapelles gothiques

Dans le document The DART-Europe E-theses Portal (Page 177-184)

DE MEHUN-SUR-YEVRE LA COLLEGIALE

3. Les chapelles gothiques

A tarefa de classificar textos pode ser executada manualmente pelo ser humano, uma vez que através da leitura é possível interpretar o conteúdo do texto e escolher a categoria que o descreve melhor. No entanto, a categorização manual se torna um processo custoso quando existe um grande volume de documentos, o que exige a aplicação de estratégias automatizadas.

Técnicas de aprendizado de máquina são frequentemente empregadas para automa- tizar a tarefa de categorização de textos (SEBASTIANI, 2002). Através da observação de documentos rotulados previamente, os algoritmos de aprendizado de máquina podem aprender diferentes padrões e associações entre segmentos de textos e rótulos. Esses padrões são então utilizados para categorizar documentos não rotulados, de acordo com com os segmentos encontrados em seus conteúdos.

Formalmente, sendo D = {d1, d2, ..., dm}, um conjunto de m amostras ou obser-

vações, e Q = {c1, c2, ..., cq}, um conjunto finito com as possíveis classes ou rótulos do

problema, é apresentado ao algoritmo um conjunto de documentos rotulados que pode ser expresso como T = {(d1, Y1), (d2, Y2), ..., (dm, Ym)}, onde dm ∈ D e Ym ⊆ Q. O objetivo no

aprendizado supervisionado é encontrar uma função H (conhecida também como modelo, hipótese ou classificador) que mapeia as associações presentes em T para predizer os rótulos ou as classes de documentos não rotulados, como ilustra a Figura1(SCHAPIRE; SINGER, 2000; ZHANG; ZHOU, 2007; GIBAJA; VENTURA, 2015). A etapa da construção do modelo H é chamada de treinamento, enquanto que a etapa de predição dos rótulos de documentos não rotulados é chamada de etapa de teste ou de classificação.

Etapa de classificação Etapa de treinamento Algoritmo de aprendizado Documentos rotulados

H

preditasClasses Treinamento Classificação supervisionado Documento não rotulado

Figura 1 – Etapas de treinamento e de classificação dos métodos de aprendizado de máquina.

Nas subseções a seguir, serão descritos os conceitos básicos e fundamentais para a execução dessas etapas em aprendizado de máquina e da classificação de textos.

1.1.1

Representação computacional dos documentos de texto

Os textos são escritos de forma que as ideias e informações contidas neles possam ser facilmente compreendidas por seres humanos. No entanto, os computadores não são capazes de interpretar o conteúdo dos textos escritos em seu formato original, pois o texto é um tipo de dado não estruturado (WEISS; INDURKHYA; ZHANG,2015). Tipicamente, os algoritmos de aprendizado de máquina manipulam informações estruturadas, o que obriga que os textos escritos em linguagem natural passem por processos que os transformam em uma representação mais adequada, antes de serem utilizados pelos métodos de classificação.

Existem diversas formas de representar o documento de texto computacionalmente. Uma maneira simples e frequentemente utilizada é através de um vetor de pesos de termos, também conhecido como modelo espaço-vetorial (VSM - Vector Space Model). Nesse modelo de representação, cada documento é representado por um vetor, onde cada elemento corresponde a um atributo ponderado por um peso (SALTON; WONG; YANG, 1975;SEBASTIANI,2002;WEISS; INDURKHYA; ZHANG, 2015). O conjunto com todos os atributos usados para a representação é chamado de vocabulário ou de dicionário. A Figura 2ilustra um exemplo dessa representação. Apesar de simples, esse modelo obtém bons resultados na maioria das aplicações (SILVA, 2017; SEBASTIANI, 2002).

elevante carnívor o saber morce go ser mamífer o

voar coruja único ave 1 1 0 1 0 0 1 1 1 0 0 0 0 0 1 1 2 0 1 0 1 1 0 0 0 1 1 0 0 1 1 0 0 0 1 1 grand e porte

Documentos de Texto Modelo espaço-vetorial

Vocabulário de termos

Vetores de pesos

Os morcegos são os únicos mamíferos que sabem voar.

As corujas sabem voar. As corujas são aves carnívoras.

de grande porte. Os elefantes são mamíferos

Peso atribuído ao elemento "grande" no 3º documento

Figura 2 – Transformação dos documentos de texto para o modelo espaço-vetorial.

Para converter os documentos textuais para o modelo espaço-vetorial, inicialmente é preciso definir quais são os atributos relevantes que irão compor o vocabulário. Esse vocabulário pode ser um dicionário de palavras de um idioma, de um domínio específico ou até mesmo de palavras ou expressões presentes em um conjunto de documentos.

Uma etapa imprescindível para a definição dos atributos relevantes dos textos é chamada de pré-processamento (WEISS; INDURKHYA; ZHANG, 2015). No pré- processamento, inicialmente os textos são segmentados em tokens ou termos, que são as unidades mínimas do texto que podem prover informação, como símbolos, palavras individuais ou conjunto de palavras. Uma típica abordagem para realizar esta segmentação é considerar como termos qualquer sequência de caracteres separada por espaços em brancos, pontuações ou caracteres delimitadores (SILVA, 2017;WEISS; INDURKHYA; ZHANG, 2015). Termos que são considerados irrelevantes para determinar o conteúdo do

texto, como pontuação, tags, números, stopwords ou termos raros podem ser removidos dos textos. Stopwords são termos com alta frequência que não agregam informação ao texto, como preposições, conjunções ou artigos (SILVA, 2017; WEISS; INDURKHYA; ZHANG, 2015). Termos raros também dificilmente contribuem na identificação da categoria devido a sua baixa frequência nos documentos textuais (SILVA, 2017; WEISS; INDURKHYA; ZHANG,2015). Processos de estemização e lematização também são aplicados para reduzir as palavras aos seus radicais ou a sua forma canônica, eliminando a possibilidade de que palavras com mesma raiz ou lema sejam consideradas diferentes devido às variações morfológicas ou de flexão. Os termos devem também ser padronizados para a mesma grafia para evitar que termos idênticos sejam tratados como diferentes apenas por diferença na caixa das letras (SILVA, 2017; UYSAL; GUNAL, 2014).

Após todas as etapas de pré-processamento, os termos que restaram são usados para criar o modelo de representação. Todos esses termos, que também compõe o vocabulário, são indexados e passam a representar cada posição do vetor, que guardam um peso relacionado a sua importância para o documento de texto, como ilustra a Figura 2.

As estratégias mais conhecidas para a atribuição de peso são o esquema binário,

frequência de termos (TF - Term Frequency) e frequência do termo–inverso da frequência nos documentos (TF-IDF - Term Frequency-Inverse Document Frequency)(SALTON; BUCKLEY, 1988). No esquema de peso binário, os termos presentes no documento recebem o valor 1 e caso estejam ausentes, recebem o valor 0. Apesar de ser muito popular, o peso binário não faz distinção entre os termos que ocorreram apenas uma vez e termos que se repetem em um documento. Diferente do peso binário, o peso TF atribui um número maior que zero, de acordo com a contagem das ocorrências do termo no documento. Já no esquema de peso TF-IDF, a frequência de um termo no documento é ponderada pela sua ocorrência em outros textos do conjunto. O valor desse peso é alto quando o termo ocorre com alta frequência no documento em questão e com baixa frequência nos outros documentos do conjunto (SILVA, 2017; WILBUR; KIM, 2009; RENNIE et al., 2003).

A escolha do esquema de peso mais adequado depende do problema e do método de classificação que será empregado, pois cada um deles pode exigir um esquema de peso diferente.

1.1.2

Algoritmos de aprendizado supervisionado para classificação

Uma variedade de métodos tem sido empregadas em tarefas de categorização de textos, que se diferenciam pela estratégia utilizada para se obter a hipótese H. As principais estratégias utilizadas pelos métodos preditivos de aprendizado de máquina são descritas a seguir (SILVA,2017;SEBASTIANI, 2002):

para realizar as predições (FACELI et al., 2011). O método dos k-vizinhos mais próximos (KNN - k-Nearest Neighbor ) (COVER; HART, 1967) e o k-vizinhos mais próximos multirrótulo (ML-KNN - Multilabel k-Nearest Neighbor ) (ZHANG; ZHOU, 2007) são exemplos de métodos que utilizam essa estratégia.

• Métodos probabilísticos: se baseiam na probabilidade do documento pertencer a cada uma das classes possíveis do problema, de acordo com seus atributos. O Bayes ingênuo (NB - Naïve Bayes) (MCCALLUM; NIGAM, 1998) e o Bayes ingênuo multirrótulo (MLNB - Multilabel Naïve Bayes) (ZHANG; PEÑA; ROBLES, 2009) são exemplos de métodos probabilísticos.

• Métodos baseados em árvores de decisão (DT - decision tree): são métodos que dividem um problema complexo em subproblemas mais simples, sob uma estrutura de árvore. As árvores de classificação e regressão (CART - Classification and Regression

Trees) (BREIMAN et al., 1984), o C4.5 (QUINLAN, 1993) e o C4.5-multirrótulo (C4.5-ML - C4.5-Multilabel) (CLARE; KING,2001) são métodos baseados em árvore

de decisão.

• Métodos baseados em otimização: a hipótese é encontrada através da otimização de alguma função que avalia a capacidade de predição (FACELI et al., 2011). As máquinas de vetores de suporte (SVM - Support Vector Machines) (CORTES; VAPNIK, 1995) e as redes neurais artificias (ANN - Artificial Neural Network) (HAYKIN, 1998) são duas técnicas típicas que se baseiam em otimização.

• Métodos ensemble: treinam diferentes classificadores para a mesma tarefa de classi- ficação e combinam os julgamentos individuais desses classificadores para gerar a predição final (SEBASTIANI, 2002). São exemplos de métodos ensemble, a floresta aleatória (RF - Random Forest) (BREIMAN,2001) e o reforço adaptativo (AdaBoost - Adaptive Boosting) (FREUND; SCHAPIRE, 1996).

1.1.3

Aprendizado offline e online

Além da estratégia de classificação empregada, a técnica mais apropriada para um problema de categorização também pode ser definida de acordo com a forma com que a etapa de treinamento deve ser realizada. Diversos métodos requerem que todos os documentos rotulados sejam apresentados de uma só vez, em um processo único de treinamento conhecido como treinamento offline ou em lote (SEBASTIANI,2002;GAMA, 2010; SILVA, 2017). Esses métodos não são capazes de incorporar novas informações no modelo de predição após a etapa de treinamento, o que exige que o processo seja refeito desde o ponto inicial quando novos documentos de texto rotulados são gerados (SILVA, 2017).

A classificação de textos costuma enfrentar problemas com muitos documentos e com altas dimensões no espaço de atributos, e assim, carregar todos os documentos em memória para o treinamento em lote nem sempre é possível. Ainda, em outros problemas reais, os documentos textuais são gerados continuamente e os conceitos das classes e os padrões nos textos podem mudar com o tempo. Métodos de classificação que suportam o aprendizado incremental ou online são mais aconselhados para essas situações (GAMA, 2010; SILVA, 2017).

No aprendizado online, o modelo é construído através de um conjunto de docu- mentos de treinamento, que pode ser atualizado incrementalmente conforme os novos documentos apareçam (SEBASTIANI, 2002). Dessa forma, o aprendizado obtido nos processos anteriores de treinamento não é perdido a cada iteração. O algoritmo Perceptron (ROSENBLATT, 1958) é um método muito conhecido que permite o aprendizado incre- mental. Outros métodos de aprendizado online famosos são o Bayes ingênuo, o gradiente descendente estocástico (SGD – Stochastic Gradient Descent) (ZHANG, 2004) e o passivo- agressivo (PA - Passive-Aggressive) (CRAMMER et al., 2006). Apesar de métodos de aprendizado online terem vantagens em problemas dinâmicos ou de larga escala, métodos de aprendizado offline costumam gerar melhores resultados quando podem ser empregados (SILVA, 2017;CRAMMER; DREDZE; PEREIRA, 2012).

Dans le document The DART-Europe E-theses Portal (Page 177-184)