Apesar de a área da mineração de texto abranger diversos tipos de estudos de classificação e subjetividade, como mencionado, a tarefa mais investigada se limitou a classificar a polaridade de textos em positiva, negativa e neutra.
Normalmente, o que é produzido em textos por humanos pode ser classificado em fato ou opinião segundo Liu (2010). Fatos podem ser entendidos como sentenças objetivas, desprovidas de sentimento, que transmitem alguma informação sobre um tema ou entidade. Em contrapartida, há a opinião de que estão presentes frequentemente em sentenças subjetivas que contêm algum aspecto de avaliação, impressão ou opinião.
Contudo, não é uma tarefa trivial estabelecer a qualidade exata de um classificador de texto, pois existe uma dificuldade em se identificar um conjunto de dados cujos rótulos (no experimento da métrica Motivação: desmotivação, motivação Intrínseca e motivação Extrínseca) sejam conhecidos e confiáveis. Naturalmente, alguns vieses acabam influenciando o processo e o comportamento do classificador (AVANÇO, 2015).
Neste experimento, foram selecionados dados do curso de Letras do IFPB Virtual referentes ao primeiro período (11.046 mensagens) de 2015.2.
Inicialmente, o professor classificou manualmente 1/3 das mensagens da amostra. No Quadro 4.3 são ilustrados exemplos de mensagens contidas na amostra classificadas pelo professor.
Neste caso, a mineração de texto executou uma investigação baseada na classificação dos textos, especificamente por meio da extração da polaridade das mensagens, pois para avaliar a desmotivação, lida-se com a identificação de termos negativos no discurso do discente.
Em relação à Motivação Extrínseca e a Intrínseca, é percebido que palavras positivas estão contidas em ambos os discursos. As diferenciações entre ambas são os objetivos das mensagens. Por um lado, as mensagens com Motivação Extrínseca apresentam elementos extras relacionados às preocupações discentes com a atividade em si, disciplina, nota, prazos de submissão etc. Finalmente, a motivação Intrínseca sempre deixa bem claro o prazer do aluno na execução da tarefa.
Após definir a estratégia de análise para minerar o texto, é possível de fato, iniciar o experimento para a construção do dicionário de dados relacionados utilizado para classificação não supervisionada das mensagens em três grupos: Desmotivação, Motivação Extrínseca e Motivação Intrínseca, como mencionado na Seção 3.4.3.
O próximo passou foi verificar as palavras mais comentadas em cada um dos tipos e, juntamente com o professor, elaborar um dicionário adequado ao contexto. Para isto, foi decidido utilizar a medida Tf-Idf (term frequency e inverse document frequency) para verificar quais as palavras mais referenciadas no texto e com isto construir, juntamente com um dos docentes do curso de Letras, o dicionário. Nesta fase do experimento, havia um terço da amostra de mensagens classificadas manualmente pelo professor que serviu de base para as análises.
A técnica Tf-Idf calcula um peso que representa a importância de um termo dentro de um documento. Isto é executado comparando a frequência de uso em um documento individual em oposição a todo o conjunto de dados (uma coleção de documentos). Este peso é uma medida estatística usada para avaliar a importância de uma palavra para um documento em uma coleção. A
importância aumenta proporcionalmente ao número de vezes que uma palavra aparece no documento, mas é compensada pela frequência da palavra. As variações do esquema de ponderação Tf-Idf são frequentemente utilizadas pelos motores de busca como uma ferramenta central na pontuação e classificação da relevância de um documento, dada uma consulta do usuário.
Quadro 4.3. Exemplos de mensagens classificadas pelo professor. Motivação Extrínseca Motivação Intrínseca Desmotivação
“No ambiente do Moodle foi postado um exercício que pede para elaborar um texto sobre as principais
características do Moodle contudo a minha grande dúvida é no tocante as datas que foram postadas. Preciso saber a data real para o envio dessa atividade.”
“Olá amigos, gosto muito de cinema e tenho um bom acervo de filmes aqui. Acredito que a história de nosso país ainda é muito mal contada sobretudo de nosso Estado. Aspiro ainda o momento em que verei um cinema paraibano com requintes nacionais onde contaremos nossas histórias nossas literaturas e nossas conquistas desde os tempos coloniais.”
“Segue em anexo a propaganda de um computador.”
“Os processos de aprendizagens se dão por meio das relações sociais de modo geral em vários níveis desde as mais antigas até as mais atuais modernas como as que estão em nosso cotidiano as que estão nas instituições formais de ensino. Também nos educamos e
aprendemos através do Cinema visto que o mesmo traz sempre em suas produções as criações tecnológicas nas quais se debate reflete sobre as mesmas. Portanto nos proporcionando um aprendizado sobre as tecnologias.”
“Boa tarde colegas do curso de Letras sou professora da rede estadual do RN. Sou apaixonada pela Língua Portuguesa e o curso de Letras para mim sempre foi um sonho a ser realizado tenho mais afinidade com a gramática leio pouco mas costumo está em sintonia com os acontecimentos
importantes.”
“Bom estou pensado em trancar o curso, pois está muito corrido, no entanto enquanto isso não acontece estou por aqui.”
“Boa noite professor, gostaria de saber se minha postagem está de acordo com a atividade passada.”
“Caro Professor: acredito que o compromisso e o foco no curso é primordial para um bom aprendizado e melhores perspectivas futuras.”
“Minha cidade não possui salas de cinema e perdi contato com esse tipo de
entretenimento e aprendizado.”