• Aucun résultat trouvé

Mineração de texto, também conhecido como Mineração de Dados de texto, é relativamente parecido com a análise/intelecção de textos, processo de obtenção de informações relativas ao perfil de usuários em campos textuais, também conhecido como KDT (Knowledge Discovery in Texts), ou seja, é o processo de extrair informações relevantes de algum domínio especifico dentro de documentos não estruturados (TAN, 1999). Informações de alta qualidade normalmente são obtidas pela elaboração de padrões e tendências por meios como a aprendizagem de padrões estatísticos. Text Mining geralmente envolve o processo de estruturação do texto de entrada (normalmente a análise junto à adição de algumas características linguísticas e

remoção de outras – stopwords – e a subsequente inserção numa base de dados), derivando dentro dos padrões de dados estruturados e, finalmente, a avaliação e na interpretação da saída. Geralmente bons estudos em mineração de texto referem-se a uma combinação de relevância, novidade e descobertas interessantes. Tarefas de mineração de texto típicas incluem categorização de texto, agrupamento de documentos, conceito, extração de entidade, produção de taxonomias granulares, análise de sentimento e sumarização de documentos (COHEN; HUNTER, 2008).

A análise de texto envolve a recuperação de informações, análise lexical para estudar as distribuições de frequência de palavras, reconhecimento de padrões, marcação, anotação, extração de informações, técnicas de Mineração de Dados, incluindo link e análise de associação, visualização e análise preditiva. O objetivo primordial é, essencialmente, transformar texto em dados para análise, por meio da aplicação de processamento de processamento de linguagem natural (PLN) junto com métodos analíticos (HOBBS; WALKER; AMSLER, 1982).

A análise de texto ou termos descreve um conjunto de técnicas linguísticas, estatísticas e de aprendizado de máquina em que o modelo possibilita estruturar o conteúdo ou informações de fontes textuais para alavancar áreas relacionadas à inteligência de negócios, análise exploratória de dados, pesquisa e inovação. Mineração de texto é um campo interdisciplinar que se baseia em recuperação de informação, Mineração de Dados, aprendizado de máquina, estatística e linguística computacional (ZANASI, 2009).

Como a maior parte da informação – estimativas chegam a 85% (BESS et al., 2003, p. 610) – é atualmente armazenada como texto, acredita-se na mineração de texto como de alto valor potencial comercial. O interesse crescente está voltado para a

Mineração de Dados multilíngue, ou seja, a capacidade de obter informações por meio de línguas e de grupos de itens semelhantes de diferentes fontes linguísticas de acordo com seu significado.

A tecnologia já é amplamente aplicada a uma ampla variedade de públicos, pesquisas e necessidades de negócios. Os aplicativos podem ser classificados em várias categorias por tipo de análise ou por função de negócio. Dentre as diversas abordagens possíveis podem-se citar as que seguem (CALVO; D’MELLO, 2010).

1) Inteligência competitiva – o conceito de inteligência competitiva vem da

atividade de coletar, aplicar informações relativas às capacidades, vulnerabilidades e intenções de concorrentes, ou seja, com a análise automatizada desse tipo de cenário se pode trabalhar uma quantidade superior de informações e as utilizar eticamente para gerar inteligência competitiva dentro do ambiente privado.

2) Segurança nacional – por meio de análise especializada de documentos,

governos e instituições públicas e privadas podem monitorar os anseios de uma população e identificar pontos críticos em setores essenciais da economia.

3) Análises de sentimento – os textos escritos por usuários em uma rede social

determinam muitas vezes o sentimento sobre algo ou alguém, com esse tipo de premissa por meio de técnicas de Text Mining é possível observar esses comportamentos.

4) Semântica de Idiomas – a análises de idioma pode variar dentre as diversas

aplicações; as mais populares são tradutores e análise especializadas de

documentos que permitem a tradução de um texto de um idioma A para o idioma B.

5) Monitoramento de mídias sociais – com o crescimento das mídias sociais,

tornou-se parte estratégia das grandes empresas de diversos setores entender o comportamento e as necessidades dos clientes perante marcas e serviços dentro desses ambientes sociais.

4 METODOLOGIA CRISP-DM

Com o intuito de promover a padronização de conceitos e técnicas na busca de informações específicas para a tomada de decisões, foi criado em 1996 o grupo de trabalho chamado Cross Industry Standard Processing for Data Mining (CRISP-DM, 2011), que propôs a criação de uma metodologia que auxiliaria os administradores e responsáveis no processo geral de planejar e executar a Mineração de Dados (SHEARER, 2000). A essa metodologia se deu o nome do grupo, que ficou conhecido por CRISP-DM (2011).

Em 1997, a CRISP-DM foi incorporada num projeto da União Europeia no âmbito da iniciativa de financiamento ESPRIT. O projeto foi liderado por cinco empresas: SPSS, Teradata, Daimler AG, NCR Corporation e OHRA, uma companhia de seguros. A primeira versão da metodologia foi apresentada na IV CRISP-DM SIG, um Workshop realizado em Bruxelas, em março de 1999, sendo publicado como um guia passo-a-passo de Mineração de Dados no final daquele ano (ESPRIT, 2009).

Entre 2006 e 2008, a CRISP-DM 2.0 SIG foi forjada, e havia discussões sobre a atualização do modelo de processo CRISP-DM. A situação atual desses esforços não é conhecida. O site www.crisp-dm.org original e o site da tecnologia CRISP-DM SIG 2.0 não estão mais ativos. Atualmente, a IBM é a empresa que engloba o modelo da tecnologia CRISP-DM, sendo incorporada em seu produto SPSS Modeler.1 Antigos documentos da CRISP-DM estão disponíveis para download (SPSS, 2013).

1 SPSS é marca registrada e comerciais da SPSS Inc. Todos os outros nomes são marcas comerciais dos respectivos proprietários. © 2000 SPSS Inc. CRISPMWP-1104. Disponível em

<ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRIS P-DM.pdf>. Acesso em 15 fev. 2014.

Definiu-se então um conjunto de fases e processos padrões para desenvolver projetos de Data Mining, independentemente da área de negócio e das ferramentas utilizadas, de forma estruturada e metódica. Os objetivos principais são: transformar necessidades de negócio em tarefas de Data Mining, sugerir transformações nos dados com técnicas adequadas, utilizar métricas para avaliar a qualidade dos resultados obtidos e documentar o projeto. As seis (6) fases são: compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação e implantação (Figura 6).

Figura 6 – Modelo CRISP-DM

Fonte: OVERBACK ANALITICA (2013)