• Aucun résultat trouvé

Chapitre 1 : L'approche par points de vue : genèse et domaines

1.1. COCOON

2.2 CRISP-DM

Como já mencionado, a metodologia que se revelou mais adequada para a realização de uma completa introspeção sobre os dados foi a metodologiaCRISP-DM, que é frequen- temente utilizada em problemas que envolvemdata mining.

Antes de mais, é fulcral entender o verdadeiro significado dedata mininge como surgiu este modelo padrão. O conceitodata miningnasceu da interseção de três áreas distintas: estatística, inteligência artificial e machine learning. Este conceito é parte de um processo maior conhecido comoKnowledge Discovery in Database (KDD), cuja definição no livro de Usama M. Fayyad [12] é “o processo não trivial de identificação de padrões válidos, desconhecidos, potencialmente úteis e, no final das contas, compreensíveis em dados”, com o qual é tantas vezes confundido. Este processo é composto por várias fases, como ilustrado na Figura2.11, que são executadas de forma dinâmica, isto é, sem uma ordem implícita.

O processo doKDDinicia-se com o conhecimento do domínio da aplicação e dos objeti- vos a serem alcançados. Seguidamente é realizada uma seleção a todos os dados que irão ser alvo de descoberta. Como a qualidade dos dados é fundamental para a obtenção de resultados fidedignos, a limpeza aos mesmos e a sua compreensão são muito importantes para o sucesso dodata mining, fase do pré-processamento. É de notar que esta fase pode ocupar até 80% do tempo necessário para todo o processo, principalmente em casos onde existem bases de dados muito heterogéneas [22].

Feito o pré-processamento, passa-se ainda por outra transformação que é o armaze- namento adequado dos dados em Data Warehouses, com o intuito de facilitar o uso das técnicas dedata mining. Avançando no processo doKDDchega-se então à fase dodata mining, cujo objetivo principal é utilizar técnicas/algoritmos de mineração sobre os dados pré-processados com o propósito de extrair padrões ou conhecimentos relevantes sobre os mesmos.

A última etapa do processo intitulada de pós-processamento consiste na interpretação dos padrões descobertos. Nesta fase a informação extraída é analisada de acordo com o objetivo proposto inicialmente e se necessário é filtrada a informação a ser posteriormente apresentada, como possíveis ruídos (e.g.: padrões redundantes).

Figura 2.11: Etapas que compõem o KDD10

10Fonte: "The KDD process for extracting useful knowledge from volumes of data", Autores:Fayyad, Usama

Resumidamente, odata miningé um processo criativo que requer um conjunto de ha- bilidades e conhecimentos diferentes. Isto significa que o sucesso ou insucesso de um projeto dedata miningestá altamente dependente da pessoa ou equipa que se encontra a realizar o mesmo [47]. De facto, odata miningprecisa de uma abordagem padrão que ajude a traduzir problemas de negócio em tarefas dedata mining, sugerindo transforma- ções e técnicas adequadas aos dados.

Por esta razão foi criado oCRISP-DM[47], um modelo dividido em 6 fases, como ilus- trado na Figura 2.12, e que foi a base para a elaboração deste trabalho. É de destacar o sentido das setas entre as fases, que significam que ir e voltar entre as mesmas é um processo sempre vital para o sucesso do modelo, e também as setas do círculo exterior que traduzem a natureza cíclica do processo dedata mining.

Figura 2.12: Modelo Processual CRISP-DM11

1. Compreender o Contexto (Business Understanding)

A fase inicial foca-se em compreender o objetivo e os requisitos do projeto do ponto de vista de negócio, de modo a projetá-los para um problema dedata mining. É ainda nesta fase que é traçado um plano preliminar visando atingir os objetivos pretendidos.

2. Compreender os Dados (Data Understanding)

A fase de compreensão dos dados inicia-se com uma recolha de todos os dados dis- poníveis no contexto da aplicação e que serão objeto de estudo. Prossegue com uma familiarização com os dados através de ações, como a identificação de problemas

11Fonte: "Business Intelligence no suporte a decisões sobre comunicações", Autores: Mendes, Armando

2.2. CRISP-DM

de qualidade, descrição dos dados ou deteção de subconjuntos interessantes para a formulação de hipóteses de resolução do problema. Como é fácil de perceber, a fase de Business Understanding e Data Understanding estão diretamente conectadas, pois não é possível traçar um plano preliminar sem algum conhecimento sobre os dados disponíveis.

3. Preparação dos Dados (Data Preparation)

A fase de preparação dos dados é uma das mais importantes no que diz respeito aodata mininge a mais morosa também. Numa fase inicial a ideia é limpar os dados, ou seja, excluir campos com dados em branco, excluir características irrelevantes, e corrigirmeta-dadosque estejam incorretos. Posteriormente, é essencial agregar campos, de forma a poder relacioná-los e das quais possivelmente surgirão novos atributos. Por fim, é necessário a certificação de que os dados correspondem aos requisitos da plataforma de modelação.

4. Modelação dos Dados (Modelling)

O que torna a mineração de dados tão interessante é a existência de várias manei- ras de resolver o mesmo problema. É nesta fase que temos de perceber os resultados da modelação, explorar inconsistências, aferir sobre a implementação dos mesmos na resolução do problema inicial, e se possível, comparar com outros sistemas de modelação. Se necessário, é preciso repensar o modelo e as técnicas dedata mining

que estão a ser utilizadas. 5. Avaliação (Evaluation)

Depois da maioria do trabalho de mineração de dados estar efetuado, e antes de se passar para a fase de implementação, é necessário fazer uma avaliação aos resultados mediante o objetivo definido inicialmente. É a altura de fazer uma retrospeção acerca do que poderia ter sido melhorado ou se haveria outra alternativa, se houve alguma surpresa nos resultados obtidos, e se sim, se existe alguma forma de a prever. 6. Implementação (Deployment)

Posteriormente à construção e avaliação do modelo(s), é crucial organizar e apre- sentar todo o conhecimento adquirido de uma forma a que o cliente/consumidor o entenda para poder assim utilizá-lo. Dependendo dos requisitos da aplicação, a fase de implementação pode ser tão simples como gerar um relatório ou tão complexa como implementar um processo de mineração de dados diferente. O objetivo é dar “vida” aos dados, para que sejam entendidos por todos.