• Aucun résultat trouvé

Configuration des Paramètres de base

Seguidamente é apresentada a ferramenta utilizada na elaboração do protótipo de predição, apresentando uma breve descrição da mesma, as suas principias características e razões da sua utilização.

3.5.1 O RapidMiner

O RapidMiner 25 consiste num software capaz de desenvolver eficazmente modelos preditivos

especializados e de associação entre vários atributos em vários ramos de negócio e implementá- los em operações de forma a melhorar o processo de tomada de decisão. A versão utilizada consiste na versão 5.3.015 free Community Edition licenciada sobre AGPL26 versão 3. Consiste

numa ferramenta opensource amplamente utilizada em variados domíninos de aplicação. É caracterizada pela sua flexibilidade e o seu ambiente gráfico capaz de simplificar a elaboração das tarefas mais complexas.

Este software é implementado em Java o que possibilita uma utilização versátil, em qualquer sistema operativo ou ambiente de trabalho.

Esta ferramenta fornece aos seus utilizadores:

24 Linguagem de pesquisa declarativa padrão para bases de dados relacionais. Muitas das características originais do SQL foram inspiradas na

álgebra relacional.

25 RapidMiner V5.2. Disponível em http://rapid-i.com. Acesso em 01/03/2012.

26 GNU Affero General Public License, é a designação da licença para software livre idealizada por Richard Matthew Stallman em 1989, no âmbito

Capítulo 3 | O sistema de predição 127

i) Uma solução global para o desenho e implementação de um processo de DM. Permite a definição de todas as fases incluídas na metodologia CRISP-DM.

ii) Um interface gráfico muito intuitiva e flexível para o desenho de um processo de DM. iii) Mais de 500 operadores que implementam as mais diversas técnicas e algoritmos.

Ligação directa com a biblioteca de classes de aprendizagem automática Weka 27, uma

das mais utilizadas na comunidade cientifica especializada.

iv) Acesso as mais diversas fontes de dados: Excel, Access, Oracle, Microsoft SQL Server, SPSS, etc.

v) Mais de 20 métodos para visualização de dados e modelos. vi) Repositórios de processos, dados e meta-dados.

Todos os processos de DM podem ser executados através do seu interface gráfico (modo GUI – Graphic User Interface), utilizando a linha de comandos de DOS 28 ou acedendo via uma aplicação

Java. Esta ferramenta suporta a metodologia PMML, onde cada processo de DM construído é armazenado num ficheiro XML.

3.5.2 Interface gráfico do RapidMiner

O interface gráfico do utilizador disponibiliza, de forma agregada, diversas funcionalidades. É intuitivo construir diferentes fases e tarefas autonomamente, após a definição pelo utilizador.

Sem a necessidade de requisitos desenvolvidos em linguagem de programação para a implementação de um determinado processo, a ferramenta fornece um conjunto alargado de algoritmos integrados em operadores. Estes algoritmos provêm de recentes trabalhos de investigação que abordam problemáticas específicas a certas fases do processo. Destaca-se, como exemplo, a disponibilidade de novos algoritmos de modelação como é o caso das RN ou a otimização computacional de algoritmos tradicionais, permitindo maior eficiência na utilização de volumes de dados de grande dimensão (Akthar e Hahne, 2012).

Ao utilizar esta ferramenta é possível definir todo um processo de tratamento de dados, inserindo operadores responsáveis por:

i) Operações de entrada e saída;

ii) Algoritmos de aprendizagem (supervisionados ou não);

27O pacote de software Weka (Waikato Environment for Knowledge Analysis) começou a ser escrito em 1993, usando Java, na Universidade de

Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006. O Weka encontra-se licenciado ao abrigo da General Public License sendo portanto possível estudar e alterar o respetivo código fonte.

iii) Funções de selecção e pré-processamento de dados; iv) Validação;

v) Visualização.

Cada operador pode ser individualmente configurado existindo diferentes ambientes para configuração ou definição do processo e execução ou visualização do mesmo.

O interface divide-se segundo três perspectivas, sendo fácil e rápido alternar entre os ecrãs correspondentes:

 welcome consiste no ecrã de boas-vindas;

 design consiste no ecrã principal onde se constrói todo o processo de DM;

 results possibilita a análise dos resultados, reunindo todos os outputs do processo de DM, possibilitando a utilização de algumas ferramentas de análise gráfica.

Cada ecrã recorre a abas onde são disponibilizadas várias vistas, disponíveis através do comando “VIEW → SHOW VIEW”.

O seu interface pode ser vizualizado na Figura 3-27.

Figura 3-27 - Interface do RapidMiner V5.3.015.

O interface de design engloba os operadores. Esta designação referir-se-á aos elementos que englobam as ferramentas úteis à implementação do processo de DM. São constituídos por uma ou mais instruções directas (escrita, concatenação, etc.) e implementam um ou mais algoritmos

Capítulo 3 | O sistema de predição 129

para pré-processamento, modelação e avaliação. Apresentam-se como um ícone gráfico, com um design que inclui a designação da ferramenta e o símbolo alusivo à família de operadores a que pertence, bem como os conectores para os inputs/outputs de e para outros operadores.

Na Figura 3-27 pode-se observar as abas que podem ser selecionadas durante a implementação de um processo de DM e que estão descritas no Anexo B deste documento.

Resumidamente, o RapidMiner opera através da elaboração de processos (desenho de projetos de DM). Isto significa que, para realizar uma classificação de dados ou predição de ocorrências nesta ferramenta, é necessário incluir operadores para cada processo que antecede a tarefa final desejada. Alguns operadores possuem parâmetros configuráveis. A lista de operadores, a sua sequência de execução e os parâmetros são armazenados num arquivo XML de fácil visualização e edição.

A elaboração do sistema de predição em RapidMiner é produzido através da combinação de um conjunto de operadores. A ferramenta permite a representação do processo através de um sistema em árvore de operadores ou por um ambiente gráfico de fluxo de processo (work flow). Em ambos os casos, a estrutura do processo é ainda descrita internamente em XML, permitindo adicionalmente o desenvolvimento do processo nesta linguagem. É de salientar de igual forma a possibilidade de definir pontos de interrupção do processo que permitem inspeccionar praticamente todos os resultados intermédios e a capacidade de combinar e agrupar operadores em blocos autónomos, disponíveis para processos posteriores.