Seguidamente é apresentada a ferramenta utilizada na elaboração do protótipo de predição, apresentando uma breve descrição da mesma, as suas principias características e razões da sua utilização.
3.5.1 O RapidMiner
O RapidMiner 25 consiste num software capaz de desenvolver eficazmente modelos preditivos
especializados e de associação entre vários atributos em vários ramos de negócio e implementá- los em operações de forma a melhorar o processo de tomada de decisão. A versão utilizada consiste na versão 5.3.015 free Community Edition licenciada sobre AGPL26 versão 3. Consiste
numa ferramenta opensource amplamente utilizada em variados domíninos de aplicação. É caracterizada pela sua flexibilidade e o seu ambiente gráfico capaz de simplificar a elaboração das tarefas mais complexas.
Este software é implementado em Java o que possibilita uma utilização versátil, em qualquer sistema operativo ou ambiente de trabalho.
Esta ferramenta fornece aos seus utilizadores:
24 Linguagem de pesquisa declarativa padrão para bases de dados relacionais. Muitas das características originais do SQL foram inspiradas na
álgebra relacional.
25 RapidMiner V5.2. Disponível em http://rapid-i.com. Acesso em 01/03/2012.
26 GNU Affero General Public License, é a designação da licença para software livre idealizada por Richard Matthew Stallman em 1989, no âmbito
Capítulo 3 | O sistema de predição 127
i) Uma solução global para o desenho e implementação de um processo de DM. Permite a definição de todas as fases incluídas na metodologia CRISP-DM.
ii) Um interface gráfico muito intuitiva e flexível para o desenho de um processo de DM. iii) Mais de 500 operadores que implementam as mais diversas técnicas e algoritmos.
Ligação directa com a biblioteca de classes de aprendizagem automática Weka 27, uma
das mais utilizadas na comunidade cientifica especializada.
iv) Acesso as mais diversas fontes de dados: Excel, Access, Oracle, Microsoft SQL Server, SPSS, etc.
v) Mais de 20 métodos para visualização de dados e modelos. vi) Repositórios de processos, dados e meta-dados.
Todos os processos de DM podem ser executados através do seu interface gráfico (modo GUI – Graphic User Interface), utilizando a linha de comandos de DOS 28 ou acedendo via uma aplicação
Java. Esta ferramenta suporta a metodologia PMML, onde cada processo de DM construído é armazenado num ficheiro XML.
3.5.2 Interface gráfico do RapidMiner
O interface gráfico do utilizador disponibiliza, de forma agregada, diversas funcionalidades. É intuitivo construir diferentes fases e tarefas autonomamente, após a definição pelo utilizador.
Sem a necessidade de requisitos desenvolvidos em linguagem de programação para a implementação de um determinado processo, a ferramenta fornece um conjunto alargado de algoritmos integrados em operadores. Estes algoritmos provêm de recentes trabalhos de investigação que abordam problemáticas específicas a certas fases do processo. Destaca-se, como exemplo, a disponibilidade de novos algoritmos de modelação como é o caso das RN ou a otimização computacional de algoritmos tradicionais, permitindo maior eficiência na utilização de volumes de dados de grande dimensão (Akthar e Hahne, 2012).
Ao utilizar esta ferramenta é possível definir todo um processo de tratamento de dados, inserindo operadores responsáveis por:
i) Operações de entrada e saída;
ii) Algoritmos de aprendizagem (supervisionados ou não);
27O pacote de software Weka (Waikato Environment for Knowledge Analysis) começou a ser escrito em 1993, usando Java, na Universidade de
Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006. O Weka encontra-se licenciado ao abrigo da General Public License sendo portanto possível estudar e alterar o respetivo código fonte.
iii) Funções de selecção e pré-processamento de dados; iv) Validação;
v) Visualização.
Cada operador pode ser individualmente configurado existindo diferentes ambientes para configuração ou definição do processo e execução ou visualização do mesmo.
O interface divide-se segundo três perspectivas, sendo fácil e rápido alternar entre os ecrãs correspondentes:
welcome consiste no ecrã de boas-vindas;
design consiste no ecrã principal onde se constrói todo o processo de DM;
results possibilita a análise dos resultados, reunindo todos os outputs do processo de DM, possibilitando a utilização de algumas ferramentas de análise gráfica.
Cada ecrã recorre a abas onde são disponibilizadas várias vistas, disponíveis através do comando “VIEW → SHOW VIEW”.
O seu interface pode ser vizualizado na Figura 3-27.
Figura 3-27 - Interface do RapidMiner V5.3.015.
O interface de design engloba os operadores. Esta designação referir-se-á aos elementos que englobam as ferramentas úteis à implementação do processo de DM. São constituídos por uma ou mais instruções directas (escrita, concatenação, etc.) e implementam um ou mais algoritmos
Capítulo 3 | O sistema de predição 129
para pré-processamento, modelação e avaliação. Apresentam-se como um ícone gráfico, com um design que inclui a designação da ferramenta e o símbolo alusivo à família de operadores a que pertence, bem como os conectores para os inputs/outputs de e para outros operadores.
Na Figura 3-27 pode-se observar as abas que podem ser selecionadas durante a implementação de um processo de DM e que estão descritas no Anexo B deste documento.
Resumidamente, o RapidMiner opera através da elaboração de processos (desenho de projetos de DM). Isto significa que, para realizar uma classificação de dados ou predição de ocorrências nesta ferramenta, é necessário incluir operadores para cada processo que antecede a tarefa final desejada. Alguns operadores possuem parâmetros configuráveis. A lista de operadores, a sua sequência de execução e os parâmetros são armazenados num arquivo XML de fácil visualização e edição.
A elaboração do sistema de predição em RapidMiner é produzido através da combinação de um conjunto de operadores. A ferramenta permite a representação do processo através de um sistema em árvore de operadores ou por um ambiente gráfico de fluxo de processo (work flow). Em ambos os casos, a estrutura do processo é ainda descrita internamente em XML, permitindo adicionalmente o desenvolvimento do processo nesta linguagem. É de salientar de igual forma a possibilidade de definir pontos de interrupção do processo que permitem inspeccionar praticamente todos os resultados intermédios e a capacidade de combinar e agrupar operadores em blocos autónomos, disponíveis para processos posteriores.