PRINCIPES DE LA METHODE B ILAN C ARBONE ®

Métodos de deteção de outliers baseados em classificação criam um modelo de classificação a partir de um conjunto de dados de treino já existente e em que os dados estão já classificados

Data mining e Outlier Detection

[ZMH10]. Posteriormente, classificam cada nova instância como normal ou como outlier. Estes métodos podem ser divididos em duas categorias, dependendo do número de classes normais que apresentam [US12]:

• Multi-class: esta categoria assume que os dados de treino contêm dados que pertencem a várias classes consideradas normais, e não apenas uma. Se uma nova instância de teste não for considerada como normal, ou seja, o modelo de classificação considerou que não poderia pertencer a nenhuma das classes, então esta é classificada como sendo um outlier. Algumas das técnicas multi-class utilizadas atribuem um valor de confiança à previsão feita. Se esse valor for baixo, então o modelo não tem confiança suficiente nessa instância para a classificar numa das classes, sendo então considerada como um outlier.

Figura 2.7: Método baseado em classificação multi-class [US12]

• One-class: nesta categoria é assumido que todos os dados de treino pertencem a apenas uma classe. Depois de se descobrir a fronteira que delimita essa classe, com a utilização de um algoritmo de classificação, todas as novas instâncias que não estejam dentro dessa classe são classificadas como outliers.

Data mining e Outlier Detection

Capítulo 3

Problema, solução e tecnologias

utilizadas

Neste capítulo irá ser descrito com mais detalhe do que no capítulo introdutório o problema em mãos e uma perspetiva de solução para tentar resolver esse mesmo problema. Para finalizar, são explicadas as tecnologias que foram utilizadas na solução apresentada e a razão pela qual foram escolhidas.

3.1 Problema

Um dos pontos em que a gestão da frota pode ter grande impacto no seio da empresa é no tipo de condução praticada pelos condutores dos veículos dessa frota. Por necessitarem de combustível para a sua operação, a circulação destes veículos representa uma grande despesa para a empresa. Assim, a recolha de informação sobre consumos de combustível dos veículos cujo consumo, com- parativamente com os outros veículos existentes na base de dados da Gisgeo, seja demasiado grande poderá permitir que as empresas às quais esses veículos pertencem consigam diminuir os seus gastos, nomeadamente em termos energéticos, ou seja, nos custos inerentes ao consumo de combustível. Para empresas com grandes frotas de veículos, esta informação poderá ser uma ajuda muito significativa na redução dos prejuízos financeiros e num aumento do desempenho interno.

A Gisgeo possui um conjunto de dados na sua bases de dados, tais como dados relativos à localização dos veículos, dados sobre distâncias percorridas e consumos totais dos veículos, etc. Esses dados precisam ser processados e analisados para que se lhes possa extrair conhecimento que possibilite aos gestores das empresas clientes da Gisgeo saber que tipo de condução foi praticada em cada veículo. Tendo esse conhecimento, é possível tomar decisões mais fundamentadas sobre o que fazer para mitigar ao máximo os gastos com combustível, tendo em conta o local onde essa condução está a ser efetuada.

Problema, solução e tecnologias utilizadas

Um aspeto fundamental na abordagem a este problema foi, desde o início da elaboração desta dissertação, e frisado veementemente pela Gisgeo ao longo da mesma, a importância do cuidado na manipulação de informação que poderia ser considerada sensível e de caráter confidencial. A empresa trabalha com dados de clientes, que por sua vez são também entidades empresariais que possuem frotas de veículos. Por este motivo, a Gisgeo tem acesso a informação como nomes dos clientes, dados pessoais de funcionários, localizações GPS dos veículos, entre outros. Por este motivo, a responsabilidade e compromisso perante a empresa aumentou, e em especial desde a entrada em vigor do novo Regulamento Geral de Proteção de Dados (RGPD).

3.2 Solução

Para poder, então, apoiar os gestores das empresas na sua tomada de decisão, foi implementada uma abordagem de data mining com um método de outlier detection, em que os outliers detetados são os veículos em que se verificou um consumo excessivo de combustível. Contudo, antes que fosse possível detetar esses veículos, tornou-se indispensável investir grande parte do tempo no estudo da base de dados interna da Gisgeo e no pré-processamento dos dados que me foram dispo- nibilizados, para que estes pudessem ser utilizados e os resultados obtidos fossem mais confiáveis. Devido a esta necessidade, acabaram por ser removidos muitos dos registos feitos, tanto porque os valores apresentavam erros como por não apresentarem valor. Assim que o conjunto dos dados foi pré-processado, foi possível efetuar a deteção dos outliers.

Estes outliers, ou veículos com consumos de combustível excessivos, foram detetados atra- vés da utilização da ferramenta boxplot. Esta ferramenta permite encontrar outliers globais nos extremos máximo e mínimo do dataset. Foi criado um atributo k pl que atribui a cada veículo um valor que representa o consumo desse veículo em quilómetros por litro. Quanto menor for esse valor, menos eficiente foi o tipo de condução praticada nesse veículo. Assim, dos outliers detetados pelo boxplot, apenas aqueles cujo valor é inferior a Q1− 1.5 × IQR, ou seja, abaixo do

extremo mínimo, foram considerados como sendo consumos excessivos. A utilização de boxplots para a deteção de outliers, apesar de representar uma análise simples, permite que possa ser feita a visualização dos outliers, numa primeira fase, e a extração dos valores desses pontos, numa se- gunda. Outro método descrito apresentado no estado da arte para encontrar outliers globais nos extremos dos datasets, Grubbs’ test, não poderia ter sido utilizado neste caso em concreto, uma vez que assume a existência de apenas um outlier no conjunto total dos dados. Uma generalização deste método, denominada Generalized ESD Test, não assume a existência de um número fixo de outliers a priori, mas provou-se demasiado inclusiva e não apresentou qualquer resultado para este problema.

3.3 Tecnologias

A empresa na qual esta dissertação foi desenvolvida trabalha maioritariamente com tecnologias open source, pelo que foi, desde início, incentivada a utilização de ferramentas deste tipo na

Problema, solução e tecnologias utilizadas

elaboração do trabalho. Nesta secção é apresentada uma revisão de todas as tecnologias de relevo que foram usadas.

3.3.1 PostgreSQL

PostgreSQL é o sistema de gestão de bases de dados (SGBD) utilizado a nível interno pela empresa. Todos os dados em bruto que foram utilizados na dissertação estão guardados numa base de dados PostgreSQL, pelo simples facto de este ser um SGBD open source.

3.3.2 DBeaver

Para poder aceder à base de dados PostgreSQL da empresa, e de facto visualizar e manipular os dados aí presentes, foi utilizada uma ferramenta, também ela open source, chamada DBeaver. Para poder fazer o acesso necessário a uma base de dados PostgreSQL existe uma ferramenta chamada pgAdmin, utilizada exclusivamente para efetuar a administração e o desenvolvimento sobre bases de dados desse tipo. No entanto foi-me sugerida, a nível da empresa, a utilização da ferramenta DBeaver.

3.3.3 R

R1 é uma das linguagens de programação, senão a maior e mais influente em todo o mundo, para computação e gráficos estatísticos. É uma linguagem que facilita a manipulação de dados, cálculo e a visualização de gráficos, incluindo, para esse efeito:

• Manipulação de dados e de armazenamento eficiente; • Conjunto de operadores para cálculos sobre arrays;

• Uma coleção grande, coerente e integrada de ferramentas intermédias para análise de dados; • Facilidade na visualização gráfica de análises de dados.

Um dos pontos fortes de R, especialmente quando comparado com outras linguagens de pro- gramação utilizadas para os mesmos fins, como é o caso de Python, Julia ou SAS, é o facto de possuir uma grande quantidade de packages para além das oito que estão originalmente integra- das na distribuição de R utilizada. Estas packages extra são desenvolvidas em grande parte pela comunidade e são, em muitos casos, imprescindíveis para uma implementação mais fácil e rápida dos métodos pretendidos. A rede principal de packages em R é a CRAN (Comprehensive R Ar- chive Network), que é administrada pela R Foundation. Uma das principais packages utilizadas denomina-se RPostgreSQL, que permite a existência de uma interface com a finalidade de esta- belecer uma conexão com a base de dados PostgreSQL e, desta forma, aceder à informação aí existente.

Uma vez que existe uma preferência clara por parte da empresa pelo uso de tecnologias open source, R é a melhor opção para levar a cabo a análise necessária.

1_{https://www.r-project.org/}

Problema, solução e tecnologias utilizadas 3.3.3.1 RStudio

Ao instalar o R, é possível criar scripts a partir da linha de comandos. Contudo, existe um IDE específico para o desenvolvimento de software em R, chamado RStudio. Uma vez que R é uma linguagem usada para análise estatística, exige muitas vezes a visualização de uma grande quantidade de gráficos. Assim, o RStudio, para além de facilitar o processo de desenvolvimento, facilita também a componente de visualização dos gráficos gerados.

Capítulo 4

Construção do dataset e deteção de

consumos excessivos

Neste capítulo é explicado, de forma detalhada, todo o trabalho realizado que culminou na extração de conhecimento útil para resolver o problema em questão. Primeiramente será explicada a estrutura da base de dados disponibilizada pela empresa, para que fosse possível criar o dataset onde foi aplicado o método descrito. Em seguida, será dada uma explicação sobre como foi construido esse mesmo dataset, bem como as etapas de pré-processamento usadas para reduzir a quantidade de dados e maximizar o mais possível a confiança nos dados existentes. Por fim, é aplicada a estratégia para a deteção de veículos com um consumo excessivo, em dois tipos de vias distintas, e os resultados obtidos após essa aplicação.

4.1 Base de dados utilizada

A empresa onde foi desenvolvida a presente dissertação possui uma base de dados com toda a informação que foi utilizada para poder construir o dataset, cuja construção será abordada em pormenor na secção seguinte. Contudo, até que fosse obtido um dataset com apenas a informação necessária e de forma organizada, a base de dados disponibilizada teve de ser devidamente explo- rada e as tabelas com dados sem nenhuma relevância ou com dados insuficientes afastadas, como as que têm informação, por exemplo, sobre as diferentes marcas dos veículos analisados ou sobre as empresas e condutores das mesmas.

Atualmente, a Gisgeo encontra-se num processo de reestruturação dessa mesma base de dados, motivo pela qual foi utilizada uma versão própria para ambiente de estágio empresarial, com informação recolhida durante um período de, aproximadamente, 6 anos e 6 meses, entre abril de 2012 e outubro de 2018, pelo que não recebe informação nova e os dados previamente recolhi- dos permanecem inalterados. Sendo assim, os dados presentes no dataset também nunca foram alterados.

Construção do dataset e deteção de consumos excessivos

Dans le document Application de la méthode « bilan carbone (Page 106-111)