Des arguments peu convaincants

Franck Laloë

6. Des arguments peu convaincants

Esse capítulo é dedicado à abordar detalhadamente os aspectos experimentais envolvidos na presente tese de doutorado.

5.1 Bases de dados

Os experimentos realizados e explanados nessa tese de doutorado utilizaram vinte bases de dados oriundas do repositório UCI (LICHMAN,2013). Essas bases foram escolhidas de acordo com características que pudessem compor um conjunto heterogêneo, considerando as seguintes propriedades: quantidade de instâncias, número de classes e atributos. A Tabela2ilustras as vinte bases escolhidas em termos de quantidade de atributos, instâncias e classes.

Tabela 2 – Bases de dados utilizadas

Índice Nomes Atributos Instancias Classes

1 Arrhythmia 279 452 16 2 BalanceScale 4 625 3 3 BreastCancer 10 286 2 4 Car 6 1728 4 5 HorseColic 28 368 2 6 Credit-a 15 690 2 7 Credit-g 20 1000 2 8 Dermatology 34 366 6 9 Ecoli 7 336 8 10 Flags 30 194 7 11 Glass 9 214 7 12 Ionosphere 34 351 2 13 Iris 4 150 3 14 LungCancer 56 32 3 15 Parkinson 23 197 2 16 SoybeanLarge 35 307 19 17 Sonar 60 208 2 18 Spam 57 4601 2 19 Vote 16 435 2 20 Vowel 10 528 11

5.2 Pré-processamento das bases de dados

A fase de pré-processamento compreende em converter os atributos nominais em numéricos, em remover instâncias com valores faltosos, evitando que a ausência de atributos

possa influenciar negativamente o processamento das técnicas de aprendizado de máquina, normalizar os atributos na escala [0, 1] ∈ R e estratificar as bases de forma que hajam proporcionalmente representantes de cada classe durante as fases de treino e teste dos classificadores. A Figura3 sintetiza cronologicamente as etapas de pré-processamento das bases de dados.

Figura 3 – Fases pré-processamento das bases de dados

5.3 Conﬁgurações

Conforme exempliﬁcado nas seções anteriores, o presente trabalho de tese de doutorado explora diversos métodos baseados em seleção dinâmica propostos na literatura hibridizados com medidas de diversidade e/ou similaridade. Dessa forma, como descrito no Capítulo4, os experimentos almejam avaliar a relação entre a diversidade e/ou similaridade dos classiﬁcadores base com a acurácia dos comitês.

Todos os métodos experimentados nessa tese de doutorado foram desenvolvidos em MATLAB. Para uma melhor avaliação da capacidade de generalização dos métodos, utilizou-se a técnica de validação cruzada com 10 partições para a todos os métodos.

Cada método foi experimentado em três cenários que diferem entre si pela quantidade de classificadores candidatos. O cenário 1 possui a menor quantidade de classificadores que corresponde à 20. Os cenários 2 e 3 possuem, respectivamente, 40 e 60 classificadores candidatos. Em cada cenário, os cinco tipos de classificadores(Redes neurais artificiais - RNA, naive bayesian - NB, árvore de decisão - AD, K-Nearest Neighbor - K-NN e máquinas

de vetores de suporte - SVM) estão presentes proporcionalmente, conforme a Tabela3. É importante salientar que cada classiﬁcador foi concebido com diferentes parâmetros na tentativa de obter os maiores níveis de diversidade.

Tabela 3 – Quantidade de classiﬁcadores por cenário Classiﬁcadores Cenário 1 Cenário 2 Cenário 3

RNA 4 8 12 NB 4 8 12 AD 4 8 12 K-NN 4 8 12 SVM 4 8 12 Total 20 40 60

Duas medidas diversidade e uma medida de similaridade foram utilizadas nos experimentos. As medidas foram escolhidas pelo fato de já terem sido empregadas em estudos preliminares((FILHO; CANUTO; XAVIER,2015) e (FILHO; CANUTO; SAN- TIAGO,2018)) e demonstrarem eﬁciência nos estudos. Dessa forma, foram utilizados as medidas de diversidade par a par double-fault(3.3.2) e q-statistic(3.3.1) com a medida de similaridade(3.3.3).

Os métodos que selecionam apenas um classificador base(DCS-APRIORI, DCS- APOSTERIORI(3.4.1), DCS-LA OLA(3.4.2), DCS-LA LCA(3.4.3), DCS-MLA(3.4.4) e DCS-MCB(3.4.5)), são experimentados apenas por cenários, já que apenas o classificador com maior destaque é escolhido para classificar uma amostra de teste. Já para o método ADS existem além dos cenários, os sub-cenários onde são definidos as restrições de quantidade de classificadores, conforme definido na Tabela4. Ainda na Tabela4 é possível destacar que em cada coluna referente a um cenário, possui 3 linhas que correspondem aos sub-cenários, onde M representa a quantidade de classificadores iniciais, N a quantidade selecionada na primeira etapa do método e J a quantidade de classificadores selecionada na última fase. É importante enfatizar que a quantidade de classificadores candidatos, nos respectivos cenários, é a mesma para todos os métodos explorados nessa tese de doutorado.

Tabela 4 – Conﬁgurações para o método ADS Cenário 1 Cenário 2 Cenário 3

𝑀-𝑁-𝐽 𝑀-𝑁-𝐽 𝑀-𝑁-𝐽

Sub cenário 1 20-8-4 40-12-6 60-15-8 Sub cenário 2 20-10-6 40-20-12 60-30-18 Sub cenário 3 20-12-8 40-30-20 60-45-30

Tabela 5 – Conﬁgurações para métodos baseados no KNORA e em meta-aprendizado Cenário 1 Cenário 2 Cenário 3

𝑀-𝑋-𝐽 𝑀-𝑋-𝐽 𝑀-𝑋-𝐽

Sub cenário 1 20-𝜑-25% 40-𝜑-25% 60-𝜑-25% Sub cenário 2 20-𝜑-50% 40-𝜑-50% 60-𝜑-50% Sub cenário 3 20-𝜑-75% 40-𝜑-75% 60-𝜑-75%

Para os métodos baseados no KNORA e em meta-aprendizado, uma nova abordagem em termos de quantidade de classificadores, foi explorada. Essa abordagem baseia-se em selecionar valores percentuais dos classificadores, conforme a Tabela 5. Ainda na Tabela 5, as três colunas correspondem aos cenários com 20, 40 e 60 classificadores candidatos, que são representados pelo caractere M, o caractere 𝜑 representa a quantidade desconhecida de classificadores selecionada e J à quantidade, em termos percentuais, de classificadores base. É importante enfatizar que essa abordagem não utiliza valores fixos na seleção dos classificadores base em virtude das características dos métodos envolvidos.

Diferentemente dos métodos que selecionam apenas um classificador os demais métodos, explorados nessa tese de doutorado, selecionam um conjunto de classificadores base, onde as medidas de diversidade e similaridade são utilizadas para combinar os classificadores mais diversos e mais similares, conforme as proporções definidas na Tabela 6. De acordo com a Tabela6, são definidas 5 configurações de proporção dos classificadores mais diversos e/ou mais similares no conjunto final. Dessa forma, a primeira linha seleciona apenas os classificadores mais similares, a segunda linha privilegia 75% com os mais similares e 25% com os mais diversos, na terceira linha metade dos classificadores é composto pelos mais diversos e mais similares, na quarta linha a diversidade é priorizada com 75% e por fim a última linha indica que apenas os mais diversos são selecionados. Tabela 6 – Proporção de classificadores escolhidos por medida de diversidade e/ou simila-

ridade Similaridade Diversidade 100% 0% 75% 25% 50% 50% 25% 75% 0% 100%

Dans le document EDP Open (Page 196-200)