Corpuscules de la Physique quantique
1. La dualité ondes-corpuscules
Diversos trabalhos científicos fazem uso de distintas metodologias e técnicas ten- tando aprimorar sistemas de classificação que usam comitês de classificadores. Entre esses trabalhos, pode-se destacar estudos pioneiros como (WOODS; KEGELMEYER; BOWYER,1997), onde os autores utilizam um método de combinação de classificadores que faz uso de acurácia local geral(OLA) baseada em um conjunto de instâncias vizinhas à amostra de teste. Nesse estudo os autores utilizaram quatro bases de dados distintas a fim de melhor analisar o comportamento dos métodos durante a classificação das amostras de teste. Conforme os autores, os comitês obtiveram destaque em termos de acurácia quando comparados com o uso de classificadores individuais.
Em (GIACINTO; ROLI,2001), os autores propuseram a hibridização do método MCB, denominando de DCS-MCB nessa tese de doutorado, onde fazia o uso de seleção dinâmica de classificadores associada à estratégia original(MCB) do método. A ideia básica do método proposto é estimar a acurácia de cada classificador em um subconjunto de amostras mais próximas de uma dada amostra de teste utilizando as informações do cálculo de MCB. Os experimentos foram conduzidos em duas bases de dados Phoneme CR
Satimage CR, onde observou-se que os comitês obtiveram melhores taxas de acurácia que
classificadores individuais, além da versão proposta(DCS-MCB) desempenhar melhores taxas de acurácia que a versão BKS que utiliza MCB. Dessa forma os autores concluem que a versão hibridizada, baseada em seleção dinâmica, produziu melhores taxas de acurácia que as demais versões.
Os autores em (KUNCHEVA; RODRIGUEZ,2007) propuseram uma nova estratégia para seleção de classificadores, denominada oráculo aleatório linear. Nessa estratégia, cada classificador é associado a um par de subclassificadores e a um oráculo(uma função linear) que escolhe um dos subclassificadores. Dessa forma, conforme a amostra de teste, o oráculo decide o subclassificador que será usado para fornecer a saída do comitê. O oráculo linear serve para dividir o problema em dois subproblemas mais fáceis. É importante frisar que os pares de classificadores foram gerados utilizando diferentes estratégias, almejando diversidade. Os resultados obtidos evidenciaram que os métodos que utilizaram o oráculo
linear aleatório obtiveram melhores taxas de acurácia que os que não usaram.
Em (SANTOS; SABOURIN; MAUPIN,2008) os autores propuseram uma nova estratégia dinâmica para superprodução e seleção de classificadores denominada DOCS. Essa estratéria era composta por uma fase de superprodução(onde os classificadores candidatos são criados) e por uma fase de seleção(onde são testados diferentes combinações de classificadores com a finalidade de encontrar um subconjunto ótimo de classificadores base). Conforme a estratégia DOCS, na fase de superprodução os classificadores são gerados pelos métodos de subespaços aleatórios e usando a técnica Bagging. A fase de seleção dos classificadores foi dividida em duas etapas; na primeira etapa duas populações de classificadores são escolhidas a partir de um conjunto de dados de otimização e de um conjunto de validação. O processo de otimização foi feito empregando algoritmos genéticos guiados por cinco funções objetivos(taxa de erro e quatro medidas de diversidade), para gerar uma população de conjuntos candidatos. Na segunda etapa os conjuntos candidatos são selecionados dinamicamente visando encontrar a solução mais adequada à classificar cada amostra de teste. Experimentalmente os autores concluíram que a versão que utilizada um processo dinâmico(DOCS) obteve melhores taxas de acurácia que a versão que utilizava seleção estática(OCS).
Em (KO; SABOURIN; JR, 2008) os autores propuseram uma nova abordagem baseada em seleção dinâmica de classificadores e no conceito de oráculo. A nova estratégia foi denominada KNORA e faz uso de um conjunto de validação para selecionar as instâncias mais próximas da amostra de teste e então estimar a eficiência dos classificadores candidatos para escolher os classificadores base. Em vias práticas, foram propostas duas principais versões: KNORA-ELIMINATE(KNORA-E) e KNORA-UNION(KNORA-U). A versão KNORA-E seleciona os classificadores que acertaram todas as amostras selecionadas do conjunto de validação e a versão KNORA-U os classificadores que acertaram ao menos uma amostra vizinha do conjunto de validação. Também foram propostas duas outras variações que fazem ponderam a distância das amostras de validação no voto dos classificadores base: KNORA-E-W e KNORA-U-W. Foram utilizadas seis bases de dados do repositório UCI (LICHMAN,2013), com variações das seguintes classificadores: K-NN, Panzer windows
classifiers(PWC) e o quadratic discriminant classifiers(QDC). Três técnicas de geração de
diversidade(implícita e explicita) foram aplicadas: Bagging, Boosting e Random Subspace. Os experimentos evidenciaram que as versões propostas obtiveram superioridade em relação às outras abordagens, no então os autores sugeriram que novos estudos fossem realizados.
Em uma tentativa de aprimorar os método KNORA, os autores em (VRIESMANN et al., 2010) propuseram diversas novas versões baseadas no método KNORA, fazendo uso de informações adicionais obtidas dos k vizinhos mais próximos associadas com a saída do KNORA. Baseado nos resultados obtidos experimentalmente, os autores concluíram
que a utilização de informações adicionais melhoraram a eficiência em relação ao KNORA original. Ainda em (VRIESMANN et al., 2010), novas medidas de distância entre as amostras de teste e a sua correspondente região local foram exploradas, concluindo que a escolha da medida de distância não influenciou significativamente o desempenho do KNORA.
Alternativamente ao método KNORA, em (VRIESMANN et al., 2015) os autores propuseram dois novos métodos, denominados DESCOLA E DESLCA. O primeiro mé- todo(DESCOLA) utiliza informações de acurácia local de classe(LCA) e acurácia local geral(OLA) combinadas para selecionar os classificadores base. Já o DESLCA se distingue pelo fato de utilizar apenas a informação de acurácia local de classe(LCA). Conforme os re- sultados experimentais, o método DESCOLA representado por duas variações(DESCOLA- ELIMINATE e DESCOLA-UNION), apresentou melhores taxas de acurácia que o método KNORA e o DS-LA. No entanto os autores sugeriram estudos mais aprofundados utilizando técnicas como Bagging e Boosting para a promoção de diversidade entre os classificadores candidatos.
No estudos (CHIU; VERMA; LI,2013) os autores buscaram investigar se haveria alguma relação entre, quantidade de atributos, instâncias e classes com a diversidade e a acurácia dos classificadores base em comitês de classificadores. Os experimentos foram conduzidos com comitês homogêneos, utilizando apenas redes neurais artificiais com diferentes bases de dados extraídas do repositório UCI (LICHMAN, 2013). As bases de dados foram agrupadas em diferentes conjuntos conforme suas características(quantidade de atributos, classes e instâncias). Para cada conjunto, todos os comitês de classificadores foram experimentados. Os autores observaram que a acurácia e a diversidade decresceu quando os agrupamentos possuíam poucas quantidade de atributos e a diversidade aumentou com conjuntos com maiores quantidades de atributos e classes.
2.2 Medidas de diversidade para geração de comitês
Vários trabalhos na literatura exploram diversas estratégias para aferir a diversidade entre os classificadores de um comitê. Em (TANG; SUGANTHAN; YAO,2006) os autores exploraram seis medidas de diversidade: disagreement, Kohavi-Wolpert, inter-rate, double
fault, diversidade generalizada e medida de dificuldade. A seleção dos classificadores
candidatos foi feita por um algoritmo guloso que buscava selecionar os classificadores mais diversos que minimizem as taxas de erro. Os autores concluíram que tais medidas foram insuficientes para gerar bons comitês quando o erro de classificação é minimizado e a diversidade é maximizada.
Um outro trabalho que também estuda medidas de diversidade em comitês foi realizado em (KUNCHEVA; WHITAKER,2003). Nesse trabalho os autores utilizaram
dez medidas de diversidade em comitês que faziam uso do voto majoritário e concluíram que apenas otimizar as medidas de diversidade não promovia comitês com boas taxas de acurácia.
Em (OLIVEIRA; CANUTO; SOUTO,2009) são empregados algoritmos genéticos para selecionar os classificadores base, otimizando fatores como acurácia e diversidade. Apesar da limitação na quantidade de bases, imposta pelos autores, estes concluem que usar acurácia e diversidade associados produzem resultados mais promissores que usa-los individualmente.
2.3 Diversidade e similaridade em comitês de classificadores
Alguns trabalhos utilizam medidas de diversidade em comitês de classificadores, tais como em (NASCIMENTO et al.,2011) onde os autores avaliaram a acurácia e a diversidade entre os classificadores quando se utilizava de diferentes técnicas de geração de diversidade. Dessa forma, foram utilizados diferentes configurações de parâmetros para geração de diversidade, diferentes bases de treinamento e algoritmos de aprendizado de máquina foram aplicados em ambientes homogêneos e heterogêneos com dez classificadores com cinco bases de dados do repositório UCI (LICHMAN,2013). Utilizou-se uma abordagem evolucionária composta de dois algoritmos para se obter as configurações ótimas. As medidas empregadas para avaliar a diversidade entre os classificadores foram a boa e má diversidade. Os autores concluíram que a utilização de ambientes heterogêneos nos experimentos foram benéficos para melhorar a taxa de acurácia dos comitês, pois obteve-se ganhos em generalização e diversidade entre os classificadores base.
Já em (NETO; CANUTO; LUDERMIR, 2013) os autores utilizaram a boa e má diversidade em favor da busca de algoritmos genéricos para compor comitês de classificadores. Utilizou-se o algoritmo NSGA-II para gerar os classificadores candidatos, otimizando o conjunto de atributos para cada classificador base, fazendo o uso do voto majoritário. Os autores constataram que a otimização do erro de classificação com a má diversidade, ao mesmo tempo, gerou os melhores resultados. É importante ressaltar que os autores sugeriram novos experimentos em ambientes heterogêneos, além de uso de outras técnicas de otimização e outras meta-heurísticas.
No trabalho (SANTANA et al., 2006), foi proposto um método de seleção dinâmica de classificadores baseados em acurácia e diversidade. Os autores propuseram duas estraté- gias baseadas em um algoritmo de agrupamento e outra baseada nas k amostras vizinhas de um padrão de teste. A primeira abordagem proposta, utilizou o algoritmo k-means para criar grupos no conjunto de validação, onde em cada agrupamento os classificadores são ordenados de forma crescente em termos de acurácia e em ordem decrescente de diversi- dade(utilizando a medida double fault). Cada amostra de teste é associada ao agrupamento
do conjunto de validação mais próximo, onde são escolhidos os N classificadores mais acurados conforme foram ordenados e destes selecionados, são escolhidos os J classificado- res mais diversos(conforme a ordem dos classificadores com relação a diversidade). Após escolhidos os classificadores base, utiliza-se o método de combinação voto majoritário. Ainda em (SANTANA et al., 2006), uma segunda abordagem baseada no conceito de vizinhança entre a amostra de teste e o conjunto de validação. Dessa forma, a partir de um subconjunto de validação, os classificadores são colocados em ordem crescente de acurácia e em ordem decrescente de diversidade e então selecionados os N classificadores mais acurados e destes os J mais diversos para então classificar a amostra de teste. Além das duas versões propostas, os autores replicaram um método baseado em seleção estática e um outro método de seleção dinâmica onde apenas um classificador base é selecionado. Os experimentos foram conduzidos em um ambiente heterogêneo de classificadores, composto por redes neurais artificiais, JRIP, redes de função de base radial, máquinas de vetor de suporte e classificadores bayesianos Naive. Os resultados experimentais foram bastante promissores para os métodos propostos, com destaque aos dois métodos que combinavam acurácia com diversidade. De forma a ampliar o trabalho, uma nova investigação foi realizada em (FILHO; CANUTO; XAVIER,2015).
Nos experimentos conduzidos em (FILHO; CANUTO; XAVIER, 2015), foram explorados os dois métodos propostos em (SANTANA et al., 2006) que faziam uso de acurácia e diversidade para seleção dos classificadores base. No entanto os autores utilizaram mais medidas diversidade: double fault, q-statistic, boa e má diversidade. Os experimentos foram realizados em um ambiente heterogêneo de classificadores, experimentando em 14 bases de dados oriundas do repositório UCI (LICHMAN, 2013). Para uma melhor investigação dos métodos, os autores abordaram diferentes configurações de quantidade de classificadores candidatos e de classificadores base. Os resultados obtidos apontaram uma relação positiva entre a quantidade de classificadores candidatos e a acurácia dos comitês. A escolha da medida de diversidade pode afetar o desempenho do comitê, exceto para as medidas boa e q-statistic. Por fim, os autores sugeriram trabalhos futuros que explorem mais medidas de diversidade e configurações com mais classificadores com outros métodos baseados em seleção dinâmica.
Recentemente em (FILHO; CANUTO; SANTIAGO,2018) foram realizados estudos acerca de medidas de proximidade(medidas de diversidade e ambiguidade) em comitês de classificadores baseados em seleção dinâmica. 20 bases oriundas do repositório UCI (LICHMAN,2013) foram utilizadas para experimentar 15 métodos. Destes, 12 métodos faziam uso de medidas de diversidade ou medidas de similaridade, com outras estratégias de seleção. Dessa forma os autores concluíram que combinar medidas de diversidade ou similaridade com as estratégias originais dos métodos foram benéficas em termos de acurácia, com destaque às medidas de diversidade. Também foi feita uma comparação dos métodos propostos com os métodos do estado da arte, destacando o método baseados em