CHAPITRE III Construction et évaluation de nouvelles structures
V. D.4 Résultats de Simulation sur la Structure à Partage de Composants
Com o objetivo de prover uma perspectiva formal para a compreensão de algoritmos de agrupamento de fluxos de dados, assim como foi realizado por Kleinberg (2002), uma definição formal do problema foi proposta por meio de um arcabouço teórico baseado em propriedades e conceitos de Teoria dos Conjuntos.
O uso de propriedades básicas para a análise de algoritmos de agrupamento é inci- piente. Porém, elas estabelecem condições básicas, as quais provêm ferramentas úteis para a compreensão aprofundada de problemas (Ben-David & Ackerman, 2009). O estudo de agrupamento de fluxos de dados a partir de propriedades básicas permite a compreensão de princípios teóricos de algoritmos (Ben-David & Ackerman, 2009) e o projeto e a seleção de algoritmos por meio da escolha de propriedades levando em conta fatores utilitários e econômicos inerentes ao domínio da aplicação (Antzoulatos & Vrahatis, 2011).
Especula-se que, no futuro, essa formalização deva permitir o acúmulo de conheci- mento genérico o suficiente sobre o problema de agrupamento e auxilie na composição de uma Teoria de Agrupamento em busca da unificação da literatura atual (Meila, 2005; Antzoulatos & Vrahatis, 2011).
As propriedades propostas na Seção 2.4 são as primeiras que representam as carac- terísticas inerentes a fluxos de dados. Essas propriedades são: Propriedade 4, Invariância Espaço-temporal; Propriedade 5, Completude em Fluxos de Dados; Propriedade 6, Con- sistência Temporal; e Propriedade 7, Coerência. A partir dessas propriedades, é possível realizar uma comparação dos algoritmos de agrupamento de fluxos de dados atualmente mais relevantes. A comparação é resumida4 na Tabela 2.2, na qual foram selecionados algorit-
26 Capítulo 2. Agrupamento de Fluxos de Dados
mos que apresentam características marcantes: BIRCH (Zhang et al., 1996), WAVECLUSTER (Sheikholeslami et al., 1998), CLUSTREAM(Aggarwal et al., 2003), OLINDDA(Spinosa et al., 2007) e Starvation WTA(Young et al., 2010).
Tabela 2.2: Avaliação das propriedades de algoritmos de agrupamento de fluxos de dados
Algoritmo Invariância Completude Consistência Coerência
BIRCH(1996) N N N N
WaveCluster (1998) N N — N
CluStream (2003) N N N N
OLINDDA(2007) S N N N
WTA(2010) S N S S
Usualmente, para verificar se algoritmos respeitam tais propriedades, pode-se provar um teorema ou apresentar um contraexemplo. Contudo, em alguns casos não é possível reali- zar nenhuma das duas opções. Contudo, existem outras opções para verificar se um algoritmo respeita uma dada propriedade. Por exemplo, sabe-se que, caso o algoritmo limite o número de grupos, então ele não respeita a propriedade de Completude (Kleinberg, 2002). Também se sabe que um algoritmo não respeita a Propriedade 4, i.e., Invariância Espaço-temporal, caso utilize um limiar de aceitação de elementos em grupos. Isso porque, para qualquer limiar de aceitação estabelecido, existe uma constante para mudança de escala dos dados que fará com que elementos mudem de grupos. Um algoritmo também não respeita a Propriedade 4 e a Propriedade 7, i.e., Coerência, caso não considere a ordem dos dados para agrupamento.
Uma outra opção para esse tipo de análise é utilizar as provas previamente estabeleci- das para algoritmos tradicionais como K-médias e algoritmos hierárquicos Single-linkage em algoritmos que utilizam microagrupamento para identificar o atendimento às propriedades de fluxos de dados (Aggarwal et al., 2003; Zhang et al., 1996). Portanto, algoritmos que utilizam K-médias não respeitam a Propriedade 7, pois, apesar da inserção de um elemento em um microagrupamento poder causar apenas uma junção ou separação de grupos, a utilização do algoritmo K-médias para obtenção de agrupamento não garante sua continuidade.
2.6 Considerações finais
Neste capítulo, introduziu-se o problema de agrupamento de fluxos de dados de ma- neira formal utilizando elementos da Teoria dos Conjuntos. Essa formalização, proposta nesta tese, apresenta propriedades para algoritmos de agrupamento de fluxos de dados, as quais foram utilizadas para analisá-los. A partir dessa análise, pôde-se verificar que, atualmente, algoritmos de agrupamento não estão preparados para a adaptação automática de viés indutivo por meio de parâmetros de acordo com variações de comportamento presentes em fluxos de dados. Para isso seria necessário que esses algoritmos respeitassem a Propriedade de
2.6. Considerações finais 27 Coerência, com o objetivo de garantir a correta avaliação da variação de comportamento entre partições consecutivas. Vale ressaltar a importância de formalizações tal como a proposta para auxiliar no acúmulo de conhecimento, possibilitar a análise comparativa da literatura atual e orientar o projeto e desenvolvimento de novos algoritmos dedicados à compreensão de fenômenos complexos (Meila, 2005; Antzoulatos & Vrahatis, 2011).
C
APÍTULO3
Caracterização de Variação de
Comportamento em Fluxos de Dados
3.1 Considerações iniciais
Pesquisas atuais em agrupamento de fluxos de dados têm se concentrado em prover algoritmos cuja execução apresente baixa complexidade de tempo e espaço (Xu & Wunsch, 2005). Essas pesquisas assumem a observação de fenômenos razoavelmente estáveis, a partir dos quais, caso o processo indutivo inicial seja bem projetado, agrupamentos serão incremen- talmente construídos e a qualidade de suas hipóteses aumentarão em função da coleta de mais dados, ou seja, mais evidências que confirmam, refinam ou refutam as hipóteses.
A premissa de estabilidade não é adequada para o agrupamento de diversos fluxos de dados, durante o qual é possível que ocorram variações comportamentais do fenômeno em estudo. No início do processo de agrupamento, assim como em outros processos indutivos, essas características são estudadas para definir as premissas de funcionamento para o projeto de algoritmos, ou seja, o viés indutivo (Kifer et al., 2004; Pavlidis et al., 2011).
A variação de comportamento de fluxos de dados é a característica mais desafiadora para o projeto desses algoritmos pois prejudica o bom funcionamento da indução ao longo
30 Capítulo 3. Caracterização de Variação de Comportamento em Fluxos de Dados da coleta de dados. Em Aprendizado de Máquina, a tarefa de identificar variações comporta- mentais é conhecida como detecção de novidades (Markou & Singh, 2003). Dessa maneira, técnicas de detecção de novidades podem ser utilizadas para avaliar e adaptar o viés indutivo de algoritmos de agrupamento em função de comportamentos presentes nos dados.
A seguir, este capítulo apresenta conceitos e técnicas de caracterização de comporta- mento e detecção de novidades, de acordo com o objetivo estabelecido para esta tese. Observa-se a utilização desses conceitos em diversas áreas, tais como Psicologia (Kaufmann, 2004), Biologia (Middleton, 1996), Medicina (Bardo et al., 1996) e Economia (Bertarelli & Censolo, 2000). Esses conceitos e técnicas foram organizados, conforme requisitos de aplicações, em uma hierarquia apresentada por Albertini & Mello (2008).