CHAPITRE III Construction et évaluation de nouvelles structures
V. E Comparaison de cette structure avec d’autres onduleurs multiniveaux
Em Biologia, o conceito de novidade é associado aos mecanismos de sobrevivência de animais e reconhecimento de perigos (Middleton, 1996). Em Economia, novidade tem sido relacionada com a determinação de preços de bens de consumo e o surgimento de nichos de mercado especializados (Bertarelli & Censolo, 2000). Em Psicologia, determina-se a magni- tude de novidades para a caracterização de comportamentos criativos (Kaufmann, 2004). De modo geral, essa diversidade de conceitos relacionados a novidades é resultado da necessidade de reconhecer e adaptar-se a mudanças.
Em Computação e Estatística, essa necessidade é demonstrada por meio do desenvol- vimento de técnicas de Aprendizado de Máquina que visam se adaptar a variações comporta- mentais observadas em fenômenos. Nesse contexto, novidades referem-se à identificação de informações inesperadas, raras ou desconhecidas segundo um modelo referência de conheci- mento.
Técnicas de detecção de novidades em Aprendizado de Máquina são utilizadas em um amplo espectro de aplicações, tais como diagnóstico de doenças (Middleton, 1996), identifica- ção de variações de tendências climáticas (Lau & Weng, 1995; Hasselmann, 1997; Luterbacher et al., 2004) e detecção de falhas em discos rígidos (Hughes et al., 2002). Essas aplicações apresentam particularidades que regem o desenvolvimento de técnicas especializadas. Dentre tais particularidades, estão a necessidade por aprendizado contínuo, esquecimento ou predição. A heterogeneidade de aplicações originou várias nomenclaturas para o termo novidade, tais como: anomalia, falha, desvio abrupto, ruído, outlier e exceção (Hodge & Austin, 2004).
Essa variabilidade de áreas e termos motiva pesquisadores a realizar levantamentos de trabalhos relacionados visando o mapeamento, comparação de técnicas e identificação das atuais tendências de desenvolvimento. Por meio desses levantamentos, áreas aparentemente distintas podem ser relacionadas, contribuindo para o intercâmbio de técnicas e conceitos.
3.2. Conceitos e técnicas 31
Figura 3.1: Árvore de classificação de técnicas proposta por Singh & Markou (2005)
Um dos primeiros levantamentos realizados sobre detecção de novidades foi o trabalho de Willsky (1976), focado na área de detecção de falhas em sistemas dinâmicos lineares. Para Willsky, a detecção de falhas é composta por três tarefas: alarme, isolamento e estimação. Nesse contexto, a tarefa de alarme consiste em saber se houve alguma falha. O problema de isolamento consiste em determinar o tipo e a origem da falha. A estimação envolve identificar a extensão do problema no sistema (se a fonte de falha não está operante ou está sob algum tipo de dano). A tarefa de alarme de Willsky é uma atividade de detecção de novidades. Essa tarefa é realizada por meio da verificação de consistência de estimativas de parâmetros em modelos do sistema.
Enquanto Willsky dedicou-se a questões específicas de detecção em sistemas dinâ- micos lineares, outros levantamentos mais recentes, como o realizado por Markou & Singh (2003), envolvem uma gama mais ampla de aplicações e técnicas. Nesse levantamento, téc- nicas são classificadas, conforme apresentado na Figura 3.1, segundo os paradigmas baseados em redes neurais artificiais e abordagens estatísticas. Entre as redes neurais encontram-se Multi-Layer Perceptron (MLP), Support-Vector Machine (SVM), Adaptive Resonance Theory (ART), Radial Basis Function Network (RBF), rede neural artificial de Hopfield, Self-Organizing Map (SOM), auto-associadores (e.g., MLP, Principal Component Analysis, SOM), baseada em habituação (e.g., Grow When Required - GWR), Árvores Neurais (Neural Tree) e redes oscilatórias. As técnicas estatísticas incluem métodos probabilísticos, testes de hipóteses, modelos de Markov com estados escondidos (Hidden Markov Models - HMM), K-Nearest Neighbors (KNN), janelas de Parzen, abordagens de agrupamento e de casamento de cadeias (do inglês, string matching), tais como as utilizadas em sistemas imunológicos artificiais.
32 Capítulo 3. Caracterização de Variação de Comportamento em Fluxos de Dados zadas sem analisar as características de construção do modelo de conhecimento. Hodge & Austin (2004), sob a nomenclatura de detecção de outliers, identificaram três abordagens com diferentes paradigmas de aprendizado aplicadas na construção de modelos de conhecimento para detecção de novidades. A primeira é baseada em aprendizado não supervisionado e utiliza dados normais e novidades sem prévia rotulação. A segunda utiliza uma abordagem supervisionada baseada na classificação de dados previamente conhecidos e rotulados. A ter- ceira é realizada por meio de aprendizado semisupervisionado, utilizando apenas informações identificadas como normais.
Os trabalhos de Markou & Singh (2003) e Hodge & Austin (2004) avaliaram e clas- sificaram técnicas de detecção de novidades sob o enfoque das abordagens utilizadas. Entre- tanto, a linha de desenvolvimento de tais técnicas advém dos requisitos impostos pelas apli- cações. Atualmente, um dos principais requisitos é resultante das aplicações que necessitam detectar novidades em sequências de dados (Al-Subaie & Zulkernine, 2006). Tais requisitos distinguem-se pela modelagem explícita e detecção de variações de relações de causa e efeito que são denominadas nesta tese de novidades temporais.
Considerando a distinção entre as abordagens propostas para novidades temporais e as somente voltadas para aplicações não temporais, i.e., com novidades não temporais, propõe-se, em função dos trabalhos estudados, a hierarquia de classificação apresentada na Figura 3.2. Nessa hierarquia, abordagens que consideram novidades não temporais, represen- tadas pelo Ramo 2a, são aquelas que apresentam definições de novidades sem representação explícita de causa e efeito entre dados. Elas são divididas em dois subgrupos segundo os conceitos aplicados: as abordagens estatísticas (Ramo 3a), e métodos de agrupamento e classificação (Ramo 3b).
Figura 3.2: Árvore hierárquica de detecção de novidades em Aprendizado de Máquina As abordagens do subgrupo Estatísticas são divididas na forma: aplicações de concei- tos de Teoria da Informação (Ramo 4a), teoremas de Teoria de Valores Extremos (Ramo 4b), técnicas baseadas em testes de hipóteses de inferência estatística (Ramo 4c) e modela- gem por meio de distribuições de probabilidades (Ramo 4d). O Ramo 4a, i.e., Teoria da Informação, refere-se a conjuntos de conceitos e teoremas voltados para analisar a geração
3.2. Conceitos e técnicas 33 de informações. Shannon (1948) definiu entropia como a quantidade média de informação de uma fonte aleatória de dados e self-information como a medida de informação de cada possível evento gerado por essa fonte. O conceito de self-information foi considerado por Tribus (1961) para quantificar níveis de surpresas. Uma aplicação dos conceitos de entropia foi proposta por Itti & Baldi (2005), que avaliaram e compararam a entropia de quadros consecutivos de vídeos à surpresa que tais imagens geravam em humanos, visando estabelecer uma relação entre surpresa e entropia. Nesse trabalho, identificou-se que as áreas mais observadas por humanos coincidem com aquelas de maior entropia.
O Ramo 4b, i.e., Teoria de Valores Extremos (Roberts, 1999), contém abordagens baseadas em teoremas para a representação de distribuições assintóticas de funções de probabi- lidades, ou seja, das regiões extremas em que novidades são geralmente originadas. De acordo com o teorema de Fisher & Tippett (1928), funções que respeitem condições relativamente genéricas têm distribuições assintóticas de apenas três tipos: de Gumbel, de Fréchet ou de Weibull. Roberts (1999) utiliza esse teorema para aplicações com regiões extremas na forma da distribuição de Gumbel. Ele aplica um método de aproximação por meio de mistura de gaussianas sobre dois conjuntos de dados: o primeiro contendo informações sobre epilepsia e, o segundo, ruídos em imagens. Bensalah (2000) utiliza conceitos de Teoria de Valores Extremos para obter informações sobre riscos em aplicações financeiras.
O Ramo 4c, i.e., testes de hipóteses de inferência estatística, considera conceitos voltados para avaliar a consistência de estimação de parâmetros de modelos. Exemplos de técnicas que utilizam tal abordagem são encontrados no levantamento bibliográfico de Willsky (1976) que cita a utilização de testes de hipótese Qui-quadrado para verificar a consistên- cia de parâmetros estimados em modelos de sistemas eletrônicos. Outro exemplo de apli- cação é encontrado em Hughes et al. (2002), o qual utiliza o teste de hipótese Wilcoxon Rank-Sum (Wilcoxon, 1945; Mann & Whitney, 1947) com o objetivo de reduzir a taxa de alar- mes falsos de um sistema de diagnóstico e predição de falhas em discos rígidos, denominado Self-Monitoring, Analysis and Reporting Technology (SMART). O teste utilizado avalia se dois conjuntos amostrais foram obtidos a partir da mesma função de distribuição de probabilidades. Outros métodos baseados em testes de hipóteses podem ser encontrados no livro de tratamento estatístico de outliers de Barnett & Lewis (1994).
O Ramo 4d, i.e., modelagem por meio de distribuições de probabilidades, refere-se a técnicas para construção de modelos de representação de informações por meio de funções de distribuição de probabilidades. Um exemplo de abordagem desse tipo foi proposto por Bishop (1995), o qual detecta novidades estimando a densidade de dados de entrada e rotulando informações identificadas em áreas de baixa probabilidade. A mesma abordagem foi aplicada por Tarassenko et al. (1999) com o objetivo de detectar regiões cancerígenas em mamogramas e por Lauer (2001), a partir de um método similar, sobre um conjunto de dados de diagnóstico médico, denominado BIOMED, com o objetivo de identificar portadores de uma rara desordem
34 Capítulo 3. Caracterização de Variação de Comportamento em Fluxos de Dados genética.
O segundo subgrupo do ramo de técnicas sem novidades temporais reúne métodos baseados em agrupamento e classificação (Ramo 3b). Esses métodos apresentam duas abor- dagens distintas e podem atuar por meio da classe de identificação ou pela aplicação de medidas de avaliação.
As abordagens que utilizam a classe de identificação utilizam supervisão para definir a diferença entre elementos normais e novidades. Um exemplo é o trabalho de Rosen et al. (1996), que adota uma rede neural artificial multi-layer perceptron para identificar tendências anormais em batimentos cardíacos de fetos (cardiotocografia). De maneira similar, Spinosa & de Carvalho (2005) utilizam a técnica de classificação binária Support Vector Machine (SVM), baseada na Teoria de Aprendizado Estatístico de Vapnik (1995), para detectar novidades nos conjuntos de dados de bioinformática ALL-AML Leukemia (Golub et al., 1999) e Diffuse Large B-cell Lymphoma (DLBLC) (Alizadeh et al., 2000). Adotando os mesmos conceitos, Flexer et al. (2005) aplicam detecção de novidades para recuperar músicas por meio da simila- ridade de espectro e rotulação de estilos. Nesse trabalho, dois minutos centrais de cada música são avaliados e novidades são detectadas utilizando dois algoritmos. O primeiro, denominado Ratio-reject, utiliza uma distribuição de densidade de dados, obtida na fase de treinamento, para classificação. O segundo algoritmo, denominado KNN-reject, define uma vizinhança durante o treinamento, a qual é utilizada para classificar dados conhecidos ou novidades.
Por outro lado, abordagens do Ramo 3b, que utilizam medidas de avaliação, conside- ram a instabilidade de algoritmos de classificação para detectar novidades. Com esse objetivo, Ypma & Duin (1997) utilizam a rede auto-organizável Self-Organizing Maps de Kohonen (1997) adotando diferentes parâmetros de aprendizado. Avalia-se cada mapa criado por meio de métricas de qualidade de representação como, por exemplo, distância dos dois neurônios com maior ativação no mapa. Experimentos indicam que conjuntos de dados com anomalias geram valores de erro de classificação maiores que conjuntos normais. Em uma abordagem similar, Tax & Duin (1998) propõem a utilização de um método de amostragem aleatória, com reposição, em que são criados novos conjuntos do mesmo tamanho do conjunto de dados original. Cada novo conjunto é classificado e as diferenças nos resultados de classificação são utilizadas para definir anormalidades. Segundo os autores, uma novidade causa instabilidade nos resultados de classificação.
No lado direito da hierarquia da Figura 3.2 estão técnicas baseadas em novidades temporais (Ramo 2b), que modelam explicitamente o comportamento de dados para a detec- ção de variações em relações de causa e efeito entre dados. Técnicas que detectam esse tipo de novidade são classificadas em: medidas de expectativa (Ramo 3c) e índices de adaptação (Ramo 3d).
3.3. Considerações finais 35