A característica dos sistemas sensoriais humanos de apresentar receptores organizados espaci- almente, tais como na retina ou na pele, que preservam a topografia destas organizações quando mapeados no sistema nervoso central ao se ligarem a estes via nervos óticos ou sensoriais (Kan- del et al., 1995), inspirou a criação dos mapas auto-organizáveis, ou mapas de preservação de topologia. O SOM (Kohonen, 1987) pode ser considerado um dos modelos pioneiros no campo das redes neurais artificiais (RNA) com característica de treinamento não-supervisiona- do visando agrupamento topológico dos sinais de entrada. Apesar do SOM ser normalmente tido como um dos primeiros trabalhos nesta área, os modelos de mapas topográficos foram originalmente propostos porWillshaw & von der Malsburg(1976) eGrossberg(1976), para a explicação de formações de mapas topológicos no cérebro.
Tais redes são normalmente utilizadas para agrupar massas de dados, deixando que a pró- pria análise dos dados gere as categorias relevantes. Outras aplicações desta rede incluem o descobrimento de regularidades na massa de dados, o levantamento de correlações, a procura por características comuns ou estatisticamente relevantes, problemas de reconhecimento de padrões, análise de textos e/ou imagens, análise de dados financeiros, processos de monitora- mento e controle.
Kohonen(1987) aponta que uma das propriedades comuns ao cérebro que foram ignoradas pelas máquinas de aprendizado é a ordem que surge nas unidades de processamento (neurô- nios). Essa ordem é necessária para a correta representação topológica dos dados de entrada, e é obtida por um algoritmo relativamente simples.
“Although a part of such ordering in the brain were determined genetically, it will be intriguing to learn that an almost optimal spatial order, in relation to signal statistics, can completely be determined in simple self-organizing process under the control of received information1.” —KOHONEN (1987)
Kohonen ainda levanta o tema da plausibilidade biológica, com as propriedades de:
• Representação e processamento analógico da informação (que permite qualquer grau de assincronismo dos processos em computação massivamente paralela sem problemas de “interlock”);
• Habilidade de aproximar funções condicionalmente sobre um conjunto de dados (opera- ções estatísticas);
• Tolerância à falhas, degradação suave e recuperação de erros;
• Adaptação a um ambiente em mudança (dinâmico) e a emergência de funções de proces- samento de informação inteligentes, por auto-organização, em resposta aos dados. Além de duas suposições básicas biologicamente plausíveis do modelo de von der Mals- burg: (1) Uma unidade ativada deve também ativar suas unidades vizinhas fisicamente próxi- mas. (2) O reforço entre as conexões deve ser feito de acordo com regras semelhantes às regras de aprendizado Hebbiano.
Pode-se usar uma rede com estas características quando não se tem informações disponíveis para a saída desejada, caso em que passa a ser tarefa da rede descobrir tal saída.
Para que a rede tenha sucesso, é necessário que os dados de entrada possuam redundân- cia de informação entre as suas características que estão de alguma forma representadas. Na Figura (3.4) (a) vê-se um esquema de SOM e suas respectivas interligações entre os nodos, tam- bém chamados de células, neurônios ou unidades de processamento. A Figura (3.4) (b) enfatiza o vetor de pesos que será treinada de modo a representar o espaço dos dados de entrada.
1Apesar de que parte desta ordem (dos neurônios) no cérebro serem determinadas geneticamente, será intri-
gante aprender que uma ordem espacial quase ótima, em relação às estatísticas do sinal, podem ser completamente determinadas em um simples processo auto-organizável sob o controle das informações recebidas.
Figura 3.4 SOM: (a) Arquitetura de uma rede 2D. (b) Vetor de pesos. (c) Exemplo de grupos formados após a convergência da rede.
Na sua forma original mais comum, o SOM é um mapa bidimensional e retangular (Koho- nen, 1987, p. 119). Esta geometria foi alterada de várias formas nos anos seguintes, com a intenção de diminuir o efeito causado pelo fato de que os nodos das bordas possuem menos vizinhos para compartilhar suas informações. Apesar de algumas melhorias neste quesito, isto definitivamente não é o maior problema destas redes.
3.2.1 Algoritmo O algoritmo do SOM pode ser assim apresentado:
1. Inicialize a rede com pesos aleatórios, próximos de zero, tais que wi é o vetor de pesos
das conexões entre a entrada e o nodo i.
2. Inicialize a função de vizinhança, N (i), para a maior vizinhança. 3. Apresente um padrão ξξξ =
h
ξ1 ξ2 . . . ξD
iT
∈ RD, onde ξj é a entrada j no nodo i. 4. Calcule a distância Euclidiana Dist(ξξξ , wi) entre a entrada ξξξ e o vetor de pesos de cada
um dos nodos, dada pela equação:
Dist(ξξξ , wi) = ||wi− ξξξ ||, ∀i = 1, . . . , n (3.5)
5. Chame de s1o nodo que possui a menor distância Dist(ξξξ , ws1), i.é., o nodo vencedor.
6. Atualize o vetor de pesos para cada nodo i pertencente à vizinhança N (s1), segundo a equação:
wi= wi+ ε · (ξξξ − wi) (3.6)
7. Diminua a vizinhança de N (s1) segundo algum critério.
8. Repita a partir do Passo2até que se atinja um critério de parada.
Cabe lembrar que a função vizinhança N (s1) contém os nodos vizinhos do nodo vencedor, que também terão seus pesos atualizados (com menor proporção) na direção do padrão atual de entrada. A função vizinhança é a responsável pelo ordenamento dos nodos que tendem a res- ponder para um mesmo padrão de entrada, ou para padrões de entrada similares. É necessário que esta função tenda a zero para assegurar a convergência do método.
3.2.2 Exemplo
No exemplo da Figura (3.5) (a), um mapa auto-organizável de Kohonen, com estrutura inicial bidimensional, retangular, acha uma configuração que distorce sua grade inicial para uma nova disposição que minimiza o erro de resposta de cada unidade.
Pode-se notar nestes exemplos que, devido às característica da massa de dados (descontínua e não-convexa), o mapa de Kohonen não consegue distribuir adequadamente suas unidades tais que fiquem dispostas somente nos pontos de probabilidade2não-nula. A Figura3.5 (a) mostra o problema que ocorre quando existem áreas descontínuas na massa de dados.
Mesmo em áreas contínuas, como o caso da Figura (3.5) (b), há vetores que permanecem fora da função de distribuição de probabilidade devido à existência de regiões não-convexas.
Villmann et al. (1997) considera que manter as conexões dentro das áreas de probabilidade não-nula é essencial para a preservação da topologia. A preservação da topologia em um mapa topológico A depende da propriedade de que dados de entrada M sejam similares em A e dados mapeados em A refiram-se a apenas entradas similares em M . Desta forma, as conexões 2Na Figura (3.5) (a), a área sombreada, e em (b) a área delimitada, representam o espaço em que há probabili-
(a) (b)
Figura 3.5 (a) Exemplo do treinamento do Mapa de Kohonen após 10000 iterações, com um mapa retangular composto por 100 nodos (Fritzke,1997a). (b) Exemplo de distribuição de vetores peso para uma função de densidade estruturada em forma de cacto (Kohonen,1987, p. 137).
que estão externas à área delimitada no exemplo criam vizinhanças inexistentes, diminuindo o grau de preservação de topologia do mapa em questão.
3.2.3 Limitações do SOM
Apesar do SOM ser considerado um avanço nos modelos da época e ser referência para a grande maioria dos modelos auto-organizados que lhe sucederam, o SOM original possui algumas limitações que devem ser consideradas.
Levando-se em conta que o mapa deve ter sua estrutura inicial definida, o primeiro problema que surge é determinar qual o número de nodos necessários para representar a massa de dados que será apresentada à rede. Pode-se definir uma função de erro que mede a distância entre o vetor de pesos e o vetor de entrada para que se tenha uma forma de avaliar se determinado mapa está representando bem os dados de entrada. Existem várias funções de erro que se prestam a esse papel na literatura, entre as quais a mais famosa é a função de erro quadrático.
Outro problema de natureza estrutural surge quando se tem que escolher que tipo de repre- sentação geométrica o mapa deverá apresentar. Para que represente bem os padrões de entrada, a topologia do SOM deve ser semelhante ao espaço de entradas (Martinetz et al.,1993). De-
terminar o tipo de mapa sem informações prévias relativas aos padrões de entrada só pode ser feito através de métodos de tentativa e erro, ou como sugere a literatura (Haykin, 1994, p. 449), utilizar uma representação geométrica padrão considerada boa para determinado do- mínio abordado. A representação geométrica também inclui a dimensão do SOM original que utiliza arranjos uni ou bidimensionais (Kohonen, 1987, p. 119) para reduzir a dimensão do espaço de entradas. Tais arranjos não são sempre adequados pois cada problema de domínios diferentes requer configurações específicas diferentes.
A capacidade da rede de Kohonen de reduzir a dimensão de um conjunto de dados para uma, duas ou três dimensões pode ser considerada uma vantagem, em problemas como análise de componentes principais. Para outros problemas, no entanto, não necessariamente se deseja reduzir a dimensão, mas talvez criar uma representação fidedigna do espaço de padrões de entrada. Ainda pode se desejar reduzir a dimensionalidade para um menor grau e representá-la o melhor possível dentro da capacidade da nova dimensão.
Como se viu na Figura (3.5), o SOM ainda apresenta defeitos topológicos quando a geome- tria do mapa SOM escolhido não é adequada para mapear o espaço de entradas, e normalmente tal geometria não é conhecida a priori para se minimizar este problema. Os defeitos topoló- gicos surgem quando nodos ou conexões do mapa criado não cumprem sua função de mapear apenas sinais de entradas similares no espaço de entrada, e vice-versa (Villmann et al.,1997).
Além disso, o SOM original não lida com padrões de entrada dispostos no tempo, ou seja, padrões que se diferenciam apenas quando se considera a ordem em que são apresentados, ou para levantar um problema ainda mais complexo, pode-se considerar que é importante o intervalo de tempo entre as apresentações de cada padrão de entrada, além de sua ordem.
Um outro problema do SOM original compreende o vetor de pesos que é definido para representar o espaço de entradas. O vetor de pesos é considerado um conjunto homogêneo de informação, e por isso pode ser operado como um todo através de cálculos de similaridade como a distância Euclidiana, além de ter sua posição modificada por taxas de aprendizado. Um sistema cuja descrição dos seus estados seja composta por informações de diferentes categorias (heterogêneas) pode ter tais descrições deformadas quando o vetor é operado desta forma.
Outra característica a ser abordada de modo a melhorar o modelo SOM é o papel das suas conexões. As conexões no modelo SOM não são definidas dinamicamente, são pré- determinadas pela geometria do modelo. Estas conexões ligam pretensos vizinhos “topoló- gicos” desde o início do treinamento, quando o mapa ainda não se desdobrou, e portanto o significado das conexões depende da movimentação dos nodos para posições similares. Se há distanciamento de determinados nodos conectados, suas conexões deixam de representar a vizinhança dada por similaridade topológica. Como não são criadas, as conexões não podem
representar qualquer tipo de ordem na apresentação dos padrões de entrada.
Cada um desses problemas foi atacado de diversas formas por muitos algoritmos que sur- giram inspirados nos mapas auto-organizados de Kohonen. Esse é sem dúvidas um mérito do SOM, de ter injetado ânimo em um campo de pesquisa inteiro que dele se derivou (Koho- nen,1987;Russel & Norvig,2002;Debrun,1996;Fahlman & Lebiere,1990;Benante,2001a;
Fritzke,1997a;Marsland et al., 2002;Walter & Schulten,1993;Sanguineti & Morasso,1992;
Martinetz et al.,1991).
Os métodos que serão vistos nas próximas seções apresentam melhorias em relação ao SOM, e estão dispostos em uma ordem que mostra essa evolução.