No reconhecimento de padr˜oes, um dos grandes desafios ´e a reduc¸˜ao de dimens˜oes de classes multivariadas (DUDA; HART; STORK, 2001). Conhecido tamb´em como a maldic¸˜ao da dimensionalidade (curse of dimensionality), este termo, introduzido por Bellman em 1961, refere-se aos problemas computacionais que ocorrem em an´alise de dados multivariados quando a dimens˜ao do problema cresce. Ao observar caracter´ısticas de classes que se deseja classificar,
50
normalmente v´arias caracter´ısticas acabam se sobrepondo, dificultando o processo de separac¸˜ao e a respectiva classificac¸˜ao de elementos. Para melhorar a classificac¸˜ao, extraem-se novas caracter´ısticas n˜ao correlacionadas para aumentar a separabilidade destas classes. Os seres- humanos conseguem classificar facilmente trajet´orias e grupos de uma, duas ou trˆes dimens˜oes, mas esta capacidade se degrada facilmente para ordens maiores que quatro. Para tanto faz- se necess´ario uma ferramenta que diminua significativamente o n´umero de dimens˜oes de um problema para algo manipul´avel.
O objetivo da An´alise de Discriminante Linear (Linear Discriminant Analysis - LDA) ´e reduzir a dimensionalidade de um conjunto de dados multivariado, preservando o m´aximo poss´ıvel a informac¸˜ao discriminat´oria das classes (FISHER, 1936; MARTINEZ; KAK, 2001). O LDA, a partir de um espac¸o de dados multidimensional contendo C classes, rotaciona esse espac¸o determinando uma projec¸˜ao com C − 1 dimens˜oes. A projec¸˜ao determinada ser´a a que apresenta a melhor separabilidade entre as classes.
Um exemplo da an´alise de discriminante linear pode ser visto na figura 17, onde na figura 17(a) s˜ao apresentadas as classes de vari´aveis X1 e X2 com duas caracter´ısticas
mensur´aveis pelos eixos D1 e D2. Como apresentado na figura 17(a), as projec¸˜oes das classes
de vari´aveis nos eixos D1 e D2 se sobrep˜oem em ambos os eixos, n˜ao permitindo a separac¸˜ao
das duas classes atrav´es de um limiar de detecc¸˜ao. O LDA, com base na quantidade de classes (C = 2) e nas caracter´ısticas de cada classe, determinar´a uma nova projec¸˜ao contendo C − 1 dimens˜oes. O resultado do LDA para o exemplo apresentado ser´a unidimensional, representado por um ´unico eixo. O novo eixo determinado pelo LDA, DLDA, pode ser visto na figura 17(b)
como a reta inclinada para a esquerda ao lado do eixo D2. Verifica-se pela figura 17(b) que as
projec¸˜oes das duas classes de vari´aveis sobre o eixo DLDAn˜ao est˜ao sobrepostas, permitindo a
separac¸˜ao total das classes atrav´es de um limiar de detecc¸˜ao.
Para o c´alculo do LDA, supondo dois conjuntos de dados X1 e X2representando duas
classes distintas de um universo de classes Xc onde c = 1, 2, ...,C. (Neste caso, C = 2). Cada
conjunto de dados possui n amostras, e cada amostra possui d−dimens˜oes. O produto escalar de cada conjunto d−dimensional pela matriz de pesos w, como representado pela equac¸˜ao 27, gera um conjunto de dados Y transformado para um espac¸o amostral contendo C − 1 dimens˜oes.
Y = wtX (27)
Para encontrar a matriz de pesos w, o primeiro passo ´e determinar a diferenc¸a das m´edias das classes do conjunto Xc, como apresentada pela equac¸˜ao 28.
51
(a) (b)
Figura 17: (a) Projec¸˜ao das classes X1 e X2 sobre os eixos de vari´aveis D1 e D2. Observa-se
que as projec¸˜oes est˜ao sobrepostas n˜ao permitindo a separabilidade total das classes. (b) A an´alise de discriminante linear determina uma nova projec¸˜ao DLDAonde as classes apresentam
a melhor separabilidade entre si.
mi=
1 nix∈X
∑
i
x (28)
As m´edias das classes definidas pela equac¸˜ao 28 pode ser projetada tamb´em pela matriz w, como mostra a equac¸˜ao 29.
˜ mi= 1 niy∈Y
∑
i y= 1 niy∈Y∑
i wtx= wtmi (29)Onde ˜mi ´e a m´edia do subconjunto projetado atrav´es da matriz w. Como o que se
deseja ´e a maior separabilidade entre as classes, leia-se a maior separabilidade entre as m´edias das classes, logo a equac¸˜ao 30 ´e a func¸˜ao objetivo.
J= | ˜m1− ˜m2| =wt(m1− m2)
(30)
Apesar de ser a func¸˜ao objetivo, a equac¸˜ao 30 n˜ao leva em considerac¸˜ao o desvio padr˜ao de cada classe. Para isso adota-se a proposta de Fisher (DUDA; HART; STORK, 2001), que ´e normalizar a diferenc¸a das m´edias por uma medida de dispers˜ao interna da classe (scatter). A dispers˜ao interna de classe ´e apresentada pela equac¸˜ao 31.
˜
si2=
∑
y∈Yi
52
Assim, a dispers˜ao total J(w) entre classes das amostras projetadas ´e igual a ˜s12+ ˜s22 e a maximizac¸˜ao do crit´erio de Fisher ´e apresentada pela equac¸˜ao 32.
J(w) =| ˜m1− ˜m2|
2
˜
s12+ ˜s22 (32)
A maximizac¸˜ao de J(.) por w conduz `a maior separac¸˜ao entre as classes em quest˜ao. Esse c´alculo ´e feito atrav´es das matrizes de dispers˜ao Sie Sw, apresentadas pelas equac¸˜oes 33 e
34.
Si=
∑
x∈Di
(x − mi) (x − mi)t (33)
Sw= S1+ S2 (34)
Essas matrizes s˜ao projetadas pela multiplicac¸˜ao da matriz de pesos w como apresentado pela equac¸˜ao 35 e da mesma maneira as m´edias projetadas pela equac¸˜ao 36.
˜
s12+ ˜s22= wtSww (35)
( ˜m1− ˜m2)2= wtSBw (36)
Substituindo as equac¸˜oes 35 e 36 na equac¸˜ao 32 obt´em-se a equac¸˜ao 37.
J(w) = w tS Bw wtS ww (37) A equac¸˜ao 37 pode ser reescrita na forma apresentada pela equac¸˜ao 38.
SBw= λ Sww (38)
Onde a constante λ pode ser determinada atrav´es de autovalores e autovetores. A partir dos autovalores, seleciona-se o valor cujo argumento ´e m´aximo. O valor selecionado corresponde `a coluna dos autovetores que ser˜ao multiplicados pelas caracter´ısticas das classes de entrada. Essa multiplicac¸˜ao corresponde `a rotac¸˜ao da matriz de entrada para uma projec¸˜ao onde ´e mantida a separac¸˜ao m´axima entre as classes.
´
E importante salientar que a an´alise de discriminante linear e obtenc¸˜ao da matriz de pesos que permite rotacionar a matriz de caracter´ısticas reduzindo suas dimens˜oes para uma projec¸˜ao contendo C − 1 dimens˜oes (onde C ´e o n´umero de classes) ocorre em um ´unico
53
passo, uma ´unica vez. Como o LDA rotaciona o espac¸o multidimensional da matriz de caracter´ısticas para uma nova projec¸˜ao com C − 1 dimens˜oes, n˜ao h´a perda de informac¸˜ao. Todas as caracter´ısticas utilizadas para a gerac¸˜ao da matriz de caracter´ısticas s˜ao reagrupadas de modo a maximizar a separac¸˜ao entre as C classes.
2.9 COMENT ´ARIOS
Foram apresentadas nesse cap´ıtulo os conhecimentos necess´arios para o entendimento do trabalho.
O pr´oximo cap´ıtulo apresenta o estado da arte para a pesquisa sobre a transformada wavelet e a detecc¸˜ao de esp´ıculas.
54
3 ESTADO DA ARTE
Para este estudo, foi realizada uma an´alise de publicac¸˜oes dos ´ultimos 20 anos buscando verificar o desenvolvimento no reconhecimento, detecc¸˜ao e classificac¸˜ao de esp´ıculas. O estudo foi feito em ordem cronol´ogica a partir de 1994. Foi dada ˆenfase para trabalhos que utilizam a transformada wavelet seja para a extrac¸˜ao de caracter´ısticas do sinal ou para o uso direto na classificac¸˜ao dos eventos.