A.1
Introdu¸c˜ao
Algoritmos gen´eticos s˜ao ferramentas computacionais de busca e otimiza¸c˜ao, inspirados nas teorias evolucionistas de Darwin [Dar95]. Baseando-se nessas teorias, onde somente os indiv´ıduos mais adapt´aveis de uma esp´ecie sobrevivem, os algoritmos gen´eticos tra- balham com um conjunto inicial de poss´ıveis solu¸c˜oes para o problema (denominado de popula¸c˜ao), de tal modo, que atrav´es de opera¸c˜oes gen´eticas de muta¸c˜ao e de cruza- mento, possa desenvolver gera¸c˜oes novas e, atrav´es da sele¸c˜ao das melhores solu¸c˜oes, convergir para a solu¸c˜ao ´otima. Para essa avalia¸c˜ao dos melhores indiv´ıduos da popu- la¸c˜ao, ´e necess´ario definir uma fun¸c˜ao de aptid˜ao que, para cada indiv´ıduo, informe o qu˜ao eficiente ele ´e para a solu¸c˜ao que o algoritmo procura [ES03]. Cada indiv´ıduo de uma popula¸c˜ao ´e representado por um cromossomo.
Diferentemente de um cromossomo biol´ogico, nos algoritmos gen´eticos um cromos- somo ´e um vetor de valores, que pode ser real, inteiro, bin´ario, entre outros, que s˜ao representa¸c˜oes das vari´aveis de interesse de um determinado problema. A forma mais comum de cromossomo encontrada na literatura (e a mais simples tamb´em) ´e a bin´aria.
Inicialmente, ap´os a defini¸c˜ao do problema, ´e necess´aria a cria¸c˜ao da representa¸c˜ao de suas vari´aveis num cromossomo. Supondo que o problema fict´ıcio em quest˜ao possua duas vari´aveis de interesse, a Figura A.1 mostra uma poss´ıvel configura¸c˜ao bin´aria para essas duas vari´aveis e o cromossomo criado pela concatena¸c˜ao dessas vari´aveis.
Figura A.1 Exemplo de configura¸c˜ao de um cromossomo de acordo com as vari´aveis.
O funcionamento ´e relativamente simples. Inicialmente ´e montada a popula¸c˜ao inicial de cromossomos (conhecida como popula¸c˜ao zero). Esses cromossomos s˜ao escolhidos aleatoriamente dentro do universo de solu¸c˜oes do problema. Em seguida, essa popula¸c˜ao ´
e avaliada pela fun¸c˜ao de aptid˜ao. Depois disso, os melhores cromossomos s˜ao seleciona- dos para a fase de reprodu¸c˜ao, onde os mais bem avaliados pela fun¸c˜ao de aptid˜ao tˆem mais chances de serem selecionados. Ent˜ao, atrav´es dos operadores gen´eticos, s˜ao cri- ados cromossomos filhos com possibilidade de serem mais eficientes que os pais. Essas opera¸c˜oes gen´eticas tamb´em servem para manter a popula¸c˜ao diversificada. Uma grande
diversifica¸c˜ao possibilita o alcan¸ce de um maior n´umero de solu¸c˜oes e a fuga de um m´ı- nimo local. Ap´os todo esse processo, uma nova gera¸c˜ao ´e obtida, comumente chamada de offspring [Mit97], dando in´ıcio ao mesmo processo novamente, at´e que algum crit´erio de parada seja atendido.
Crit´erios normalmente usados s˜ao: n´umero m´aximo de gera¸c˜oes e n´umero m´aximo de gera¸c˜oes sem melhora da eficiˆencia do cromossomo mais eficiente (ou da m´edia de eficiˆencia da popula¸c˜ao). Uma vez terminada a execu¸c˜ao, o algoritmo ter´a encontrado uma boa solu¸c˜ao para o problema, n˜ao significando que ser´a a melhor solu¸c˜ao poss´ıvel.
A.2
Opera¸c˜oes Gen´eticas
As opera¸c˜oes gen´eticas nos cromossomos s˜ao realizadas para a obten¸c˜ao de filhos, com a inten¸c˜ao de diversificar a popula¸c˜ao de solu¸c˜oes, mantendo as melhores solu¸c˜oes encon- tradas at´e o momento e descartando as piores.
Os dois operadores gen´eticos mais comuns s˜ao a muta¸c˜ao e o cruzamento [Mit97]. Na muta¸c˜ao, o cromossomo selecionado tem um de seus bits invertido com uma probabili- dade bem pequena. A Figura A.2 (a) ilustra esse conceito. No cruzamento, um par de cromossomos ´e selecionado e, ent˜ao, dois filhos s˜ao produzidos com peda¸cos aleatoria- mente escolhidos dos dois pais. Essa opera¸c˜ao pode ser de ponto ´unico, dois pontos ou uniforme. No cruzamento de ponto ´unico, um ´unico ponto de corte ´e selecionado aleatoria- mente para fazer a divis˜ao dos cromossomos pais em duas cadeias de bits (Figura A.2 (b)). No cruzamento de dois pontos, dois pontos s˜ao selecionados, gerando trˆes cadeias de bits (Figura A.2 (c)). No uniforme, v´arios bits aleat´orios s˜ao escolhidos para o cruzamento, gerando uniformidade na escolha (Figura A.2 (d)).
(a) (b)
(c) (d)
Figura A.2 Operadores gen´eticos de: (a) muta¸c˜ao, (b) cruzamento de ponto ´unico, (c) cruza- mento de dois pontos e (d) cruzamento uniforme.
Todas essas opera¸c˜oes possuem uma probabilidade de ocorrˆencia em cada popula¸c˜ao, que deve variar de problema para problema. Normalmente, a probabilidade de muta¸c˜ao ´
e bem pequena em rela¸c˜ao `a probabilidade de cruzamento [ES03].
A.3
Fun¸c˜ao de Aptid˜ao e Sele¸c˜ao de Cromossomos
A fun¸c˜ao de aptid˜ao define uma maneira de se classificar os cromossomos de acordo com sua eficiˆencia para solucionar o problema. Uma das grandes vantagens de utiliza¸c˜ao de algoritmos gen´eticos ´e sua f´acil hibridiza¸c˜ao com outras t´ecnicas. A fun¸c˜ao de aptid˜ao ´
e que permite essa facilidade [ES03]. Por exemplo, pode-se utilizar uma rede neural artificial como fun¸c˜ao de aptid˜ao e usar o algoritmo gen´etico para selecionar os melhores parˆametros para a rede. Se a tarefa do algoritmo gen´etico ´e classifica¸c˜ao, ´e comum que a fun¸c˜ao de aptid˜ao possa medir a precis˜ao com a qual o cromossomo classifica os padr˜oes. A fun¸c˜ao de aptid˜ao ´e bem particular ao problema que se deseja resolver.
A classifica¸c˜ao da popula¸c˜ao tem como objetivo possibilitar a sele¸c˜ao dos melhores cromossomos para a produ¸c˜ao de uma nova gera¸c˜ao [Mit97]. Essa sele¸c˜ao pode ser feita de v´arias maneiras, por exemplo, atrav´es da t´ecnica da roleta ou do torneio. A t´ecnica da roleta consiste em uma sele¸c˜ao aleat´oria dos cromossomos. Por´em com maior peso para os que tiverem maior resposta da fun¸c˜ao de aptid˜ao. Dessa forma, os cromossomos com maior peso tendem a serem selecionados mais de uma vez. A Figura A.3 (a) ilustra essa t´ecnica de sele¸c˜ao. J´a a sele¸c˜ao por torneio, escolhe aleatoriamente um par de cromos- somos, nos quais o que apresentar maior resposta da fun¸c˜ao de aptid˜ao ser´a selecionado, enquanto o outro ser´a descartado. A desvantagem mais clara dessa t´ecnica ´e que nunca o cromossomo com menor resposta da fun¸c˜ao de aptid˜ao ser´a selecionado (e ele podem apresentar alguma caracter´ıstica que possa ser passada para os filhos e que ir´a ajudar na solu¸c˜ao do problema). A Figura A.3 (b) ilustra esse m´etodo.
(a) (b)
[AN07] A. Asuncion and D. J. Newman. UCI machine learning repository, 2007.
[AS10] S. Ali and M. Shah. Human action recognition in videos using kinematic features and multiple instance learning. Pattern Analysis and Machine Intel-
ligence, IEEE Transactions on, 32(2):288–303, feb. 2010.
[Bap00] R. B. Bapat. Linear Algebra and Linear Models (Universitext). Springer, 2nd edition, March 2000.
[Bel61] R. E. Bellman. Adaptive control processes - A guided tour. Princeton University Press, Princeton, New Jersey, U.S.A., 1961.
[Bis06] C. M. Bishop. Pattern Recognition and Machine Learning (Information Science
and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[C+07] K. J. Cios et al. Data Mining: A Knowledge Discovery Approach. Springer- Verlag New York, Inc., Secaucus, NJ, USA, 2007.
[Chu97] F. R. K. Chung. Spectral Graph Theory. Number 92 in Regional conference series in mathematics. American Mathematical Society, 1997.
[Dar95] C. Darwin. The Origin of Species. Gramercy, May 1995.
[dBL+07] B. de Brito Leite et al. A learning-based eye detector coupled with eye can- didate filtering and pca features. In Computer Graphics and Image Process-
ing, 2007. SIBGRAPI 2007. XX Brazilian Symposium on, pages 187–194, 7-10
2007.
[DHS01] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification (2nd Edition). Wiley-Interscience, 2 edition, 2001.
[DN09] K. Das and Z. Nenadic. An efficient discriminant-based solution for small sample size problem. Pattern Recogn., 42(5):857–866, 2009.
[DZF07] Qian Du, Wei Zhu, and J. E. Fowler. Implementation of low-complexity princi- pal component analysis for remotely sensed hyperspectral-image compression. pages 307–312, oct. 2007.
[ES03] A. E. Eiben and J. E. Smith. Introduction to Evolutionary Computing.
SpringerVerlag, 2003.
[Fis36] R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals
Eugen., 7:179–188, 1936.
[Fod02] I. Fodor. A survey of dimension reduction techniques, 2002.
[FT74] J. H. Friedman and J. W. Tukey. A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Comput., 23(9):881–890, 1974.
[Fuk90] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, 2 edition, 1990.
[Har85] P. M. Hartigan. Algorithm as 217: Computation of the dip statistic to test for unimodality. Journal of the Royal Statistical Society. Series C (Applied
Statistics), 34(3):320–325, 1985.
[HH85] J. A. Hartigan and P. M. Hartigan. The dip test of unimodality. Annals of
Statistics, 13(1):70–84, 1985.
[HN03] Xiaofei He and Partha Niyogi. Locality preserving projections. In In Advances
in Neural Information Processing Systems 16, pages 585–591. MIT Press, 2003.
[ida09] Benchmark repository of the intelligent data analysis group. http://ida.first.fhg.de/projects/bench/benchmarks.htm, June 2009.
[IKG09] M. T. Ibrahim, M. Kyan, and Ling Guan. On-line signature verification using global features. In Electrical and Computer Engineering, 2009. CCECE ’09.
Canadian Conference on, pages 682–685, 2009.
[JDM00] A. K. Jain, R. P. W. Duin, and Jianchang Mao. Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22:4–37, 2000.
[JS87] M. C. Jones and R. Sibson. What is projection pursuit? Journal of the Royal
Statistical Society. Series A (General), 150(1):1–37, 1987.
[KO09] Nojun Kwak and Jiyong Oh. Feature extraction for one-class classification problems: Enhancements to biased discriminant analysis. Pattern Recogn., 42(1):17–26, 2009.
[LPC08] Jun-Bao Li, Jeng-Shyang Pan, and Shu-Chuan Chu. Kernel class-wise locality preserving projection. Information Sciences, 178(7):1825–1835, 2008.
[MBN02] L. C. Molina, L. Belanche, and A. Nebot. Feature selection algorithms: a survey and experimental evaluation. pages 306–313, 2002.
[MBV99] M. J. Martin-Bautista and M. A. Vila. A survey of genetic feature selection in mining issues. volume 2, page 1321 Vol. 2, 1999.
[Mec10] Ferenc Mechler. Hartigan’s dip statistic. http://www.nicprice.net/diptest/, July 2010.
[Mel07] C. A. B. Mello. An algorithm for foreground-background separation in low qual- ity patrimonial document images. In CIARP’07: Proceedings of the Congress
on pattern recognition 12th Iberoamerican conference on Progress in pattern recognition, image analysis and applications, pages 911–920, Berlin, Heidel-
berg, 2007. Springer-Verlag.
[Mey00] Carl D. Meyer, editor. Matrix analysis and applied linear algebra. Society for Industrial and Applied Mathematics, Philadelphia, PA, USA, 2000.
[Mit97] T. M. Mitchell. Machine Learning. McGraw-Hill, New York, 1997.
[MZ05] A. M. Mart´ınez and M. Zhu. Where are linear feature extraction methods applicable? IEEE Transaction on Pattern Analysis and Machine Intelligence, 27(12):1934–1944, 2005.
[NFN06] E. Naz, U. Farooq, and T. Naz. Analysis of principal component analysis- based and fisher discriminant analysis-based face recognition algorithms. In
Emerging Technologies, 2006. ICET ’06. International Conference on, pages
121–127, 13-14 2006.
[NS92] G. P. Nason and R. Sibson. Measuring multimodality. Statistics and Comput-
ing, 2(3):153–160, September 1992.
[NYS03] Y. Nara, Jianming Yang, and Y. Suematsu. Face recognition using improved principal component analysis. pages 77–82, oct. 2003.
[O+06] A. L. I. Oliveira et al. Optical digit recognition for images of handwritten historical documents. In Neural Networks, 2006. SBRN ’06. Ninth Brazilian
Symposium on, pages 166–171, 23-27 2006.
[P+10] J. F. Pereira et al. Modular image principal component analysis for handwrit- ten digits recognition (accepted). Rio de Janeiro, Brazil, 2010. IEEE Interna- tional Conference on Systems, Signals and Image Processing (IWSSIP).
[PCR09] J. F. Pereira, G. D. C. Cavalcanti, and Tsang Ing Ren. Modular image principal component analysis for face recognition. pages 2481–2486, june 2009.
[Q+09] Lin Qi et al. Recognizing human emotional state based on the 2d-frft and flda. In Image and Signal Processing, 2009. CISP ’09. 2nd International Congress
on, pages 1–4, oct. 2009.
[RN03] S. J. Russell and P. Norvig. Artificial Intelligence: A Modern Approach. Pear- son Education, 2003.
[Saw96] G. Sawitzki. The excess mass approach and the analysis of multi-modality. In
Proc. 18th Annual Conference of the GfKl, pages 203–211. Springer, 1996.
[Sil81] B. W. Silverman. Using kernel density estimates to investigate multimodality.
Journal of the Royal Statistical Society, 43(1):97–99, 1981. Series B (Method-
ological).
[SR07] Masashi Sugiyama and S. Roweis. Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis. Journal of Machine Learning
Research, 8:1027–1061, 2007.
[TC07] F. S. Tsai and Kap Luk Chan. Dimensionality reduction techniques for data exploration. pages 1–5, dec. 2007.
[vdH+04] F. van der Heijden et al. Classification, Parameter Estimation and State Es-
timation: An Engineering Approach Using MATLAB. John Wiley ∼ Sons,
2004.
[YD09] Wen-Hui Yang and Dao-Qing Dai. Two-dimensional maximum margin fea- ture extraction for face recognition. Systems, Man, and Cybernetics, Part B:
Cybernetics, IEEE Transactions on, 39(4):1002–1012, aug. 2009.
[ZYK06] Haitao Zhao, Pong Chi Yuen, and J. T. Kwok. A novel incremental principal component analysis and its application for face recognition. Systems, Man,
and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 36(4):873–886,