Les structures de contrôle itératives à condition d'arrêt
END ELSE
Nesta secção vai ser apresentado alguns exemplos dos métodos de classificação que já existe, tanto para imagens estáticas, como para sequência de imagens. No primeiro existem 3 tipos distintos de métodos, métodos baseado em modelos, métodos baseados em redes neuronais e métodos baseados em regras. Por outro lado, para sequência de imagens existem 2 tipos de métodos, sendo eles o método baseado em modelos e o método baseado em regras.
Reconhecimento de expressões faciais 17
Imagens estáticas
Métodos baseados em Modelos
Edwards e outros [37] apresentam uma framework que utiliza Active Appearance Models (AAMs) para reconhecimento facial, cujo objectivo é identificar o indivíduo independentemente da posição e luminosidade.
Um AAM contém um modelo estatístico da forma e aparência de nível de cinzento do objecto. Para ajustar o modelo à imagem a analisar, é necessário procurar parâmetros que minimizem a diferença entre ambos, o que implica alguma dificuldade, dado o número potencialmente elevado de parâmetros existentes. Normalmente, o ajustamento é feito em dois passos: numa fase de treino, o AAM sintetiza um modelo linear correspondente à relação entre desfasamentos de parâmetros e resíduos induzidos; na fase de procura, mede os resíduos e usa este modelo para corrigir os parâmetros actuais, melhorando iterativamente a adaptação do modelo. Um exemplo do funcionamento de algoritmos baseados em AAM pode observar-se na ilustração 3.
Considerando que um conjunto de parâmetros pode ser o suficiente para descrever e interpretar uma dada imagem, neste estudo cria-se uma template pormenorizada de uma face-objectivo, de modo a modelar essa mesma face o mais realisticamente possível.
Reconhecimento de expressões faciais 18 Obtiveram-se resultados de 40,6% de taxa de sucesso para reconhecimento de expressões faciais em imagens com diferentes condições de luminosidade e posições do rosto, como as representadas na ilustração 4.
Hong e outros [17] utilizam uma galeria para auxiliar a caracterização de uma dada expressão. Uma galeria pessoal caracteriza-se pela existência de imagens de um dado indivíduo relativas às seis expressões básicas, conjuntamente com a expressão neutra. A face da pessoa a analisar é associada à mais semelhante que existe na galeria, sendo esta utilizada para caracterizar a expressão da faceobjectivo. Parte do princípio que duas pessoas com fisionomias aproximadamente similares têm uma maneira semelhante de expressar a mesma emoção. Este método combina filtros de Gabor com o método Elastic Graph Matching, que consiste num processo simples para comparar grafos com imagens e gerar novos grafos para descrever as características visuais básicas de uma imagem. Um filtro de Gabor enquadra-se na categoria de filtros lineares, em que a resposta impulsiva é definida pela combinação de uma função harmónica com uma função Gaussiana. As Gabor Wavelets, sinusóides moduladas através de Gaussianas, são usadas nos filtros de Gabor para representar dilatações e rotações, resultando num espaço de Gabor. Os filtros de Gabor são bastante eficientes para detectar a localização de linhas e arestas em imagens, como pode observar-se na ilustração 5.
Reconhecimento de expressões faciais 19 Esta aproximação provou ser eficiente independentemente de variações de luminosidade do meio. Foram ainda usadas estruturas de General Face Knowledge (GFK), que constituem uma pequena galeria de imagens cujos grafos são criados através de nós colocados em pontos- chave da imagem, como ilustrado na ilustração 6.
Quando o grafo da face objectivo é criado, este é comparado com os da galeria até ser encontrada a face que melhor corresponde à inicial. Este método tem uma taxa de sucesso de cerca de 89%.
Ilustração 5: Exemplo da aplicação de filtros de Gabor a uma imagem
Reconhecimento de expressões faciais 20 Huang e Huang [2] descrevem 10 Action Parameters (AP), que se baseiam no diferencial entre uma face neutra e uma face com uma dada expressão. Estas AP substituem ou são conjugações de algumas AUs do sistema FACS, como representado na ilustração 7.
É aplicado o algoritmo PCA a esses parâmetros a fim de reduzir a dimensionalidade para 2, o que se traduz numa simplificação do processo de reconhecimento. A PCA é um método que permite reduzir a dimensionalidade de um conjunto de dados através da análise de covariância entre factores.
Assim sendo, o algoritmo que implementa a PCA extrai a direcção de maior extensão de uma nuvem de valores em espaço multi-dimensional. Esta direcção é o componente principal. A direcção ortogonal a esta será encontrada de seguida, como ilustrado na ilustração 8, reduzindo- se a nuvem a um espaço bi-dimensional.
Ilustração 7: Parâmetros de acção sugeridos por Huang e outros Fonte: Huang e Huang [2]
Reconhecimento de expressões faciais 21 O processo de reconhecimento é realizado em duas etapas: a primeira reconhece a expressão através do uso dos APs existentes no conjunto de treino e a segunda consiste na utilização do perfil dos APs de uma dada expressão desconhecida para identificação. É usada uma função de avaliação para determinar o grau de semelhança entre uma expressão desconhecida e uma das seis expressões básicas. Este sistema tem uma taxa de sucesso de cerca de 84,5% nos casos estudados.
No entanto, não pode prever-se o seu desempenho na análise de expressões de indivíduos não conhecidos pelo sistema.
O estudo proposto por Lyons e outros [26] utiliza uma grelha que consiste em 34 nós posicionados manualmente sobre uma imagem facial, como ilustrado na ilustração 9.
É posteriormente calculada a transformada de Gabor para cada um desses nós e combinados os dados num vector. Os vectores deste tipo são submetidos a um algoritmo PCA, sendo posteriormente analisados através de Linear Discriminant Analysis (LDA) e agrupados segundo os atributos faciais. A LDA é um método estatístico que procura a combinação linear das características que melhor classificam uma dada imagem, reduzindo a dimensionalidade do problema. Uma imagem que não seja classificada positivamente em nenhuma das categorias é
Reconhecimento de expressões faciais 22 considerada neutra. Este método foi testado, tendo-se obtido um desempenho de 92% em termos de classificação correcta das expressões faciais para utilizadores conhecidos, enquanto que para novos indivíduos o sucesso é de cerca de 75%.
Mais recentemente, Lu e outros [38] adoptam Support Vector Machines (SVMs) para a classificação de expressões faciais. As SVMs consistem num método para treino de amostras que se baseia num princípio de minimização do risco estrutural, que minimiza, assim, o erro de generalização. Sendo que os dados podem ser vistos como dois conjuntos de vectores num espaço de dimensão N, o SVM divide esse espaço através de um hiperplano que maximiza a margem entre os dois conjuntos de dados, como ilustrado ilustração 10, sendo consequentemente denominado classificador de margem máxima.
Com efeito, uma larga margem entre os valores correspondentes aos vectores dos dois sub- conjuntos de dados implica um risco de generalização minimizado do classificador.
Reconhecimento de expressões faciais 23 Método baseado em redes neuronais
Uma rede neuronal, como representado na figura 11, é representada por ligações entre elementos de processamento a que se atribuem pesos, que consistem nos parâmetros que definem a função não-linear efectuada pela rede neuronal. A determinação destes parâmetros é denominada de treino (training) ou aprendizagem (learning), sendo as redes neuronais adaptativas.
No estudo realizado por Kobayashi e Hara [5], é aplicada uma rede neuronal de propagação inversa (Back-Propagation Neural Network). Este é o tipo mais comum de redes neuronais e caracteriza-se pela existência de camadas de entrada e de saída e ainda de uma camada "escondida", que torna possível o mapeamento de relações de entrada na saída do modelo. Antes de qualquer informação ter passado pela rede, os valores dos nós são aleatórios. São chamadas de Back-Propagation Neural Networks uma vez que, ao serem treinadas, quando uma
Reconhecimento de expressões faciais 24 classificação é atribuída, esta é comparada com a classificação actual dos nós. O valor da classificação é propagado de novo na rede, o que faz com que os nós da camadas escondida e da camada de saída ajustem os seus valores em resposta a um eventual erro de classificação. A entrada da rede neuronal consiste nos dados relacionados com a distribuição de brilho extraídos de uma dada imagem facial. O resultado corresponde a uma categoria de emoção. Usou-se uma amostra de treino da mesma dimensão da amostra de teste, tendo-se obtido resultados na ordem dos 85% de taxa de sucesso.
Yoneyama e outros [26], consideram quatro tipos de expressões: tristeza, surpresa, cólera e alegria. No reconhecimento destas expressões, é utilizado um par de bits para representar o valor dos parâmetros e duas redes de Hopfield discretas. Uma rede de Hopfield baseia-se num conjunto de neurónios e um conjunto correspondente de unidades de atraso, formando um sistema de realimentação múltiplo, como pode ver-se na ilustração 12.
Reconhecimento de expressões faciais 25 As redes são treinadas utilizando a regra de aprendizagem de Personnaz [39]. Para cada imagem examinada, o resultado da primeira rede é combinado com os exemplos de treino para esta rede, calculando-se as distâncias Euclideanas e decidindo-se se a categoria da expressão é ou não determinada. Caso não o seja, o resultado da segunda rede de Hopfield é combinado com os exemplos usados para treino desta rede de modo a decidir a categoria da expressão. Neste estudo, a taxa de sucesso é de 92%.
Padgett e Cottrell [22] aplicam também uma rede neuronal de propagação inversa, em que o input consiste na projecção normalizada de blocos de pixéis correspondentes aos principais componentes do espaço próprio de blocos de pixéis da imagem. É aplicada uma função de activação de Sigmoid, que consiste numa função monótona crescente que permite uma transição contínua e diferenciável entre os níveis 0 e 1 da saída. Uma escolha comum para esta função é exemplificada na ilustração 13. O resultado é uma das seis expressões básicas ou, alternativamente, a expressão neutra. Foram treinadas 12 redes neuronais. A taxa de sucesso é de 86%.
Reconhecimento de expressões faciais 26 Zhang e outros [40] utilizam uma rede neuronal para atribuir uma das seis expressões básicas, ou a expressão neutra, a uma dada imagem facial. A rede neuronal recebe a posição geométrica dos principais pontos faciais, para além dos coeficientes de wavelets de Gabor de cada um desses mesmos pontos. A rede reduz a dimensionalidade dos dados de entrada e infere estatisticamente o grupo em que classifica a expressão dada. O resultado consiste numa estimação da probabilidade de a expressão pertencer à categoria em que é inserida. A taxa de sucesso é de cerca de 90,1% para indivíduos conhecidos do sistema, não tendo sido testado noutros casos.
No estudo realizado por Zhao e Kearney [41], é usada uma rede neuronal de propagação inversa para classificação de uma imagem facial numa das seis categorias básicas. Os dados de entrada desta rede neuronal consistem num conjunto de intervalos, que resultam do tratamento estatístico das distâncias normalizadas entre vários pontos da face. O resultado consiste numa das seis expressões faciais básicas. A taxa de sucesso é de 100% para indivíduos conhecidos, enquanto que não se prevê o resultado para indivíduos novos para o sistema.
O estudo proposto por Stathopoulou e Tsihrintzis [42] apresenta um método de extracção de características baseado em aparência, utilizando o vector de elementos faciais como input para uma rede neuronal, que classifica o padrão da janela num de três grandes grupos: surpresa, alegria ou estado neutro. O facto de a rede neuronal não ser aplicada directamente a toda a face mas a pequenas porções do rosto provou ser mais eficiente temporalmente. A taxa de sucesso é de 98,4%.
Feitosa e outros [43] estudam a utilização de duas diferentes redes neuronais no reconhecimento das seis principais expressões faciais. A primeira é uma rede neuronal de propagação inversa, que define um método sistemático de actualizar os pesos de redes
Reconhecimento de expressões faciais 27 multinível. Devido ao facto de o treino destas redes ser bastante demorado, abordaram-se neste estudo as redes neuronais baseadas em Radial Basis Functions (RBF). Estas redes são constituídas por três camadas: a de input, uma camada escondida, que utiliza uma função de activação radialmente simétrica, e a camada de output, com uma função de activação linear. São de treino simples e rápido, uma vez que se baseiam no princípio de que uma função arbitrária pode ser aproximada através da sobreposição de um conjunto de funções básicas localizadas. Os resultados obtidos em termos de taxa de sucesso são de 71,8% através da utilização de uma rede neuronal de propagação inversa e de 73,2% com redes baseadas em RBF.
Métodos baseados em regras
Pantic e Rothkrantz [3] dividem o reconhecimento facial em várias etapas. Depois de calculados os pontos principais da face, as características-modelo são extraídas e é calculada a diferença entre estas e as mesmas características-modelo da face neutra do mesmo indivíduo, como se pode ver na ilustração 14 em relação aos olhos.
A deformação do modelo, conjuntamente com o FACS, permitem a classificação da expressão na classe correspondente. A taxa de sucesso é de 92% para a metade superior da face e de 86% para a metade inferior.
Reconhecimento de expressões faciais 28 O estudo recente de Khanam e outros [44] apresenta um sistema fuzzy Mamdani-type, baseado em regras, para reconhecimento de expressões faciais. Esta implementação utiliza uma base de conhecimento dividida em dois componentes principais: base de dados e base de regras. A primeira é composta pelo input do sistema, que consiste em vários estados das diversas características faciais, e expressão de output, que corresponde a uma das sete expressões básicas. A base de regras é constituída por regras fuzzy, sendo estas maiores ou menores. As primeiras são as que classificam as expressões faciais básicas do rosto, representando o estado típico de cada emoção. As segundas permitem uma ligeira sobreposição entre expressões (como, por exemplo, alegria-surpresa, que comummente se verifica), possibilitando uma transição suave entre as expressões básicas e tendo, logicamente, um menor peso na classificação. A taxa de sucesso varia dos 70% aos 100%, sendo o valor médio de 87,5%.
Sequência de imagens
Métodos baseados em Modelos
Cohn e outros [28] aplicam classificadores distintos nas diversas partes do rosto. Os preditores são os deslocamentos dos pontos faciais ao longo de uma sequência de imagens. Como pode observar-se na ilustração 14, uma dada expressão é determinada pela sequência de imagens desde o estado neutro até à sua amplitude máxima.
Reconhecimento de expressões faciais 29 A classificação baseou-se em matrizes de variância-covariância. Este sistema tem algumas restrições, principalmente no que diz respeito à iluminação (pelo que o ambiente deve ser de luminosidade constante), bem como à não existência de óculos ou pêlos faciais por parte do indivíduo a analisar. A melhor classificação, na zona das sobrancelhas, é de 92%, enquanto que nas regiões dos olhos e do nariz e boca as taxas de sucesso são de 88% e 83%, respectivamente.
O estudo realizado por Essa e Pentland [30] extrai a energia relacionada com o movimento no plano espacio-temporal da sequência recebida, relacionando os valores obtidos com os modelos de energia bi-dimensionais do plano espacio-temporal para as expressões-padrão, como mostrado na ilustração 16. É calculada a norma Euclideana da diferença entre ambas, sendo esta usada como classificador para a semelhança com uma dada expressão básica. A taxa de sucesso deste método ronda os 98%.
Reconhecimento de expressões faciais 30 Kimura e Yachida [31] estudam a adequação de uma rede de potencial a cada quadro da sequência. O padrão da rede deformada é comparado com o padrão extraído de uma face que apresenta a expressão neutra, sendo a variação da posição dos nós da rede usada para processamento posterior. Este estudo não teve sucesso em indivíduos desconhecidos.
Eisert e Girod [45] propõem um algoritmo baseado num modelo tridimensional que especifica a forma e a textura da cabeça de uma pessoa, cuja superfície é modelada por B-Splines. Partindo do princípio de que uma expressão facial resulta da combinação de movimentos locais, como definido no sistema FACS, são localizadas as deformações do modelo, classificando uma dada expressão na classe correspondente. O movimento é obtido através de um método hierárquico baseado na análise
de fluxo óptico. Não é conhecido o tempo necessário ao processo. A taxa de sucesso é classificada qualitativamente como sendo bastante satisfatória mas não se conhecem métricas quantitativas.
Otsuka e Ohya [46] usam um Hidden Markov Model (HMM) que modela a expressão, desde o estado neutro inicial até ao estado neutro final. Para tal, recorrem à estimação do movimento na área que circunda o olho direito e a boca através de algoritmos de fluxo (como ilustrado na ilustração 17), após o que procedem à extracção de características e fazem corresponder a sequência temporal do vector de características aos modelos que representam cada expressão facial.
Reconhecimento de expressões faciais 31 Este sistema permite o reconhecimento de múltiplas sequências de imagens. É usado o algoritmo de Baum-Welch para calcular a probabilidade de transição entre estados. Não se conhece uma taxa de sucesso quantitativa deste método.
Wang e Yachida [47] exploram grafos com arestas com um determinado peso para representar a face, em que algumas destas são representadas para reconhecer expressões. Para cada uma de três categorias de emoções – cólera, alegria e surpresa – é associada uma curva B-spline que descreve a relação entre a alteração de expressão e o deslocamento da aresta correspondente. Existem restrições à existência de óculos ou pêlos faciais e a iluminação deve ser constante para a aplicação deste método. A taxa de sucesso ronda os 95%.
Hulsken e outros [48] utilizam uma evolução de HMM para processar eficientemente sequências de imagens, que consiste em modelos HMM Pseudo-tridimensionais (P3DHMM), gerados a partir da encapsulação dos super-estados correspondentes a HMM bidimensionais. Para melhorar o desempenho, os super-estados são partidos em quatro HMM dimensionais, reduzindo-se assim a complexidade temporal. Nesta aproximação usa-se o algoritmo de Baum- Welch para treinar as amostras e o algoritmo de Viterbi na classificação. Conseguiram-se taxas de sucesso na ordem dos 90% para reconhecimento independente da pessoa a ser analisada. Não é referido quantitativamente o tempo inerente a este processo.
Outra evolução, mais recente, dos modelos baseados em HMM é o trabalho de Cao e Tong [14], que estuda a utilização de Embedded Hidden Markov Model (EHMM). Estes modelos baseiam- se na expansão de cada estado do HMM principal para um novo HMM, obtendo-se assim um super-estado, correspondente ao modelo exterior, e um estado embebido, correspondente ao estado do modelo interior.
Tem-se, assim, um super-estado por característica, sendo que um estado embebido não pode ser transferido de um super-estado para outro.
Reconhecimento de expressões faciais 32 O estudo de Cohen e outros [49] visa construir um sistema em tempo-real que classifique imagens faciais a partir de dados de vídeo. Baseia-se no tracker desenvolvido por Tao e Huang [50] denominado Piecewise Bézier Volume Deformation (PBVD), que se serve de um modelo tridimensional da imagem facial, ajustado ao rosto a analisar, para acompanhar os movimentos dos principais elementos faciais (ilustração 18).
Os movimentos são definidos em termos de parâmetros de controlo de volume de Bézier e são denominados de Motion Unit (MU). Utilizam-se classificadores de redes Bayesianas, aplicando estimações de máxima verosililhança para aprender os parâmetros da rede. O algoritmo Expectation Maximization (EM) é utilizado para maximizar a função de verosimilhança quando os dados estão incompletos. Neste estudo é explorado o uso dos classificadores Naive Bayes (NB) e Tree-Augmented
Naive Bayes (TAN). O primeiro assume os elementos como independentes dado o rótulo da classe. O seu desempenho é aceitável muitas vezes devido à necessidade de aprendizagem de poucos parâmetros. O segundo constrói uma árvore através da organização hierárquica dos elementos faciais. Estes classificadores permitem obter bons resultados, sendo de 77,70% no