Fabrication et assemblage - 2 Design Optique

2 Design Optique

3 Fabrication et assemblage

Em (PHAM; MOENS; TUYTELAARS, 2008), o objetivo ´e alinhar os nomes presentes nas le-

gendas de imagens com suas faces correspondentes nas imagens. Nesse caso, o problema de alinhamentos de omissão (1-0 ou 0-1), encontrado no alinhamento de palavras em textos pa- ralelos, também ocorre aqui. Mais especificamente, como nem todos os nomes que aparecem nas legendas possuem uma correspondência com alguma face na imagem (e vice-versa), alinha-

3.3 Alinhamento texto-imagem 54

mentos de omiss˜ao podem ocorrer.

Visando a resolução desse problema, a partir de evidências emp´ıricas, três abordagens diferentes para o alinhamento texto-imagem foram propostas por Pham, Moens e Tuytelaars (2008): (a) a primeira trabalha a partir da suposição de que os nomes presentes em um texto geram as faces de uma imagem, (b) a segunda supõe que as faces de uma imagem geram os nomes do texto e (c) a terceira advoga que há uma co-ocorrência entre nomes e faces.

A Figura 3.28 mostra todas as possibilidades de alinhamento de acordo com as três abordagens citadas acima. Além das entidades “face” e “nome” estão presentes também as entidades “nenhuma face” (no face) e “nenhum nome” (no name) indicando, respectivamente, a existência de nomes no texto que não possuem uma face vis´ıvel na imagem ou de faces que aparecem na imagem e não possuem um nome no texto.

Figura 3.28: Exemplo de uma imagem acompanhada de um texto e todas as possibilidades de alinhamento texto-imagem de acordo com as trˆes abordagens propostas em (PHAM; MOENS; TUY- TELAARS, 2008).

Alguns passos de pr´e-processamento foram realizados com textos e imagens antes de reali- zar o alinhamento texto-imagem, s˜ao eles:

• Pré-processamento nos textos – Os textos foram processados para permitir: (1) o reconhe- cimento de entidades nomeadas usando a ferramenta do pacote OpenNLP8em conjunto com nomes extra´ıdos do site Wikipedia9 para aumentar a precisão da ferramenta, (2) a resolução de anáfora10nos nomes previamente reconhecidos realizada pela ferramenta do pacote LingPipe11 e (3) o agrupamento das entidades reconhecidas no texto usando um algoritmo hierárquico baseado na similaridade de cosseno para a associação de grupos. O agrupamento de nomes é necessáro para evitar que dois nomes se referindo à mesma pessoa herdem as faces da imagem, causando distúrbio nos cálculos probabil´ısticos.

• Pré-processamento nas imagens – As imagens foram processadas para permitir: (1) a detecção de faces utilizando a abordagem da OpenCV (VIOLA; JONES, 2004) e das ca- racter´ısticas faciais com a implementação de (EVERINGHAM; SIVIC; ZISSERMAN, 2006) e (2) o agrupamento das faces, realizado de modo similar ao agrupamento de nomes, utilizando um algoritmo de agrupamento em conjunto com similaridade de cosseno. Nesse processo, foi definido que faces encontradas em uma mesma imagem não podem ser agru- padas no mesmo grupo, evitando assim erros no agrupamento. Além disso, sabe-se que o tratamento de faces é um problema complexo, uma vez que imagens de faces apre- sentam diferentes condições de luminosidade, mudanças de pose e expressões faciais. Para lidar com esse problema foi utilizado um modelo de faces transformáveis 3D (SMET; FRANSENS; GOOL, 2006). Esse modelo 3D permite a estimativa de poses e luminosidade e elimina mudanças irrelevantes entre as faces. O modelo retorna 40 componentes de textura e 40 para formato.

Vale mencionar que os grupos de faces e textos foram constru´ıdos de formas semelhantes para que pudessem ser utilizados pelos cálculos de probabilidade de maneira semelhante. As- sim, após o pré-processamento de textos e imagens, o alinhamento texto-imagem foi realizado por meio de uma abordagem probabil´ıstica sando o algoritmo Expectation Maximization (EM) (DEMPSTER; LAIRD; RUBIN, 1977) tendo como base a co-ocorrência entre faces e nomes.

O sistema foi testado e avaliado no site de not´ıcias Yahoo! News (BERG et al., 2004) com nomes e faces manualmente anotadas por Huang et al. (2007). Esse banco de dados possui

8_{Dispon´ıvel em: http://opennlp.sourceforge.net/} 9_{Dispon´ıvel em: http://en.wikipedia.org/}

10_{A resolução de anáfora ajuda a agrupar nomes como “Lula” e “Luiz Inácio Lula da Silva”.} 11_{Dispon´ıvel em: http://www.alias-i.com/lingpipe/}

3.3 Alinhamento texto-imagem 56

11.820 pares de texto-imagem com a média de 2 nomes por texto e 1,12 faces por imagem. Após o pré-processamento, foram encontrados 9.793 grupos de nomes reconhecidos com uma precisão de 81%12 em um conjunto de validação com 100 imagens-texto. Já o agrupamento de imagens retornou 749 faces. Usando um pequeno conjunto de validação, verificou-se que a relação entre os grupos de face gerados e os grupos de faces de um conjunto de referência foi no máximo de 48%.

A Figura 3.29 mostra os resultados do sistema de alinhamento texto-imagem proposto em (PHAM; MOENS; TUYTELAARS, 2008). Nessa Figura, as indicac¸˜oes “a)” e “e)” representam a

primeira abordagem (atribuição de faces aos nomes), as indicações “b)” e “f)”, a segunda abordagem (atribuição de nomes às faces) e as demais se referem à terceira abordagem (coocorrência entre nomes e faces). A precisão para a primeira abordagem foi calculada como a razão entre as faces corretamente nomeadas sobre o número de nomes. Para a segunda abordagem, a precisão foi calculada como a razão entre nomes corretamente atribu´ıdos sobre o número de faces. Para a terceira abordagem, a precisão foi calculada como a razão entre os pares de face-nome corretos sobre o número total de pares face-nome. Baseado nos resultados da Figura 3.29 nota-se que a primeira abordagem obteve melhores resultados.

Figura 3.29: Valores de precisão para as três abordagens propostas (para a primeira iteração do algoritmo EM e para o EM completo).

Fonte: Adaptado de (PHAM; MOENS; TUYTELAARS, 2008)

Dans le document “Etude et modélisation des performances de systèmes découpeurs d'images pour l'astronomie. Application à l'instrumentation du JWST et du VLT” (Page 113-118)