21.Chez le garagiste
22. L’élevage du poisson
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 H V
Figura 4.15: Separação dos pixels no plano HS em 9 classes distintas Na próxima Seção, apresentamos os resultados do experimento.
4.6
Resultados
A análise dos resultados se dá através de forma qualitativa e quanti- tativa. A análise qualitativa se dá apenas comparando visualmente a detecção de pele, através de imagens binárias1 onde a cor branca indica
que o pixel foi detectado como pele e a cor preta indica que o pixel não foi detectado como pele.
A análise quantitativa dos resultados é baseada na comparação de indicadores numéricos calculados a partir de informações extraídas após a aplicação de cada uma das técnicas de detecção de pele. A metodolo- gia utilizada para avaliação das técnicas de detecção de pele está apre- sentada na Seção 2.4 página 24 e também será utilizada para avaliar a
. R E S U L T A D O S 8 5 Tabela 4.2: Dados de Entrada RGB HS Cp1Cp2 C’rC’b Técnica
Limiar de Classificação de Kovac et al. (2003) ! – – !
Limiar de Classificação de Hsu et al. (2002) – – – !
Histograma de cor – largura 1 ! – – –
Histograma de cor – largura 64 ! – – –
Histograma de cor suavizado ! – – –
Gaussiana 2x variada – ! ! –
4.6. RESULTADOS 86 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 H V
Figura 4.16: Separação dos pixels no plano HS em 2 classes distintas
20 40 60 80 −100 −50 0 50 100 Cp1 Cp2
Figura 4.17: Separação dos pixels no plano CP1,CP2 em 9 classes dis- tintas
20 40 60 80 −100 −50 0 50 100 Cp1 Cp2
Figura 4.18: Separação dos pixels no plano CP1,CP2 em 2 classes dis- tintas
heurística proposta para correção de cor. Para este propósito, foi mon- tado um experimento onde, primeiramente, comparamos as técnicas de detecção de pele —as que obtiveram mais sucesso dentre as apresenta- das na Seção 4.5, sem a utilização de correção de cor, e posteriormente, comparamos as mesmas técnicas utilizando a correção de cor proposta. Finalmente, comparamos as quatro técnicas com mais sucesso, com e sem a correção de cor proposta.
Neste experimento, utilizamos a notação apresentada na Tabela 4.3 para identificação das técnicas utilizadas.
O Anexo A mostra as matrizes de confusão referentes às técnicas de detecção de pele discutidas nesse trabalho seguindo a notação apresen- tada na Tabela 4.3. Nas matrizes de confusão estão apresentados os va- lores discutidos na Seção 2.4. Todos os classificadores avaliados fazem parte da categoria dos Classificadores Supervisionados, sendo dois clas- sificadores de regra fixa (sem limiar de controle) apresentados por Kovac et al. (2003) e por Hsu et al. (2002) e os outros são classificadores onde
4 .6 . R E S U L T A D O S 8 8
Tabela 4.3: Notação utilizada no experimento de avaliação das técnicas de detecção de pele Notação Técnica
geoPeer Regra geométrica baseada no trabalho de Kovac et al. (2003)
geoPeercc Regra geométrica baseada no trabalho de Kovac et al. (2003), com correção de cor geoHsu Regra geométrica baseada no trabalho de Hsu et al. (2002)
geoHsucc Regra geométrica baseada no trabalho de Hsu et al. (2002), com correção de cor bin64 Histogramas de cor com intervalo 64
bin64cc Histogramas de cor com intervalo 64, com correção de cor spline Histograma de cor suavizado
splinecc Histograma de cor suavizado com correção de cor pca2x Mistura de duas gaussiana bivariadas, utilizando PCA
pca2xcc Mistura de 2 gaussianas bivariadas, utilizando PCA e correção de cor pca9x Mistura de 9 gaussianas bivariadas, utilizando PCA
pca9xcc Mistura de 9 gaussianas bivariadas, utilizando PCA e correção de cor hs2x Mistura de 2 gaussians bivaridas, utilizando o plano HS
hs2xcc Mistura de 2 gaussians bivaridas, utilizando o plano HS e correção de cor hs9x Mistura de 9 gaussians bivaridas, utilizando o plano HS
se utiliza o limiar de controle.
As matrizes de confusão apresentadas no Anexo A foram geradas através das taxas de erro e de acerto descritas na Seção 2.4 quando utilizados os classificadores de regra fixa, e através das mesmas taxas de erro e de acerto para os outros classificadores, sendo que utilizando o valor do limiar de classificação Θ que gerou a menor distância eucli- diana (ver Equação (2.5)), ponderada com W = 0, 8, ou seja, priorizando a classe pele.
O valor da precisão P para este mesmo limiar de classificação tam- bém está apresentado junto com as matrizes de confusão. Dessa forma, temos duas medidas quantitativas para comparar os classificadores uti- lizados.
Junto com as matrizes de confusão também estão apresentados os Verdadeiros Positivos (TP) e os Falsos Positivos (FP); esses valores são calculados diretamente dos valores apresentados na matriz de confusão mas estão apresentados para propiciar uma leitura mais direta.
Para evitar possíveis erros de avaliação (uma discussão mais apri- morada é encontrada em Hamilton et al. 2002), também utilizamos as curvas ROC. Três curvas ROC são apresentadas nas Figuras 4.19, 4.20 e 4.21. Nessas curvas, estão plotados os pares (TP,FP) para diversos va- lores de limiar de classificação Θ para o caso dos classificadores onde que utilizam o limiar de controle e um ponto para os classificadores de regra fixa.
Os classificadores que utilizam o limiar de controle estão represen- tados através de curvas com suas respectivas cores, e os classificadores de regra fixa estão representados através de um ponto com seus res- pectivos símbolos. Para o caso dos classificadores que utilizam o limiar de controle, foi destacado o ponto de menor distância euclidiana, repre- sentado por um pequeno círculo ao longo da curva.
Os resultados apresentados no Anexo A, referentes aos classificado- res que não utilizaram a correção de cor, indicam que os classificadores que apresentam os melhores indicadores são: (i) o classificador estatís- tico que utiliza a mistura de duas gaussianas bivariadas com dados de
4.6. RESULTADOS 90
entrada extraídos das duas primeiras componentes principais dos da- dos RGB (pca2x), por apresentar a menor distância euclidiana (0.115782) e a maior precisão (0.66415), (ii) o classificador geométrico apresentado por Kovac et al. (2003) (geoPeer), com valores da distância euclidiana e de precisão bastante aproximados aos apresentados pela técnica an- terior (0.122678 e 0.660195) e (iii) o classificador estatístico que utiliza a mistura de nove gaussianas bivariadas com dados de entrada extraídos das duas primeiras componentes principais dos dados RGB (pca9x), pelo menos motivo (0.119328 e 0.692130).
A escolha do melhor classificador a ser utilizado, pode ser auxiliada pela curva ROC apresentada na Figura 4.19. Nessa Figura temos uma comparação entre todos os classificadores apresentados na Tabela 4.3. Observando os três classificadores que apresentaram os melhores in- dicadores presentes no Anexo A, quando não é utilizada a correção de cor, percebemos que o segundo classificador (pca2x), mostrado através da curva verde, apresenta valores superiores aos outros dois, represen- tados pela curva azul para o classificador pca9x, e o pelo ponto △ para o classificador geométrico de Kovac et al. (2003), em quase todas as regiões.
A análise dos resultados apresentados no Anexo A para os class ifi- cadores que utilizam como dados de entrada a imagem após a correção de cor, indica que os melhores classificadores são: (i) o classificador geométrico apresentado por Kovac et al. (2003) (geoPeercc), por apre- sentar a menor distância euclidiana (0.099711) e a precisão (0.708873), (ii) o classificador estatístico que utiliza a mistura de duas gaussianas bivariadas com dados de entrada extraídos das duas primeiras compo- nentes principais dos dados RGB (pca2xcc), com valores da distância euclidiana e de precisão bastante aproximados aos apresentados pela técnica anterior (0.101641 e 0.720415) e (iii) o classificador estatístico que utiliza a mistura de nove gaussianas bivariadas com dados de entrada extraídos das duas primeiras componentes principais dos dados RGB (pca9xcc), por apresentar uma distância euclidiana semelhante às ou- tras duas técnicas e a maior precisão (0.106334 e 0.758655).
0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 Falsos Positivos (FP) Verdadeiros Positivos (TP) bin64 Hist. Suavizado pca2x pca9x hs2x hs9x geometrica (Peer) geometrica (Hsu)
4.6. RESULTADOS 92
Novamente temos os três classificadores que obtiveram os melho- res indicadores, quando os aplicamos às imagens sem correção de cor, como sendo os que apresentam os melhores indicadores ao aplicá-los em imagens com a correção de cor proposta.
Para o caso de correção de cor, tivemos que o classificador que apre- senta menor distância euclidiana e o que apresenta maior precisão, não coincidem, não tendo assim o melhor classificador e o pior classificador dentre os três. Para facilitar a escolha entre os três, podemos analisar as curvas ROC apresentadas na Figura 4.20. As mesmas cores e símbo- los são utilizados para representar os classificadores avaliados; temos o classificador pca2x (curva verde) novamente superando os outros dois em quase todas as regiões da ROC.
0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 Falsos Positivos (FP) Verdadeiros Positivos (TP) bin64 Hist. Suavizado pca2x pca9x hs2x hs9x geometrica (Peer) geometrica (Hsu)
Figura 4.20: Curva ROC para os métodos analisados após a correção de cor
Para avaliar a correção de cor proposta, utilizamos a Figura 4.21, onde temos quatro classificadores (bin64, pca2x, pca9x e geoPeer) apli- cados às imagens originais e às imagens após a correção de pele. Vale observar que em todos os casos, para a amostra de testes, a correção de cor proposta melhorou os indicadores dos classificadores. Essa afir- mativa pode ser verificada tanto na curva ROC da Figura 4.21, quanto nos dados do Anexo A.
Através da análise acima, escolhemos o classificador estatístico que utiliza a mistura de duas gaussianas bivariadas com dados de entrada extraídos das duas primeiras componentes principais dos dados RGB (pca2x) para fazer a avaliação qualitativa, onde apresentamos as ima- gens presentes no Anexo B. Nessas imagens, temos na primeira coluna as imagens originais, na segunda coluna as imagens após a correção de cor proposta, na terceira coluna a detecção de pele utilizando o clas- sificador pca2x nas imagens originais e, na quarta coluna, a detecção de pele utilizando o classificador pca2x nas imagens após a correção de pele. As imagens apresentada nas terceiras e quartas colunas codificam na cor preta os pixels que não foram classificados como pele e na cor branca os pixels que foram classificados como pele.
No Anexo B temos diversas imagens coletadas na Web que pertencem à base de testes e outras que não pertencem à base de testes. É fácil perceber que, de uma forma geral, a correção de cor proposta diminui a classificação errônea de paisagens, paredes e objetos que, ao serem submetidos à iluminação inadequada ficam com coloração semelhante à cor da pele e provocam erro de comissão; ver as Figuras B.01, B.05, B.06, B.07, B.09, B.17, B.18, B.22, B.24, B.29 e B.30.
Todas as técnicas de detecção de pele avaliadas, sem utilizar corre- ção de cor, independente do espaço de cor em uso, apresentaram pro- blemas com a variação de iluminação. Em alguns casos, a correção de cor diminui o erro de comissão ao custo de aumentar o erro de omis- são (ver Figuras B.04, B.05, B.06, B.09, B.12, B.14, B.15, B.18, B.20, B.21 e B.27). Para esses casos, a utilização da correção de cor pode não melhorar a qualidade geral da classificação. Por este motivo, a heurís-
4.6. RESULTADOS 94
tica proposta na Seção 4.4 visa evitar a aplicação da correção de cor em todas as imagens.
A correção de cor poderá tanto diminuir os erros de comissão quanto aumentar os erros de omissão na mesma imagem. Este fato está des- tacado nas Figuras que foram citadas para os dois casos (Figuras B.05, B.06, B.09 e B.18). Em algumas situações, a correção de cor não pro- voca grandes alterações na imagem, não modificando de forma signi- ficativa a detecção de pele (ver Figuras B.02, B.03, B.10, B.11, B.13, B.16, B.19, B.23, B.25, B.26 e B.28); este fato pode ser facilmente justi- ficado quando o algoritmo encontra todos os pontos mais brilhantes da imagem como sendo o branco RGB = (255, 255, 255).
0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 Falsos Positivos (FP) Verdadeiros Positivos (TP) bin64 bin64cc pca2x pca2xcc pca9x pca9xcc geometrica (Peer) geometrica (Peer) cc
Figura 4.21: Curva ROC para os métodos analisados com e sem corre- ção de cor
iluminação para detecção de pele. Eles estão destacados do Anexo B por apresentaresm resultados bastante marcantes com relação à variação entre a iluminação incandescente e a iluminação fluorescente.
As Figuras 4.22 e 4.23 mostram dois exemplos de detecção de pele com e sem correção de cor. Na Figura 4.22(a) e 4.23(a), temos as ima- gens originais, nas Figuras 4.22(b) e 4.23(b) temos o resultado da corre- ção de cor, utilizando a heurística proposta, aplicada à imagem original. Nas Figuras 4.22(c) e 4.23(c) temos a detecção de pele utilizando pca2x aplicado à imgem original. Nas Figuras 4.22(d) e 4.23(d) temos a detec- ção de pele, utilizando a mesma técnica na imagem com a correção de cor baseada na heurística proposta (pca2xcc).
(a) (b) (c) (d)
Figura 4.22: Detecção de pele em uma imagem azulada (iluminação fluorescente)
(a) (b) (c) (d)
Figura 4.23: Detecção de pele em uma imagem amarelada (iluminação incandescente)
4.6. RESULTADOS 96
pode melhorar consideravelmente a detecção de pele corrigindo erros de comissão e erros de omissão: na Figura 4.22(c) nenhum pixel foi classifi- cado como pele (erro de omissão) devido a aparência azulada provocada pela iluminação fluorescente e a Figura 4.22(d) apresenta uma detecção de pele muito mais eficiente após a aplicação da correção de cor com a heurística apresentada. Da mesma forma, a Figura 4.23(c) mostra a detecção de pele com um número exagerado de pixels marcados como pele (erro de comissão) devido à coloração amarelada provocada pela iluminação incandescente e na Figura 4.23(d) temos uma classificação mais eficiente após a utilização da correção de cor baseada na heurística proposta.
Conclusões e Trabalhos Futuros
5.1
Conclusões
A detecção de pele em imagens veiculadas na Web foi o objetivo principal deste trabalho. Pelo fato da maioria das imagens encontradas na Web apresentar informação extremamente variável em termos de resolução, iluminação e conteúdo, o trabalho aqui proposto não pode beneficiar-se de abordagens que são muito bem sucedidas em domínios restritos ou controlados. Foi, portanto, necessário desenvolver uma técnica geral apta a lidar com uma grande diversidade de situações. Os trabalhos de Hsu et al. (2002), Bretzner et al. (2002) e Albiol & Torres (2001), entre outros, apresentam restrições intrínsecas da aplicação fazendo com que as imagens analisadas sejam mais específicas do que as ima- gens presentes na Web, pois supõem a presença de face humana e de mãos humanas, por exemplo. As imagens depositadas nos servidores Web apresentam diferentes resoluções, tipos de iluminação e qualidade o que torna a detecção de pele difícil. Além disso, as pessoas presentes nessas imagens apresentam diversas etnias, aparecem em diferentes poses e, em geral, aparecem sobre uma paisagem complexa a respeito da qual nada se sabe a priori.
Com todas as características apresentadas, o desafio desse traba- lho foi realizar a especificação, desenvolvimento e avaliação de um sis-
5.1. CONCLUSÕES 98
tema de detecção de pele apto a ser acoplado a outros sistemas. O sistema aqui desenvolvido poderá integrar-se a sistemas de detecção de nudez. Um sistema desse tipo está sendo atualmente desenvolvido, mas as ferramentas desenvolvidas para detecção de pele, que formam o cerne desta dissertação, poderão ser acopladas a diversos outros siste- mas como fora apresentado na Seção 3.2.
As conclusões resultantes do desenvolvimento desta dissertação se- rão agora apresentadas seguindo a divisão funcional do sistema apre- sentado na Seção 4.1.
Uma importante conclusão que podemos apresentar após o desen- volvimento desse trabalho é que, para imagens para as quais não há controle sobre a qualidade e nem sobre o tipo de iluminação utilizada, uma técnica consistente de correção de cor se faz necessária para que uma boa classificação seja alcançada. Negligenciar esta etapa poderá redundar em erros grosseiros de classificação. Este fato foi apresentado exaustivamente na Seção 4.4.
A adaptação cromática presente no sistema de visão dos seres hu- manos faz com que as cores se preservem aproximadamente constantes mesmo quando há variação da iluminação, mas essa característica não é reproduzida com a mesma eficiência pelos sistemas computacionais. Observou-se que determinadas técnicas de correção de cor podem me- lhorar consideravelmente a detecção de pele quando aplicadas a algu- mas imagens, mas que podem piorar drasticamente a detecção de pele em outros casos. Dessa forma, algumas técnicas foram avaliadas neste trabalho, e uma heurísticas foi proposta para que fosse feita uma sele- ção de qual imagem deve ser submetida às técnicas de correção de cor. O resultado obtido para esta etapa é que a heurística proposta neste tra- balho sugere que a correção de cor seja efetuada por uma das técnicas
White Patch ou Gray World, ou nenhuma técnica. O uso desta heurís-
tica provocou uma melhora considerável na etapa de detecção de pele, quando aplicada à base de treinamento montada para a construção do classificador. Testes envolvendo esse método de correção de cor devem ser exaustivamente aplicados em bases de testes maiores para verifi-
car a escalabilidade do método com relação a uma diversidade maior de imagens.
A cor, para os seres humanos, é descrita em espaços tridimensionais e alguns desses espaços fazem uma distinção entre luminância e cromi- nância. Baseados nisso, diversos autores (como por exemplo, Caetano & Barone 2001, Storring et al. 1999) utilizam esse tipo de representação para a cor e descartam a informação de luminância com o propósito de de tornar a cor da pele independente da iluminação presente na cena onde a imagem foi adquirida. Essa abordagem não se mostrou suficien- temente robusta.
Storring et al. (1999) apresentam uma discussão bastante completa sobre o deslocamento que o agrupamento de cores de pele sofre no plano cromático com a variação de iluminação e Hsu et al. (2002) e Shin et al. (2002) sugerem que a utilização do descarte da dimensão de luminância não apresenta os resultados esperados. A utilização das chamadas “co- res puras” (rg normalizado) também é bastante popular com o mesmo objetivo, porém Terrillon et al. (2000) indicam que o uso dessas cores não apresenta bons resultados para a detecção de pele com o intuito de reconhecimento de faces. Esse resultado pode ser extendido para a detecção de pele que estamos interessados.
Uma técnica alternativa à mudança de espaço de cor foi apresentada na Seção 4.3, e foi aplicada aos dados RGB da amostra de cores de pele colhida na base de treinamento: a transformação de componentes principais. Os modelos que utilizam essas informações como dados de entrada apresentaram os melhores indicadores de qualidade de classi- ficação ao detectarem pele nas imagens de nosso interesse. Esse fato sugere que a transformação de componentes principais preserva mais informações sobre a amostra de cores de pele, mesmo ao desprezar- mos a terceira componente (de menor variância), quando comparada ao descarte da dimensão de luminância dos espaços de cor avaliados. Este fato reforça a hipótese que cor da pele é dependente da luminânica e que a redução de dimensionalidade apenas diminui o custo computacional despendido para a implementação do modelo e melhora a tratabilidade
5.1. CONCLUSÕES 100
dos modelos matemáticos para a detecção de pele, mas não torna a cor da pele mais independente da iluminação da cena.
Com a correção de cor apresentada e a redução de dimensionalidade através de transformações de componentes principais, temos informa- ções suficientemente confiáveis para montar um modelo matemático que descreva bem a amostra de cores de pele. Para esse fim, diversas técnicas foram avaliadas e apresentados os resultados na Seção 4.6.
A técnica de histograma de cores não apresentou resultados tão bons quanto outras técnicas, porém pode ser melhorada aumentando o ta- manho das amostras empregadas; isso foi detalhado na Seção 4.5. O trabalho de Jones & Rehg (2002) utilizou uma base de dados da ordem de 109 pixels(bases de teste e treinamento) e os autores relatam que os
resultados foram satisfatórios. Nenhuma correção de cor foi proposta neste trabalho o que torna esse classificador susceptível às variações de iluminação.
O modelo apresentado por Kovac et al. (2003) apresenta uma regra geométrica que resultou em indicadores de qualidade semelhantes aos da técnica proposta neste trabalho, quando aplicada junto com a cor- reção de cor aqui proposta. Os classificadores estatísticos paramétricos avaliados nesse trabalho como modelo misturas de gaussianas. Apesar da técnica de Expectation Maximization sugerir uma mistura composta de nove gaussianas bivaradas, o classificador gaussiano baseado em uma mistura de duas gaussianas bivaridas apresenta melhores resul- tados. Este fato pode ter ocorrido devido a um “sobretreinamento” do modelo com relação à amostra de treinamento. Dessa forma, o classifi- cador baseado em uma mistura de duas gaussianas bivariadas apresen- tou os melhores indicadores de desempenho de acordo com o explanado na Seção 4.6.
Basedo a discussão acima, os resultados do presente trabalho mos- tram:
que a utilização de correção de cor para a detecção de pele em
taxas de acerto na detecção de pele;
que é suficiente usar apenas as duas primeiras componentes prin-
cipais como características de entrada no classificador, pois há ne- las informações suficientes para a criação de modelos confiáveis de detecção de pele;
que o classsificador estatístico paramétrico que utiliza uma mis-
tura de duas gaussianas produz resultados que atendem os pro-