2.3 Characterizations
2.3.2 Physical characterizations
2.3.2.6 Fracture in mode I
Os experimentos realizados, descritos a seguir, são necessários para tentarmos analisar os principais pontos de falha dos softwares de OCR e possibilitar a escolha criteriosa de qual OCR atende aos requisitos do Projeto Nabuco. Procederemos, a seguir, com uma descrição de cada experimento.
Sensibilidade à Digitalização
O ajuste da resolução para digitalização de documentos influencia bastante a capacidade de reconhecimento das ferramentas de OCR. Um alto valor de resolução implica num aumento proporcional do espaço de armazenamento, mas não garante um aumento na taxa de reconhecimento do texto.
Os cinco documentos usados como teste foram digitalizados com diferentes resoluções em tons de cinza e em preto-e-branco para verificar a sensibilidade dos seis softwares. Seja a taxa de
acerto o número percentual de símbolos corretamente transcritos de imagem para texto. A tabela
3 mostra essa taxa, em relação aos seis softwares.
Tabela 3. Taxa de acerto média para diferentes resoluções em imagens monocromáticas
dpi Omnipage Corel SmartPage Wordlinx Textbridge Typereader
75 5,32 % 0,000 % 0,000 % 10,26 % 9,07 % 0,000 %
100 42,70 % 87,1 % 62,22 % 58,31 % 89,5 % 89,98 %
150 98,99 % 96,94 % 88,23 % 68,52 % 99,21 % 99,09 %
200 99,53 % 99,32 % - 66,17 % 99,41 % 99,38 %
250 99,52 % 99,05 % - 70,53 % 99,47 % 99,59 %
O Smartpage não trabalha com imagens digitalizadas com resolução maior que 150 dpi. Nota-se também uma degradação na taxa de acerto com resoluções de 200 a 250 dpi no Corel OCR Trace e no Omnipage. Isso pode ser explicado devido ao aumento da presença de ruídos (advindos do próprio papel) quando se aumenta a resolução da imagem, aumentando também a quantidade de detalhes. Wordlinx apresentou a pior taxa de acerto entre todos os softwares testados. Mesmo com altas resoluções, seus melhores resultados foram abaixo do aceitável com taxas de erro acima de 30%.
Alguns softwares permitem o auxílio de dicionários para decisão das palavras reconhecidas. No entanto, optamos pela não utilização deste recurso por dois motivos. Primeiro, nem todos os softwares testados possuem dicionários acoplados, o que dificultaria a comparação. Em segundo lugar, procuramos analisar a informação vinda diretamente da ferramenta. Lembramos que nosso objetivo maior é a aplicação a imagens de cartas e documentos do começo do século. Os textos dessa época possuem uma ortografia distinta da atualmente em vigor, não conseguindo ser corrigida pelos programas de hoje.
Como visto na tabela 2, apenas o Omnipage e o Corel OCR Trace trabalham com imagens em tons de cinza. Sua precisão para este tipo de imagem com diferentes resoluções pode ser vista na tabela 4.
Tabela 4. Taxa de acerto média para diferentes resoluções de imagens em tons de cinza.
dpi Omnipage Corel OCR Trace
75 23,71 % 20,8 %
100 48,51 % 33,24 %
150 97,76 % 60,27 %
200 98,63 % 97,31 %
Ambos os softwares tiveram respostas similares para altas resoluções. No entanto, o Omnipage convergiu para melhores resultados mais rápido que o Corel OCR Trace, como pôde ser visto na Tabela 4, e também apresentou melhores taxas para baixas resoluções.
Sensibilidade à Rotação do Documento
Como já mencionado, o processo de OCR é sensível à rotação do documento. A taxa de acerto das ferramentas de OCR varia com o grau de rotação da imagem. Enquanto alguns softwares tratam essa rotação com pequena perda de informação, outros não trabalham tão apropriadamente.
Após a digitalização, o software de OCR deve verificar se a imagem foi rotacionada durante a digitalização. Para isso, um processo de detecção de bordas deve ser realizado a fim de determinar graus de rotação. Tal processo é necessário porque algumas técnicas usadas para reconhecimento de caracteres requerem que as entradas estejam corretamente alinhadas. O detector de bordas pode determinar o ângulo de rotação e, em seguida, usar essa informação para re-orientar a imagem e alinhá-la.
Como já vimos, uma maneira de proceder com a detecção de rotação é através do uso da
transformada de Hough (maiores detalhes no Apêndice B desta tese), procedendo com uma
rotação no sentido inverso a fim de alinhar a imagem.
Rotação é tratada apenas pelo Omnipage, Corel OCR Trace e TextBridge Pro. Apenas uma das imagens foi usada como teste, sendo rotacionada no sentido horário em diferentes graus. A taxa média de acerto desses softwares na imagens testada pode ser vista na tabela 5.
Tabela 5. Taxa de acerto média para diferentes graus de rotação para uma imagem com 250dpi.
Rotação Omnipage Corel OCR Trace TextBridge
1 grau 98,63 % 99,25 % 99,25 %
2 graus 98,63 % 96,77 % 99,13 %
3 graus 98,51 % 33,24 % 99,01 %
12 graus 97,72 % 0 % 0 %
O Omnipage trabalhou com imagens com mais de 12 graus de rotação com uma pequena diferença na taxa de erro (menos de 1%). O mesmo não aconteceu com os outros softwares que apresentaram uma alta taxa de degradação trabalhando com imagens com mais de 3 graus (no caso do Corel) ou 10 graus (no caso do TextBridge).
Sensibilidade ao Brilho
O próximo experimento tem como objetivo determinar o melhor valor de ajuste de brilho na digitalização a fim de obter os melhores resultados para cada software. Para tanto, trabalhamos com imagens monocromáticas com 200 dpi. Dois softwares não foram usados neste experimento: o Smartpage devido à sua limitação de resolução a 150 dpi e TypeReader o qual, em sua versão demonstrativa não permite o armazenamento dos arquivos texto gerados.
Os documentos serão então digitalizados com diferentes variações no aumento do brilho de 1 a 255 unidades, variando de 5 em 5, totalizando 50 imagens para cada texto (algumas imagens foram excluídas por estarem completamente escuras devido ao valor de brilho ser muito baixo). Essas imagens foram então usadas como entrada para as ferramentas de OCR. Suas respostas foram comparadas com os arquivos originais e a taxa média de erro percentual foi desenhada como pode ser visto na Figura 14 e na Figura 15.
Alguns pontos de degradação podem ser notados nos gráficos das Figuras 14 e 15. Essa degradação pode ser notada como descontinuidades (na forma de pequenos "vales") nos gráficos acima. Para o Textbridge, por exemplo, uma degradação foi observada com valores de brilho entre 95 e 100. A Figura 16, abaixo, apresenta um exemplo de tal problema. A palavra mostrada na figura seria corretamente transposta como “History”. A imagem digitalizada com 95% de brilho (Figura 16.a) gerou a tradução correta com o TextBridge. O mesmo software, no entanto,
traduziu a palavra “History” como “Histwy” com uma imagem digitalizada com valor de brilho de 100% (Figura 16.b). O mesmo ocorreu com alguns outros softwares com outras imagens produzindo o decréscimo na curva de precisão.
Figura 14.Brilho versus Precisão para o TextBridge e o Corel OCR Trace
Figura 15.Brilho versus Precisão para o Omnipage e o Wordlinx
A média de brilho que produziram os melhores desempenhos são mostrados na tabela 6. O valor médio de brilho que gerou taxas de acerto ótimas nos quatro softwares testados foi de 103,75 que é menor que o valor médio definido pelos digitalizadores, em geral (que vão de 0 a 255). Ou seja, a precisão dos softwares de OCR foi melhor em baixos valores de brilho (imagens mais escuras) do que em altos valores (imagens mais claras). A taxa de erro alcançada nesses valores é diferente para cada software.
a) b)
Figura 16.Detalhes da degradação na digitalização.
a) Digitalização com brilho ajustado para 95 e (b) digitalização com brilho de 100 Tabela 6. Melhores valores de brilho para maior taxa de acerto no reconhecimento
Software Melhor valor de brilho
Textbridge 90
Corel OCR Trace 115
Omnipage 105