3.3 Oxidation kinetic modelling
3.3.3 Comparison of polychloroprene with other polydienes . 62
É importante observarmos que a comparação entre a resposta do OCR e o texto original não é uma tarefa simples. Nos experimentos com diferentes valores de brilho, por exemplo, diversos tipos de erros foram encontrados na saída do OCR. Um processo não-automático para comparação dos textos é inaceitável devido ao custo e a baixa taxa de confiabilidade. Um sistema totalmente automático, entretanto, terá que lidar com todo tipo de erro para gerar uma resposta correta. Antes de analisarmos os erros no arquivos de texto, é preciso que um pré-processamento seja aplicado. Devido a grande variedade de diferentes tipos de erros, os arquivos de texto são formatados a fim de facilitarem o reconhecimento automático de erros. A contagem de erros é feita por comparações com o arquivo de texto original. Problemas para esse processo automático ocorrem em diversas situações. A mais crítica, por exemplo, acontece quando uma linha inteira de texto é reconhecida erroneamente. A ferramenta de OCR pode reconhecer errado todos os caracteres ou não reconhecer a linha e pulá-la, passando para o reconhecimento da próxima linha. Nesse último caso, um sistema de contagem de erros faria a comparação de linhas diferentes do texto original e consideraria que a linha inteira foi reconhecida errada, prosseguindo com a comparação entre linhas diferentes do texto, difundido o erro. No caso, uma única linha não reconhecida poderia provocar uma grande taxa de erro no texto, podendo não representar o valor correto. Assim, o pré-processamento trata desse e de outros problemas que ocorrem no reconhecimento de uma imagem textual por uma ferramenta de OCR, evitando erros na taxa de acerto calculada. Por exemplo, quando uma linha não é reconhecida, uma caractere especial (“-”) é colocado em seu lugar no texto.
Nas imagens testadas, detectamos as seguintes classes de erros nos textos de saída (considerando o pré-processamento feito no texto, explicado anteriormente):
• Substituição de um caractere por outro (“e” por “c”)
• Substituição de um caractere por mais de um (como em “m” por “rn”) • Substituição de mais de um caractere por apenas um (como em “rn” por “m”) • Perda de caracteres (supressão)
• Junção de palavras sem perda de caracteres (supressão de espaços em branco) • Junção de palavras com perda de caracteres
• Perda completa de linhas de texto • Inserção de caracteres
• Inserção de ruído
O primeiro item acima é o mais fácil de ser tratado. Este problema não causa nenhuma mudança no comprimento da palavra original; apenas a substituição de um caractere diferente de espaço. Devemos observar que não estamos interessados, no momento, na correção das palavras feita com o auxílio de um dicionário. Nosso interesse está enfocado apenas na detecção de erros. Quando o valor de brilho é ajustado próximo aos valores ótimos dos OCR’s (tabela 5), a substituição de um caractere por outro é o erro mais comum, seguido pela inclusão de caracteres, geralmente, devido a ruídos no documento original. Smartpage e Wordlinx foram os softwares que tiveram as maiores taxas de troca de caracteres (cerca de 60% de seus erros). Os outros softwares apresentaram uma divisão mais distribuída dos seus erros entre todas as classes, observando o crescimento da taxa de inclusão de caracteres em altos valores de brilho.
O pior caso para detectar é quando uma ou mais linhas completas são apagadas. O sistema deve decidir se houve mesmo uma exclusão ou se a linha foi reconhecida inteiramente errada. Embora esta seja a classe mais difícil de detectar é também a mais rara, sendo detectada apenas em altos e baixos valores de brilho.
A junção de duas palavras com ou sem perda de algum caractere é também um erro comum encontrado em altos e baixos valores de brilho. Entre essas duas classes, o erro mais freqüente é a união de duas palavras sem a perda de qualquer caractere.
Como mencionado anteriormente, estamos interessados apenas na detecção de erros gerados pelas ferramentas de OCR para comparação entre sua saída e o arquivo original. Nenhuma tentativa de correção de erros foi feita.
Em altas resoluções, o tipo de erro mais comum é causado por um reconhecimento errado de algum caractere. Esse tipo de erro pode ser corrigido, se um dicionário for usado em conjunto com o OCR. Em baixas resoluções, todas as classes de erro estão presentes no texto de saída e é praticamente impossível utilizar apenas uma técnica para corrigi-los.
1.4
Conclusão
Neste Capítulo, analisamos as principais características de um ambiente para processamento de documentos e os fatores que afetam a taxa de acerto de ferramentas de OCR. Alguns desses fatores advém do processo de digitalização e podem prejudicar sensivelmente os algoritmos de reconhecimento de padrões.
Em busca de uma ferramenta de OCR para atender às necessidades do Projeto Nabuco testamos diversos softwares comerciais e, inclusive, desenvolvemos uma ferramenta primitiva. Concluímos que a criação de um software próprio não traria muitas vantagens em termos de custo e benefício, se utilizado como único recurso de OCR. Submetendo os programas comerciais a diversas condições extremas, consideramos o Omnipage como a ferramenta mais adequada ao projeto. O OCR primitivo desenvolvido ainda será analisado posteriormente em próximas etapas do Projeto, onde um sistema de OCR’s múltiplos será desenvolvido. As respostas dos OCR’s serão analisadas e o sistema deverá determinar qual a melhor resposta a cada palavra reconhecida. Nesse caso, um aprimoramento na ferramenta primitiva desenvolvida, ajustada especificamente para os documentos de Joaquim Nabuco, poderá servir como um ponto de partida para a decisão a ser tomada automaticamente.
Um dos primeiros passos no processo de transcrição de uma imagem textual para um arquivo editável de texto é a segmentação, como foi apresentado neste Capítulo. Uma segmentação eficiente pode levar o sistema a altas taxas de acerto quanto ao reconhecimento.
Documentos históricos apresentam o agravante de possuírem uma textura característica no papel com propriedades as mais adversas por causa da degradação provocada por diversos fatores. Dessa forma, um algoritmo de segmentação eficiente é fundamental quando falamos em reconhecimento automático de caracteres da digitalização de tais documentos. Por esse motivo, abordaremos no próximo Capítulo alguns dos principais algoritmos para segmentação de imagens, incluindo um novo algoritmo desenvolvido no âmbito desta tese.