Caractères typographiés - Reconnaissance structurelle de formules mathématiques : état de l’art

Chapitre I Reconnaissance structurelle de formules mathématiques : état de l’art

6.1 Caractères typographiés

Classiquement, la reconnaissance de caractères typographiés inclut les étapes suivantes : l’image correspondant à la page est segmentée pour en trouver les composantes (titre, para- graphes, etc), puis chacun des composants subit à son tour cette opération, pour extraire ces caractères propres. Avant d’en revenir à la reconnaissance du symbole en lui-même, étudions tout d’abord la segmentation dans le cas de caractères typographiés.

L’étape initiale de segmentation des caractères est primordiale pour une bonne reconnaissance du symbole. Elle permet l’identification individuelle des caractères composant les mots ou les phrases. L’approche couramment utilisée pour réaliser cette segmentation est d’effectuer une projection verticale de chacune des lignes. Le profil d’une projection hori- zontale a déjà été présenté dans le cadre du réalignement de l’image. Cette étape permet, outre de détecter l’angle de rotation éventuel qu’a pu subir le document, de mettre en évi- dence les lignes qui composent le texte. En effectuant une projection verticale pour chacune de ces lignes, le profil met en évidence les zones de pixels allumés composant chacun des caractères. Cependant, cette technique est limitée dans le cas d’un document très bruité, ou plus simplement dans le cas d’un mot en italique, la séparation entre chaque lettre apparais- sant moins clairement.

Une zone contenant un caractère est donc maintenant identifiée par la segmentation. Reste à identifier celui-ci. Pour cela, la technique consiste à étudier un ensemble de ca- ractéristiques pour chaque symbole. Le choix de ces caractéristiques est primordial et doit présenter les propriétés suivantes : la variance intra-classe doit être minimale alors que la variance inter-classe doit être maximale ; le rapport largeur hauteur, la convexité, la connexité, l’asymétrie, etc, sont autant de caractéristiques discriminantes couramment utilisées.

Historiquement, la technique utilisée pour effectuer cette identification de motifs est ba- sée sur une analyse syntaxique ([?][1]_{, [?]}[2]_{), introduite au début des années soixante. Ces}

techniques sont toujours d’actualité. L’approche structurelle ([?][3]) a également été exploré. Toutefois, étant donnée la complexité et la variété des formes à reconnaître, les tendances actuelles ne sont plus à l’utilisation d’une méthode unique. L’emploi de méthodes mixtes ou hybrides tend à se généraliser. :

– modèle mêlant analyse syntaxique et relaxation [?][4],

– modèle combinant description syntaxique et statistique des formes [?][5]_{, [?]}[6]_{, afin} [1] GONZALEZR.C. & THOMASONM.G., Syntactic Pattern Recognition : an Introduction (1978). [2] BARTSCH-SPÖRL B., Grammatical inference of graph grammars for syntactic pattern recognition

(1982).

[3] NAGYG., Optical character recognition - theory and practice (1982).

[4] DONH.S. & FUK.S., A syntactic method for image segmentation and object recognition (1985). [5] TSAIW.H., Syntactic and Structural Pattern Recognition : Theory and Applications (1990). [6] FUK.S., A step towards unification of syntactic and statistical pattern recognition (1983).

6. Segmentation et reconnaissance des symboles

d’améliorer la représentation des formes avec erreurs. Ces modèles conduisent soit à la définition d’une grammaire stochastique associée à un analyseur correcteur d’er- reur, soit à une définition de vecteurs caractéristiques, exploités par une technique de classification [?][7]_.

– mélange des approches syntaxiques et des approches à réseaux de neurones ([?][8]

appliqué à la reconnaissance de caractères numériques manuscrits).

Plusieurs article de H. Bunke sont à citer sur l’utilisation de ces méthodes hybrides : [?][9], [?][10], [?][11]. Ces modèles hybrides constituent actuellement un domaine de recherche des plus intéressant pour la reconnaissance de motifs.

La reconnaissance des caractères imprimés, ou typographiés, est l’application principale des systèmes de reconnaissance optique de caractères (OCR). Les systèmes les plus anciens étaient limités à la reconnaissance de quelques fontes dans une taille unique. Chacun des caractères isolés était reconnu en utilisant des modèles de caractères. Pour que ces systèmes soient les plus performants possibles, il était nécessaire que le document n’ait subi aucune rotation, aucun changement d’échelle, aucune distorsion. Mais il est vite apparu qu’il était nécessaire de développer de nouvelles applications capables de reconnaître un nombre plus significatif de fontes et de tailles de caractères.

Ces systèmes, dits omnifontes, ont été, et sont encore, un défi pour les concepteurs de ces applications. Pas moins de 300 fontes différentes peuvent être reconnues, avec des tailles de caractères allant de 6 à plus de 26 points, avec des variations très nombreuses comme l’italique, le gras, les ligatures, etc.

La plupart génèrent tout de même trop d’erreurs, dues à une mauvaise segmentation, à une confusion de fonte, ou bien encore aux nombreux points communs des caractères, dif- ficiles alors à différencier. Pour ne citer que quelques exemples, on peut classer dans cette dernière catégorie : 2 et Z, la lettre O et la chiffre 0, S et 5, I, 1 et l, ou bien encore m et rn, etc. Il devient alors nécessaire d’avoir recours au contexte pour pouvoir prendre la bonne décision. L’une des techniques les plus évidentes pour améliorer les résultats de la reconnaissance est l’utilisation d’un dictionnaire, afin de mettre fin à l’ambiguïté d’un des symboles en fonction de ses voisins, en se basant sur un contexte linguistique (probabilité d’apparition des lettres dans une langue, règles grammaticales [?][1]_{), ou bien encore sur un}

contexte spatial (faire prévaloir le choix des symboles dans la police de caractères que l’on a pu identifier comme étant la police par défaut du document).

[7] TSAIW.H. & FUK.S., Attributed grammar : A tool for combining syntactic and statistical approaches to pattern recognition (1980).

[8] BAPTISTAG. & KULKARNIK.M., A high accuracy algorithm for recognition of handwritten numerals (1988).

[9] BUNKEH., Hybrid approaches (1986).

[10] BUNKEH., Hybrid pattern recognition methods (1990). [11] BUNKEH., Structural and syntactic pattern recognition (1993). [1] NAGYG., Teaching a computer to read (1992).

Malheureusement, toutes ces méthodes heuristiques, utilisées couramment pour augmen- ter les performances de la reconnaissance de textes, ne sont pas transposables à la reconnaissance des symboles composant une notation mathématique. Toutefois, les méthodes clas- siques de reconnaissance de motifs que nous avons présentées sont, quant à elles, employées, même si quelques adaptations sont nécessaires. Nous détaillerons ce dernier point dans le chapitre “réalisations”.

Dans le document Reconnaissance Structurelle de Formules Mathématiques Typographiées et Manuscrites (Page 53-55)