• Aucun résultat trouvé

Identification des relations spatiales et logiques entre les symboles

Chapitre I Reconnaissance structurelle de formules mathématiques : état de l’art

7.1 Identification des relations spatiales et logiques entre les symboles

L’identification des relations indice, exposant, ou de toute autre notation utilisant un re- groupement implicite (sans opérateur explicite), est complexe et problématique. Les exemples d’erreurs cités dans [?][1]sont principalement dus à une mauvaise reconnaissance des indices et exposants.

Z. X. Wang et C. Faure [?][2] proposent une méthode basée sur l’étiquetage statistique

des liens entre les symboles, dans le but de déterminer les relations d’indices et d’exposants. Cet article met en évidence la difficulté de la tâche et propose une approche intéressante du problème. Étant donnée une séquence de boîtes englobantes pour les symboles reconnus, le but est d’étiqueter les relations entre paires d’éléments en indiquant en position “exposant” (E), sur la même ligne (L), ou en position indice (S) : voir figure 10.

S E L S E L L SE L SE S L L S L L L SE L SL Exemple de correction

1

2

3

E L L

1

2

3

E L S Calcul Statistique Correction Contradictoire Correction

FIG. 10 – Étiquetage statistique des liens entre symboles

Un ensemble de données composé de 35 expressions produites par 7 utilisateurs est uti- lisé pour entraîner le système. Chaque caractéristique est mesurée pour chacune des paires de boîtes englobantes : le ratio pour la hauteur et le décalage vertical. Toutes les liaisons entre symboles doivent être étiquetées, que ceux-ci soient adjacents ou non. Pour illustrer l’utilité de cette contrainte, prenons l’exemple suivant pour lequel l’étiquetage est identique (E suivit de S) : xai et xai. Pour distinguer ces deux expressions, la relations x-i doit être connue (E

dans le premier cas, L dans le deuxième). Le processus ne tient compte que de la position des symboles (leur boîte englobante), mais en aucun cas de l’identité du symbole, ou encore de la ligne de référence du caractère, d’où de possibles ambiguïtés ; c’est le cas lorsque les boîtes englobantes ont des configurations similaires, mais que les relations spatiales entre

[1] OKAMOTOM. & TWAAKYONDOH.M., Structure analysis and recognition of mathematical expressions (1995).

les symboles sont différentes : yc et bc. Ce système d’étiquetage entre pour partie dans la reconnaissance globale d’expressions, système exposé dans [?][3].

Une approche différente est mentionnée dans [?][1] et [?][2]. La reconnaissance est là aussi basée sur les coordonnées des objets, mais également sur un contexte local. Des confi- gurations d’éléments sont reconnues comme légales ou illégales ; ax et xnsont des notations

légales alors que A, B.ou x!ne le sont pas.

Une fois la reconnaissance des relations spatiales et/ou logiques réalisée entre les dif- férents symboles composant une expression mathématique, il est nécessaire d’effectuer une reconnaissance de la structure de la formule. Prenons la formule suivante pour illustrer la différence d’interprétation qui peut être faite pour la notation :

x+ y

Deux types d’interprétations sont possibles :

– une description de la représentation : x est sur la même ligne et à gauche d’un +, et y sur la même ligne et à droite de ce symbole +,

– et avoir reconnu la somme de x et de y qui révèle qu’une analyse plus fine de la représentation a été réalisée ; le sens de la notation a été extrait.

Une étape d’analyse structurelle est nécessaire pour passer du premier niveau de recon- naissance d’une formule au deuxième, où la formule est identifiée en tant que telle.

7.2

Reconnaissance de la structure de la formule

Le regroupement de symboles en sous-expressions est le problème central de la recon- naissance des expressions mathématiques. Un des points les moins étudiés, est la reconnais- sance des notations matricielles. Deux approches sont toutefois à citer. Dans [?][1], l’analyse consiste à repérer une paire de délimiteurs de la même taille et du même type. Une projec- tion horizontale est effectuée pour la zone ainsi délimitée ; si la projection met en évidence plusieurs lignes, une projection verticale est réalisée pour séparer les différentes colonnes. Chaque élément composant la matrice peut ainsi être identifié séparément. Dans [?][2], le point de départ est aussi la recherche de symboles délimitants, mais les symboles présents

[3] WANGZ.X. & FAUREC., Automatic perception of the structure of handwritten mathematical expres- sions (1990).

[1] LEEH.J. & WANGJ.S., Design of a mathematical expression recognition system (1995).

[2] OKAMOTOM. & TWAAKYONDOH.M., Structure analysis and recognition of mathematical expressions (1995).

[1] OKAMOTOM. & TWAAKYONDOH.M., Structure analysis and recognition of mathematical expressions (1995).

8. Diversité des approches existantes

dans cette zone sont groupés suivant leur proximité ; on peut noter qu’aucune information n’est donnée sur les propriétés métriques utilisées.

Outre le cas de notations particulières, comme la notation vectorielle ou matricielle, plu- sieurs méthodes ont été étudiées dans le but de reconnaître des expressions mathématiques. Les méthodes syntaxiques se fient à l’analyse lexicale, dans le but de déterminer le regrou- pement correct en sous-expressions. Le découpage par projections exploite l’existence de l’espacement entre les symboles pour extraire, assez efficacement, la structure d’une ex- pression. Nous allons étudier les différents cheminements qui ont été utilisés pour tenter de résoudre ce problème.

8

Diversité des approches existantes

Les critères détaillés dans le paragraphe 4 montrent bien que la reconnaissance de for- mules mathématiques est un cas très particulier. Plusieurs recherches ont été effectuées afin de tenter de résoudre le problème de la reconnaissance de la structure d’une expression ma- thématique en ne disposant au départ que de l’image de cette formule. Nous allons essayer de les répertorier en classant les approches utilisées par thèmes, en citant les avantages ou inconvénients de chacunes d’elles, ainsi que les principaux problèmes rencontrés.