Une interface pour saisir des expressions mathématiques manuscrites

Chapitre 5 : Expérimentations et résultats

5.10. Applications

5.10.2. Une interface pour saisir des expressions mathématiques manuscrites

Le second prototype fonctionne dans l’environnement PC, il est destiné à la saisie d’expressions mathématiques complexes. Aucune contrainte n’est imposée à l’utilisateur, il faut juste que les symboles utilisés soient compris dans le vocabulaire du classifieur (RamanReduced, 34 symboles). L’interface est basée sur l’architecture globale que nous avons proposée. L’utilisateur est invité à écrire son expression en toute liberté avant d’appuyer sur un bouton indiquant la fin de saisie. Ensuite l’encre obtenue est envoyée au système où toute la chaîne de la reconnaissance d’expressions est appliquée. Le résultat est finalement affiché en format LaTeX, et aussi converti en image. L’utilisateur peut ensuite compléter son expression ou en saisir une nouvelle. La Figure 81 montre une capture de l’interface détaillant ses fonctionnalités. Cette application a été développée avec Visual Studio.

180

Figure 81 - Une capture d'écran de l’interface de saisie d’expressions mathématiques

181

CONCLUSION ET

PERSPECTIVES

Conclusions et perspectives

183

Le but des travaux menés au sein de cette thèse a été de proposer une contribution au domaine de la reconnaissance des langages bidimensionnels manuscrits en-ligne. En plus de l’ambiguïté qui se trouve naturellement dans les documents manuscrits, ces langages portent plus de complexité en raison de leur nature bidimensionnelle. Cela rend les trois phases classiques de la reconnaissance de l’écriture (la segmentation, la reconnaissance des symboles, l’interprétation) encore plus difficile. Le positionnement des symboles n’est plus systématiquement de gauche à droite (ou l’inverse dans certains scripts), mais les symboles peuvent s’écrire dans toutes les directions. Les techniques de segmentation doivent donc respecter cette propriété. La phase de reconnaissance des symboles est un problème classique de reconnaissance de formes. Toutefois, du fait du nombre important de classes présentes (plus de 220 symboles pour les expressions mathématiques) la difficulté s’en trouve accentuée. La dernière phase, l’interprétation, est la plus difficile car il s’agit dans un premier temps d’analyser la structure 2D du document avant d’appliquer une analyse syntaxique adaptée aux langages 2D.

Après avoir exploré l’état de l’art de ce domaine nous avons concentré plus particulièrement notre étude sur la reconnaissance d’expressions mathématiques manuscrites en-ligne. L’absence de bases de données publiques est une grande difficulté à laquelle sont confrontés les chercheurs de ce domaine. Dans cette optique, nous avons développé l’outil LaTeX2Ink qui permet de générer des grosses bases d’expressions mathématiques à partir des chaînes LaTeX et d’une base de symboles isolés. Ces bases, dites synthétiques, ont été dédiées à l’apprentissage et au réglage du système. Pour rendre l’évaluation davantage réaliste nous avons collecté deux bases, dites réelles, d’expressions mathématiques. Les mesures utilisées pour évaluer la performance de notre système sont : le taux de segmentation, le taux de reconnaissance des symboles, le taux de reconnaissance d’expressions. Ces mesures sont les plus utilisées dans la littérature. De plus, nous avons proposé de nouvelles mesures pour évaluer la reconnaissance des relations spatiales. Pour l’instant, nous n’avons mis en œuvre qu’une version expérimentale limitée de ces mesures car leurs calculs nécessitent de mettre au point des algorithmes complexes de comparaison d’arbres.

La reconnaissance de structures 2D se déroule classiquement en trois étapes séquentielles : la segmentation, la reconnaissance, et l’interprétation. Plus récemment, plusieurs travaux considèrent une segmentation et reconnaissance des symboles simultanées. Nous avons proposé, à l’instar d’autres travaux récents, un système basé sur une approche globale qui effectue une optimisation simultanée de ces trois étapes. Nous transférons le problème de reconnaissance en la recherche de la meilleure interprétation possible d’un ensemble de traits d’entrée. Contrairement à beaucoup de travaux existants, nous avons considéré un classifieur de symboles doté d’une capacité de rejet pour gérer les segmentations invalides proposées par un générateur d’hypothèses de symboles. Nous avons présenté deux stratégies pour inclure le rejet dans le classifieur. La première est

184

de combiner deux classifieurs (classifieur de symboles et classifieur du rejet) dans un classifieur hybride. Dans ce cas, le classifieur de rejet est en charge de distinguer entre les bonnes et mauvaises segmentations. La seconde solution, plus compacte et toute aussi performante, est d’ajouter une sortie additionnelle au classifieur pour qu’il représente la classe de rejet.

Une originalité de notre système réside dans le schéma d’apprentissage global du système. Cet apprentissage permet d’entraîner le classifieur de symboles directement à partir des expressions complètes au lieu d’utiliser un classifieur appris en isolé. L’avantage de ce schéma est de pouvoir avoir des exemples de rejet dans le contexte de reconnaissance d’expressions pour apprendre cette classe. Nous avons proposé plusieurs stratégies pour réaliser cet apprentissage et enrichir la connaissance du classifieur. En effet, le classifieur peut être initialisé par un apprentissage isolé avant d’appliquer un apprentissage global (apprentissage iso-global). De plus, la base de symboles isolés peut être considérée comme une base d’expressions à un seul symbole qui peut participer à l’apprentissage global pour l’enrichir encore plus. Nous avons également proposé une modélisation contextuelle basée sur l’analyse structurelle de l’expression. Cette analyse structurelle s’effectue à base de règles empiriques ou encore en se basant sur des modèles probabilistes appris lors d’un apprentissage sur une base d’expressions. Les modèles appris permettent d’éviter les problèmes de situations imprévisibles entre les symboles d’une expression en modélisant ces situations telles qu’elles apparaissent dans les expressions.

Finalement, nous avons présenté et analysé de nombreuses expérimentations et les résultats obtenus ont permis de situer les différentes approches proposées. Ainsi, le taux de reconnaissance d’expressions a évolué de 24% en utilisant un classifieur appris en isolé sans capacité de rejet à 70% en utilisant la meilleure configuration du système. Cette configuration consiste en un classifieur global avec une classe explicite de rejet et une modélisation probabiliste des relations spatiales. Nous avons également adapté le système actuel à la reconnaissance d’organigrammes manuscrites en-ligne avec un succès acceptable compte tenu de l’effort minimal d’adaptation réalisé.

Conclusions et perspectives

185

Perspectives

Nous avons souligné tout au long de ce manuscrit plusieurs points qui pourraient améliorer le système global. Le point le plus important à aborder va être l’apprentissage global du système à partir d’une base d’expressions réelles. Car même si le générateur d’expressions fournit de grandes quantités d’expressions, il a montré ses limites surtout en ce qui concerne l’apprentissage des modèles de relations spatiales. De plus, il va falloir impérativement étendre le corpus d’expressions utilisées en apprentissage afin de considérer davantage de symboles et de relations. L’utilisation d’une base réelle nécessite un travail supplémentaire pour étiqueter la vérité terrain des expressions. Bien entendu, cette tâche est longue et fastidieuse. Une autre extension serait de pouvoir se passer de cet étiquetage pendant l’apprentissage. Dans cette même optique, une thèse intitulée « Extraction de connaissances symboliques et relationnelles appliquée aux tracés manuscrits structurés en-ligne » a démarré en 2009. L'idée principale de cette thèse est de travailler à l'automatisation de l'apprentissage d'un système de reconnaissance de documents structurés complexes (langages 2D) en évitant l'étiquetage manuel d'une grande quantité de données d'apprentissage.

En ouvrant sur des horizons plus larges ces travaux, nous pouvons les mettre en perspective pour la réalisation d’un système de reconnaissance multi-modal. En effet, l’écriture manuscrite et la parole constituent les deux modes d’interaction les plus naturels dont sont dotés les êtres humains pour communiquer. Chacune de ces modalités possède des spécificités propres aussi bien du point de vue des usages, de leur expressivité que des outils et techniques de numérisation qui leur sont associés. Dans cette optique, une thèse intitulée « Stratégies de fusion pour des signaux écrits et sonores – Application à la reconnaissance d’expressions mathématiques » vient de démarrer. L’objectif de cette thèse est d’étudier les stratégies de fusion pour un système multimodal écriture dynamique (en-ligne)/parole, qui permettent soit d'étendre soit de surpasser les performances des systèmes utilisant une seule des deux modalités.

L’objectif ultime de nos travaux est de concevoir un système générique de reconnaissance de langages 2D tel que les spécificités du langage soient extraites par apprentissage et le moins possible formulées a priori.

Dans le document Reconnaissance de structures bidimensionnelles : Application aux expressions mathématiques manuscrites en-ligne (Page 194-200)