Approche globale d’apprentissage et de reconnaissance

Chapitre 5 : Expérimentations et résultats

5.8. Au delà de la reconnaissance d’EM : la reconnaissance d’organigrammes manuscrits

5.8.4. Approche globale d’apprentissage et de reconnaissance

Nous avons conçu un système de reconnaissance d’organigrammes basé sur l’architecture globale proposée dans ce manuscrit pour la reconnaissance d’expressions mathématiques. Actuellement le modèle structurel est ignoré dans l’architecture globale (nous n’avons pas développé pour l’instant de grammaire 2D décrivant ce domaine). Donc l’apprentissage ainsi que la reconnaissance se fait sans grammaire (modèle libre). La spécificité des organigrammes est la présence de beaucoup de texte de longueurs différentes. Cette taille peut dépasser le seuil de nombre maximal de traits acceptés par le générateur d’hypothèses. Dans ce cas, le générateur ne pourrait donc pas proposer la bonne segmentation. Pour éviter cet inconvénient, les sous parties de textes sont considérées comme étant une bonne segmentation du texte. Ces sous parties sont obtenus grâce à la sur-segmentation de cette classe. Les parties de textes mal étiquetées sont utilisées pour l’apprentissage global du système. Les morceaux de texte qui apparaissent dans une mauvaise segmentation sont également appris.

Cette architecture est donc moins puissante pour la reconnaissance d’organigrammes en comparaison de sa capacité à reconnaître des expressions mathématiques à cause de l’absence de modèle syntaxique. Néanmoins, l’expérimentation nous a montré un bon potentiel, non seulement pour le problème de séparation du texte, mais aussi pour la segmentation des organigrammes.

Le système a été entraîné sur la base d’apprentissage des organigrammes et testé sur celle de test (cf. le Tableau 28). Puisque la modélisation structurelle n’est pas présente, les résultats de reconnaissance ont été évalués au niveau des traits. La performance est alors mesurée par la capacité du système à identifier si un trait appartient au texte ou aux symboles graphiques.

174

Pour affiner l’analyse des résultats, nous séparons cette mesure en deux mesures d’évaluation. La première considère les traits des segmentations correctes, nous obtenons le taux de traits totalement identifiés. Pour la seconde mesure, le taux des traits partiellement identifiés même si le symbole auquel ils appartiennent n’est pas correctement segmenté. Dans tous les cas, les traits du texte sont considérés bien segmentés même si ils ne présentent qu’une sous partie d’un bloc de texte, (car il est possible de ne pas pouvoir bien segmenter en un seul bloc de texte à cause de la limite de nombre maximal de traits par symbole). Ainsi, prenons l’exemple d’un symbole composé de 4 traits. Si ces quatre traits et eux seuls sont bien associés pour reconnaître le bon symbole, alors ils participent à la comptabilisation dans la rubrique « Totalement », si par contre seuls 3 des traits ont été associés pour former le symbole, alors ils participeront à comptabilisation dans la rubrique « Partiellement ».

Tableau 32 - Taux de reconnaissance des traits de la base de test d’organigrammes

Totalement Partiellement

Traits du texte Traits des symboles Traits du texte Traits des symboles

83,3% 41,22% 89,44% 56,62%

Le Tableau 32 montre que l’architecture globale réussit à correctement segmenter 83.3% des traits provenant des textes d’organigrammes. En ce qui concerne les traits issus de symboles, 41.22% sont bien segmentés et reconnus, cela représente 45.8% des symboles graphiques bien segmentés, parmi lesquels 80% sont bien reconnus. C’est principalement à cause de la forte similarité entre quelques symboles graphiques (flèche horizontale) d’une part et des sous parties de symboles d’autre part (partie haute horizontale d’un processus).

Les expérimentations nous ont montré que l’architecture globale proposée peut être assez facilement adaptée à la reconnaissance de langages 2D très différents des expressions mathématiques. Néanmoins, il est clair que la modélisation structurelle est indispensable pour éviter nombre d’ambiguïtés et améliorer la performance du système global. En effet, l’analyse contextuelle appliquée dans notre système est bien adaptée aux structures 2D de nature récursive (expressions mathématiques, équation chimiques, caractères chinois, etc.) qui peuvent être facilement décrites par une grammaire hors contexte et représentées par des arbres. Nous pensons que l’utilisation d’une grammaire de graphe pourrait être plus efficace pour étendre la capacité du système à reconnaître des structures 2D non-récursives décrites par un graphe (organigrammes, schémas électriques, etc.). L’arbre des expressions mathématiques en serait alors un cas particulier.

Expérimentations et résultats

175

5.9. Conclusion

Nous avons dans ce chapitre mis en œuvre les différentes approches et stratégies proposées pour la reconnaissance d’expressions mathématiques manuscrites en-ligne. Les résultats obtenus des expérimentations réalisées ont montré l’importance de la présence d’une classe de rejet dans le classifieur de symboles implémenté dans l’architecture globale du système.

La Figure 78 montre l’évolution de la performance du système en appliquant les différentes approches proposées. Les courbes représentent la moyenne pondérée obtenue sur les trois bases de test. Le reconnaisseur optimal est obtenu grâce à la base d’apprentissage RamanReduced_IROCIEL (scripteurs virtuels) qui a participé à entraîner le classifieur global dans un schéma d’apprentissage global classique. La modélisation structurelle est probabiliste, elle est obtenue en modélisant les relations spatiales avec cette même base.

Figure 78 - Evolution des performances du reconnaisseur d'expressions (moyenne sur toutes les bases de tests)

Le Tableau 33 montre les performances réalisées par ce reconnaisseur sur les trois bases de test. La dernière ligne correspond à la moyenne pondérée de ces performances suivant la taille en nombre de symboles (pour segRate et recoRate) ou en nombre d’expressions de chaque base (pour expRate).

22,0 27,0 32,0 37,0 42,0 47,0 52,0 57,0 62,0 67,0 60,0 65,0 70,0 75,0 80,0 85,0 90,0 95,0

Géométrique Géométrique Géométrique Géométrique Gaussien Géométrique Géométrique Gaussien Système de référence Apprentissage contraint Classifieur hybride Classifieur global Classifieur global Classifieur iso-global Classifieur global + iso en global Classifieur global (Scripteurs virtuels) e x p R a te % se g /r e co R a te %

176

Tableau 33 - Performance du meilleur reconnaisseur d’expressions obtenu

Base de test segRate recoRate expRate RamanReduced_CIEL 94,3 92,1 71 RamanReduced_Réelle 86 81,4 38,6 RamanReduced_Wiki_CIEL 89,5 86,5 52,6

Moyenne 94 91,7 69,4

Dans une application interactive de saisie d’expressions mathématiques, il sera intéressant de prendre en compte plusieurs solutions du reconnaisseur d’expressions. En effet, comme l’illustre la Figure 79, la bonne solution n’est pas nécessairement en première position du système. Nous pouvons constater que le taux de reconnaissance d’expressions s’améliore en considérant les 5 premiers résultats du reconnaisseur de 71% à 77% sur la base RamanReduced_CIEL (38.6% à 50% et 52.6% à 65% sur les deux bases réelles).

Figure 79 - Taux de reconnaissance d'expression en considérant les 5 premiers résultats

Comme nous l’avons vu, la comparaison directe avec d’autres résultats n’est pas appropriée. Néanmoins, nous résumons dans le Tableau 34 quelques résultats, en plus des nôtres.

38,0 43,0 48,0 53,0 58,0 63,0 68,0 73,0 78,0

top1 top2 top3 top4 top5

e x p R a te %

Expérimentations et résultats

177

Tableau 34 - Résumé des performances dans l'état de l'art

Système #Expression segRate recoRate expRate Remarques Notre système 281 88,3 84,7 49,1 Taux moyen sur toutes les

bases réelles de test Notre système 3881 94 91,7 69,4

Taux moyen sur toutes les bases de test (synthétiques

et réelles) (Kim et al. 2009) [80] 1500 x x 58,7

(Rhee et al. 2009) [15] 94,8 84,8 29,2 Taux moyen sur les deux base KME-I et KME-II (Chan et al. 2001) [78] 600 x 99,4 88,7 Utilise un module supplémentaire pour la détection et la correction d'erreurs (Fitzgerald et l. 2007) [68] x x 77,6 (Toyozumi et al. 2001) [109] x 80 x (Prusa et al. 2007) [19] 330 x x 85,5 (Fukuda et al. 1999) [23] 160 97,2 99,3 x (Geneo et al. 2006) [67] 60 x x 88,3 (Yamamoto et al. 2006) [24] 99,4 92,8 x (Shi et al. 2007) [97] x 96,6 x

Pour affiner la compréhension de ce résultat, nous présentons dans l’annexe C les résultats détaillés obtenus de ce meilleur reconnaisseur d’expressions.

178

Dans le document Reconnaissance de structures bidimensionnelles : Application aux expressions mathématiques manuscrites en-ligne (Page 188-193)