Lettres en contexte de mots manuscrits hors-ligne

4.3 Validation qualitative

5.1.4 Généralisation ` a d’autres jeux de données

5.1.4.1 Lettres en contexte de mots manuscrits hors-ligne

La reconnaissance de texte manuscrit est un des problèmes les plus étudiés dans le domaine de l’analyse de documents. Les besoins sont considérables et couvrent aussi bien le traitement de document saisi en-ligne (par exemple grâce aux méthodes embarquées de saisie de texte manuscrit à l’aide d’un stylo électronique sur une surface sensitive) que le

traitement de documents hors-ligne (composés sur un support papier avant d’être numérisés sous la forme d’une image).

Nous avons extrait un jeu de données à partir des mots manuscrits saisis dans le cadre de la campagne RIMES (pour Reconnaissance et Indexation de données Manuscrites et de fac simil ÉS) [GCBG09]. Il s’agit de courriers manuscrits réalisés sur papier avant d’être numérisés, puis annotés et retranscrits manuellement. Une base de mots a été extraite de ce lot de documents afin de constituer une référence pour l’évaluation et la comparaison de systèmes de reconnaissance de mots manuscrits hors-ligne dans le cadre de compétitions [GEA09]. La figure5.1 présente quelques exemples de mots contenus dans cette base, sous la forme d’images en niveaux de gris.

Figure 5.1: Trois exemples de mots contenus dans la base RIMES pour la reconnaissance automatique de mots manuscrits hors-ligne.

Des paires de lettres consécutives ont été extraites des 7798 mots du jeu de validation de la base RIMES. Puisque la vérité terrain n’est disponible qu’au niveau du mot complet et non pas au niveau des lettres, nous nous sommes appuyés sur le système de reconnaissance de Guichard et al. [GTC10]. Connaissant l’étiquette d’un mot, ce système est capable, grâce à l’utilisation de Modèles de Markov Cachés, de produire la segmentation la plus probable d’un mot en lettres et ainsi d’offrir un ensemble d’imagettes de lettres segmentées et étiquetées. Un classifieur statistique de type Support Vector Machine (SVM) dont les scores de sortie sont probabilisés est ensuite utilisé. Il permet de vérifier la bonne segmentation des lettres, grâce à un seuil de rejet sur le score de reconnaissance des imagettes. Les exemples conservés constituent ainsi une base de paires de lettres, dont la segmentation est relativement fiable et qui sont correctement étiquetées. Nous proposons de comparer différentes descriptions des relations spatiales sur cette base de paires de lettres. Au total, environ 13000 paires de lettres sont conservées, constituant le jeu de données dénommé MOT-OffDB dans la suite. Dans la figure5.2, un mot est représenté (a) avec le résultat de sa segmentation fournie par le moteur de reconnaissance (b). Les vignettes (c-l) représentent les paires de lettres extraites qui constituent des exemples de différentes classes de relations spatiales (avec les objets référence représentés en rouge et les arguments en bleu).

Classes de relations spatiales On définit une classe de positionnement spatial par la relation qui lie deux lettres successives d’un même mot en fonction de leur catégorisation en quatre grands types de lettres. Les types de lettres dépendent de leur étendue verticale par rapport à la ligne de base du mot. On distingue ainsi les lettres ascendantes (b,d,h,k,l,t,majuscules), descendantes (g,j,p,q,y,z), médianes (a,c,e,i,m,n,o,r,s,u,v,w,x), et ascendantes-descendantes (f). Les lettres supportant un accent ou un tréma sont assimilées `

a la catégorie des ascendantes, tout comme les majuscules, tandis que les « c » portant une cédille sont assimilés à des descendantes. On retient en fait onze classes de relations spatiales, correspondant aux onze catégories de couples qui apparaissent effectivement dans la base d’apprentissage.

(a) mot original

(b) mot segment´e

(h) (i) (j) (k) (l)

Figure 5.2: Mot extrait de la base RIMES (a) avec sa segmentation en lettres fournie par le reconnaisseur par Modèles de Markov Cachés (b), et les paires de lettres extraites comme représentants de différentes classes de relations spatiales (c-l).

Adaptation du choix des points de vue Les couples d’objets ont une particularité dans leur positionnement : par définition, à cause de la segmentation en colonnes fournie par les MMC, on a toujours une frontière verticale qui sépare l’objet de référence (à gauche) et l’objet argument (à droite). Par conséquent, l’analyse de la relation spatiale entre les objets selon tout point de vue orienté vers le demi plan gauche de l’espace est inutile. Cela suggère pour nos modèles de redistribuer les points de vue parmi différentes directions orientées dans le demi plan droit, en éliminant le point de vue gauche de notre description. Pour nos expérimentations sur cette base, nous choisirons dans nos modèles de distribuer cinq points de vue orientés par les cinq directions suivantes : ₋π₂,₋₄π, 0,π₄,π₂ . On peut voir cette adaptation des directions des points de vue comme une application du principe de stratégie dynamique de sélection des points de vue évoquée à la section3.2.2.2.

Nature des objets Dans le cas de ce jeu de données, les objets sont représentés par des images binarisées. La référence et l’argument sont donc vus comme des matrices de pixels, ce qui implique un coût d’exécution plus important de l’algorithme de dilatation morphologique (voir à l’annexe B). Dans ces données, les objets ne sont pas parfaitement linéiques. Nous appliquons donc un filtre d’extraction des contours sur l’objet de référence pour réduire le coût de calcul sans altérer la représentation, puisque seuls les points de contour de la référence jouent un rôle dans le calcul de la dilatation lorsque les objets sont distants, comme c’est le cas ici.

Variabilité des objets Pour une même classe de positionnement, les objets référence et argument peuvent représenter différentes lettres. L’adaptation face à une grande variabilité de formes est donc cruciale pour ce jeu de données (toutes les lettres ascendantes et les majuscules sont par exemple regroupées dans un modèle unique).

Dans le document Méta-modèles de positionnement spatial pour la reconnaissance de tracés manuscrits (Page 175-178)