• Aucun résultat trouvé

Lettres en contexte de mots manuscrits hors-ligne

4.3 Validation qualitative

5.1.4 G´en´eralisation ` a d’autres jeux de donn´ees

5.1.4.1 Lettres en contexte de mots manuscrits hors-ligne

La reconnaissance de texte manuscrit est un des probl`emes les plus ´etudi´es dans le domaine de l’analyse de documents. Les besoins sont consid´erables et couvrent aussi bien le traitement de document saisi en-ligne (par exemple grˆace aux m´ethodes embarqu´ees de saisie de texte manuscrit `a l’aide d’un stylo ´electronique sur une surface sensitive) que le

traitement de documents hors-ligne (compos´es sur un support papier avant d’ˆetre num´eris´es sous la forme d’une image).

Nous avons extrait un jeu de donn´ees `a partir des mots manuscrits saisis dans le cadre de la campagne RIMES (pour Reconnaissance et Indexation de donn´ees Manuscrites et de fac simil ´ES) [GCBG09]. Il s’agit de courriers manuscrits r´ealis´es sur papier avant d’ˆetre num´eris´es, puis annot´es et retranscrits manuellement. Une base de mots a ´et´e extraite de ce lot de documents afin de constituer une r´ef´erence pour l’´evaluation et la comparaison de syst`emes de reconnaissance de mots manuscrits hors-ligne dans le cadre de comp´etitions [GEA09]. La figure5.1 pr´esente quelques exemples de mots contenus dans cette base, sous la forme d’images en niveaux de gris.

Figure 5.1: Trois exemples de mots contenus dans la base RIMES pour la reconnaissance automatique de mots manuscrits hors-ligne.

Des paires de lettres cons´ecutives ont ´et´e extraites des 7798 mots du jeu de validation de la base RIMES. Puisque la v´erit´e terrain n’est disponible qu’au niveau du mot complet et non pas au niveau des lettres, nous nous sommes appuy´es sur le syst`eme de reconnaissance de Guichard et al. [GTC10]. Connaissant l’´etiquette d’un mot, ce syst`eme est capable, grˆace `a l’utilisation de Mod`eles de Markov Cach´es, de produire la segmentation la plus probable d’un mot en lettres et ainsi d’offrir un ensemble d’imagettes de lettres segment´ees et ´etiquet´ees. Un classifieur statistique de type Support Vector Machine (SVM) dont les scores de sortie sont probabilis´es est ensuite utilis´e. Il permet de v´erifier la bonne segmentation des lettres, grˆace `a un seuil de rejet sur le score de reconnaissance des imagettes. Les exemples conserv´es constituent ainsi une base de paires de lettres, dont la segmentation est relativement fiable et qui sont correctement ´etiquet´ees. Nous proposons de comparer diff´erentes descriptions des relations spatiales sur cette base de paires de lettres. Au total, environ 13000 paires de lettres sont conserv´ees, constituant le jeu de donn´ees d´enomm´e MOT-OffDB dans la suite. Dans la figure5.2, un mot est repr´esent´e (a) avec le r´esultat de sa segmentation fournie par le moteur de reconnaissance (b). Les vignettes (c-l) repr´esentent les paires de lettres extraites qui constituent des exemples de diff´erentes classes de relations spatiales (avec les objets r´ef´erence repr´esent´es en rouge et les arguments en bleu).

Classes de relations spatiales On d´efinit une classe de positionnement spatial par la relation qui lie deux lettres successives d’un mˆeme mot en fonction de leur cat´egorisation en quatre grands types de lettres. Les types de lettres d´ependent de leur ´etendue ver- ticale par rapport `a la ligne de base du mot. On distingue ainsi les lettres ascendantes (b,d,h,k,l,t,majuscules), descendantes (g,j,p,q,y,z), m´edianes (a,c,e,i,m,n,o,r,s,u,v,w,x), et ascendantes-descendantes (f). Les lettres supportant un accent ou un tr´ema sont assimil´ees `

a la cat´egorie des ascendantes, tout comme les majuscules, tandis que les « c » portant une c´edille sont assimil´es `a des descendantes. On retient en fait onze classes de relations spatiales, correspondant aux onze cat´egories de couples qui apparaissent effectivement dans la base d’apprentissage.

(a) mot original

(b) mot segment´e

(c) (d) (e) (f) (g)

(h) (i) (j) (k) (l)

Figure 5.2: Mot extrait de la base RIMES (a) avec sa segmentation en lettres fournie par le reconnaisseur par Mod`eles de Markov Cach´es (b), et les paires de lettres extraites comme repr´esentants de diff´erentes classes de relations spatiales (c-l).

Adaptation du choix des points de vue Les couples d’objets ont une particularit´e dans leur positionnement : par d´efinition, `a cause de la segmentation en colonnes fournie par les MMC, on a toujours une fronti`ere verticale qui s´epare l’objet de r´ef´erence (`a gauche) et l’objet argument (`a droite). Par cons´equent, l’analyse de la relation spatiale entre les objets selon tout point de vue orient´e vers le demi plan gauche de l’espace est inutile. Cela sugg`ere pour nos mod`eles de redistribuer les points de vue parmi diff´erentes directions orient´ees dans le demi plan droit, en ´eliminant le point de vue gauche de notre description. Pour nos exp´erimentations sur cette base, nous choisirons dans nos mod`eles de distribuer cinq points de vue orient´es par les cinq directions suivantes : π2,4π, 0,π42 . On peut voir cette adaptation des directions des points de vue comme une application du principe de strat´egie dynamique de s´election des points de vue ´evoqu´ee `a la section3.2.2.2.

Nature des objets Dans le cas de ce jeu de donn´ees, les objets sont repr´esent´es par des images binaris´ees. La r´ef´erence et l’argument sont donc vus comme des matrices de pixels, ce qui implique un coˆut d’ex´ecution plus important de l’algorithme de dilatation morphologique (voir `a l’annexe B). Dans ces donn´ees, les objets ne sont pas parfaitement lin´eiques. Nous appliquons donc un filtre d’extraction des contours sur l’objet de r´ef´erence pour r´eduire le coˆut de calcul sans alt´erer la repr´esentation, puisque seuls les points de contour de la r´ef´erence jouent un rˆole dans le calcul de la dilatation lorsque les objets sont distants, comme c’est le cas ici.

Variabilit´e des objets Pour une mˆeme classe de positionnement, les objets r´ef´erence et argument peuvent repr´esenter diff´erentes lettres. L’adaptation face `a une grande variabilit´e de formes est donc cruciale pour ce jeu de donn´ees (toutes les lettres ascendantes et les majuscules sont par exemple regroup´ees dans un mod`ele unique).