• Aucun résultat trouvé

4.3 Validation qualitative

5.1.1 Jeux de donn´ees

Nous avons s´electionn´e plusieurs jeux de donn´ees afin d’´eprouver la capacit´e des mod`eles de positionnement introduits `a traiter diff´erentes cat´egories de relations spatiales et diff´e- rentes natures d’objets. Ces jeux couvrent une large palette de besoins de positionnement relatif qui se posent pour l’analyse de documents manuscrits. Nous introduisons ici les deux premiers jeux de donn´ees s´electionn´es, sur lesquels seront ´evalu´ees toutes les variantes des m´eta-mod`eles spatiaux et qui serviront de base pour la comparaison avec d’autres tech- niques de description du positionnement relatif. Dans le paragraphe 5.1.4, nous ´elargirons les exp´erimentations `a d’autres natures de donn´ees pour mettre en avant la bonne g´en´ericit´e des m´eta-mod`eles.

5.1.1.1 Accents et gestes d’´edition en-ligne

La base IME-OnDB est une base de gestes manuscrits en-ligne. Celle-ci comporte 18 classes de gestes graphiques saisis par 15 scripteurs, chacun ayant trac´e entre 15 et 20 exem- plaires de chaque geste. Elle contient un total de 5525 enregistrements, un enregistrement ´etant une paire d’objets manuscrits collect´es dans le contexte d’une application de saisie et d’´edition de texte sur un dispositif de type assistant personnel (PDA). Les gestes cor- respondent `a de purs gestes d’´edition graphique (suppression d’un caract`ere, espace, retour chariot. . .) ou bien `a la saisie de signes diacritiques (accent, c´edille, apostrophe) ou encore de ponctuation (virgule, point). Tous les gestes ont ´et´e saisis en contexte, c’est-`a-dire par rapport `a un caract`ere de r´ef´erence associ´e (une lettre de l’alphabet). Le tableau 5.1 pr´e- sente 16 classes parmi ces gestes graphiques, avec `a chaque fois la lettre de r´ef´erence en rouge et le geste en bleu. La base de donn´ees est disponible publiquement sur le site de l’´equipe IMADOC1.

Nature des objets Dans ce jeu de donn´ees, les r´ef´erences sont constitu´ees d’un seul trac´e qui correspond `a une lettre de l’alphabet latin. Les objets arguments (les gestes d’´edition ou les signes diacritiques) sont ´egalement constitu´es d’un seul trac´e simple. Puisque plusieurs de ces gestes ont une forme tr`es semblable (par exemple la virgule et l’apostrophe), la mod´elisation de leur positionnement relativement `a la r´ef´erence est n´ecessaire pour une bonne reconnaissance. Il s’agit donc d’un jeu de donn´ees appropri´e pour une ´evaluation et une comparaison de caract´eristiques de positionnement relatif entre les objets. Pourtant, la description de forme des objets argument est ´egalement n´ecessaire, puisque des classes comme accent aigu, accent grave, accent circonflexe, tr´ema et suppression d’accent reposent vraisemblablement sur des relations spatiales tr`es similaires.

Variabilit´e des r´ef´erences Une particularit´e de cette base de donn´ees est que pour une classe donn´ee de gestes `a reconnaˆıtre (et donc pour une classe de relation spatiale),

Table 5.1: Repr´esentation de 16 classes de la base IME-OnDB.

les r´ef´erences peuvent varier de fa¸con importante. En effet, diff´erentes lettres de l’alphabet apparaissent comme objet de r´ef´erence pour chaque classe. Ainsi, les exemples de la classe accent circonflexeadmettent pour r´ef´erences les lettres a,e,i,o,u ; ceux de la classe apostrophe admettent les lettres c,d,j,l,m,n,s,t ; tandis que la classe c´edille n’admet pour r´ef´erence que la lettre c. La variabilit´e des formes des r´ef´erences est donc accrue pour certaines classes et le besoin de prise en compte de ces formes pour d´ecrire les relations spatiales est d’autant plus important dans ce jeu de donn´ees.

Nature des relations spatiales Les natures de relations spatiales pr´esentes dans la base sont assez vari´ees. La plupart des relations mettent en jeu des objets distants, d´econnect´es, mais certaines concernent des objets adjacents (par exemple la relation c´edille), qui s’inter- sectent (suppression de caract`ere) ou sont inclus l’un dans l’autre (changement de casse). Les positions relatives couvrent toutes les directions du plan et nous ferons le choix de consid´erer les quatre directions principales du plan pour d´ecrire ce vocabulaire de relations spatiales dans notre mod´elisation (cela correspond donc au choix g´en´eral d´ecrit `a la section

3.2.2). Les objets sont tout de mˆeme principalement `a droite de leur r´ef´erence (suppression du dernier caract`ere, retour chariot, insertion, espace, point, virgule, apostrophe), au-dessus (accent aigu, accent grave, accent circonflexe, tr´ema, suppression d’accent, apostrophe), et en-dessous (c´edille, suppression de c´edille).

5.1.1.2 Primitives de caract`eres chinois

Les caract`eres chinois sont des formes structur´ees, qui peuvent ˆetre d´ecrites comme une composition de trac´es primitifs organis´es dans un espace de forme carr´ee, en deux dimensions. Ils peuvent ˆetre constitu´es d’un nombre important de ces primitives (jusqu’`a

plus d’une vingtaine) et offrent donc un vocabulaire de relations spatiales inter-primitives tr`es riche.

A partir d’une base de donn´ees de caract`eres chinois en-ligne saisis au sein du Laboratoire Franco Chinois d’Informatique, d’Automatique et de Math´ematiques Appliqu´ees (LIAMA) de P´ekin, nous avons constitu´e un jeu de de relations inter-primitives extraites de carac- t`eres. La base originale compl`ete contient 60 exemples pour les 6763 caract`eres d´efinis par le standard GB2312 pour le chinois simplifi´e. 60 scripteurs ont particip´e `a la collecte, chacun ´ecrivant une seule fois chaque caract`ere. Davantage de d´etails sur cette base sont donn´es dans les travaux de Ma & Liu sur la reconnaissance du chinois [ML09]. Pour notre exp´e- rimentation, nous avons d´efini 17 classes de paires d’objets extraits de caract`eres simples. Pour chaque classe, nous isolons environ 120 enregistrements (2 par scripteur) de chaque classe. Un enregistrement est une paire d’objets, l’un ´etiquet´e comme objet de r´ef´erence, l’autre comme argument de la relation. Dans la suite, nous faisons r´ef´erence `a ce jeu de don- n´ees sous le nom de HCC-OnDB. Le tableau 5.2 repr´esente des exemples de 16 classes de cette base de donn´ees, toujours avec les objets de r´ef´erence en rouge et les objets argument en bleu.

Table 5.2: Repr´esentation de 16 classes de la base HCC-OnDB.

Nature des objets Les objets de r´ef´erence sont faits de deux trac´es primitifs, tandis que les arguments sont toujours faits d’un seul trac´e, de forme simple. Le tableau 5.2 illustre les classes retenues dans notre jeu de donn´ees (les r´ef´erences sont repr´esent´ees en rouge, les arguments en bleu). Contrairement `a la base IME-OnDB, les objets de r´ef´erence des enregistrements pour une mˆeme classe sont tous des repr´esentants du mˆeme objet. Seules les diff´erences entre les styles des scripteurs et la variabilit´e naturelle des trac´es manuscrits interviennent dans ce jeu de donn´ees.

Nature des relations spatiales Les relations spatiales d´ecrites sont de multiples na- tures : les objets sont tantˆot distants, tantˆot adjacents (certains sont issus d’un mˆeme trac´e

naturel ayant ´et´e segment´e) et certains pr´esentent des intersections. Les positions relatives des arguments par rapport aux r´ef´erences couvrent les quatre directions cardinales (haut, bas, gauche, droite). Les boˆıtes englobantes des trac´es de r´ef´erence et de l’argument se recouvrent largement en g´en´eral.