• Aucun résultat trouvé

1.10 Évaluation des performances et vérités terrain

1.10.2 La base de courriers RIMES

La base de données RIMES4 est la première base de courriers manuscrits de grande

ampleur en libre accès. Le projet RIMES (Reconnaissance et Indexation de Documents

Manuscrits et de faxes) est dédié à l'évaluation des systèmes de reconnaissance et

d'in-dexation des courriers manuscrits envoyés par voie postale ou par fax par des particuliers

à des entreprises ou des administrations [Grosicki 09]. L'un des objectifs principaux du

projet RIMES est de collecter une grande base de données de courriers manuscrits. Pour

des raisons légales et de condentialité, il n'était pas possible d'utiliser des bases

exis-tantes. Par conséquent, ces lettres ont été recueillies auprès de volontaires par la collecte

SCRIBEO5. Chaque volontaire s'est vu attribuer une identité ctive et un scénario à écrire

sous forme de courriers manuscrits. L'autre contrainte était d'écrire ces courriers sur une

feuille blanche avec de l'encre bleue ou noire. Cette collecte a permis de constituer une

base de 5605 images de documents.

Nous proposons de tester les diérents modèles étudiés sur la tâche d'extraction de

structures de courriers manuscrits de la base RIMES et plus précisément d'eectuer leur

découpage en blocs fonctionnels. La page du document est considérée comme un ensemble

de blocs : zones graphiques connexes contenant des éléments d'écriture. De façon générale,

la tâche vise à extraire les diérents blocs qui constituent un courrier manuscrit tels que

des blocs : Coordonnées Expéditeur (CE), Date Lieu (DL), Coordonnées Destinataire

(CD), Objet (OB), Ouverture (OU ), Corps de Texte (CT ), Signature (S), Pièce Jointe

(PJ ). Nous présentons sur la gure 1.15 un exemple de courrier manuscrit avec la vérité

terrain (structures physique et logique) tiré de la base de courriers manuscrits RIMES

[Grosicki 09].

Nous comparerons les diérents résultats de nos modèles à ceux obtenus durant la

seconde campagne d'évaluation RIMES de juin 2008.

1.10.2.1 Constitution de la base RIMES

Les données sont séparées en base de test, base de validation et base d'apprentissage

comme décrites dans le tableau 1.2 :

4Le projet RIMES : http ://www.int-evry.fr/rimes

Fig. 1.15: Exemple d'extraction de structures physique et logique en blocs fonctionnels d'un

courrier manuscrit.

Tab. 1.2: Description de la base de données de la seconde campagne d'évaluation RIMES

Base d'apprentissage Base de validation Base de test

1050 100 100

Nous avons utilisé un principe d'évaluation rigoureux. Les données de la base

d'ap-prentissage sont utilisées pour apprendre les paramètres des modèles. Les données de la

base de validation permettent de les optimiser. Enn, la base de test n'est utilisée qu'une

seule fois lorsque les paramètres ont été validés. C'est pourquoi il est important que la

base de test soit représentative des bases de validation et d'apprentissage. A ce sujet, la

gure 1.16 montre la répartition des diérentes classes de blocs pour chacune des trois

bases.

1.10.2.2 Métrique d'évaluation

La métrique Err utilisée lors de cette campagne d'évaluation correspond à un taux

d'erreur de classication déni par la somme des pixels noirs mal classés, normalisés par

la somme de tous les pixels noirs. Cette métrique est calculée sur des images binaires où

les pixels noirs on un niveau de gris de 1 et le fond 0.

Err =

P

pixels mal classés(255−Im(i, j))

P

tous les pixels (255−Im(i, j)) (1.1)

Où Im(i, j) est le niveau de gris du pixel (i, j) de l'image Im. Cette métrique

éva-lue les performances des modèles au niveau pixel sans tenir compte de l'aspect des blocs

1.10. Évaluation des performances et vérités terrain 37

CE (19,3%)

CD (13,7%)

OU (14,3%)

OB (8,9%)

S (14,6%)

CT (17,7%)

DL (11,1%)

PJ (0,4%)

CE (18,9%)

CD (13,5%)

OU (14,7%)

OB (7,7%)

S (15%)

CT (18,2%)

DL (11,6%)

PJ (0,3%)

CE (18,6%)

CD (14,6%)

OU (14,2%)

OB (9,7%)

S (14,6%)

CT (17,4%)

DL (10%)

PJ (0,9%)

a) Base d'apprentissage b) Base de validation c) Base de test

(7258 blocs) (665 blocs) (690 blocs)

Fig. 1.16: Représentation des diérentes classes de blocs (diérentes du fond) dans les bases de

courriers RIMES.

obtenus (compacte ou composé d'étiquettes esseulées). Pour pallier cela, nous nous

pro-posons d'ajouter une seconde mesure correspondant à un terme de fragmentation. Ce

terme permet de mesurer la capacité du système à regrouper les étiquettes d'une classe

considérée.

Nous proposons une métrique basée sur la forme rectangulaire des blocs de la vérité

terrain. Nous considérons que l'aire la moins fragmentée pour une étiquette l considérée

correspond à l'aire du rectangle maximum formé par les étiquettesAmaxl. Ainsi, le terme

de fragmentation est exprimé comme le rapport de l'aire Al formée par les étiquettes l

sur l'aire maximale Amaxl.

F rag = 1

nL

n

L

X

l

1−

Al

Amaxl

N cmaxl(N cl1)

N cmaxl

(1.2)

OùnLcorrespond au nombre d'étiquettes logiques,N clle nombre de segments connexes

pour l'étiquetteletN cmaxl le nombre maximum de segments connexes dans l'airAmaxl.

1.10.2.3 Dicultés de la base RIMES pour la tâche d'extraction de structures

La base d'images de courriers RIMES va nous permettre d'évaluer les diérentes

mo-délisations proposées sur des données réalistes qui présentent la plupart des dicultés

que nous rencontrons dans de vrais courriers manuscrits. Nous listons ici l'ensemble de

ces dicultés :

le nombre de données par classe : Certaines classes sont sous-représentées. C'est le

cas de la classe PJ qui apparaît très peu dans la base d'apprentissage (voir gure

1.16) ; ce qui par conséquent pose problème pour l'apprentissage de son modèle.

le chevauchement inter et intra blocs : Les diérentes entités de la structure

phy-sique peuvent se chevaucher comme sur les courriers 7 et 8 (voir gure 1.18-c et -d).

Ces chevauchements peuvent rendre complexe l'étape de segmentation des entités

en lignes, mots, blocs, . . . . Ils correspondent essentiellement au chevauchement des

hampes et des jambages de lignes voisines. Dans le cadre de la tâche d'extraction en

blocs fonctionnels (voir gure 1.15), nous distinguons deux cas de gures : le

che-vauchement entre blocs et le cheche-vauchement des entités comprises dans le bloc. Le

chevauchement entre blocs correspond à une composante connexe qui fait partie de

deux blocs diérents comme entre le bloc CT et S du courrier 8 (voir gure

1.17-d). Le chevauchement entre les entités comprises dans un bloc peut également

rendre complexe l'analyse textuelle du contenu sémantique utile pour l'extraction

de la structure logique. Nous pouvons voir des exemples de chevauchement dans le

bloc CT des courriers 7 et 8 (voir gure 1.17-c et -d).

le positionnement des blocs : La position des blocs peut être très uctuante

intro-duisant des ambiguïtés dans les décisions. Nous pouvons voir un exemple avec le

bloc DL qui se trouve dans diérentes positions : en bas à gauche juste au dessus

du bloc S dans le courrier 4 ; en bas à droite au dessus du bloc S dans le

courrier 5 ; en haut à droite au dessus du bloc CD dans le courrier 9 et au milieu

de la page en dessous du bloc CD dans le courrier 9. Nous présentons un autre

exemple de ce phénomène entre les blocs CE et CD sur les courriers 2 et 4 qui

sont inversés. Avec ce positionnement uctuant, il devient complexe de diérencier

ces deux types de blocs. De façon plus générale, la gure 1.19-d illustre cette

varia-bilité de positionnement en représentant la position des blocs CD et DL dans

l'ensemble des courriers de la base d'apprentissage. Il est ainsi impossible d'attribuer

des zones stables dans l'image pour chacun de ces blocs.

la présence des blocs : Les blocs peuvent ne pas être toujours présents. En eet,

alors que certaines informations sont quasiment toujours présentes comme le bloc

CT , la présence des autres blocs est très variable. Le courrier 10 (voir gure

1.19-b) où seuls trois blocs sont présents en est une très bonne illustration.

la fragmentation des blocs : Certains blocs peuvent se retrouver découpés en

plu-sieurs parties réparties à diérents endroits dans la page. Ceci est très fréquent pour

le bloc CE comme sur le courrier 9.

la présence d'écriture penchée : Les lignes de texte des courriers peuvent être très

penchées comme dans les courriers 1, 7 et 8. L'utilisation d'un algorithme classique

de projection X-Y conduirait à lier des morceaux de lignes appartenant à deux blocs

diérents comme sur le courrier 1.

la taille variable des blocs : Les blocs sont parfois écrits sur une ou plusieurs lignes

de longueurs diérentes comme le bloc CD entre les courriers 3 et 4.

la confusion liée à des structures similaires de blocs : Certains blocs peuvent

pré-senter des structures similaires que nous retrouvons sur la plupart des courriers, à

savoir une taille similaire (nombre de lignes et taille des lignes) et un même type de

contenu. Ceci est le cas des blocs CD et CE . Cette confusion est accentuée

lorsque la structure d'un bloc se retrouve à l'intérieur d'un autre bloc, par exemple,

la présence des coordonnées expéditeurs dans les blocs CT et PJ dans les

courriers 6 et 11.

1.10. Évaluation des performances et vérités terrain 39

a) Courrier 1 b) Courrier 2

c) Courrier 3 d) Courrier 4

a) Courrier 5 b) Courrier 6

c) Courrier 7 d) Courrier 8

1.10. Évaluation des performances et vérités terrain 41

a) Courrier 9 b) Courrier 10

c) Courrier 11 d) Position des blocs CD et DL

dans une image

Fig. 1.19: Exemples de courriers manuscrits de la base RIMES.

La base de courriers RIMES apparaît comme une base réaliste dans laquelle nous

re-trouvons les dicultés liées à la variabilité des documents. Nous re-trouvons des dicultés

liées à l'extraction des deux types de structures physique et logique. Les dicultés liées

aux écritures penchées, aux écritures ayant des lignes de bases uctuantes et aux

chevau-chements sont des problèmes récurrents en analyse de documents. A ces dicultés

clas-siques viennent s'ajouter celles plus spéciques à la tâche comme l'absence/présence de

blocs ou la variabilité dans leur positionnement. Nous chercherons donc dans nos

propo-sitions à nous adapter à ces diérentes dicultés notamment en combinant l'extraction

de structure physique et l'extraction de structure logique.