Intégration d’informations textuelles de haut niveau en analyse de structures de documents manuscrits non contraints

(1)

Intégration d’informations textuelles de haut niveau en analyse de structures de documents manuscrits non contraints

Florent Montreuil*, — Stéphane Nicolas

Laurent Heutte** — Emmanuèle Grosicki*

* DGA/Centre d’expertise parisien 16, bis avenue Prieur de la Côte d’or F- 94114, Arcueil cedex

{florent.montreuil, emmanuele.grosicki}@etca.fr

** Université de Rouen, LITIS EA 4108 BP 12, F-76801, Saint-Étienne du Rouvray {stephane.nicolas, laurent.heutte}@univ-rouen.fr

RÉSUMÉ. Cet article décrit une nouvelle approche utilisant des champs aléatoires conditionnels (CAC) pour extraire à la fois la structure physique et la structure logique de documents manuscrits non contraints. De bons résultats ont été obtenus montrant la capacité des approches CAC à extraire la mise en page d’un document complexe. On se propose dans cet article d’étudier l’apport d’une information textuelle dans la modélisation. On compare cette nouvelle approche avec les approches classiques utilisant uniquement des informations graphiques et spatiales.

ABSTRACT. The paper describes a new approach using conditional random fields (CRF) to extract both physical and logical layouts in unconstrained handwritten documents. Good results have been reported, showing the ability of our approach to extract the layout on a complex document. We propose in this paper to study the contribution of a textual information in this modelisation. We compare this new approach with classical approaches using solely graphical and spatial information.

MOTS-CLÉS : champs aléatoires conditionnels, informations textuelles, structuration de documents manuscrits, programmation dynamique 2D.

KEYWORDS: conditional random fields, textual information, layout analysis, 2D dynamic programming.

(2)

78 RSTI - DN – 14/2011. Indexation et recherche d’information

1. Introduction

De nombreuses applications telles que le traitement de courriers par des entre- prises ou des administrations nécessitent de pouvoir trier automatiquement des grands volumes de données contenant des écritures manuscrites. Il s’agit d’une tâche difficile et non encore résolue car elle nécessite non seulement le développement de systèmes fiables de reconnaissance de l’écriture manuscrite mais également le développement de méthodes robustes d’analyse automatique de la structure des documents. Celle-ci est usuellement faite en deux étapes séquentielles : extraction de la structure physique (segmentation) puis extraction de la structure logique (étiquetage ou reconnaissance des entités segmentées). La première étape (segmentation) consiste à découper l’image du document en blocs, lignes, mots, alors que la seconde étape (étiquetage) vise à re- grouper ces différents segments pour former des unités logiques auxquelles on asso- cie des étiquettes donnant la fonction de ces unités dans le document (par exemple le bloc date ou objet dans les courriers manuscrits). Ces deux structures sont intimement liées puisque pour segmenter correctement les entités, il faut pouvoir les reconnaître et que pour les reconnaître il faut les avoir segmentées au préalable. Dans cet objectif, il semble plus judicieux d’extraire ces deux structures conjointement plutôt que séquentiellement. Pour cela, nous proposons une approche statistique exploitant des modèles de type champs aléatoires conditionnels (CAC) permettant de combiner des caractéristiques décrivant à la fois la structure physique et la structure logique.

Le manuscrit est un objet complexe : à la fois textuel, graphique et topographique.

D’après (Crassonet al., 2004),Il a toujours échappé aux tentatives de descriptions numériques car il se plie mal à une structuration rigoureuse. Ceci se vérifie dans l’état de l’art, puisqu’il existe relativement peu de travaux sur l’analyse de structures des documents manuscrits complexes. Ces travaux utilisent principalement des informations de bas niveau, c’est-à-dire des informations concernant la taille et l’orientation des entités qui sont essentiellement des informations graphiques et topologiques.

L’étude des résultats de ces approches montre que pour supprimer les ambiguïtés, il est nécessaire d’utiliser des informations de plus haut niveau comme des informations textuelles proposées dans (Lemaitre, 2007) et (Nicolaset al., 2008). Dans le cas de l’analyse de structures dans des documents imprimés, des travaux ont recours à ce type d’information pour fiabiliser l’étiquetage fonctionnel comme dans (Klinket al., 2001), (Ishitani, 1999) et (Lebourgeoiset al., 1999). On se propose d’étendre cette idée d’utiliser des informations textuelles comme une caractéristique supplémentaire pour corriger les erreurs d’étiquetage logique dans des documents manuscrits. Pour ce faire, on présente dans cet article une étude sur l’apport des informations textuelles aux informations graphiques et spatiales classiquement utilisées dans la segmentation des documents manuscrits.

Dans la section 3, nous étudions les différentes formes d’information textuelle qui pourraient être intéressantes d’extraire pour améliorer l’extraction de structures de documents. Nous orientons notre recherche sur la détection de mots-clés caractéristiques des entités logiques recherchées. Nous proposons une méthodologie pour sélectionner les mots-clés les plus discriminants. La section suivante développe une modélisation

(3)

Analyse de structures de documents 79

par Champ Aléatoire Conditionnel combinant informations graphique, spatiale et textuelle pour l’extraction de structures de documents. Avant de conclure, nous présen- tons et nous comparons les résultats obtenus par nos modèles avec et sans information textuelle sur la tâche de structuration de courriers manuscrits de la seconde campagne d’évaluation Rimes.

2. Structuration des manuscrits

On s’intéresse ici à l’extraction de la structure d’un document manuscrit c’est-à- dire son découpage en blocs et leur étiquetage fonctionnel. La page du document est considérée comme un ensemble de blocs : zones graphiques connexes contenant des éléments d’écriture. De façon générale, notre étude vise à extraire les différents blocs qui constituent un document manuscrit tels que des blocs contenant les coordonnées de l’expéditeur, les coordonnées du destiantaire, la date... On présente figure 1 un exemple de structuration proposée lors de la deuxième campagne d’évaluation Rimes pour la structuration de courriers manuscrits (Grosickiet al., 2009).

Figure 1.Exemple de structuration des blocs d’un courrier manuscrit. Coordonnées expéditeur (CE), date lieu (DL), coordonnées destinataire (CD), objet (OB), ouverture (OU), corps de texte (CT), signature (S)

L’extraction de la structure d’un document manuscrit fait intervenir différentes informations qui peuvent se distinguer par trois critères majeurs :

– les caractéristiques ou observations : c’est à travers elles que l’on va pouvoir caractériser les blocs. L’étude des structures de documents passe par l’étude des informations principalement liées au support (graphique et topologique). On peut ajouter à celles-ci, une information textuelle décrivant le message véhiculé à travers ce document. On peut décrire ces trois principaux types de caractéristiques comme suit :

(4)

- graphiques : agencement de pixels de différents niveaux de gris ; - spatiales : positions absolue et relative d’un objet ;

- textuelles : information sémantique véhiculée par les objets ;

– Le voisinage : les caractéristiques ou observations locales peuvent être couplées avec d’autres informations définies dans des régions mitoyennes de différentes tailles ; – La résolution : chaque caractéristique est définie pour une résolution donnée (pixel, mot, ligne...). Les caractéristiques sont spécifiques à chaque résolution. Par exemple, pour une résolution mot, l’information textuelle peut correspondre à la sé- mantique de celui-ci.

On cherche à combiner dans une même modélisation ces différentes informations graphiques, spatiales et textuelles définies pour des résolutions et des voisinages dif- férents. Ce schéma de modélisation découpé en plusieurs niveaux d’analyse peut être comparé au principe de la perception humaine. Ce phénomène de perception est complexe à reproduire puisque les informations mises en jeu sont de natures différentes.

3. Apport d’une information textuelle discriminante 3.1. L’information textuelle

L’idée d’utiliser des informations de plus haut niveau comme les informations textuelles (sémantique de mots, syntaxe d’un mot dans une phrase...) apparaît comme un moyen efficace de corriger les erreurs de typage que les informations graphiques et spatiales ne permettent pas de corriger. Ce principe a été développé avec succès dans des applications connexes. Dans (Tayloret al., 1995), une méthodologie pour l’analyse d’images de documents est présentée. Cette analyse essentiellement réalisée pour la catégorisation de document explique quela complexité des documents impose l’intégration des connaissances images et textuelles pour leur compréhension. Les applications présentées de génération de liens hypertextes sur des images de documents imprimés montrent l’intérêt d’intégrer ces deux types de caractéristiques. Notamment, la mise en place de métrique basée sur le nombre de mots-clés présents dans un bloc de texte permet de spécifier la cohérence de ce bloc à une requête. Dans (Watanabe et al., 1998), un système combinant des informations sur la mise en page et des informations textuelles permet de classer des diagrammes. Dans cette application, les auteurs montrent la dualité des informations renvoyant à la structure physique et les informations textuelles pour extraire la structure logique. Notamment, la présence de mots-clés dans la légende des diagrammes permet de les classer selon leurs contenus.

La tâche d’extraction de blocs fonctionnels dans des documents manuscrits est une tâche encore récente. Aucun des travaux proposés pour résoudre cette tâche n’utilise d’informations textuelles. Ceci est principalement dû à la complexité d’analyse de cette information textuelle. On trouve cependant des travaux sur l’extraction de blocs fonctionnels dans des documents imprimés qui ont recours à l’information textuelle.

Dans (Ishitani, 1999), la détection de symboles mathématiques permet de classer les

(5)

zones correspondant aux formules mathématiques. Dans (Klinket al., 2001), une règle de dépendance textuelle est utilisée pour affecter la même étiquette à deux régions si elles ont un mot en commun. L’utilisation de ces informations textuelles montrent une amélioration des résultats et elle permet de fiabiliser l’attribution des étiquettes.

L’apport de cette information est à mettre en correspondance avec les bonnes performances de détection des mots dans des documents imprimés. On se propose d’étendre ces études au cas des documents manuscrits.

L’information textuelle ne se résume pas uniquement à la détection de mots. Cette information apparaît sous plusieurs formes plus ou moins complexes à extraire :

– présence bâton/cursif ; – présence chiffre/lettre ;

– séquence de chiffres/lettres (caractères bâtons/cursifs) ; – nombre de mots par ligne ;

– nombre de lignes par paragraphe ; – ...

Les informations citées ici sont essentiellement des informations typographiques permettant de mettre en valeur l’information véhiculée. Elles renvoient donc principalement à des caractéristiques graphiques appliquées à des zones textuelles. Notre objectif est d’apporter une connaissance de haut niveau sémantique qui caractérise essentiellement la structure logique du document. Ceci dans l’objectif de combiner cette information avec des informations graphiques et spatiales classiquement utili- sées pour cette tâche. Pour cela, on se propose dans cette étude d’évaluer l’apport de la détection de mots-clés caractéristiques des entités logiques de la structure des documents (mots-clés discriminants). L’utilisation des autres informations textuelles sera envisagée dans de futurs travaux.

La présence/absence de mots-clés informatifs a été proposée dans (Klink et al., 2001) comme une caractéristique discriminante. Cependant, la liste de mots-clés retenus pour caractériser les blocs est déterminée manuellement. Pour palier cela, on propose ici une méthodologie inspirée des travaux en recherche d’informations et en catégorisation de documents pour déterminer quelles informations textuelles sont les plus caractéristiques d’un bloc et les plus discriminants de tous les autres blocs.

3.2. Test TF.IDF

Pour choisir les mots-clés discriminants de chaque bloc, nous nous proposons d’utiliser le testTF.IDFproposé par (Saltonet al., 1988). Le testTF.IDFest une mesure statistique qui va nous permettre d’évaluer l’importance d’un mot pour un type de blocs extraits d’un ensemble de documents. Cette mesure augmente proportionnelle- ment en fonction du nombre d’occurrences d’un mot dans les blocs du type considéré (TF). Elle varie également en fonction de la fréquence du mot dans les blocs des documents d’un type autre que celui considéré (IDF). Cette mesure va nous permettre

(6)

de mettre en évidence les mots les plus caractéristiques et les plus discriminants par type de blocs. Ce test consiste à multiplier deux scores complémentaires :

–TF : fréquence du terme : la fréquence du mot-clé est simplement le nombre d’occurrences d’un mot dans l’ensemble des blocs de type considérés

T Fi,j = ni,j

P

knk,j

[1]

avecni,j : nombre d’occurrences du mottidans l’ensemble des blocsEjde typej.

Le dénominateur est le nombre total d’occurrences présentes dans l’ensembleE_jdes blocs de typej.

–IDF: fréquence inverse de bloc : la fréquence inverse de bloc est une mesure de l’importance d’un mot dans l’ensemble des types de blocs. Elle permet de renseigner sur le nombre de types de blocs qui contiennent ce mot.

IDF_i=log |D| P

j(1−exp⁻^P^tⁱ^,tⁱ^∈E^j)

!

[2]

avec|D|: nombre d’étiquettes de blocs différentes ; théoriquement, le test IDF est binaire, le dénominateur est égal à1si le moticonsidéré apparaît au moins une fois dans un bloc de typej. Pour limiter cet effet et tolérer des exceptions, le dénominateur a été transformé pour que celui-ci soit d’autant plus grand que l’information (le mot i) apparaît dans un bloc de typej.

La mesure correspond au produit de ces deux scores :d_i=T F_i,j×IDF_i. Un mot se voit donc attribuer un poids d’autant plus fort qu’il apparaît souvent dans un bloc de type considéré et rarement dans le corpus complet. Chaque vecteur[d]peut être normalisé en[d]afin de ne pas favoriser les blocs les plus longs (Jalam, 2003). Pour effectuer la normalisation, nous divisons chaque coordonnée[d_i]du vecteur[d]par la norme euclidienne du vecteur.

3.3. Sélection des mots-clés discriminants

La mesureTF.IDFpermet de classer les mots selon leur pouvoir de discrimination entre type de blocs. Cependant, cette mesure est décorrélée des caractéristiques spatiales alors que la combinaison de ces deux informations peut augmenter ou diminuer leur pouvoir discriminant. On peut voir un exemple sur la figure 2. Sur l’image de droite, le mot « commande » n’est pas pertinent puisque le mot apparaît dans les deux blocs (scoreT F.IDF faible) et la distance séparant les deux mots entraîne une ambiguïté. Sur l’image de gauche, le mot « Madame » a un scoreT F.IDF faible puisque le mot apparaît dans les deux blocs. Cependant, la distance entre ces deux mots est éloignée réduisant l’ambiguïté sur la pertinence du terme par sa localisation.

Pour prendre en compte ces deux informations dans le choix des mots-clés discriminants, nous vérifions que les 3 critères suivants sont respectés pour sélectionner les mots-clés :

(7)

(8)

(9)

(Madhvanathet al., 2001). Toutefois, certains segments exigent une description plus détaillée pour être différenciés. Des travaux (Lavrenkoet al., 2004) ont montré que la valeur des caractéristiques fondés sur le profil (par exemple des profils de projection) apporte une information supplémentaire. On se propose d’utiliser un vecteur de caractéristiques constitué de 59 caractéristiques :

– caractéristiques scalaires : - rapport largeur sur hauteur (1) - largeur (1)

- aire (1)

- densités de niveaux de gris dans quinze zones du mot (15) - nombre de hampes (1)

- nombre de jambages (1) - nombre de boucles (1)

- codage de freeman du squelette (8) - nombre de fins de trait (1)

- nombre de jonctions Y (1)

- plus long segment dans une orientation donnée du code de freeman (4) - nombre d’intersections noir/blanc sur la partie supérieure, inférieure et cen- trale (3)

– caractéristiques de profils : ces profils permettent de capturer la forme d’un segment dans le détail. Cependant, nous avons besoin de valeurs fixes et les profils ayant des longueurs variables ne peuvent donc pas être utilisés dans notre cas. On s’affran- chit de la longueur variable des profils en calculant les premiers coefficients de la transformée de Fourier discrète (TFD). On extrait de la TFD les quatre premiers coefficients réels et les trois premiers coefficients imaginaires (Lavrenkoet al., 2004). Ces sept premiers coefficients de la TFD sont extraits à partir :

- du profil supérieur (distance au premier pixel noir en partant du haut) (7) - du profil inférieur (distance au premier pixel noir en partant du bas) (7) - de la projection des niveaux de gris (définie comme la somme des niveaux de gris de l’image pour chaque colonne) (7)

3.4.4. Classification de l’information textuelle

Pour obtenir l’information textuelle (présence de mots-clés : Monsieur, Objet, No- vembre...), notre choix s’oriente vers la combinaison des classifieurs. Cette approche a montré son aptitude à concevoir des systèmes puissants et performants dans le do- maine de la reconnaissance de l’écriture. En effet, plusieurs travaux ont été réalisés comme par exemple (Farahet al., 2004). La description d’un système multiclassi- fieur peut se décomposer en deux phases. La première phase consiste à générer un ensemble de classifieurs spécialisés dans la discrimination d’une classe contre toutes

(10)

les autres. Ces classifieurs sont donc des experts que l’on va entraîner pour reconnaître un mot. La deuxième phase consiste à combiner l’ensemble de ces classifieurs pour obtenir une décision finale. L’avantage d’utiliser une telle méthode est que l’on peut apprendre à rejeter les propositions et ainsi diminuer les fausses alarmes. La détection de la présence de mots-clés se fait en utilisantN classifieurs binaires chacun spécia- lisé pour la reconnaissance d’un desN mots-clés, N étant la taille du lexique des mots-clés retenus. On prend comme décision pour le segment, la sortie du classifieur qui est la plus grande correspondant à un mot-clé. La détection de ce mot va ensuite être utilisée comme une caractéristique pour l’analyse de structures de documents.

4. Analyse de structures de documents par champs aléatoires conditionnels Dans l’état de l’art, il existe relativement peu de travaux sur l’analyse de structures des documents manuscrits complexes. On peut néanmoins distinguer deux grandes catégories de modèles pour résoudre ce problème : les modèles à base de règles et les modèles statistiques. Les modèles de la première catégorie nécessitent de définir un grand nombre de règles pour englober toutes les structurations possibles (Lemaitre et al., 2008). Ces règles bien que nombreuses ne permettent pas de contrôler toute la variabilité de ces documents. Elles créent donc des exceptions qui peuvent provo- quer des erreurs importantes de segmentation. La deuxième catégorie correspond aux modèles statistiques. Ces modélisations permettent d’absorber la variabilité en l’apprenant. On peut citer deux types de modélisation : les modèles génératifs avec les modélisations par champs aléatoires markoviens (CAM) (Lemaitre, 2007) et les mo- dèles discriminants avec les modélisations par champs aléatoires conditionnels (CAC) (Nicolaset al., 2008). On se propose ici de travailler sur des modèles CAC car ces derniers semblent plus appropriés à une tâche d’étiquetage, de part leur nature discriminante. En effet, le problème d’étiquetage se rapproche plus d’un problème de discrimination entre classes et par conséquent il est plus approprié de calculer directement la probabilitéa posteriorid’un étiquetage sachant des observations. On se propose ici d’utiliser une modélisation CAC qui permet de combiner aisément des informations de différentes natures en pondérant leurs poids dans la décision. De plus, les CAC possèdent de nombreux avantages comme celui d’intégrer plus facilement différents niveaux de contexte (voir section 4.1) ou celui de tenir compte de l’ensemble des observations faites sur l’image sans hypothèse d’indépendance entre les observations.

4.1. Champs aléatoires conditionnels

Dans ces approches, les structures physique et logique du document sont suppo- sées produites par un champ d’états cachés notéY prenant des valeurs dans un ensemble fini d’étatsL. Ce champ est supposé markovien ce qui signifie qu’il y a une dépendance conditionnelle au voisinage. Chaque état du champ est associé à un site de l’image auquel sera affectée l’étiquette de l’état correspondant. Chaque étiquette de

(11)

ces états est estimée conditionnellement aux états voisins mais aussi aux observations Xextraites de l’image entière.

On notes un site correspondant à un ensemble de pixels. Ce regroupement de pixels est réalisé pour diminuer les temps de traitements nécessaires à l’étude de tous les pixels de l’image. Cependant, cet ensemble doit rester suffisamment petit pour ne pas perdre en précision et pour ne pas introduire des erreurs liées au regroupement de pixels normalement disjoints. La construction de ces sites est réalisée en effectuant un échantillonnage des pixels de l’image. Cet échantillonage est opéré de manière à conserver la grille rectangulaire initiale formée par les pixels de l’image. Cette grille permet de définir de manière naturelle les relations de voisinage entre les sites.

Dans une approche CAC, la probabilité d’une configurationy du champ d’états sachant un ensemble d’observationsxest directement donnée par le modèle, c’est-à- dire qu’il n’y a pas de transformation par le théorème de Bayes. Donc, pour obtenir la configuration d’états optimale, c’est-à-dire la structure optimaley, nous cherchonsˆ la configuration ydans l’ensemble des configurations possiblesY qui maximise la probabilité conditionnelle :

ˆ

y=arg max

y∈Y

P(Y =y|X=x) [3]

Cette probabilité globalea posterioriest définie classiquement dans les modèles CAC comme le produit sur un ensemble de sitess, de l’exponentielle d’une somme pondérée dekfonctions appelées fonctions de caractéristiquesfk:

P(Y =y|X=x) = 1 Z

Y

s

(exp(X

k

θkfk(x, y, s))) [4]

oùZ = P

L

Q

s(exp(P

kθkfk))est un coefficient de normalisation sur l’ensemble des étiquettesLpossibles.

Ces fonctions de caractéristiques dépendent des observationsx, de la configuration d’étiquettesyet du site courant. Ce sont des fonctions à valeurs réelles à travers lesquelles toutes les connaissances du modèle sont intégrées. Ces fonctions sont pondé- rées par des paramètresθk(paramètres du modèle CAC) permettant de régler l’importance des connaissances introduites par ces fonctions dans le modèle. Ces fonctions sont extraites à différents niveaux d’analysek. Chaque niveau d’analyse définit un contexte informationnel différent en fonction : du type d’observations (image ou éti- quette), du voisinage, du type de caractéristiques (spatiales, textuelles, graphiques...) pour une résolution donnée.

(12)

4.2. Modélisation conditionnelle combinant information graphique, spatiale et textuelle

Dans notre approche, nous avons choisi de modéliser ces fonctions de caractéris- tiques par des classifieurs discriminants comme proposé dans (Nicolaset al., 2008).

Le modèle CAC peut alors être vu comme un réseau de classifieurs inter-connectés prenant leurs décisions en fonction de caractéristiques extraites sur le niveau d’ana- lysekconsidéré. La sortie de chaque classifieur nous permet d’obtenir une estimation de la probabilité localea posteriorides étiquettes sachant les caractéristiques d’entrée.

La probabilité conditionnelle globale du modèle s’écrit alors : P(Y =y|X=x) = 1

Z Y

s

exp(X

k

θkPk(yj|F(y, x, j)))

!

[5]

oùF(y, x, j)sont les caractéristiques prises en entrée des classifieurs et définies pour chaque niveau d’analyse.

Parmi les classifieurs existants, nous avons choisi des SVM (machines à vecteurs de support) car ils possèdent des bonnes propriétés de généralisation comparés aux classifieurs conventionnels. De plus, la combinaison SVM/CAC est très précise car elle bénéficie de la nature des SVM à rechercher des hyperplans séparateurs de marge maximum et bénéficie aussi de la nature des CAC à modéliser la corrélation entre étiquettes voisines.

4.3. Choix des niveaux d’analyse du modèle

Les modèles CAC regroupent le processus d’association (association entre champs d’étiquettes et observations image) et de régularisation (régularisation des étiquettes d’un état avec les étiquettes des états voisins) dans un même terme. Ceci se décrit par la dépendance conditionnelle aux observations images et étiquettes voisines (équation [5]). Ce terme ne peut se déterminer en une seule étape. En effet, pour construire ce terme, le modèle a besoin d’un premier champ d’étiquettes sur lequel il faudra effectuer la régularisation. Le moyen le plus efficace pour obtenir ce champ d’étiquettes est de passer par une étape d’initialisation à partir des observations images. Pour cela, notre modélisation est décomposée en deux sous modèles (figure 5) :

– une initialisation qui prend ses décisions en fonction de caractéristiques spatiales, graphiques et textuelles observées sur l’image. L’un des atouts de notre modèle est de pouvoir combiner des caractéristiques décrivant différents niveaux d’information : la structure physique et la structure logique. Les caractéristiques graphiques et spatiales considérées sont décrites dans (Montreuilet al., 2009) ;

– une contextualisation qui nous permet de lier à la fois les observations images et les dépendances entre sites voisins pour homogénéiser les décisions locales. Nous avons décomposé ce modèle en deux parties :

(13)

(14)

du document, nous adaptons l’algorithme de programmation dynamique 2D proposé pour les CAM dans (Lemaitre, 2007). Cet algorithme d’inférence est une extension naturelle de l’algorithme classique 1D. Il possède l’avantage d’être optimal et rapide comparé aux algorithmes d’inférence classiques (Geoffrois, 2003). Il reprend la stra- tégie de « diviser pour mieux régner ». Chaque état de la grille est fusionné à une région pour laquelle une liste de configurations possibles est calculée correspondant au produit des probabilités conditionnelles de chaque état de la région. L’opération est ré-itérée jusqu’à ce qu’il n’y ait plus qu’une régionRrecouvrant tout le document. La configuration de la régionRdont la probabilité est maximale correspond à la structure du document.

5. Expérimentation sur la base de courriers de Rimes

Nous avons testé notre modèle sur 1 250 lettres manuscrites de la base de lettres Rimes. Tous les courriers de la base ont été annotés manuellement et l’ensemble des informations des documents sont sauvegardées dans des fichiers XML. Ces fichiers font apparaître la transcription du texte ainsi que toutes les informations utiles pour le traitement automatique du courrier.

Nous testons notre modèle sur la tâche de structuration de document. L’objectif de cette tâche consiste à étiqueter les différentes parties (blocs) du document correspondant à l’une des étiquettes suivantes : coordonnées expéditeur (CE), date lieu (DL), coordonnées destinataire (CD), objet (OB), ouverture (OU), corps de texte (CT), oignature (S), pièce jointe (PJ) (figure 1). Pour évaluer les performances de notre mo- dèle, nous avons utilisé la métriqueErrutilisée lors de la deuxième campagne d’éva- luation Rimes. Cette métrique correspond à un taux d’erreur de classification défini par la somme des pixels noirs mal classés, normalisés par la somme de tous les pixels noirs.

5.1. Extraction des caractéristiques du modèle CAC

On choisit pour l’initialisation un classifieur SVM qui prend ses décisions en fonction de caractéristiques spatiales, gaphiques et textuelles observées sur l’image. L’un des atouts de notre modèle est de pouvoir combiner des caractéristiques décrivant dif- férents niveaux d’information : la structure physique (caractéristiques graphiques) et la structure logique (caractéristiques spatiales et textuelles). On obtient un vecteur de caractéristiques comprenant :

– les coordonnées normalisées en abscisse et en ordonnée du centre de chaque site dans l’image ;

– les densités de pixels de 27 fenêtres réparties sur trois échelles, soit 3 x 9 fenêtres de tailles respectivement égales à 1, 5 et 9 sites. Pour chaque échelle les fenêtres sont regroupées sous forme d’un masque 3 x 3 centré sur le site courant (voir figure 6).

Cela permet d’obtenir une représentation multi-échelle des niveaux de gris ;

(15)

– une valeur binaire pour chaque mot-clé sélectionné : la valeur1indiquant que le mot a été détecté et 0 sinon. (les mots-clés sélectionnés et leur nombre sont décrits dans la section suivante).

Pour les caractéristiques de régularisation, celles-ci sont décrites dans la section 4.3 et font partie intégrante du modèle.

Figure 6.Caractéristiques de densité de niveau de gris extraites sur 3 échelles

5.2. Sélection de mots-clés

La première partie de notre étude consiste à sélectionner les mots-clés discriminants. Pour ce faire, nous avons calculé les scoresTF.IDF des mots présents dans chaque type de blocs à partir des transcriptions des courriers présents dans les fichiers XML de la base Rimes. Un exemple des scores obtenus pour les blocsOU et OB est présenté sur le tableau 1. L’étude des 3 critères présentés en section 3.3, nous a permis d’isoler un ensemble de mots discriminants caractéristiques : Monsieur, Ma- dame, client, référence, tel, ref, objet, salutation, distingué, agréer, cordialement, je, j’ai, vous, rue et les mois de l’année (octobre, novembre...).

5.3. Résultats de détection de mots-clés

Les classifieurs mots ont été appris et testés sur les bases d’imagettes de mots isolés de Rimes (Grosickiet al., 2009). La base d’apprentissage est constituée de 44 509 mots et la base de test de 3 328 mots. La base de test possède majoritairement des mots inconnus que notre système doit rejeter. La règle de décision adoptée associant un mot inconnu à la classe dont le score est maximum ne permet pas le rejet. Les décisions obtenues sont alors entachées d’erreurs dues aux fausses alarmes (précision moyenne).

Ces décisions vont ensuite être utilisées comme caractéristiques dans notre modèle CAC pour la discrimination des blocs de texte. Si les erreurs dans ces décisions sont trop nombreuses, alors les mots-clés n’auront plus le pouvoir discriminant escompté

(16)

BlocOU

monsieur 0.11838 madame 0.11454 bonjour 0.01342 messieurs 0.01301 directeur 0.00437 cher 0.00260 maire 0.00230

le 0.00135

mesdames 0.00130

BlocOB

objet 0.09924 demande 0.03250 assurance 0.00828 resiliation 0.00821 changement 0.00769 documentation 0.00699

de 0.00602

concernant 0.00542 coordonnees 0.00542

Tableau 1.Test TF.IDF pour les blocs OU et OB rangés par ordre décroissant des scores les plus discriminants

pour discriminer les blocs puisqu’il y aura une variabilité dans les assoications mots- clés et blocs. On se propose d’appliquer un seuil de rejet dans la règle de décision pour limiter les fausses alarmes. Pour ce faire, on fait varier les seuils de rejet pour chaque sortie de classifieur. Ceci nous permet de déterminer un ensemble de points de rappel/précision. Ces points forment les courbes ROC. On montre un exemple de courbe ROC obtenue pour le mot « Monsieur » sur la figure 7. On s’aperçoit que le point de fonctionnement rappel/précision est complexe à déterminer puisque plus on augmente la précision du système plus le taux de reconnaissance diminue. On prend par défaut le seuil de rejet qui permet d’obtenir le meilleur compromis entre rappel et précision. On présente en section 5.4 une analyse de l’influence du choix de point de fonctionnement dans le modèle CAC complet.

Parmi l’ensemble des mots à classer, notre système permet d’en classer 48 % correctement (taux de rappel). Parmi les mots mal classés, 80 % ont été rejetés à tort par les classifieurs mots. Cependant, ces erreurs ne sont pas gênantes car elles n’ap- porteront pas d’erreurs supplémentaires dans le modèle CAC. Concernant les autres erreurs de classification (fausse alarmes), celles-ci sont plus contraignantes car elles peuvent introduire par la suite des erreurs d’étiquetage des blocs. Le compromis rappel/précision a permis de fixer la précision à 83 %. Pour limiter l’impact des erreurs résiduelles, le modèle de contextualisation pourra s’appuyer sur d’autres types d’informations spatiales et graphiques. On montre dans le tableau 2, un extrait de la matrice de confusion obtenue sur laquelle peu d’erreurs de classification et peu de fausses alarmes apparaissent.

5.4. Analyse de l’apport de l’information textuelle

Les résultats de classification des mots-clés ont montré des performances intéres- santes. On se propose d’évaluer ici le choix des paramètres de classification de l’information textuelle dans la décision finale. Notamment, deux paramètres ont dû être

(17)

Monsieur Madame Objet Salutations Distinguées Tél Ref Client Réference Je Vous rejet

Monsieur 38 0 0 0 0 0 0 0 0 0 0 32

Madame 1 34 0 1 0 0 0 0 0 0 0 22

Objet 0 0 6 0 0 0 0 0 0 0 0 14

Salutations 0 0 0 12 0 0 0 0 0 0 0 12

Distinguées 0 0 0 0 10 0 0 0 0 0 0 5

Tél 0 0 0 0 0 5 0 0 0 3 0 12

Ref 0 0 0 0 0 0 14 0 0 0 0 9

Client 0 0 0 0 0 0 0 9 0 0 0 23

Réference 0 0 0 0 0 0 0 0 2 0 0 9

Je 0 0 0 0 0 0 0 0 0 192 0 36

Vous 0 0 0 0 0 0 0 0 0 0 168 60

rejet 1 3 1 3 4 0 0 1 0 16 22 2222

Tableau 2.Extrait de la matrice de confusion pour la reconnaissance mots

Figure 7.Courbe ROC en sortie du classifieur pour le mot « Monsieur » et choix d’un point de fonctionnement avec le meilleur compromis rappel/précision

fixés pour la détection de l’information textuelle : le seuil de segmentation (RLSA) et le seuil des points de fonctionnement rappel/précision.

(18)

Figure 8.Exemple de reconnaissance de mots-clés sur un courrier manuscrit

5.4.1. Choix des paramètres de segmentation

L’algorithme RLSA utilisé pour segmenter en mots nécessite de fixer un seuil pour le regroupement des composantes connexes. Selon le seuil choisi, les résultats de segmentation seront différents et donc différeront plus ou moins des données utilisées pour l’apprentissage. On rappelle que les données utilisées pour la phase d’apprentissage sont des imagettes de mots déjà segmentés. Pour mesurer l’influence de ce paramètre dans l’étiquetage logique final, l’ensemble du modèle CAC a été testé pour quatre valeurs différentes de ce seuil (tableau 3).

Seuil RLSA (pixels) 15 20 30 40

Err(%) 8,04 7,91 8.26 8.45

Tableau 3.Taux d’erreur du modèle CAC en fonction du seuil RLSA

Les résultats montrent que les performances de détection de mots-clés sont très dépendantes des performances de segmentation. Ceci s’explique par le fait que certaines caractéristiques utilisées sont des caractéristiques structurelles qui dépendent fortement du segment extrait. La taille de 20 pixels est la valeur du seuil qui visuel- lement permet d’obtenir le meilleur compromis de segmentation en mots. C’est aussi pour cette valeur que le taux d’erreur d’étiquetage logique est le plus faible. Ce constat

(19)

peut se retrouver pour le seuil de 40 pixels dont le taux d’erreur est meilleur que celui escompté. En effet, pour cette valeur, les segments extraits sont globalement mauvais sauf pour les mots relativement isolés. Notamment, le mot « Monsieur » faisant partie du bloc « Ouverture » est un mot qui est souvent isolé. Les résultats de segmentation même avec ce mauvais seuil sont satisfaisants pour ce mot. Ceci a pour effet de renforcer la dépendance entre la présence de ce mot et un étiquetage logique « ouverture » puisqu’il est quasiment le seul mot bien reconnu et uniquement dans ce type de bloc. Pour résumer, la valeur du seuil fait varier l’apport de l’information textuelle. Si le seuil retenu induit une bonne segmentation alors l’information textuelle apportera une amélioration aux résultats d’étiquetage logique. Si au contraire, le seuil retenu induit une mauvaise segmentation alors l’information textuelle ne dégradera pas les résultats d’étiquetage logique. Il est à noter que l’utilisation de caractéristiques glo- bales sur la forme des mots permet de limiter l’influence de la segmentation sur la détection des mots. Ceci se traduit par les faibles variations observées pour les diffé- rentes valeurs de seuil choisies.

5.4.2. Choix des paramètres de décisions textuelles

Le choix du point de fonctionnement rappel/précision est très important dans notre modélisation. En effet, le choix de ce point permet de fiabiliser la détection des mots tout en limitant les fausses alarmes. Plus les mots détectés sont fiables, plus cette information est prise en compte comme une caractéristique discriminante pour l’étiquetage en bloc logique. En contrepartie, l’augmentation de la précision a pour effet de diminuer le nombre de détections (figure 7). Pour évaluer l’importance de ce paramètre, on se propose de tester le modèle CAC pour différents points de fonctionnement. Les points de fonctionnement considérés sont pris de manière proportionnelle au meilleur compromis rappel/précision. Ceci permet de fixer des seuils locaux pour chaque sortie de classifieur et non un seuil global qui ne tiendrait pas compte de la distribution des sorties.

rejet (%) 76 78 80 86

rappel (%) 54 52 48 33

précision (%) 78 80 83 86

Err(%) 8.01 7.91 7.91 8.24

Tableau 4.Taux d’erreur du modèle CAC en fonction du point de fonctionnement rappel/précision des classifieurs mots

Les performances d’étiquetage logique sont très sensibles au choix du point de fonctionnement. La dernière mesure montre que l’augmentation de la précision (86 %) a fortement fait chuter le taux de rappel (33 %). Ceci a engendré une augmentation du taux d’erreur. En effet, même si le taux de fausse alarme a diminué ce qui aurait dû entrainer une diminution du taux d’erreur, le nombre de bonnes décisions est de- venu trop faible ce qui a eu pour effet de diminuer par deux l’apport de l’information textuelle. Au vu des résultats, le point de fonctionnement correspondant au meilleur

(20)

compromis rappel/précision (en gras dans le tableau 4) permet d’obtenir le meilleur taux d’erreur.

5.5. Résultats de structuration de courriers manuscrits

Nous comparons les résultats du modèle CAC sans information textuelle et du modèle CAC avec information textuelle aux résultats obtenus durant la seconde campagne d’évaluation Rimes de Juin 2008. Ces résultats sont présentés dans le tableau 5.

lab1 lab2 lab3 CAC sansIT CAC avecIT

Err(%) 8,53 8,97 12,62 8,55 7.91

Tableau 5.Taux d’erreur obtenu à la seconde campagne d’évaluation Rimes et notre modèle. (IT : information textuelle)

5.5.1. Comparaison du modèle CAC avec et sans information textuelle

Le modèle CAC sans information textuelle combine uniquement des informations graphiques et spatiales. On présente sur la figure 9 en section 5.5 un résultat de segmentation automatique obtenu par ce modèle. Les résultats obtenus montrent que le système est capable de combiner différents types d’informations spatiales et graphiques. A partir de ces deux types de caractéristiques le modèle une fois exécuté permet de segmenter et d’étiqueter les différents blocs de la structure. De plus, grâce aux deux modèles de contextualisation et aux bonnes performances de l’algorithme de programmation dynamique 2D, les étiquettes se retrouvent regroupées en blocs.

Les erreurs restantes correspondant à des confusions entre blocs sont indiquées dans la matrice de confusion (tableau 6). Elles apparaissent principalement aux fron- tières des blocs où les caractéristiques utilisées sont moins discriminantes. C’est le cas de l’information spatiale qui devient insuffisante pour distinguer deux blocs dont les positions peuvent être confondues. Sur la figure 9, la partie du blocCEcorrespondant à la référence client est étiquetéeOBau lieu deCEdans la vérité terrain. Les caracté- ristiques utilisées sont performantes pour localiser et délimiter les blocs de texte. Ce- pendant, ces caractéristiques spatiales et graphiques ne semblent pas suffisantes pour discriminer ces blocs. Ceci est principalement dû à la variabilité présente dans ces documents qui diminue le poids des caractéristiques utilisées. Par exemple, la caracté- ristique de position absolue est une information très discriminante lorsqu’il n’y a pas de variabilité dans la structure. Pour palier cela, il est nécessaire d’ajouter de nouvelles connaissancesa prioridans le modèle pour renforcer l’influence des caractéristiques dans la décision. Dans l’exemple de la figure 9 précédemment cité, la détection de la présence des mots-clés « réf » et « client » permettrait de corriger l’étiquetage du bloc CE. On peut voir notamment que le modèle CAC utilisant de l’information textuelle permet de corriger les erreurs d’étiquetage de ce premier modèle.

(21)

Figure 9.Exemples de segmentation d’un courrier manuscrit : (a) la vérité terrain ; (b) la segmentation automatique sans information textuelle ; (c) la segmentation automatique avec information textuelle

(22)

F CE CD Ob Ou S CT DL

F 81,5 2,3 3,3 1,1 0,8 2,3 7,5 1,1

CE 5,9 86,9 2,2 4,5 0,1 0,0 0,2 0,2

CD 4,0 1,4 91,6 0,7 0,0 0,0 0,0 2,4

Ob 6,4 14,8 6,3 57,5 5,8 0,0 2,4 6,7

Ou 5,3 3,7 4,2 4,5 60,7 0,0 19,1 2,6

S 4,6 0,0 0,0 0,0 0,0 75,9 19,5 0,0

CT 2,1 0,3 1,3 0,4 0,6 0,5 94,7 0,1

DL 7,4 0,1 23,1 6,8 1,6 1,8 3,7 55,5

Tableau 6.Matrice de confusion des étiquettes

5.5.2. Comparaison du modèle CAC avec l’information textuelle et les modèles présentés lors de la campagne Rimes

Lab1 (Lemaitre, 2007) et lab3 (Nicolaset al., 2008) proposent une approche statistique basée sur des CAM tandis que le lab2 (Lemaitreet al., 2008) propose un système basé sur des règles. Le modèle du lab3 est un modèle CAM utilisant des informations graphiques et spatiales. Le modèle du lab1 utilise la même modélisation avec des ca- ractéristiques semblables au lab3. La différence entre les résultats obtenus par le lab1 et le lab3 s’explique par l’ajout dans le modèle du lab1 d’un post-traitement permettant de corriger les erreurs générées par le modèle CAM. Ce post-traitement est réalisé à base de règles dans lesquelles sont introduites des informations de plus haut niveau que celles utilisées dans celui du lab3. L’approche proposée par le lab2 donne de bons résultats mais comme explicité précédemment, l’utilisation de règles est une solution très rigide difficilement adaptable à d’autres types de documents sinon par la défini- tion de nouvelles règles. De plus, l’analyse des erreurs générées par cette approche montre un fort taux d’erreur sur certaines images dont la mise en page ne correspond pas aux règles de grammaire prédéfinies. En contraste, notre modèle est un modèle CAC unifié basé sur l’apprentissage. Ce type de modélisation a pour avantage de re- grouper l’ensemble des niveaux informationnels dans une même modélisation et peut être transposé à un autre type de documents en réapprenant le modèle sans le changer.

Les 5 modèles étudiés utilisent des informations graphiques et spatiales. Notre modèle est le seul qui ajoute une information textuelle. L’apport de l’information textuelle (détection de la présence de mots-clés) dans le modèle nous a permis d’apporter une information supplémentaire dans les zones où règnent de fortes indécisions. On montre figure 9, un résultat de segmentation du modèle avec information textuelle. Le modèle a détecté la présence des mots-clés « ref » et « client ». La détection de ces mots a permis de corriger certaines étiquettes de notre étiquetage initial et d’améliorer ainsi le taux d’erreur global de notre modèle.

(23)

6. Conclusion et perspectives

Un modèle CAC 2D pour l’extraction de structures de documents manuscrits non contraints a été proposé et discuté. Nous avons montré que le modèle combinant des informations textuelles avec les informations graphiques et spatiales permettait d’amé- liorer la segmentation du document. En effet, cette information textuelle est une information importante dans la structuration du document qui permet de fiabiliser l’étique- tage dans les zones d’instabilité. Cette information est généralement peu utilisée du fait de la complexité à la maîtriser. La méthode proposée ici utilise des outils simples mais robustes donnant accès rapidement à une information textuelle. Les résultats de l’expérimentation sur la base de courriers Rimes ont montré que cette information diminue le taux d’erreur par rapport aux modèles sans information textuelle.

Pour augmenter l’apport de l’information textuelle, on se propose d’étudier dans nos futurs travaux une modélisation utilisant plusieurs résolutions (sites, lignes, blocs...). Le modèle présenté ici travaille au niveau site c’est-à-dire que les étiquettes sont associées à l’ensemble des pixels d’un site. Cependant, certaines informations comme l’information textuelle renvoient à des résolutions plus grandes comme une composante connexe ou un bloc, en d’autres termes que l’ensemble de la composante connexe doit posséder la même étiquette et doit propager son étiquette sur les composantes connexes voisines et non sur les sites voisins. On se propose donc d’étudier un modèle CAC qui permet de combiner des décisions d’étiquettes prises à différentes résolutions. Ce type de modélisation nous permettrait par exemple de corriger l’erreur d’étiquetage restante sur la figure 9. En effet, il serait possible de considérer que l’information textuelle (« ref » et « client ») ne soit plus associée à un site mais à un ensemble de sites regroupés dans des composantes connexes qui se trouvent elles-mêmes regroupées dans un bloc.

L’un des atouts du modèle proposé est que l’information textuelle utilisée peut aider à segmenter les différents blocs de texte. Certains blocs se retrouvent souvent proches les uns des autres, il est alors difficile de trouver une méthode de segmentation qui puisse efficacement les séparer. Le modèle proposé permet de contourner ce problème en combinant l’extraction de la structure physique et logique. Considérons dans l’exemple suivant que les sites de notre modèle ne soient plus des ensembles de sites quelconques mais des lignes de textes. On cherche alors à affecter une étiquette à une ligne préalablement segmentée. Considérons maintenant un ensemble de quatre lignes de texte proches les unes des autres dont une correspond à un bloc « DL » et trois à un bloc « CD ». Le fait de trouver des mots-clés parmi ces lignes va permettre de modifier l’étiquetage logique. La modification de l’étiquetage entrainera une modification des segments blocs créés par le modèle et permettra ainsi de corriger les erreurs de segmentation. Un exemple de ce type de résultats est présenté sur la figure 10.

L’extraction conjointe de la structure physique et logique d’un document est complexe. En effet, les informations faisant référence à la structure logique sont essentiellement présentes sur des niveaux d’abstraction grossiers. Ceci se retrouve dans le

(24)

modèle proposé qui extrait des informations textuelles sur des segments mots alors que les décisions sont données sur des petits ensembles de pixels. Il est aisé de consi- dérer que les informations faisant référence à la structure logique sont très pauvres au sein d’un pixel. Par contre sur une ligne, il existe plusieurs types d’informations faisant référence à la structure logique comme des mots-clés, des longueurs de ligne...

On se retrouve ici avec le paradoxe de Sayre formulé différemment : « pour extraire des informations logiques utiles à l’interprétation de la structure de document il est nécessaire d’utiliser des segments grossiers qui sont complexes à segmenter efficacement et qui peuvent propager des erreurs d’étiquetage contrairement aux segments des niveaux les plus fins ne contenant que très peu d’information sur la structure logique mais dont l’étiquetage rend la segmentation plus précise. ».

a) b) c)

Figure 10.Exemple d’apport de l’information textuelle pour corriger la segmentation : a) l’étiquetage vérité terrain ; b) modèle CAC sans information textuelle : toutes les lignes ont été étiquetées « CD » donnant comme résultat un seul bloc ; c) modèle CAC avec information textuelle : le mot-clé « Octobre » a été trouvé changeant l’éti- quetage de la ligne correspondant au bloc « DL », le résultat de segmentation donne alors deux blocs

7. Bibliographie

Crasson A., Fekete J.-D., « Structuration des manuscrits : Du corpus a la rgion »,Conference Internationale Francophone sur l’Ecrit et le Document (CIFED04), La Rochelle, p. 162- 168, Juin, 2004.

Farah N., Suici L., Sellami M., « Un système multiclassifieurs appliqué au montants littéraux arabes »,Colloque Africain sur la Recherche en Informatique (CARI04), p. 339-346, 2004.

Geoffrois E., « Multi-dimensional Dynamic Programming for statistical image segmentation and recognition »,Conference on Image and Signal Processing (ICISP03), p. 397-403, 2003.

Grosicki E., Carré M., Brodin J.-M., Geoffrois E., « Results of the Rimes evaluation campaign for handwritten mail processing »,International Conference on Document Analysis and Recognition (ICDAR09), p. 941-945, 2009.

Ishitani Y., « Logical structure analysis of document images based on emergent computation », International Conference on Document Analysis and Recognition, p. 189-192, 1999.

Jalam R., Apprentissage automatique catégorisation de textes multilingues, Thèse de doctorat, Université Lumière Lyon 2, 2003.

(25)

Klink S., Kieninger T., « Rule-based Document Structure Understanding with a Fuzzy Combi- nation of Layout and Textual Features »,International Journal on Document Analysis and Recognition, vol. 4, p. 18-26, 2001.

Lavrenko V., Rath T. M., Manmathat R., « Holistic Word Recognition for Handwritten His- torical Documents »,International Workshop on Document Image Analysis for Libraries (DIAL04), p. 278-288, 2004.

Lebourgeois F., Emptoz H., « Document analysis in gray level and typography extraction using character pattern redundancies »,International Conference on Document Analysis and Re- cognition, p. 177-180, 1999.

Lemaitre A., Camillerapp J., Couasnon B., « Multiresolution cooperation makes easier document structure recognition »,IJDAR, vol. 11, n° 2, p. 97-109, 2008.

Lemaitre M., Approche markovienne bidimensionnelle d’analyse et de reconnaissance de documents manuscrits, Thèse de doctorat, Université Rene Descartes, Paris 5, 2007.

Madhvanath S., Govindaraju V., « The Role of Holistic Paradigms in Handwritten Word Re- cognition »,IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, n° 2, p. 149-265, 2001.

Montreuil F., Grosiki E., Nicolas S., Heutte L., « Extraction de structure de documents manuscrits non contraints par Champs Aléatoires Conditionnels 2D »,Groupe d’Etudes du Traitement du Signal et des Images (GRETSI09), 2009.

Nicolas S., Paquet T., Heutte L., « 2D markovian models for document structure analysis »,11th International Conference on Frontiers in Handwriting Recognition (ICFHR08), Montreal, Quebec, Canada, p. 658-663, 2008.

Salton G., Buckley C., « Term Weighting Approaches in Automatic Text Retrieval »,Informa- tion Processing Management, vol. 24, n° 5, p. 513-523, 1988.

Shafait F., Keysers D., Breuel T., « Performance comparison of six algorithms for page segmentation »,Workshop on Document Analysis Systems, p. 368-379, 2006.

Taylor S., M.Lipshutz, Nilson R., « Classification and functional decomposition of business documents »,International Conference on Document Analysis and Recognition, p. 563-566, 1995.

Watanabe Y., Nagao M., Otsu S., « Diagram Understanding Using Integration of Layout In- formation and Textual Information »,Annual Meeting of the Association for Computational Linguistics, vol. 2, p. 1374-1380, 1998.

(26)

Intégration d’informations textuelles de haut niveau en analyse de structures de documents manuscrits non contraints