Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques

(1)

de documents pour la constitution de dossiers numériques

Bertrand Coüasnon — Jean Camillerapp

Irisa/Insa de Rennes

20, Avenue des buttes de Coësmes F-35043 Rennes cedex

{Bertrand.Couasnon, Jean.Camillerapp}@irisa.fr

RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques…), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fiches nominatives d’incorporation militaire du XIX^e siècle. En produisant une description XML du document, la méthode permet d’appliquer ensuite d’autres traitements comme la constitution de pages d’index visuels ou le masquage de champs confidentiels.

ABSTRACT. Digital files are in many cases build by retrospective conversion of paper documents. Until now this retrospective conversion needs to develop, for each kind of document, a new recognition system from scratch. Therefore we propose in this paper a generic approach for structured document recognition: the DMOS method. With its help, we can automatically produce a new recognition system from a grammatical description of the document structure. The DMOS method has been successfully applied to produce various recognition systems: one for musical scores, one for mathematical formulae and one for table structures. It has been also validated on more than 5,000 military forms of the 19^th century.

By producing an XML description of the recognized form, the recognition system allows, for example, to build a visual index or to hide confidential cells.

MOTS-CLÉS : reconnaissance de documents, tableaux, formulaires, gestion des connaissances a priori, analyse structurelle, grammaire.

KEYWORDS: documents analysis, table-form, printed-form, a priori knowledge, syntactic analysis, grammar.

(2)

1. Introduction

Les dossiers numériques peuvent être élaborés directement à partir de documents initialement numériques, mais ils nécessitent souvent d’intégrer des documents plus anciens produits de manière traditionnelle, sous une forme uniquement papier. En outre, pour ceux qui contiennent des informations textuelles, ils peuvent être aussi bien imprimés que manuscrits. La seule numérisation n’est alors pas suffisante (André et al., 1999), car il faut pouvoir accéder au contenu du document papier pour permettre l’utilisation de certaines informations (présentes uniquement sur papier) par le reste du dossier. Il peut également être nécessaire d’accéder à un document à partir de son contenu, qu’il soit manuscrit ou imprimé, grâce à des éléments d’indexation produits de manière automatique. Tout ceci rend indispensable une phase de reconnaissance de documents (ou rétroconversion), c’est-à-dire de passage de l’image à des données représentant le contenu reconnu, en vue de l’intégration des documents papier au sein de dossiers numériques.

Ces documents papier qui doivent être intégrés aux dossiers numériques peuvent avoir des formes ou des types très hétérogènes. Il est donc important de développer des systèmes de reconnaissance capables de traiter ces différents types de documents.

Cependant, la tendance la plus couramment pratiquée actuellement consiste à développer une application pour chaque nouveau type de documents. Même si, pour des équipes expérimentées, cela peut se faire en réutilisant quelques modules déjà écrits, un tel développement exige encore, néanmoins, de déployer une énergie très importante.

A l’heure où dans de nombreux domaines, et en particulier dans celui des archives, on assiste à des campagnes de numérisation des documents papier (Lorie, 2000), nous avons pensé qu’il était important d’automatiser ce développement en séparant les connaissances propres au domaine applicatif ou connaissances a priori, des procédures de traitement d’images. L’approche initialement conçue pour la reconnaissance des partitions musicales (Coüasnon et al., 1995) a pu être étendue par exemple aux formules mathématiques et aux structures tabulaires. L’intérêt d’une approche générique est d’autant plus grand quand les documents sont hétérogènes ; il suffit de formaliser les connaissances spécifiques sur la structure de chaque document pour produire l’analyseur adapté.

Nous débutons cet article par la présentation de la méthode DMOS, méthode générique de reconnaissance de documents. Puis nous montrons comment, grâce à cette méthode, nous avons pu produire différents systèmes de reconnaissance, notamment de reconnaissance de tableaux, validant ainsi l’aspect générique. La dernière partie illustre une validation de cette méthode sur plus de 5 000 fiches d’incorporation militaire du XIX^e siècle.

(3)

2. Présentation de la méthode DMOS 2.1. Principes de la méthode

La reconnaissance des documents se trouve très souvent confrontée au paradoxe bien connu : pour reconnaître, il faut segmenter le signal d’entrée, mais pour bien segmenter il faut avoir reconnu¹. Pour s’en sortir, il faut donc faire coopérer les processus de segmentation et les processus de reconnaissance en utilisant au mieux les connaissances a priori sur le domaine applicatif.

Un système générique de reconnaissance doit donc :

– isoler les connaissances a priori afin que l’adaptation à un nouveau type de documents soit simple et bien localisée ;

– utiliser ces connaissances a priori pour remettre en cause les segmentations proposées par le traitement d’image.

Les grammaires et les langages qui leur sont associés constituent un formalisme simple et puissant de modélisation. Nous avons donc proposé, pour les documents structurés une méthode baptisée DMOS (Description avec MOdification de la Segmentation), constituée de :

– un langage grammatical de description de documents que nous avons défini, EPF (Enhanced Position Formalism), et qui permet de modéliser la connaissance a priori ;

– un extracteur des éléments terminaux du langage présents dans l’image ; – un analyseur associé autorisant une modification en cours d’analyse de la structure analysée. Cette modification permet d’introduire le contexte (niveau symbolique) dans la phase de segmentation (niveau numérique), afin d’améliorer la reconnaissance ;

– un classifieur qui vient, si besoin, reconnaître les symboles pouvant être assimilés à des caractères. Ce classifieur doit avoir des capacités de rejet lorsque le symbole présenté lui est totalement inconnu (Anquetil et al., 2000), car ce cas résulte le plus souvent d’une erreur de segmentation. Ainsi averti, l’analyseur pourra rechercher localement une autre segmentation.

2.2. Langage EPF

Un certain nombre de formalismes grammaticaux permettant de décrire des objets bidimensionnels ont déjà été proposés. Cependant, soit ils offrent une expressivité trop faible (grammaires d’arbres (Brained, 1969) ou grammaires web (Pfaltz et al., 1969)), soit ils ont une syntaxe trop compliquée (grammaires plex

1. M. Sayre « Machine recognition of handwritten words. A project report. » Pattern Recognition 5, septembre 1973, p. 213-218.

(4)

(Feder, 1971) ou grammaires de graphes (Grbavec et al., 1995)) qui rend très difficile la mise en œuvre de connaissances complexes. En outre, aucun ne permet d’introduire la connaissance ainsi formalisée dans la phase de segmentation.

Nous avons choisi d’étendre le formalisme des Definite Clause Grammar (Pereira et al., 1980) car celui-ci s’exprime assez facilement dans le langage Prolog.

Grâce à son mécanisme d’unification, ce langage prend en charge le combinatoire relatif à la gestion des différentes hypothèses de segmentation et de reconnaissance et rend ainsi beaucoup plus simple la réalisation de l’analyseur.

En exprimant dans la grammaire les redondances présentes dans le document, il est possible de faire détecter par le système lui-même d’éventuelles erreurs. Ceci est particulièrement nécessaire dans un contexte industriel de traitement de documents, où il n’est pas envisageable d’avoir un opérateur humain qui relise l’ensemble des documents reconnus pour y détecter des erreurs.

Nous avons donc défini et développé le langage EPF, permettant de décrire un document structuré aussi bien au niveau graphique que syntaxique. Ce langage peut être vu comme une extension bidimensionnelle des grammaires dans laquelle les terminaux sont des segments ou des matrices de pixels (composantes qui représentent un symbole) au lieu d’être, comme dans les grammaires classiques, des caractères. Cette extension comporte également un certain nombre d’opérateurs spécifiques dont voici quelques exemples :

Opérateur de position (encadré par AT) : A && AT(pos) && B

où A et B représentent un terminal ou un non-terminal et && désigne la concaténation dans la grammaire.

Si, par exemple, pos prend la valeur extremiteGauche cela signifie que B doit se trouver près de l’extrémité gauche de A.

Le concepteur de la grammaire peut définir à la demande des opérateurs de position, comme extremiteGauche, de la même manière qu’il peut le faire pour des non-terminaux. L’opérateur définit, par rapport à A, une zone de l’image dans laquelle B doit se trouver (figure 1).

Opérateur de factorisation (##, en association avec les opérateurs de position) :

A && ( AT(pos1) && B ## AT(pos2) && C)

signifie (A && AT(pos1) && B) et (A && AT(pos2) && C).

En notant par ::= le constructeur d’une règle grammaticale, il est possible, grâce à cette syntaxe de décrire, par exemple, un groupe de notes (des croches reliées par une seule barre de groupe, figure 1). Cette règle groupeDeNote ne spécifie ni le nombre de notes reconnues par noteAuMilieu, ni la direction des hampes. Ainsi une

(5)

seule règle peut décrire l’ensemble des groupes de notes que l’on peut trouver dans une partition.

groupeDeNote ::=

barreDeGroupe &&

(AT(extremiteGauche) && noteGr ##

notesAuMilieu ##

AT(extremiteDroite) && noteGr).

Figure 1. Exemple de description grammaticale d’un ensemble de croches. La zone définie par l’opérateur extremiteGauche est représentée sur l’image

Opérateurs de référence multiple (---> et <---). Afin de pouvoir faire référence plusieurs fois à une même instance du terminal ou du non-terminal A, nous proposons de sauvegarder cette instance à l’aide de --->. Cette sauvegarde permet ensuite de faire référence (à l’aide de <---) à A autant de fois que nécessaire. Il est ainsi possible de décrire ce qu’est un rectangle (figure 2).

rectangle ::= (segV ---> segCoteGauche) &&

AT(extremiteHaute) && segH &&

AT(extremiteDroite) && segV &&

AT(extremiteBasse) && segH &&

AT(extremiteGauche) && (segV <--- segCoteGauche).

Figure 2. Description grammaticale d’un rectangle

De la même manière, nous pouvons définir la description d’un triangle (figure 3).

triangle ::=

(segV ---> segCoteGauche) &&

AT(extremiteHaute) && segDiag &&

AT(extremiteDroite) && segDiag &&

AT(extremiteGauche) &&

(segV <--- segCoteGauche).

Figure 3. Description grammaticale d’un triangle

Opérateurs de déclaration (DECLARE). Cet opérateur permet de préciser la portée d’un identificateur. Toutes les règles peuvent utiliser l’identificateur ainsi déclaré pour faire référence au même élément non terminal. C’est ainsi que l’on

segDiag

segDiag segCoteGauche segCoteGauche

segH

segH segV

(6)

peut exprimer, dans la figure 4 que le triangle et le rectangle ont le côté gauche en commun.

drapeau ::=

DECLARE(segCoteGauche) (

rectangle && triangle ).

Figure 4. Exemple de composition de formes

Opérateur de réduction d’espace IN(définitionZone) DO(règle).

EPF offre également un opérateur pour réduire la zone de l’image dans laquelle une règle doit être appliquée. Cet opérateur est très souvent utilisé lors de définitions récursives. Ainsi nous pouvons, par exemple, décrire une racine carrée qui peut contenir, de manière récursive, une expression mathématique (figure 5).

racineCarre ::=

termSigneRacine && AT(droiteRac) &&

IN(zoneSousLaRacine) DO(expression).

Figure 5. Exemple de limitation de la zone d’exploration

Le termSigneRacine décrit le symbole racine et l’opérateur IN DO permet de limiter la description récursive à la zone sous la racine. L’expression est placée relativement à termSigneRacine par l’opérateur de position droiteRac.

Opérateurs de segmentation contextuelle GEL et RECHERCHE. Nous avons montré dans (Coüasnon et al, 1995) (Coüasnon, 1996) qu’il existe une différence entre décrire un document et avoir un moyen de le reconnaître, et que cette différence provient des problèmes de segmentation. Ces deux opérateurs permettent de passer automatiquement de la description au moyen de reconnaître, en modifiant de manière transparente et en cours d’analyse, l’ordre d’analyse et la structure analysée. Ces modifications offrent en fait la possibilité de remettre en cause la segmentation en introduisant le contexte modélisé grâce au langage EPF.

2.3. Extracteurs d’éléments terminaux

Les structures linéaires tiennent une grande place dans les documents : cadres, tableaux, lignes de référence, éléments constitutifs de symboles… Mais elles sont rarement isolées et interfèrent souvent entre elles ou avec les autres éléments du document. Cependant la simplicité de leur structure permet d’envisager de conduire

segCoteGauche

(7)

simultanément la segmentation et l’identification et donc de les prendre comme éléments terminaux du langage.

Pour détecter les segments de droite, nous nous appuyons sur le filtrage de Kalman qui est une technique d’identification des paramètres d’un modèle à partir d’une suite ordonnée de mesures. Dans le cas des segments de droite, le modèle se réduit à l’épaisseur du trait, à sa pente et à l’équivalent de l’ordonnée à l’origine.

Les mesures proviennent de la position et de la taille des empans noirs² dans une direction approximativement orthogonale au tracé.

Parallèlement à l’estimation des paramètres du modèle, le filtre de Kalman calcule la matrice de covariance de cette estimation. Cette matrice permet d’évaluer d’une part la vraisemblance de l’affectation d’une mesure à un segment et d’autre part la vraisemblance de la poursuite d’une hypothèse perturbée par la présence d’un autre objet. On en trouvera une description plus détaillée dans (Poulain et al., 1996).

Les autres éléments terminaux se réduisent aux composantes connexes de pixels noirs qui ne peuvent pas être décrites par un ensemble de segments. Ces matrices seront, si besoin, présentées au classifieur associé.

Ainsi une racine carrée est reconnue comme composée de trois segments et non comme un caractère. Cette approche réduit le nombre de symboles et facilite la prise en compte de la variabilité des dimensions.

2.4. Analyseur associé

Le langage EPF décrit ci-dessus permet de définir grammaticalement le document à reconnaître. En compilant cette grammaire nous produisons automatiquement un analyseur qui possède des caractéristiques spécifiques à l’analyse de documents bidimensionnels. Nous pouvons souligner les trois principales caractéristiques de l’analyseur à deux dimensions que nous avons développé, par rapport à un analyseur classique (à une dimension) pour les langages formels :

– remise en cause de la structure analysée en cours d’analyse (pour effectuer des segmentations contextuelles) ;

– détection de l’élément suivant à analyser. En effet, pour les analyseurs classiques l’élément suivant est simplement celui qui est en tête de la chaîne analysée, alors qu’en deux dimensions l’élément suivant peut être n’importe où dans l’image, donc n’importe où dans la structure analysée. Ce sont les opérateurs de position qui permettent de spécifier où doit se trouver l’élément suivant à analyser ;

2. Empan : ensemble de pixels noirs consécutifs selon une des quatre directions, horizontale, verticale, diagonales.

(8)

– gestion correcte du bruit. Contrairement aux analyseurs classiques pour lesquels la chaîne analysée est peu bruitée, en reconnaissance de documents il est nécessaire que l’analyseur soit capable de reconnaître le maximum d’informations dans un flux très bruité. Nous pouvons considérer que la gestion du bruit correspond à trouver l’élément suivant, malgré le bruit. Ce bruit est constitué de toute information qui n’est pas spécifiée dans la grammaire. Le bruit peut donc être lié à une perturbation de l’image (taches…) ou bien à une notation non prévue dans la grammaire. Cette gestion correcte du bruit est primordiale car une description grammaticale ne peut être exhaustive. Ainsi, grâce à cette gestion, l’analyseur sélectionnera les terminaux qui correspondent à la description grammaticale dans un ensemble de données beaucoup plus important.

2.5. Conclusion

Nous sommes arrivés, grâce à la définition et à la mise en œuvre du formalisme EPF et de son analyseur associé, à concevoir un système générique de reconnaissance de documents structurés.

La création d’un nouveau système de reconnaissance adapté à un nouveau type de documents s’obtient par simple compilation de la description du document réalisée avec le langage EPF. Eventuellement un nouvel apprentissage automatique du classifieur servant à reconnaître les symboles (terminaux représentés par des matrices de pixels), peut être nécessaire si le document comporte de nouveaux symboles.

3. Validation de la généricité de la méthode

Afin de valider l’aspect générique de la méthode DMOS, nous avons déjà défini deux grammaires EPF pour produire automatiquement, par compilation, deux systèmes de reconnaissance, l’un pour les partitions musicales (Coüasnon et al., 1995) et l’autre pour les formules mathématiques (Garcia et al., 2001).

Certains logiciels disponibles dans le commerce peuvent traiter des tableaux ; cependant, ils ne traduisent que la présentation graphique de ces tableaux et ne détectent pas leur organisation hiérarchique. Or cette dernière est primordiale pour pouvoir structurer le document, accéder aux données qu’il contient et les interpréter.

C’est dans ce contexte que nous avons défini la description grammaticale en EPF (figure 6) d’un tableau-formulaire constitué d’un nombre quelconque de colonnes et de lignes délimitées par des filets (segments) formant ainsi des cases de dimensions variables.

Cette description commence par la définition de la plus grande structure tabulaire détectable dans un tableau, soit le rectangle englobant. Celui-ci est ensuite automatiquement subdivisé en lignes et en colonnes. Ensuite, et de manière

(9)

récursive, l’intérieur de chaque case constitue une nouvelle zone de recherche d’un tableau.

structTabulaire ::= premiereLigneTable &&

milieuTable &&

derniereLigneTable.

…

interieurCellule ::= IN(interieurCellule) DO(structTabulaire).

Figure 6. Extrait de la grammaire décrivant une structure tabulaire

C’est cette description récursive qui permet au système produit de reconnaître l’organisation hiérarchique d’un tableau-formulaire quel que soit son emplacement dans un document.

Figure 7. Image initiale et cases détectées en fonction des niveaux d’analyse

Cette grammaire, qui n’utilise actuellement que les segments comme éléments terminaux, pourrait être étendue par la reconnaissance des textes inclus dans chaque case. Ceci permettrait, par exemple, de retrouver l’intitulé des colonnes.

Nous envisageons également de travailler sur la détection des structures tabulaires qui ne sont pas délimitées par des filets, mais simplement par des zones blanches.

4. Validation sur des fiches d’incorporation militaire

La reconnaissance de tableaux de structure quelconque décrite ci-dessus suppose que les documents analysés soient d’assez bonne qualité ; la détection des segments

(10)

ne doit pas être trop perturbée. A l’opposé il existe des documents dont la structure est mieux connue (nombre de lignes ou de colonnes par exemple) mais dont la qualité est fortement dégradée. Il est alors possible de construire une grammaire moins générale que la grammaire précédente, mais qui, en tirant mieux parti des connaissances a priori sur le document, sache compenser la mauvaise qualité de l’image.

4.1. Description du document

Pour valider cette approche nous avons traité des registres d’incorporation militaire du XIX^e siècle. Ces documents sont constitués à partir de formulaires préimprimés. La structure de base de chaque fiche est stable sur une quarantaine d’années, par contre la taille des cases varie d’une année sur l’autre (déplacement de 1 à 2 cm).

Figure 8. Fiche normale, fiches avec des retombes, structure à détecter

Ces documents présentent un certain nombre de défauts : – la numérisation introduit de petites rotations (cf. figure 11) ;

– le papier présente une certaine transparence, le verso est donc partiellement visible ;

– les fiches ont été endommagées, déchirées, recollées, tachées ; – des tampons viennent perturber l’aspect visuel de la page ;

– les fichiers traités avaient été comprimés en JPEG. Si cette compression affecte peu la reconnaissance des segments, et donc celle de la structure, par contre elle gène la reconnaissance automatique des caractères ;

– et surtout, en raison de la guerre de 1914, certaines cases se sont avérées trop petites à l’usage. Les secrétaires ont donc collé de petites feuilles annexes (paperolles ou retombes) qui masquent largement la structure du document (cf.

figure 8).

(11)

De nombreuses méthodes ont été développées pour reconnaître des structures tabulaires (Lopresti et al., 2000). Quelques méthodes (par exemple (Taylor et al., 1992) ou (Wanatabe et al., 1993)) utilisent une détection bas-niveau de points spécifiques comme les croisements, les coins… Cependant, ces techniques ne peuvent gérer correctement les filets partiellement effacés. (XingYuan et al., 1999) ont proposé un système plus robuste mais qui ne peut, en revanche, fonctionner lorsque certaines parties de la structure sont masquées. En outre, nous n’avons pu trouver de résultats dans la littérature évoquant des formulaires anciens, altérés ou partiellement masqués.

4.2. Evaluation

Nous avons eu à notre disposition un échantillonnage représentatif constitué par dix registres répartis entre 1878 et 1900, soit un total de 5 268 images. Parmi ces registres, trois présentent une grande proportion de fiches comportant des retombes et des collages ; c’est-à-dire que 30 à 60 % des images comportent des défauts.

Nous avons commencé par construire la description des fiches au moyen d’une grammaire EPF en inspectant quelques fiches issues de quatre registres, et nous avons produit l’analyseur associé. Puis nous avons utilisé cette unique description pour traiter les dix registres. L’analyseur fournit en sortie une description XML de la structure avec la localisation précise des cases. Il peut également signaler qu’il a été incapable de reconnaître la structure dans la page à analyser en expliquant la raison de l’échec.

Le traitement des documents s’effectue en deux phases : le rejet automatique des images dans lesquelles la structure n’est pas présente (images non traitables), puis la vérification de la cohérence des dimensions entre les images d’un même registre.

Figure 9. Deux documents reconnus, un rejet de la table des matières, un document trop masqué

(12)

Sur les 5 268 images, 269 ont été considérées comme non traitables (environ 5 %). Il s’agit effectivement de pages totalement différentes comme les tables des matières, de pages mal numérisées ou trop abîmées. Nous pouvons mentionner qu’à ce niveau du traitement, le système n’a produit aucun faux rejet. En effet, aucune des 269 images n’aurait pu être traitée manuellement.

Sur les 4 999 images traitables, le système a effectivement localisé la structure complète (12 cases) dans 97,2 % des cas. Nous considérons que la structure est correcte si les filets des cases demandées sont localisés au millimètre près. Pour la partie haute du document (8 cases) qui est moins perturbée par la présence des retombes et qui est la plus importante pour faire une indexation, le taux de reconnaissance passe à 98,7 %. Il est important de noter que dans tous les cas, même avec un taux de reconnaissance si élevé, le système n’a pas produit de fausse reconnaissance. Ceci est primordial dans un contexte industriel dans lequel il devient impossible d’effectuer une détection manuelle des erreurs restantes dans les images reconnues puisque des centaines de milliers de pages peuvent être traitées.

Le traitement d’une page en niveau de gris à 200 dpi (2 000x3 000) nécessite environ 50s (35s de traitement d’image et 15s d’analyse) sur un Sun Ultra 60.

Le tableau ci-dessous permet d’avoir une vision globale des performances.

à 12 cases à 8 cases

Description

Nombre Pourcentage Nombre Pourcentage

Images reconnues 4 861 97,2% 4 935 98,7%

Images rejetées 138 2,8% 64 1,3%

Images reconnues à tort 0 0,0% 0 0,0%

Nous traitons actuellement l’ensemble des registres des Archives de la Mayenne soit environ 80 000 images.

4.3. Exploitation de la structure reconnue

En cas de reconnaissance, la méthode DMOS fournit une description XML du document analysé (figure 10). Grâce à cette représentation en XML, les informations extraites du document sont facilement utilisables par d’autres applications de gestion de documents électroniques.

En particulier comme cette description comporte d’une part la structure du document et d’autre part la localisation précise dans l’image des différents éléments (figure 10 et figure 11) cela permet d’envisager dans les applications le masquage de certaines zones ou la sélection d’une partie des images.

(13)

Figure 10. Représentation XML du document (à droite) et masquage de certaines cases (à gauche)

Ainsi, par exemple, les fiches d’incorporation comportent des renseignements médicaux qui doivent rester confidentiels pendant 150 ans. Telle quelle, une partie du fond numérisé ne peut donc pas être mis à la disposition du public, par contre en utilisant la localisation précise des champs confidentiels, il devient possible de les masquer et ainsi de reconstruire des images consultables par tous (figure 10).

Figure 11. Localisation précise des champs, les cases supérieures s’étendent volontairement jusqu’en haut de l’image

(14)

En l’absence d’une indexation pertinente associée à chaque image, le lecteur se voit contraint de feuilleter l’ensemble du fonds. Un tel travail exige un réseau doté d’une grande bande passante, mais même dans un contexte favorable, le temps de transfert et d’affichage de chaque image est relativement pénalisant. La localisation précise des champs par la méthode DMOS permet de construire des images d’index visuels (figure 12) dont la consultation est beaucoup plus aisée, quitte à demander l’affichage d’une partie ou de l’intégralité du document lorsque l’index paraît convenir.

Figure 12. Constitution d’images d’index

La grammaire actuelle ne décrit pas précisément la structure de chaque case.

Une telle extension ne pose pas de problèmes particuliers. Elle permettrait, en particulier, de préciser les positions dans lesquelles une reconnaissance de l’écriture manuscrite est réaliste, soit parce qu’un champ, comme le nom, est bien écrit, soit parce qu’il n’utilise qu’un vocabulaire limité (taille, couleurs des yeux…) comme dans la partie droite de la figure 11. Cette amélioration, sur laquelle nous travaillons, fournirait d’une part des éléments d’indexation des images et d’autre part pourrait ouvrir la voie à des analyses statistiques de ces fiches.

5. Conclusion

A travers la variété des documents traités, nous avons démontré le caractère générique de la méthode DMOS. De plus cette méthode a été validée sur un grand nombre d’images de documents d’un même type. Celle-ci peut donc constituer un outil très précieux pour la rétroconversion d’ensembles de documents hétérogènes constitutifs d’un dossier. La capacité de décrire en XML les documents analysés constitue un atout pour son intégration dans une chaîne de gestion électronique de documents.

De plus la description plus ou moins fine des documents dans le formalisme EPF permet une approche incrémentale : analyse de la structure générale, traitement spécifique de certains champs, possibilité d’indexation.

(15)

Nous travaillons actuellement sur l’adaptation de cette méthode à des documents moins fortement structurés que ceux présentés ici, mais pour lesquels un prédécoupage automatique serait déjà d’une grande utilité.

Remerciements

Les auteurs tiennent à remercier le ministère de la Culture et de la Communication, les Archives départementales de la Mayenne, ainsi que les régions de Bretagne et des Pays de la Loire, pour leur avoir permis de valider la méthode DMOS sur les fiches d’incorporation militaire.

6. Bibliographie

André J., Chabin M.A., « Numériser les documents anciens : et après ? », Les documents anciens, numéro spécial de Document Numérique, vol. 3, n° 1-2, 1999, p. 7-11.

AnquetilE., Coüasnon B., Dambreville F., « A symbol classifier able to reject wrong shapes for document recognition systems », Atul K. Chhabra and Dov Dori editors, Graphics Recognition, Recent Advance, vol. 1941, Lecture Notes in Computer Science, Springer, 2000, p. 209-218.

Brainerd W.S., « Tree generating regular systems », », Information and Control, 1969, 14 : 217-231

Coüasnon B., Camillerapp J., « A way to separate knowledge from program in structured document analysis : application to optical music recognition », ICDAR International Conference on Document Analysis and Recognition, vol. 2 p. 1092-1097, Montréal, Canada, août 1995.

Coüasnon B., Retif B., « Using a grammar for a reliable full score recognition system », International Computer Music Conference, p. 187-194, Banff, Canada, septembre 1995.

Coüasnon B., « Formalisation grammaticale de la connaissance a priori pour l’analyse de documents : application aux partitions d’orchestre », 10^e congrès reconnaissance des formes et intelligence artificielle, RFIA, Rennes, France, 1996.

Feder J., « Plex languages », Information and Science, 3 : 225-241, 1971.

GarciaP., Coüasnon B., « Using a generic document recognition method for mathematical formulae recognition », Actes du congrès GREC, IAPR, International Workshop on Graphics Recognition, Kingston, Canada, septembre 2001.

Grbavec A., Blostein, D., « Mathematics recognition using graph rewriting », ICDAR International Conference on Document Analysis and Recognition, vol. 1 p. 417-421, Montréal, Canada, août 1995.

Hori O., Doermann D.S., « Robust table-form structure analysis based on box-driven reasonning », ICDAR International Conference on Document Analysis and Recognition, vol. 1 p. 218-221, Montréal, Canada, août 1995.

(16)

Lopresti D., Nagy G., « A tabular survey of automated table processing », Atul K. Chhabra and Dov Dori editors, Graphics Recognition, Recent Advance, vol. 1941, Lecture Notes in Computer Science, Springer, 2000, p. 93-120.

LorieR., « Information digitale : archivage à long terme », Actes du congrès international francophone sur l’écrit et le document CIFED’2000, Lyon, 2000, p. 1-9.

Pereira F.C.N., Warren D.H.D., « Definite clauses for language analysis », Artificial Intelligence, 13 : 231-278, 1980.

Pfaltz J.L., Rosenfeld A., « Web grammars », proceedings of the First International Joint Conference on Artificial Intelligence, Washington, D.C., mai 1969, p. 609-619.

Poulain d’Andecy V., Camillerapp J., Leplumey I., « Analyse de partitions musicales », Traitement du signal 12(6), 1996, p. 653-661.

Taylor S.L., Fritzson R., Pastor J.A., « Extraction of data from preprinted forms », Machine Vision and Applications, 5(3) :211-222, 1992

Searls D.B., Taylor S.L., « Document image analysis using logic grammar based syntactic pattern recognition », K. Yamamoto, H.S. Baird, H. Bunke, editors, Strutured Document Image Analysis, Springer-Verlag 1992, p. 520-545.

Watanabe T., Luo Q., Sugie N., « Toward a practical document understanding of table-form documents : its framework and knowledge representation », ICDAR International Conference on Document Analysis and Recognition, p. 510-515, Tsukuba Science City, Japan, octobre 1993.

Xingyuan L., Doerman D., Oh W., Gao W., T« A robust method for unknown forms analysis », ICDAR International Conference on Document Analysis and Recognition, p. 531-534, Bangalore, India, septembre 1999.