Sélectionner le traitement selon le document

2.3 Connaissance sous forme déclarative

3.1.2 Sélectionner le traitement selon le document

Dans le cas du traitement de documents, la variabilité des données à analyser impose d’être capable de déterminer le type de chaque image pour choisir automatiquement la suite des traitements à lui appliquer.

3.1.2.1 Classifier puis reconnaître

Pour déterminer quelles opérations d’extraction et de validation il convient de réaliser sur une image ou un ensemble d’images, les systèmes de gestion automatique de documents administratifs donnent des exemples d’architectures et de comportements adaptés à des environnements de production.

Le système smartFIX [33,52,53] est particulièrement intéressant car, après un dévelop- pement académique, il a bénéficié d’une industrialisation poussée qui a fait de cet outil une référence, en particulier grâce à sa capacité à analyser des formulaires de soins médicaux pour l’automatisation des procédures de remboursement. Son architecture permet de disso- cier plusieurs processus essentiels au fonctionnement du système, associés à des expertises différentes. On peut distinguer :

Le gestionnaire de documents Ce composant permet la définition de scripts d’identifica- tion de documents, puis d’extraction et de validation des informations utiles : contraintes numériques, interrogation d’une base de donnée, etc. Cet outil est utilisé par des experts pour concevoir des traitements spécifiques.

L’analyseur Ce processus exploite les définitions de documents pour analyser chaque nouvelle image. Il commence par détecter le type de document concerné, puis lance le script d’extraction associé. Enfin, il effectue des contrôles de cohérence interne au document et des optimisations statistiques pour maximiser localement la vraisemblance de l’interprétation grâce à un ensemble de contraintes entre les contenus.

Le serveur d’association Ce composant permet de valider certaines règles spécifiques au problème considéré, comme par exemple, dans le cas des formulaires de soins, que le numéro d’assuré détecté correspond bien au nom reconnu.

Le vérifieur Ce processus permet de faire valider ou corriger par des opérateurs humains les éléments peu fiables ou incohérents.

Les bases de données Ces composants permettent de stocker les différentes informations utiles au cours du cycle d’analyse de chaque document. Elles fonctionnement globa- lement en cascade : la base contenant les éléments à traiter est alimentée en continu, et les processus de traitement consomment ces éléments pour alimenter la base d’élé- ments à contrôler. Le contrôle (automatique ou manuel) permet de déplacer les élé- ments validés vers la base d’export permettant la connexion avec d’autres outils, comme le système de paiement dans le cas des formulaires de soins.

Le contrôleur Finalement, ce composant est chargé de la coordination des processus du système, et permet le pilotage de ce dernier.

On peut noter qu’en tant que système commercial, smartFIX bénéficie d’une attention particulière à la qualité des données produites. Les mécanismes de rejet des éléments incon- nus sont alors particulièrement importants pour éviter l’interprétation erronée de nouveaux types de documents, et les opérations de classification des types de documents doivent donc être définies avec soin. La validation de contraintes métier, le recours à des opérateurs humains et l’architecture du système en font une approche robuste, qui permet, par ailleurs, d’estimer automatiquement la qualité des données produites [110].

Cependant, comme le fait remarquer Belaïd [12], ces systèmes sont dédiés à l’analyse en flux avec l’arrivée continue de nouveaux documents. La nécessité de minimiser le temps de traitement de chaque document impose alors un fonctionnement très linéaire à ce type d’approche. L’objectif de ces systèmes est donc différent de celui visé lors de l’interpréta- tion de documents anciens organisés en lots bien identifiés, et qui n’imposent pas de telles contraintes temporelles aux traitements. Bien que l’architecture des systèmes d’analyse de documents administratifs soit intéressante, la temporalité et la linéarité de leurs traitements limitent les croisements d’informations possibles entre pages.

Dans un contexte aux contraintes proches, la numérisation massive de livres à des fins d’indexation (pour des moteurs de recherche sur le Web, en particulier) obéit à ce même impératif de minimiser le temps de traitement d’un ouvrage. Coyle [28] oppose alors cette « mass digitization » aux initiatives visant à produire des contenus pour les bibliothèques numériques nécessitant une structuration et une fiabilité de l’information bien plus élevée que celle requise par les moteurs de recherche.

L’interprétation de documents anciens nécessite donc de considérer des fonds documen- taires cohérents, et de définir une nouvelle temporalité dans les traitements afin de s’affran- chir de la linéarité qui semble empêcher l’exploitation du contexte documentaire : il faut permettre la mise en place d’un échange entre le niveau de la page et un niveau global. Ceci étant, les systèmes industriels présentent des caractéristiques tout à fait intéressantes face aux contraintes liées au volume de données.

3.1.2.2 S’adapter à la structure documentaire

Dans une optique radicalement différente, le système ArCAnOID proposé par Lladós et al. [64] vise clairement la production de contenus pour des bibliothèques numériques, en vue de permettre leur utilisation et leur enrichissement collectif par des experts, à l’instar de la plate-forme proposée par Coüasnon et al. [27].

L’organisation du système ArCAnOID est entièrement tournée vers un traitement des documents en trois étapes visant à produire des informations extrêmement structurées et très abstraites. Le processus global de traitement des images est le suivant :

du flot d’exécution (qui peut s’appuyer sur la structure du fonds documentaire pour déterminer les opérations à réaliser sur chaque image) et des outils d’analyse d’image. L’objectif est de localiser et de reconnaître des fragments d’images qui constitueront les éléments de base de la représentation globale du fonds documentaire. Dans un des exemples proposés par les auteurs, un cas d’archives de contrôles aux frontières, il s’agira de détecter les zones de texte et d’identifier les noms propres, ou les dates. 2. Ensuite, les éléments détectés sont systématiquement soumis au système de correc-

tion et de validationqui permet à des humains (non experts) de fiabiliser et compléter l’information produite. Il s’agit alors d’éliminer les pages inutiles, de corriger les ré- sultats de l’OCR, etc. L’objectif est de produire des termes fiables qui seront utilisés dans la dernière étape.

3. La dernière étape, dite de « capture de connaissance » , consiste à permettre à des experts de former des concepts abstraits (famille, zone géographique, etc.) en reliant les termes grâce à des relations (« est fils de », etc.). Cette étape est complètement manuelle.

Le module de stockage des connaissances, composé de trois bases aux objectifs com- plémentaires, permet d’identifier les types d’informations utiles :

La base des contenus extraits des images Elle stocke les termes extraits des images. La base d’organisation de la collection Elle stocke les informations relatives à la struc-

ture du fonds documentaire.

La base des informations sémantiques Elle stocke les concepts abstraits décrits par les experts.

Cette approche tire profit de l’organisation des documents en permettant l’analyse par lot de ces derniers, grâce à une connaissance préalable de l’organisation documentaire (ce qui n’exclut pas la nécessité de faire face aux imprévus). Elle autorise alors des regrou- pements de mots similaires, et autres techniques de croisement de l’information, selon les algorithmes utilisés par le concepteur du système de correction et de validation.

Finalement, même si cette approche ne semble pas utiliser la connaissance produite pour améliorer les traitements réalisés, principalement à cause de son fonctionnement très linéaire, on peut remarquer deux aspects originaux.

1. Le système propose d’intégrer toutes les étapes du cycle de vie d’un document sous forme numérique, depuis sa numérisation jusqu’à son exploitation par des experts. Ceci permet la mise en place d’un format de données unique, flexible, et évite les recopies entre différents systèmes.

2. Cette approche vise à permettre l’enrichissement progressif de la connaissance rela- tive au fonds documentaire considéré. Ce mécanisme semble propice à l’exploitation des informations produites, ainsi qu’à l’ajout de nouvelles sources de connaissances. Ici encore, il semble nécessaire de relâcher la contrainte de linéarité pour permettre une meilleure utilisation de l’information contenue dans le fonds documentaire.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 62-64)