Exemple extrait d’une page où l’on souhaite localiser la colonne encadrée en

les éléments de la deuxième colonne (en partant de la gauche) contenant des dates. En sup- posant qu’essayer de lire des numéros de vente dans la deuxième colonne produise de très mauvais résultats, il est possible de s’appuyer sur le scénario, dont la description succincte suit, pour corriger au plus tôt ce problème de localisation.

1. Pour chaque page du lot à traiter, le module de stratégie globale invoque le module d’interprétation de page qui tente de localiser la colonne des numéros de ventes et de reconnaître les éléments contenus. Si les éléments sont globalement peu fiables, le mécanisme de détection défini par le concepteur du module d’interprétation de page génère une question destiner à notifier de module de stratégie globale d’un manque de connaissance à propos de la position de la colonne considérée dans l’image courante. 2. Le module de stratégie globale collecte les questions sur l’ensemble des pages du lot, et les soumet à une interface homme–machine adaptée permettant à un ou plusieurs opérateurs humains de valider ou corriger la position de la colonne contenant les numéros de ventes dans les images problématiques.

3. Le module de stratégie globale collecte les réponses aux questions, et invoque à nouveau le module d’interprétation de page avec ces nouvelles informations afin de permettre la production de nouveaux résultats basés sur une localisation fiable de la colonne.

Dans ce scénario, quelques actions d’un opérateur humain permettent une remise en cause en profondeur des résultats produits par le module d’interprétation de page. L’information apportée au module d’interprétation de page par son environnement permet de compléter efficacement sa connaissance en corrigeant la cause du problème constaté, et non ses multiples conséquences (position et valeur de chaque numéro de vente). Finalement, on peut noter que ce scénario peut être fusionné avec le précédent pour proposer une approche

plus réaliste de l’interprétation de ces tableaux de ventes, réclamant une confirmation pour les éléments les plus structurants, et permettant un ajustement des éléments terminaux ensuite.

Cette section a montré que la mise en place d’un interprétation contextuelle et assis- tée d’un fonds documentaire pouvait se baser sur le même mécanisme itératif, et que les modes d’interaction était compatibles. Ceci permet l’intégration homogène d’informations externes à la page lors de l’interprétation de cette dernière, que cette information soit extraite d’autres pages ou fournie par un opérateur humain. Par ailleurs, nous avons également vu que la séparation des connaissances exprimées par le concepteur au niveau du module d’interprétation de page et du module de stratégie globale permet d’appréhender plus simplement la mise en place de chacun de ces modules.

5.3 Conclusion

Ce chapitre vient de présenter une vue d’ensemble du système d’interprétation de fonds documentaires que nous proposons. Le mécanisme d’interprétation itératif global, qui permet l’intégration homogène d’informations contextuelles lors du traitement d’une page, est basé sur :

1. une architecture à deux niveaux d’abstraction, où le niveau global, représenté par le module de stratégie globale, permet la mise en place de circulations d’information complexes, et où la base de données centrale permet l’enrichissement progressive de la connaissance extraite du fonds, tout en autorisant des échanges asynchrones entre les modules ;

2. la capacité du module d’interprétation de page à accepter et exploiter des informations produites par son environnement, ce qui est géré par la mémoire visuelle et la description de la page, et à réclamer, lorsque c’est possible, la connaissance qui lui manque (nous reviendrons en détail sur ces points dans leprochain chapitre). Ceci n’a d’intérêt que parce que la conception d’un système spécifique reste simple, en particulier grâce à la séparation claire entre :

– le niveau de la page, chargé d’extraire l’information contenue dans l’image en tirant profit de connaissances externes, sans se préoccuper de comment ces informations sont générées ni d’où elles proviennent ;

– le niveau global, chargé de gérer la circulation de l’information et l’exploitation de propriétés globales, sans se préoccuper de comment l’information est effectivement extraite.

L’exploitation simultanée des propriétés du fonds documentaire et des informations ap- portées par les opérateurs humains a deux avantages majeurs. D’une part, elle autorise une certaine efficacité dans la sollicitation des opérateurs humains, car il est possible de trier les questions, les filtrer ou les regrouper, selon la vision globale de la connaissance du fonds (dans la base de données centrale) à un instant donné. D’autre part, il est possible de mettre en place simplement (car il suffit de combiner des modules élémentaires) des scénarios complexes. On peut, par exemple, penser à :

– la validation ou la correction d’éléments incertains (ex : nombres peu fiables détectés dans plusieurs pages et transmis à un opérateur humain) ;

– le guidage de l’interprétation (ex : correction de la position d’une colonne dans un tableau, qui remet en cause toute l’extraction d’information liée) ;

– l’optimisation de résultats locaux (hypothèses de reconnaissance) grâce à l’exploitation de contraintes sémantiques (ex : séquences de numéros de ventes qui respectent un incrément d’une unité entre chaque occurrence) ;

– l’accélération de saisies manuelles grâce au regroupement d’éléments visuellement similaires (ex : en faisant des clusters de mots qui se ressemblent sur plusieurs pages voisines, et en présentant ces clusters à des opérateurs humains) ;

– l’enrichissement automatique d’un lexique lorsque des nouveaux mots sont reconnus et validés (ce qui permet un augmentation rapide des taux de reconnaissance) ; – l’ajustement progressif de paramètres des modèles de pages (taille des colonnes dans

un tableau, par exemple) en exploitant la structure des pages bien reconnues pour guider l’interprétation de celles plus difficiles ;

– l’apprentissage de modèles structurés de page à partir d’exemples de décompositions de pages construits semi-automatiquement. . .

Ces deux derniers éléments dépassent le cadre de nos travaux, mais font partie des objectifs vers lesquels notre approche tend.

Un autre élément intéressant de cette architecture est sa capacité à gérer automatiquement, au niveau du module de stratégie globale, la quantité de travail demandée aux opé- rateurs humains, et donc le rapport entre la qualité des données produites, et leur coût, à condition de disposer d’un dispositif d’évaluation adapté.

On peut également remarquer que, dans le cas de fonds documentaires contenant peu d’éléments, notre approche semble également adaptée car elle permet de répartir simplement l’effort humain entre la phase de conception et la phase d’exécution, selon que le concepteur prenne le temps d’anticiper des cas particuliers, ou qu’il favorise une majorité de traitements manuels.

Pour compléter la présentation de nos propositions, nous allons détailler dans leprochain chapitrecomment étendre un module d’interprétation de page existant pour systéma- tiser : (i) la fusion de données externes avec les données extraites de l’image (mécanisme de mémoire visuelle) ; (ii) la gestion de l’échange d’informations avec l’environnement du module, grâce à un extension ciblée du langage de description d’une page qui permet d’ex- primer de nouvelles propriétés utiles.

Conception d’un module

d’interprétation de page interactif

Introduction

Dans ce chapitre, nous focalisons notre présentation sur les transformations à apporter à un module d’interprétation de page pour lui permettre de tirer profit d’information contextuelle produite par son environnement, c’est à dire extraite du fonds documentaire ou fournies par un opérateur humain. Nous montrons qu’il est possible de systématiser l’échange d’information entre le niveau de la page et le niveau global en enrichissant la description du contenu de l’image à analyser. Autrement dit, grâce à l’expression déclarative de nouvelles propriétés à propos de la page, nous proposons de mettre en place automatiquement une interaction entre le module d’interprétation de page et le module de stratégie globale (présentés dans lechapitre précédent) qui permet une détection et une correction d’erreur asynchrone au cours des itérations du processus global d’interprétation du fonds documentaire.

Avant de débuter ce chapitre, nous attirons l’attention du lecteur sur trois points impor- tants.

1. Nous rappelons que nous nous intéressons à décrire les modifications à apporter à un système existant, et non à proposer un nouveau système complet. Nous ferons des propositions d’extensions sur la base d’un module d’interprétation de page élémen- taire, respectant un travail image par image que nous ne souhaitons pas perturber ni dans la conception, ni dans le fonctionnement.

2. Ce chapitre contient un certain nombre d’éléments formels, dont on peut questionner l’intérêt à première vue, car nos propositions ont été validées par la réalisation d’un système concret, et son évaluation avec des scénarios spécifiques. Notre motivation est double ici : tout d’abord nous avons souhaité fournir, en plus des explications tex- tuelles qui suffisent à la compréhension de nos propositions, une description précise et non ambiguë de nos travaux ; et, par ailleurs, nous avons souhaité faciliter la réutili- sation de nos travaux en les exprimant d’une manière indépendante d’un quelconque système.

3. Finalement, afin de nous concentrer sur l’illustration des points essentiels, les exemples de ce chapitre ne tirent pas pleinement profit de l’asynchronisme possible dans les échanges entre les parties du système, et s’intéressent à l’évolution de la mémoire visuelle lors des itérations successives pour une page. Il faudra toutefois garder à l’es-

prit que ce qui est ici présenté pour une page s’applique simultanément à un grand nombre d’entre elles lors de l’exploitation du système.

Ces précautions étant prises, voyons à présent à la structure de ce chapitre.

– Lapremière sections’intéresse à la mise en place d’un canal de communication entre le module d’interprétation de page et son environnement, ainsi qu’à la fusion de l’information contextuelle avec celle extraite de l’image grâce à la structure de mémoire visuelle. Cette section formule des propositions à un niveau algorithmique.

– Ladeuxième sectionest un détour obligé par la formalisation d’un module d’inter- prétation de page basique qui constitue une base théorique pour la génération automatique d’un programme d’interprétation à partir de la description d’une page, et l’intégration de la gestion de la mémoire visuelle.

– Latroisième sectionpousse, quant à elle, la présentation un cran plus loin, en décri- vant comment intégrer de nouveaux opérateurs qui viennent enrichir notre vocabu- laire pour décrire le contenu de la page. La compilation de ces nouveaux opérateurs permet une gestion automatique, en cours d’interprétation, des erreurs grâce à la sollicitation ou à l’exploitation d’informations contextuelles provenant de l’environnement du module, au travers d’une communication asynchrone.

6.1 Communiquer avec l’environnement pour activer

l’interaction

Dans cette section, nous présentons comment rendre un module d’interprétation de page capable :

– d’échanger des informations de façon asynchrone avec son environnement ;

– d’utiliser ces dernières au cours de son travail d’interprétation d’une image, pour éventuellement modifier son comportement automatique.

Nous présentons d’abord le modèle interactif sur lequel nous nous sommes basés, puis nous montrons comment la structure de mémoire visuelle permet d’être le pivot dans la réintégration d’informations contextuelles externes lors de l’interprétation d’une image. 6.1.1 Modèle théorique de l’interaction

La base du mécanisme itératif d’interprétation mis en place au niveau du module d’in- terprétation de page est largement inspiré du modèle de machine de Turing persistante for- malisé par Goldin et Wegner [124,41,125]. Ces machines permettent, selon ces auteurs, d’étendre le modèle de machine de Turing pour rendre possible la représentation de sys- tèmes interactifs. Nous présentons ici rapidement ce modèle, et l’application que nous en faisons.

6.1.1.1 Machines de Turing persistantes

Goldin et Wegner proposent la définition suivante des machines de Turing. Les machines de Turing sont un dispositif fini de calcul qui transforme une chaîne d’entrée en une chaîne de sortie par une séquence de transitions entre des états.

Les auteurs indiquent que le modèle communément utilisé est celui d’une machine pos- sédant un ruban en lecture seule, dit le ruban d’entrée, un ruban en écriture seule, dit le

ruban de sortieet un ou plusieurs rubans de travail. La propriété de ce type de dispositif est de ne considérer son environnement que lors de l’initialisation, c’est à dire en lisant l’entrée, et ensuite la machine qui démarre toujours dans le même état produit un résultat indépendamment de son environnement.

Afin de pouvoir tirer profit d’informations contenues dans l’environnement de la machine, et réagir à cette dernière, les auteurs indiquent qu’il est nécessaire de rendre le dispositif interactif, et donnent la définition suivante.

Un dispositif de calcul interactif autorise des actions d’entrée et de sortie pen- dant le processus de calcul.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 103-108)