DMOS-PI : une interprétation plus robuste

7.2 DMOS-PI : une extension de l’approche DMOS-P

7.2.2 DMOS-PI : une interprétation plus robuste

Nos propositions ont fait l’objet d’une extension de DMOS-P, que nous avons nommée DMOS-PI pour indiquer la capacité des modules générés à s’intégrer dans un mécanisme global itératif.

7.2.2.1 Extensions réalisées

L’intégration de nos propositions visant à étendre le langage de description des pages a abouti à la réalisation de deux nouvelles librairies à partir desquelles de nouveaux pro- grammes peuvent être construits.

– La première regroupe les opérations relatives à la gestion de la mémoire visuelle, et permet la construction de nouveaux outils à partir de cette structure. Elle définit les opérateurs lire_mem, consommer_mem, ajouter_mem et supprimer_mem présentés ensous-section 6.1.2.3.

– La seconde permet la gestion des mécanismes d’interaction asynchrone basés sur la mémoire visuelle. Elle contient la définition et la mise en œuvre des opérateurs get_answer_or_try, catch_question, raise_question et spontaneous présentés ensection 6.3.

Cette extension a apporté deux améliorations notables dans la méthode DMOS-P : elle a permis l’exploitation de nouvelles connaissances lors de l’interprétation ; et elle a renforcé le panel de méthodes visant à gérer l’incertain.

7.2.2.2 Connaissances complémentaires

La méthode DMOS-P permettait, initialement, l’exploitation de deux types de connaissances pour interpréter des images de documents [25] :

1. les connaissances à priori, exprimées à l’aide du langage EPF par le concepteur du système, et qui constituent une description des contenus à extraire ;

2. les connaissances extraites de l’image, grâce aux extracteurs de primitives et au mé- canisme de multi-résolution.

L’extension que nous avons proposée permet, au prix d’une perturbation minime des des- criptions, de tirer profit, lors de l’interprétation d’une image, de connaissances contextuelles qui ne sont pas contenues dans la page. Ces connaissances peuvent alors provenir du fonds documentaire, ou être fournies par un opérateur humain.

7.2.2.3 Gestion des incertitudes

Au niveau de la gestion des incertitudes, plusieurs outils existaient déjà dans la méthode de base pour gérer les problèmes suivants.

Le bruit La présence d’éléments parasites dans l’image, comme par exemple des petits segments ou composantes connexes à cause des dégradations du papier, peut gé- néralement être filtrée grâce aux préconditions passées aux opérateurs TERM_SEG et TERM_CMPprésentés précédemment (sous-section 7.2.1.2).

L’ambiguïté La multiplicité des éléments susceptibles de composer une forme à un mo- ment donné provoque parfois une ambiguïté qui ne peut généralement être levée qu’après la détection d’autres éléments structurants. Par exemple, dans le cas de la description précédente d’un rectangle, si plusieurs segments, à l’endroit considéré, peuvent former un bord gauche, mais que certains sont trop petits, alors il faut être capable de remettre en cause le choix de chaque élément tant que la forme n’est pas détectée complètement. L’opérateur FIND ... UNTIL permet de gérer ces cas. Grâce à l’intégration des opérateurs get_answer_or_try et catch_question, notre extension permet à présent de gérer les erreurs d’incohérence, de rejet ou d’absence d’éléments

indispensables en définissant un point de reprise de l’analyse qui permette tout de même de progresser, au lieu d’être obligé, comme avant, de se contenter d’accepter les résultats locaux les moins improbables. Cette nouvelle gestion reproduit dans une certaine mesure le concept de « mode panique » des compilateurs classiques [3] pour lequel il faut définir, pour chaque type de problème géré :

– les transformations à apporter dans la pile d’analyse pour retrouver un état stable : dans notre cas, il s’agit de déterminer le non-terminal (la règle de description) à partir duquel reprendre l’interprétation ;

– l’élément suivant à trouver dans le flot d’entrée : dans notre cas, l’opérateur de posi- tion associée au prochain élément permet normalement de repositionner correctement la zone de recherche.

7.3 Conclusion

Malgré la complexité de l’approche DMOS-P sur laquelle nous avons basé la réalisation d’un prototype, nos propositions ont pu être intégrées facilement et ont donné naissance à une extension de l’approche qui lui permet de tirer profit d’une nouvelle forme de connaissance contextuelle, tout en améliorant sa gestion des problèmes présents dans les documents dégradés ou anciens. Ceci confirme la possibilité d’utiliser nos propositions pour transfor- mer un système existant.

La réalisation d’un prototype de système global mettant en œuvre un mécanisme d’in- terprétation itératif a permis l’intégration de travaux variés au sein de notre équipe, sans nécessiter de perturbations lourdes dans notre façon de décrire et traiter les pages. On peut noter la possibilité de répartir automatiquement le traitement d’une image entre plusieurs modules, selon la connaissance disponible à propos de cette dernière, dès qu’on enrichit légèrement la description de page pour utiliser les nouveaux opérateurs proposés.

Il a alors été possible de créer plusieurs scénarios dédiés à des types de documents particuliers, tirant profit des modules présentées dans la section 7.1. Le chapitre suivant va montrer, pour quelques scénarios précis (qui autorisent des mesures ciblées), le gain au niveau de l’effort de correction nécessaire pour traiter certains documents.

Expérimentations

Introduction

Les chapitres précédents ont montré que nos propositions, c’est à dire les outils que nous avons conçus pour interpréter des fonds documentaires incertains, sont construits sur une base théorique rigoureuse (chapitre 6) dont la réalisation a été validée (chapitre 7), et qu’ils peuvent alors être transposés facilement dans un autre environnement. Ce chapitre, vise à présent, à étayer nos propositions à un troisième et dernier niveau, celui de l’utilisation. Les expériences présentées dans ce chapitre cherchent à montrer que les outils décrits permettent de mettre en place facilement des scénarios complexes tout en augmentant la qualité des résultats produits et en diminuant l’effort manuel nécessaire à leur production. Dans ce chapitre, nous parlerons d’effort de correction des erreurs, mais nous aborderons aussi l’effort de conception et expliquerons pourquoi il n’en est pas alourdi.

Avant de présenter l’articulation de ce chapitre, il est important de noter que plusieurs défis ont dû être surmontés pour permettre la réalisation des expériences que nous présen- tons, et l’évaluation des scénarios qu’elles mettent à l’épreuve. La manière de procéder est pourtant simple au niveau théorique : il faut se donner un problème d’interprétation de documents réaliste et comparer la quantité de travail manuel nécessaire entre un scénario de référence (imposant des corrections en post-traitement) et un scénario interactif (permettant la réintégration d’informations grâce à notre mécanisme itératif) pour atteindre un objectif de qualité donné.

En pratique, un certain nombre de difficultés rendent cette tâche délicate :

– les scénarios d’interprétation réels sont complexes et donc délicats à présenter (ils font intervenir de nombreux modules et échangent des données de plusieurs dizaines de types différents) ;

– la réalisation d’un système pour chaque scénario à évaluer risque de produire des sys- tèmes comportant des différences dans la façon d’interpréter les pages, rendant alors difficile l’évaluation du scénario défini au niveau du module de stratégie globale ; – la définition d’un objectif de qualité, et la mesure de la distance à cet objectif est

délicate dans le cas de résultats structurés (comme des entrées d’une base de données de ventes, par exemple) ;

– l’évaluation du coût d’interaction est délicat car :

1. la seule métrique indiquant précisément le coût d’un travail manuel est le temps, mais cette information dépend fortement de l’ergonomie des interfaces homme– machine mises en œuvre, et nous souhaitons limiter l’influence de ces éléments

dans l’évaluation d’un scénario car cela ne relève pas de notre travail ;

2. si on cherche à comptabiliser des actions abstraites (validation d’un cluster, éti- quetage d’un mot, positionnement d’un numéro de vente), alors ces dernières constituent des grandeurs différentes et ne peuvent être comparées sans d’ex- trêmes précautions.

N’ayant pas trouvé dans la littérature de procédé détaillant l’évaluation de systèmes d’interprétation contextuelle ou assistée de fonds documentaires, nous avons mis en place une démarche spécifique afin de valider l’intérêt de scénarios tirant profit des mécanismes d’interaction que nous avons proposés. Cette démarche est basée sur les choix suivants.

1. Les scénarios comparés sont très simples, afin de limiter les définitions de données nécessaires, et de n’autoriser qu’un nombre très restreint d’actions de la part de l’opé- rateur humain. Ceci, permet d’éviter les problèmes de comparaison de grandeurs dif- férentes ;

2. Les scénarios comparés sont basés sur la même description de page, et le scénario non interactif servant de référence correspond la première itération du scénario interactif. Ceci évite les biais dans la description des pages, et simplifie le développement. Ce chapitre est alors organisé selon le plan suivant.

– La première expérience, présentée dans lasection 8.1, met l’accent sur l’exploitation du contexte documentaire et présente un cas d’utilisation de l’interaction dirigée. – La seconde expérience, présentée dans la section 8.2, se focalise sur la réintégra-

tion d’informations externes au niveau de la page et présente un cas d’utilisation de l’interaction spontanée.

– Nous terminons ce chapitre en présentant, ensection 8.3, les enseignements que nous avons tirés de l’utilisation, en conditions réelles, de systèmes basés sur un mécanisme itératif.

8.1 Exploitation d’un contexte inter-pages et interaction dirigée

Dans cette section, nous décrivons une expérience montrant qu’il est possible alléger la charge de travail manuel nécessaire pour la transcription de patronymes dans des registres de ventes, en utilisant un mécanisme d’interaction dirigée qui permet d’exploiter des redon- dances entre ces mots.

Cette expérience compare deux scénarios.

Un scénario de référence basé sur un mécanisme d’interprétation linéaire. Il ne permet pas l’intégration de connaissances externe à la page lors de son interprétation. Il fait intervenir un module de stratégie globale non itératif et un module d’interprétation de page non interactif.

Un scénario interactif basé sur un mécanisme d’interprétation itératif. Il permet de tirer profit de connaissances externes à la page lors de son interprétation. Il fait intervenir un module de stratégie globale itératif, un module d’interprétation de page interactif, ainsi que deux modules permettant : (i) de regrouper des mots similaires, extraits de pages voisines, en clusters ; (ii) d’associer une étiquette à ces clusters.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 159-163)