• Aucun résultat trouvé

2.3 Connaissance sous forme déclarative

2.3.3 Approches déclaratives extensibles

La grande variabilité des difficultés qui peuvent être rencontrées lors de l’interprétation de documents anciens ou dégradés semble rendre impossible la proposition d’une approche générique qui figerait les relations spatiales, les formes de contexte, ou des objets manipulés. L’approcheDMOS(pour « Description et MOdification de la Segmentation »), proposée

par Coüasnon [26,23,24], apparaît alors comme un compromis efficace car elle propose un langage de descriptionEPF(Enhanced Position Formalism), basé sur une extension à deux

dimensions des Definite Clause Grammars [95,90] et un moteur d’analyse qui peuvent être utilisés et étendus pour être adaptés à l’interprétation de nouveaux types de documents.

Le système de base a en effet été spécialisé et utilisé pour reconnaître des documents récents et anciens, toujours dégradés, tels que des partition musicales, des registres ma- tricules, des décrets de naturalisation, des tableaux complexes, et bien d’autres [29]. Cer- tains des systèmes produits ont été utilisés pour analyser plusieurs centaines de milliers de pages [30].

C’est, à notre connaissance, la seule approche de ce type. Elle est fortement influencée par l’analyse de langues naturelles. Générique, elle permet après la compilation de la des- cription de document de produire un système qui exploitera l’analyseur ainsi produit, les mécanismes généraux de recherche de solution, ainsi que des détecteurs de formes primi-

tives (traits, composantes connexes, ou autres classifieurs disponibles) pour interpréter une image donnée.

Cette approche propose donc une gestion relativement efficace du bruit, grâce à une analyse guidée par un but, et la possibilité de guider la stratégie de recherche au niveau des terminaux et des non terminaux. La gestion des ambiguïtés est gérée automatiquement par le mécanisme de retour arrière. La connaissance à priori est séparée du mécanisme d’analyse qui peut évoluer indépendamment. Les relations de position, les relations contextuelles, ainsi que la construction de la structure résultat sont exprimées de façon déclaratives à l’aide du langage logique sous-jacent. L’expressivité du langage et sa capacité à être étendu ont, de façon prévisible, donné lieu à plusieurs extensions notables :

– l’intégration de mécanismes perceptifs pour améliorer la détection de traits effacés [59] et de lignes de texte [60] ;

– un analyseur dédié aux tableaux complexes et dégradés [77] ;

– ou encore l’intégration de mécanismes statistiques pour évaluer la fiabilité des élé- ments détectés [73].

Cependant, cette approche nécessite une écriture des grammairesEPFpar un expert, à la

fois du système et du type de document à traiter. L’intégration de mécanismes d’adaptation automatique du système aux données semblerait donc nécessaire pour limiter ce travail fastidieux.

2.4 Conclusion

Au terme de ce deuxième chapitre, nous constatons que le travail d’interprétation de documents (anciens en particulier) se place à l’intersection de nombreux domaines scienti- fiques qui proposent une palette de méthodes. Il est donc beaucoup plus judicieux de réuti- liser et étendre ces méthodes plutôt que de chercher à développer intégralement un nouveau système d’interprétation de fonds documentaires.

Ce chapitre nous a donc permis d’identifier une base de travail sur laquelle nous pour- rons construire des propositions nouvelles, en identifiant les leviers d’amélioration pos- sibles. Il est donc possible de lister les propriétés d’un outils d’interprétation de pages iso- lées (page par page, ou image par image) qui nous servira ensuite de référence. Nous pro- posons d’appeler cet outil « module d’interprétation de page », et la définition que nous en donnons ici est informelle ; nous formaliserons ces éléments dans les chapitres5et6. Voici la liste des propriétés de ce module d’interprétation de page qui nous semblent essentielles pour construire un système d’interprétation de fonds documentaires.

1. Il doit permettre une séparation claire de la connaissance à priori, définie lors de la phase de conception par un expert, et du mécanisme automatique d’appariement entre le modèle de document ainsi exprimé et le contenu de l’image, utilisé lors de la phase d’exécution.

2. La connaissance à priori doit être exprimée de façon déclarative et extensible, de façon à permettre la génération automatique d’un système spécifique à un type de document grâce à des outils (langage de description, compilateur, algorithme de trai- tement de l’image, etc.) génériques.

3. Le mécanisme d’appariement entre le modèle de document et le contenu de l’image doit être guidé par le modèle (ou « par le but ») afin de permettre une gestion systé- matique du bruit, de l’ambiguïté, et plus généralement de la difficulté de la recherche

d’une solution dans un espace vaste grâce à des techniques de filtrage, de retour ar- rière, de prédiction, etc.

Nous supposerons que ce module d’interprétation de page dispose de fonctions permettant l’extraction de primitives visuelles, et nous ne nous préoccuperons pas davantage de traite- ments au niveau du signal de l’image.

Ces caractéristiques ressemblent évidemment à celles des systèmes produits avec la mé- thodeDMOS. Notons dès à présent que si nos propositions ont permis l’extension effective

de cette méthode, nous nous sommes efforcés d’identifier précisément les modifications réalisées pour permettre une réutilisation facile de nos travaux. Il sera alors possible de s’affranchir de certaines de ces propriétés que nous venons de lister ; certaines de nos pro- positions pouvant, par exemple, être exploitées dans des approches où la connaissance est exprimée de façon algorithmique.

Les prochains chapitres de cette première partie s’intéresseront à identifier les leviers d’amélioration d’un tel module d’interprétation de page. Notre objectif principal sera alors de comprendre comment améliorer la gestion des problèmes survenant lors de l’interpré- tation (pendant l’exécution) grâce à l’utilisation de connaissances supplémentaires à celles exprimées à priori par un expert, ou extraites de l’image. Nous chercherons à permettre au module d’interprétation de page de tirer profit d’informations contextuelles issues du fonds documentaire (dans lechapitre 3) ou fournies par un opérateur humain (dans lechapitre 4), ce qui nécessitera de comprendre comment l’intégrer dans un système plus général dans lequel il s’intégrera.

Finalement, il est intéressant de remarquer qu’en l’état actuel des choses, si les ap- proches statistiques sont difficiles à utiliser dans le cas de documents anciens, c’est à cause de la nécessité de fournir à l’apprenant des exemples pour amorcer le système, exemples particulièrement coûteux à produire. La possibilité de diminuer le coût de correction néces- saire pour la production de résultats corrects est donc un enjeu important pour permettre d’utiliser efficacement ces approches et s’en servir comme levier pour augmenter la perfor- mance globale du système.

Interprétation contextuelle

de fonds documentaires

Introduction

Ce chapitre s’intéresse à la possibilité de tirer profit d’informations qui ne sont pas directement accessibles au sein d’une image isolée, mais qui proviennent de l’ensemble d’images du ou des documents traités. Comme nous l’avons déjà mentionné dans lechapitre précédent, l’état de l’art tend à montrer qu’il est pertinent d’essayer d’interpréter les images de document en considérant leur environnement (voire en interagissant avec celui-ci, mais nous y reviendrons). Le contexte documentaire tel que nous l’avons défini au chapitre 1 constitue donc une partie de cet environnement.

Dans ce chapitre, nous cherchons donc à identifier quelles sont les connaissances liées au contexte documentaire, comment les exprimer, et comment les exploiter. Il sera intéres- sant de distinguer le travail réalisé lors de la conception de chaque système, et celui effectué automatiquement par ce dernier lors de son exécution.

Nous basons notre analyse sur le constat fait par Saund [106], selon lequel les systèmes de traitement de documents visant une utilisation en production doivent faire face à trois catégories de problèmes :

La classification des documents par type Ce problème (Doctype Classification) consiste à savoir à quel type de document appartient une image de page.

L’identification du rôle fonctionnel d’éléments visuels Ce problème (Functional Role La- beling)consiste à déterminer le statut d’éléments textuels et graphiques relativement au modèle de la structure d’un document.

L’analyse d’ensembles de documents Ce problème (Document Sets) consiste à exploiter les relations existant entre les pages et entre leurs contenus au sein d’un regroupement cohérent.

Dans le cas des documents anciens qui nous intéresse, nous avons vu dans lechapitre précédentqu’il était nécessaire de guider l’interprétation des images des pages à l’aide d’un modèle afin de permettre la localisation et l’interprétation des éléments pertinents. Ce travail d’interprétation correspond à ce que Saund appelle « identification du rôle fonctionnel » et nous allons, dans ce chapitre, nous intéresser à l’intégration de ce processus dans le travail plus large d’interprétation d’un fonds documentaire.

Nous verrons dans lapremière sectionde ce chapitre que cette étape d’interprétation est fortement liée à la capacité à détecter le type de document, et nous décrirons alors les architectures et caractéristiques des approches de la littérature qui mettent en œuvre ces pro- cessus. Ce premier temps sera l’occasion de présenter les méthodes qui permettent d’éviter de subir le volume de données à traiter, notamment grâce à une certaine adaptation des différents modèles utilisés.

Nous nous intéresserons ensuite dans laseconde section de ce chapitre aux méthodes permettant de faire du volume de données un atout. Les approches concernées exploitent les redondances et les relations qui peuvent exister entre les données des différentes pages, et offrent des réponses au problème d’analyse d’ensembles de documents.

3.1 Faire face à la variabilité

L’interprétation de fonds documentaires volumineux nécessite de pouvoir faire face à plusieurs difficultés. La première est liée à la quantité d’information : il n’est pas rare qu’un fonds d’archives contiennent plusieurs dizaines de milliers d’images, et occupe un espace disque de plusieurs centaines de gigaoctets. La seconde est liée à la variabilité des contenus présents dans les images à traiter, ainsi qu’aux différentes mises en formes des documents : il faut être capable, d’une part, de distinguer les types de documents à traiter, et d’autre part, de définir un modèle de document adapté à chacun de ces types.