Acquérir progressivement les modèles - Connaissance sous forme déclarative

2.3 Connaissance sous forme déclarative

3.1.3 Acquérir progressivement les modèles

Un des premières nécessités dans la gestion de données variées est de minimiser le coût de mise en œuvre d’un système versatile. Permettre à un système de construire progressivement des modèles de documents est un premier pas dans la mise en place de mécanismes

de rétroaction permettant d’augmenter l’impact de l’information extraite, puisqu’on peut alors imaginer retraiter les images et produire de meilleurs résultats, ou mieux traiter de nouvelles images à la structure similaire. L’idée d’apprentissage incrémental fait alors écho aux recommandations de Baird et al. [7] qui considèrent qu’une des fonctionnalités qui ren- drait un système d’interprétation d’images de documents robuste serait de lui permettre de diminuer de façon monotone son erreur au cours du temps, en lui permettant de fonctionner et s’améliorer sans limite de durée.

Dans cette sous-section, nous nous intéressons aux techniques d’adaptation de modèles décrivant la structure des documents.

3.1.3.1 Mémoriser pour détecter des irrégularités

Une des méthodes les plus anciennes et les plus utilisées consiste à permettre au système d’interprétation de détecter un manque d’information, et de réclamer une correction soit des résultats (intermédiaires ou non), soit du modèle utilisé.

Le système de reconnaissance de formulaire intelligent proposé par Cheriet et al. [18, chapitre 2] présente différentes étapes d’une analyse qui permet de relier progressivement les contenus reconnus entre eux et de construire des objets de plus en plus abstraits. Chacune des étapes de cette analyse peut remettre en cause le travail des étapes précédentes, ainsi que le modèle de document si aucune interprétation cohérente ne peut être trouvée. Dans l’architecture de ce système, les auteurs proposent les phases suivantes pour l’analyse de formulaires (des chèques bancaires, par exemple) :

1. analyse de la mise en page et localisation des éléments à reconnaître ;

2. pré-traitement des zones de l’image à reconnaître et vérification de la présence d’élé- ments graphiques obligatoires ;

3. reconnaissance des caractères ;

4. post-traitement avec, en particulier, la validation croisée des éléments d’un formulaire.

Si les résultats sont incertains, ou que le type de document est inconnu, alors un expert est sollicité pour pallier le manque de connaissance.

Le principal intérêt de cette approche au regard du problème d’interprétation de documents anciens est la distinction de deux types de contenus mémorisés : d’un côté la mémoire à long termeconserve la connaissance acquise lors d’une phase d’apprentissage, et d’autre part la mémoire à court terme stocke les informations produites lors de l’analyse. Chaque module d’analyse peut alors consulter ces mémoires, et modifier la mémoire à court terme. C’est une forme d’interaction qui permet de réviser facilement certains résultats intermé- diaires, à l’échelle de l’analyse d’une image. On peut donc s’interroger sur la possibilité d’utiliser un tel modèle à l’échelle d’un fonds documentaire. Il faut alors être capable de déterminer quelles informations mémoriser, et quand réutiliser ces dernières.

3.1.3.2 S’adapter aux nouvelles données : raisonnement à base de cas

Réviser la connaissance d’un système après la gestion d’un cas nouveau est un problème d’intelligence artificielle bien connu pour lequel le modèle de raisonnement à base de cas (case-based reasoning)donne un cadre théorique intéressant. Selon Belaïd et al. [12], ce type d’approche s’appuie sur une base de cas (un ensemble de couples { problème/cas, solution} ) modifiable, et respecte le schéma de fonctionnement général suivant :

1. construction d’une représentation du problème (vecteur, graphe, etc.) ; 2. recherche de cas similaires dans la base de cas ;

3. ajustement de la solution selon le cas utilisé (valeur d’attributs, etc.) ; 4. apprentissage : si nécessaire, la connaissance est augmentée ou révisée.

La travail de conception impose alors un choix de représentation du problème et la définition d’algorithmes appropriés pour les différentes étapes.

Ainsi, Belaïd et al. [48, 12] mettent en œuvre, grâce à une représentation à base de graphe de neurones et des méthodes de décision floues, un système capable de réaliser si- multanément l’identification du type de formulaire représenté par une image, et l’étiquetage fonctionnel de zones d’intérêt.

Une approche plus ancienne, mais basée sur des idées similaires, est celle de Roba- dey et al. [104,103,47] qui permet également un étiquetage fonctionnel de zones, dans des documents de bonne qualité. La base de connaissance est, dans ce cas, formée de modèles qui associent une interprétation (solution) à une configuration spatiale (cas). Une configuration spatiale est ici un graphe d’objets visuels, caractérisés plus ou moins précisément, reliés entre eux par des relations spatiales. Lors de l’exécution, si le système propose une interprétation incorrecte pour un cas, la correction manuelle de l’interprétation permet de mettre à jour automatiquement la base de connaissance.

Pour ces deux approches, la nécessité d’extraire et segmenter une certaine nombre d’objets visuels avant le travail d’interprétation semble, cependant, rendre ces approches peu utiles dans le cas des documents anciens ou dégradés, pour lesquels la distinction entre segmentation et reconnaissance est délicate. Par ailleurs, les résultats produits par ces approches sont généralement assez peu structurés.

Malgré ces critiques, on peut persister à penser que ce type de fonctionnement est par- ticulièrement intéressant pour limiter le coût de mise au point d’un système de traitement de documents. Une autre limitation empêche pourtant, en l’état, l’application de ces mé- thodes : il s’agit du coût de correction nécessaire à la production d’interprétations valides. Ma et Doermann [67] indiquent en effet que pour corriger une solution avant de permettre l’utilisation d’un processus d’apprentissage, dans le système qu’ils ont développé, il pouvait être nécessaire de : corriger des problèmes de sur- et sous-segmentation, redimensionner ou déplacer des éléments, supprimer les éléments erronés, ou encore modifier l’étiquetage de certaines zones. Par ailleurs, il est peu probable qu’un seul exemple de structure permette de construire un modèle fiable.

En conclusion de cette section, on peut alors indiquer que si les approches existantes proposent des architectures intéressantes, basées sur des mécanismes et des algorithmes éprouvés, la mise en place de mécanismes permettant l’amélioration progressive des mo- dèles ne peut être faite en l’état. Il est en effet indispensable, au préalable, de trouver com- ment réduire l’effort nécessaire à la production d’interprétations valides qui puissent en- suite être utilisées par ces méthodes. Pour faire face à cette difficulté majeure, il est donc nécessaire d’avoir recours à des connaissances supplémentaires lors de l’interprétation pour diminuer ce coût de correction, sans augmenter le coût de conception.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 64-66)