Correction de résultats intermédiaires et guidage

3.2 Tirer profit du contexte documentaire

4.1.3 Correction de résultats intermédiaires et guidage

Afin de permettre de tirer profit de la présence d’un humain au cours du travail d’inter- prétation, Bapst et al. [9,10, 11,8] ont proposé une architecture multi-agents permettant une analyse coopérative d’images de page. L’objectif de cette approche était de permettre la mise en place d’un environnement d’analyse concurrent, où les processus automatiques construisent (selon leur spécialité, à l’instar d’un blackboard) une interprétation structurée de l’image courante : structuration en blocs, paragraphes et mots ; reconnaissance du texte et de la fonte. L’utilisateur, de son côté, peut visualiser les résultats en cours de construction,

1. Le projet Gutenberg propose à la lecture plus de 40 000 livres libres de droits sous format électronique, saisis et validés par des bénévoles. Voir http://www.gutenberg.org.

et choisir de modifier des éléments de la structure ou de produire lui-même des éléments nouveaux, par exemple en localisant un bloc de texte manqué pour forcer sa segmentation en lignes puis sa reconnaissance.

Cette approche se base sur le constat de la nécessité de permettre des modes de fonc- tionnement variés, où l’utilisateur et le système automatique peuvent être aussi bien assistés qu’assistants. Ces auteurs indiquent également la nécessité, à cet effet, de définir clairement un scénario et un objectif d’analyse, et de permettre à l’humain d’interagir de façon asyn- chroneavec le système automatique afin de ne forcer aucune des deux parties à attendre. En outre, ils montrent également que si l’humain et le système automatique peuvent être inter- changeables pour certaines tâches, alors ils faut garantir une homogénéité dans les données qu’ils produisent.

Malgré l’intérêt des constats faits par ces auteurs, le choix d’une architecture multi- agents semble avoir limité le développement de cette solution. D’une part, cette approche est basée sur une connaissance algorithmique rendant difficile le développement d’une solution cohérente produisant une structure résultat complexe. D’autre part, on peut supposer que l’environnement concurrent tend à créer des conflits entre l’humain et le système automatique qui doivent être anticipés dans le scénario global (Si l’humain supprime un élément, le processus automatique va-t-il le recréer ?) ou imposent de laisser le contrôle du système à l’utilisateur qui devient alors pilote de l’analyse, en décidant quels processus peuvent être activés à un instant donné. Finalement, la gestion manuelle des échanges d’information entre le système et l’utilisateur semble avoir été particulièrement lourde à mettre en œuvre. 4.1.3.2 Fusions d’indices et d’observations

Afin de faire face au problème de progression d’un système interactif, et au manque de formalisation de ce type de système dans la communauté de la reconnaissance de formes, Vidal et al. [120] ont mis au point un cadre théorique (bayésien) rigoureux qui permet la fusion d’informations entre les données extraites (observées) d’une forme à reconnaître (ligne de texte manuscrit [116,117], mais aussi signal audio, texte à traduire, etc.) et celles fournies par un expert humain.

Ces auteurs se basent sur l’expression classique de l’hypothèse optimale d’interprétation décrite par l’équation suivante :

ˆh = argmax

h∈H

P(h|x) (4.1)

Ceci traduit le mécanisme suivant : étant donné une observation x (une séquence de gra- phèmes par exemple), le système dispose d’un modèle (graphique et lexical par exemple) permettant de formuler un ensemble d’hypothèses d’interprétation

H

_{. Grâce à une évalua-}

tion de la probabilité de chaque hypothèse h ∈

H

_{, le système peut déterminer la meilleure}

réponse ˆh.

Pour intégrer la connaissance d’un opérateur humain, les auteurs proposent d’étendre ce modèle en permettant à un opérateur de fournir des informations f (pour feedback) après avoir consulté la donnée à reconnaître x et les hypothèses de reconnaissance h du système. L’équation 4.1est alors enrichie de la façon suivante2_:

ˆh = argmax

h∈H

P(h|x, f ) (4.2)

2. Nous ne reprenons ici que les éléments fondamentaux de la proposition des auteurs. D’autres extensions sont décrites dans les publications citées.

Le système fonctionne alors de façon incrémentale : il utilise ces nouvelles informations pour proposer un nouveau résultat, et l’opérateur peut choisir de contraindre de plus en plus l’interprétation jusqu’à ce qu’elle soit satisfaisante. La figure 4.1 donne un exemple de dialogue possible entre un opérateur humain et un système chargé de reconnaître une ligne de texte manuscrit : l’opérateur ajoute progressivement des contraintes en validant le préfixe correct et en corrigeant les mots incorrects.

FIGURE 4.1 – Exemple de scénario d’interaction pour la transcription de texte manuscrit.

(Extrait de [116, figure 1].)

Ce type d’approche permet une utilisation optimale de l’information fournie par un opérateur humain, car elle utilise cette dernière pour calculer la nouvelle meilleure réponse selon son modèle (défini par le concepteur). Ceci donne une certaine garantie sur la pro- gressionglobale de l’interprétation. Cependant, de façon assez paradoxale, l’information apportée n’est pas forcément utile pour le système : il n’y a aucune sélection de l’information à apporter pour minimiser le nombre d’itérations, et l’opérateur humain doit détecter lui-même les erreurs.

Au terme de cette première section, on peut indiquer immédiatement que la mise en place d’une interaction pendant la phase de traitement des données est nécessaire pour diminuer le coût de production des résultats, et pouvoir espérer, à terme, intégrer des méca- nismes d’apprentissage dans un système destiné à l’interprétation de documents anciens et dégradés.

En effet, interagir avec un opérateur humain pendant cette phase permet au système de remettre en cause les résultats précédents et proposer de nouveaux résultats plus probables. Ceci nécessite un modèle de document capable de prendre en compte ces données externes et de les fusionner avec les données extraites de l’image.

Toutefois, maximiser l’impact de l’information fournie par l’opérateur humain n’est pas intéressant si cette information n’a aucune utilité pour le système. Il faut donc munir le système, lors de la conception, de mécanismes de détection d’erreur pour lui permettre de réclamer l’information dont un a le plus besoin. Ces mécanisme s’appuient généralement sur l’expression de contraintes entre les contenus d’une ou plusieurs pages, comme nous l’avons vu dans les chapitres précédents.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 74-77)