Interaction avec des opérateurs humains - Utilisation du système global et comportement

5.2 Utilisation du système global et comportement

5.2.1 Interaction avec des opérateurs humains

Deux modes d’interaction complémentaires peuvent être utilisés pour communiquer avec les opérateurs humains dans le système que nous proposons. La capacité à détecter les erreurs est le critère essentiel qui permet de décider du mode d’interaction à utiliser.

1. Le premier, celui à privilégier, est le mode dirigé (par la détection automatique d’erreurs) pour lequel, lorsque la détection d’erreur est possible, le système pose une question (à laquelle un opérateur humain doit répondre) à chaque fois qu’il détecte une erreur.

2. Le second, qui complète le premier, est le mode spontané, adapté aux situations dans lesquelles la détection automatique d’erreurs n’est pas possible.

La mise en place du mécanisme de détection d’erreur dépend du concepteur du module d’interprétation de page (et du module de stratégie globale, mais on laissera ce cas de côté pour simplifier les explications). En effet, c’est grâce à l’expression de contraintes entre les éléments détectés au sein d’une ou plusieurs pages, et de mécanismes de rejet basé sur la confiance accordée à la localisation ou à la reconnaissance de ces éléments, qu’il est

possible de mettre en place un mécanisme automatique sollicitant un opérateur humain (ou d’autres modules automatiques) pour compléter la connaissance du système.

5.2.1.1 Interaction dirigée

L’interaction dirigée, c’est à dire imposant aux opérateurs humains la résolution d’un problème précis, est tributaire d’une détection relativement fine des erreurs, en particulier au niveau de leur localisation, afin de permettre de poser une question faisant référence à la zone concernéequi permet de décrire le contexte visuel minimal nécessaire pour répondre. Ce mode est très similaire à ce que Nagy et Veeramachaneni [82] appellent les interactions « initiées par la machine », où l’information à traiter par les humains est déterminée automatiquement.

Vue globale des informations échangées Comme illustré ci-dessous, le module d’inter- prétation de page produit automatiquement des questions à destination de son environne- ment, sans savoir comment les réponses seront produites. Ces questions sont générées suite à la détection d’incohérences, ou de manque de connaissances pour traiter une situation, grâce à des mécanismes de contrôle définis par le concepteur du système. Le module de stratégie globale collecte ces questions et lorsqu’il est possible de constituer un lot de questions de taille suffisante pour mobiliser un opérateur humain, ce lot est transmis à l’interface permettant de résoudre les problèmes repérés.

Module d’interprétation de page questions page i −−−−−−−−→ ←−−−−−−−− réponses page i Module de stratégie globale lot de questions −−−−−−−−→ ←−−−−−−−− lot de réponses Interface Homme– Machine

Représentation des questions et des réponses Les questions contiennent les informations suivantes :

– la localisation du problème ;

– d’autres éléments de contexte permettant de mieux comprendre la raison de la question : structure en cours d’analyse, éléments préalablement détectés, choix automatiques précédant l’erreur, ou plus simplement une phrase générée dynamiquement ; – des contraintes ou suggestions pour les réponses possibles : type de données atten-

dues, restriction sur le domaine des valeurs possibles, positionnement et forme de la réponse, liste d’hypothèses ambiguës, etc.

Les types des données qui peuvent être réclamées dans les questions sont prédéfinis par le concepteur (ex : valeur d’un nombre, position d’une colonne, etc.) selon le fonds traité et l’approche choisie. Ces questions sont instanciées (automatiquement) sur des éléments précis à l’exécution.

Les questions sont représentées par des données en mémoire visuelle de la forme suivante (le format correspondant en base est équivalent, à une transformation près) :

(zoneQuestion, question, { contexte, explications, contraintesReponse, . . . }) les réponses peuvent, quant à elles, être représentées de la façon suivante dans la mémoire visuelle.

(zoneReponse, typeReponse, contenuReponse)

Nous préciserons ces formes, encore générales, dans lasous-section 6.3.1duprochain chapitre.

Actions de l’opérateur humain Les questions étant spécifiques à un type de problème pré-défini, il peut être judicieux de les regrouper selon ces types pour permettre l’envoi de lots homogènes à des interfaces qui peuvent alors être spécialisées, comme par exemple pour le vidéo-codage de zones de texte incertaines. À la réception de ces questions, l’opéra- teur humain utilise les outils à sa disposition pour les visualiser et y répond progressivement. Dans ce mode, l’opérateur doit apporter une réponse pour chaque question. Lorsqu’il a ter- miné, il valide ses réponses et les soumet au système qui aura, si possible, traité d’autres données entre-temps, et généré un nouveau lot de questions.

Stratégie globale Au niveau du module de stratégie globale, il est nécessaire de pouvoir gérer l’évolution de l’état des pages en fonction des questions et réponses contenues dans la mémoire visuelles associées à ces dernières. La façon la plus simple de gérer le traitement d’un ensemble de pages selon ce mode dirigé consiste à créer un automate qui sera suivi par chacune des pages traitées en parallèle. Lafigure 5.3donne un exemple d’automate pour ce mode d’interaction.

Cet automate met en attente de traitement automatique chaque nouvelle page. Lors- qu’une page a été interprétée par le module d’interprétation de page, elle est mise en attente de traitement manuel si ce dernier a généré des questions. Sinon, elle est marquée comme traitée. Lorsque les réponses aux questions associées à une page sont toutes disponibles, cette dernière est à nouveau mise en attente de traitement automatique.

attente auto start attente manuel traitée ∃ question ∄question réponse prêtes

FIGURE5.3 – Exemple d’automate définissant les états possibles d’une page dans un mode

d’interaction dirigée. C’est une forme de spécification possible de la stratégie d’interpréta- tion globale par le concepteur.

Ce mode d’interaction est particulièrement pertinent lorsque la détection d’erreurs automatique est efficace, car il permet de réclamer les informations les plus utiles pour le système, et de limiter le travail des opérateurs humains au strict nécessaire. Toutefois, cela n’est pas toujours possible, et nous avons eu besoin de recourir à un second mode de fonc- tionnement dans certaines situations.

5.2.1.2 Interaction spontanée

Ce second mode vise à proposer une alternative à la nécessité de détecter automatiquement les problèmes en cours de traitement. Nous appelons spontané ce second mode d’interaction, car il laisse, dans une certaine mesure, les opérateurs humains déterminer eux- mêmes les informations qu’ils fournissent au système. Ceci permet d’autoriser la détection d’erreurs par les opérateurs humains. Contrairement au mode dirigé, le mode spontané ne peut pas être mis directement en correspondance avec le second mode d’interaction identifié par Nagy et Veeramachaneni [82], celui où les interactions sont « initiées par l’humain ». En effet, dans notre cas, le système ne réagit pas directement aux informations saisies par les opérateurs pour les interpréter, mais il autorise, à certaines étapes de son fonctionne- ment, l’apport d’information externe de types pré-définis, qui compléteront ou corrigeront des informations déjà produites par le système.

Vue globale des informations échangées Comme pour le mode d’interaction précédent, c’est le module d’interprétation de page qui est à l’origine de l’information autorisant l’ac- tion d’opérateurs humains. Dans ce mode, le module d’interprétation de page produit, pour chaque image, un compte-rendu, ou plus précisément un ensemble d’indices, montrant les résultats qu’il a produits ainsi que certains résultats intermédiaires, si nécessaire, et des indications sur les apports d’information possibles. Le module de stratégie globale collecte ces données, et permet, par lots, des modifications ou des ajouts d’informations pour chaque page. Grâce à ces nouvelles informations, il est possible de relancer le module de stratégie globale sur les pages concernées pour faire progresser leur interprétation. Ce mécanisme est illustré ci-dessous. Module d’interprétation de page feedback page i −−−−−−−−→ ←−−−−−−−−−

nvlles infos page i

Module de stratégie globale lot d’informations −−−−−−−−−→ ←−−−−−−−−− lot modifications Interface Homme– Machine Représentation des données Les informations renvoyées par le module d’interprétation de page sont de deux types :

1. des résultats produits par le module, représentées en mémoire visuelle par des don- nées simples ;

2. des indications sur les informations qu’il est possible de fournir, représentées en mé- moire visuelle par des questions implicites et optionnelles.

Les « questions optionnelles » décrivent, pour une zone de l’image donnée, des contraintes quant aux types de données qu’il est possible d’ajouter ou modifier, ainsi que le nombre d’éléments qu’il est possible d’ajouter. Elle sont représentées par des données en mémoire visuelle de la forme suivante.

(zoneQuestion, question_optionnelle, { contexte, explications, contraintesRep, . . . }) les résultats renvoyés par le module d’interprétation de page et les réponses fournies par l’opérateur humain prennent la même forme générale et sont homogènes :

(zone, type, contenu)

C’est au concepteur du module d’interprétation de page de déterminer quelles informations pourront être renvoyées pour indication, et quelles seront les informations qui pourront

être apportées par l’opérateur humain. Par exemple, il est possible d’indiquer que dans des images contenant des tableaux dont la position des colonnes est incertaine, l’opérateur humain aura le droit de déplacer la position de ces colonnes pour corriger spontanément d’éventuelles erreurs de localisation. Dans la détection de nombres dans la colonne d’un tableau, on pourra autoriser l’ajout de nombres qui auraient été manqués.

Actions de l’opérateur humain Dans ce mode d’interaction, on a tendance à privilégier une visualisation image par image pour donner à l’opérateur humain la possibilité d’in- terpréter chaque élément en contexte. Les contraintes relatives aux informations qu’il peut apporter sont affichées dans l’interface, et il choisit le type, la position, et le contenu des données qu’il veut ajouter, en nombre libre, pour compléter l’interprétation de l’image cou- rante. Il peut également modifier des résultats intermédiaires et, dans certains cas, supprimer des éléments erronés.

Stratégie globale Au niveau de la stratégie globale, ce mode d’interaction impose une sollicitation presque systématique de l’opérateur humain pour valider les résultats associés à une image. Bien entendu, dans des cas réels, une détection plus large du besoin de contrôle manuel est possible, mais nous nous attachons ici à décrire deux modes d’interaction com- plémentaires, qui seront utilisés simultanément en pratique. La façon la plus simple de gérer ce mode spontané vise, comme dans le cas précédent, à définir un automate comme celui de lafigure 5.4permettant le traitement simultané d’un grand nombre d’images.

attente auto start attente manuel traitée résultat auto ∃ modif ∄modif

FIGURE5.4 – Exemple d’automate définissant les états possibles d’une page dans un mode d’interaction spontanée. C’est une forme de spécification possible de la stratégie d’interpré- tation globale par le concepteur.

Bien qu’il soit à priori plus coûteux que le mode dirigée, ce mode a l’avantage majeur de ne pas dépendre d’une détection d’erreurs automatique précise, et permet éventuellement de corriger la cause du problème, comme par exemple la position de la colonne des numéros de ventes, entraînant potentiellement une remise en cause en profondeur de l’interprétation d’une image. Ce second mode est, en pratique, utilisé simultanément et en complément du premier. C’est alors au concepteur de déterminer lequel utiliser, en fonction des mécanismes de détection automatique de problèmes qui peuvent être mis en place. La mise en œuvre de ces deux modes sera présentée dans lasous-section 6.3.1duprochain chapitre.

Dans le document Interprétation contextuelle et assistée de fonds d'archives numérisées : application à des registres de ventes du XVIIIe siècle (Page 96-100)