• Aucun résultat trouvé

7.2 DMOS-PI : une extension de l’approche DMOS-P

8.1.4 Protocole expérimental

Après cette présentation des scénarios à comparer, nous présentons la mise en œuvre et les résultats du protocole expérimental permettant cette comparaison.

8.1.4.1 Jeu de données

Pour mener cette expérience, nous avons utilisé une base de plus de 11 000 vignettes de patronymes extraite des registres de ventes qui servent de cadre applicatif à notre travail. Ces vignettes sont extraites de plusieurs registres, et aucun filtrage n’a été réalisé. La redondance de chaque patronyme est variable, et le principal élément redondant correspond à « idem » avec plus de 1 500 régions concernées. Quelques exemples de vignettes de patronymes sont visibles enfigure 8.2.

FIGURE8.2 – Exemple de vignettes de patronymes contenues dans la base d’évaluation. De

gauche à droite, on peut lire « Sallin », « idem » et « Trouillebert ».

8.1.4.2 Production des résultats pour les deux scénarios

Pour réaliser cette expérience, nous sommes partis du principe que le scénario de ré- férence (sans clustering) est équivalent à la première étape du scénario interactif, c’est à dire à la première étape de reconnaissance des patronymes au sein du module d’interpréta- tion de page. Dans la mesure où il est possible de récupérer l’information renvoyée par les reconnaisseurs dans les questions présentes dans la mémoire visuelle, nous avons lancé le scénario interactif et avons considéré les états suivants.

État initial Noté EI, cet état correspond au moment où le scénario est démarré : aucun

patronyme n’est reconnu, mais on suppose que la position de chacun de ces éléments est connue.

État après traitement automatique de référence Noté EA, cet état correspond à l’instant

du scénario où le module d’interprétation de page a été invoqué pour la première fois, et a généré des listes d’hypothèses pour chaque patronyme. Il correspond au résultat du scénario de référence pour lequel un fonctionnement itératif n’est pas possible. État après traitement interactif expérimental Noté EX, cet état correspond à l’instant du

scénario où l’on s’apprête à réinjecter dans le module d’interprétation de page les nouvelles hypothèses correspondant à chacun des patronymes, après clustering, fu- sion des hypothèses, et sollicitation éventuelle d’un opérateur humain.

État après production de la vérité terrain Noté EV, cet état correspond au résultat idéal

et parfait d’un reconnaisseur pour chacun des patronymes. En pratique, il est généré grâce à une correction manuelle des données de l’état EX.

Lafigure 8.3illustre la production des différents états. Cette technique a permis : (i) de nous assurer que la description de page ne favorisait aucun scénario, puisqu’elle est ici unique ; (ii) de ne réaliser qu’un seul système pour les deux scénarios.

8.1.4.3 Méthode d’évaluation

Évaluation de la qualité de reconnaissance Pour évaluer la qualité de reconnaissance, nous avons regardé pour chaque vignette de patronyme des état EA et EX l’étiquette de

EI −−−−−−−−−−−→ EScénario de référence A −−−−−−−−−→ EScénario interactif X −−−−−−−−−−−−→ ECorrections résiduelles V

FIGURE8.3 – Génération des différents états, correspondant aux résultats des deux scéna-

rios et à la vérité terrain, pour l’expérience de transcription de patronymes.

la meilleure hypothèse. Si cette dernière correspondait à la valeur attendue dans la vérité terrain (état EV), alors nous comptions un résultat correct, sinon nous comptions une erreur.

Évaluation de la quantité de travail manuel La valeur des seuils Tr (rejet d’un hypo-

thèse de reconnaissance jugée peu fiable, utile pour les deux scénarios) et Tc(limite d’agré-

gation de mots dans des clusters, utile dans le second scénario) permettent de régler la quantité de travail manuel qui sera nécessaire, en même temps que la qualité visée, car elles influent directement sur le taux d’erreur du système.

En réglant ces seuils, il est alors possible de fixer (empiriquement) un taux d’erreur, c’est à dire un objectif de qualité. Un objectif de 1% d’erreur pourra correspondre à un objectif de constitution d’une vérité terrain, tandis qu’un objectif aux alentours de 20% sera acceptable pour une tâche d’indexation où il suffit d’avoir la bonne hypothèse en début de liste des hypothèses, pour chaque élément.

Une fois que ce taux d’erreur est fixé, la quantité de travail manuel dépend directement de la fiabilité du processus de reconnaissance. On définit les compteurs suivants :

NA Le nombre de vignettes correctement annotées automatiquement.

NM Le nombre d’actions d’étiquetage manuel. Si l’opérateur humain étiquette un cluster,

cela compte pour une seule action.

NE Le nombre de vignettes pour lesquelles la meilleure hypothèse est erronée.

En fonction de la fiabilité de chaque objet à reconnaître (vignettes isolées dans le scé- nario de référence, cluster dans le scénario interactif), ces derniers sont soit reconnus auto- matiquement, soit transmis à un opérateur humain pour étiquetage manuel.

Sont donc comptabilisées dans NA:

– les vignettes correctement reconnues automatiquement ;

– et celles correctement étiquetées indirectement lorsque l’opérateur humain donne la valeur de l’étiquette d’un cluster.

On comptabilise dans NM celles étiquetées directement par l’opérateur humain.

Concernant NE, il comptabilise :

– les vignettes pour lesquelles la valeur attribuée automatiquement est erronée ; – et les intrus dans cluster étiqueté par un opérateur humain.

Si E est l’ensemble des vignettes à étiqueter, alors on doit vérifier |E| = NA+ NM+ NE.

On peut alors définir les taux suivants, qui serviront à donner les résultats de l’expé- rience :

TA Le taux d’étiquetage automatique indique la proportions d’éléments de l’ensemble E

étiquetés automatiquement. Il est défini par : TA= 1 −NM+ NE

TM Le taux d’étiquetage manuel indique la proportions d’éléments de l’ensemble E étique-

tés manuellement. Il est défini par :

TM=NM

|E| (8.7)

TE Le taux d’erreur indique la proportions d’éléments de l’ensemble E mal étiquetés. Il est

défini par :

TE =NE

|E| (8.8)

8.1.4.4 Résultats

La table 8.1 synthétise les résultats obtenus pour les deux scénarios, en prenant en compte les deux méthodes de calcul de distance (DTW et POI) dans le cas du second scé- nario. On n’indique que les taux d’erreur et d’étiquetage manuel, car le taux d’étiquetage automatique est liée aux deux autres.

TABLE8.1 – Résultats comparés des scénarios pour l’expérience de transcription de plus

de 11 000 zones de patronymes.

Taux d’erreur (TE)

Taux d’étiquetage manuel (TM)

Scénario de référence

Scénario interactif

Clustering DTW Clustering POI

1% 75,8% 58,0% 55,6%

5% 50,8% 39,4% 36,5%

20% 20,2% 12,1% 10,7%

Ces résultats montrent que le système proposé permet de choisir simultanément le ni- veau de qualité souhaité et la quantité de travail manuel nécessaire. Pour un objectif de qualité très élevé (1% d’erreur), le système de référence impose de saisir près des trois quarts des étiquettes (75,8%), alors que la méthode la plus récente du système interactif permet de ne saisir qu’un peu plus de la moitié de ces éléments (55,6%). Pour un objectif d’indexation, où un taux d’erreur de 20% est acceptable, le taux d’étiquetage manuel passe de 20,2% à 10,7%, ce qui représente une réduction de près de la moitié des éléments à saisir. Pour terminer cette section, on peut noter qu’un des avantages majeurs de notre ap- proche est bien illustrée par le scénario interactif : il suffit de deux lignes supplémentaires dans la description de la page pour permettre la réintégration automatique de résultats pro- duits de façon complexe au niveau global. Ceci permet d’utiliser au niveau de la page, et sans perturber la description de celle-ci, un classifieur contextuel global.

Un autre avantage majeur de notre approche est également illustré ici. Il s’agit de la possibilité de régler, au niveau global (ici à l’aide des seuils Tcet Tr), la quantité de travail

manuel requise, ou la qualité des résultats visée, selon le point de vue.

On peut également noter que l’intégration de modules réalisés par différentes personnes a été facile à mettre en œuvre, et que la circulation d’information n’a pas été perturbée lors du replacement du module chargé de la comparaison des vignettes de mots.

Par ailleurs, il faut garder à l’esprit que, dans le cas réel, il est possible de visualiser les clusters de mots et d’éliminer des intrus. Bien que le coût de ces actions soit difficile à estimer, il est légitime d’espérer, en pratique, une réduction plus importante de la quantité de travail manuel requise pour la tâche de transcription présentée.

8.2 Gestion de cas de sous-segmentation avec l’interaction