Méthode d’annotation agile basée sur le bootstrapping itératif

itératif

Le schéma global de notre méthode est donné dans la figure 4.1. Nous gardons les quatre stades de base identifiés par Fort (2012) : le travail de préparation (en bleu), la pré-campagne (en jaune), la campagne proprement dite (en vert) et la finalisation (en rouge). Cependant, la phase de la campagne est plus complexe car elle est itérative et intègre des outils automatiques. Afin de mettre en oeuvre le principe d’annotation agile, nous divisons le corpus à annoter en échantillons qui sont traités tour à tour.

Le travail de préparation correspond à la période de mise en place du matériel nécessaire pour l’annotation du corpus. Concrètement, il s’agit de la sélection des outils automatiques à exploiter, du choix des textes qui composent le corpus, de la définition des jeux d’étiquettes, de la constitution des guides d’annotation et de leur première évaluation sur les données, de la préparation des ressources externes (lexique), et de la préparation des ressources d’entraînement initiales pour les outils automatiques. Nous reviendrons sur ce dernier point en expliquant le stade de la campagne.

Le stade de la pré-campagne est dédié au recrutement et à la formation des annotateurs. Cette étape permet aux annotateurs de s’approprier les guides et les interfaces d’annotation. Notons que cette organisation diverge légèrement de celle préconisée par Fort (2012), d’après laquelle les participants au projet sont identifiés dès le premier stade.

travail de préparation pré-campagne entraînement des outils annotation manuelle évaluation finalisation

En revanche, il ne nous semble pas pratique de chercher à recruter des annotateurs avant d’avoir préparé tous les éléments nécessaires à la campagne, et d’autant plus que le travail de préparation est long. Pour cette raison, nous déplaçons le recrutement des annotateurs dans le stade qui précède immédiatement la campagne.

L’organisation de la campagne dans notre méthode est conditionnée par deux prin- cipes : l’agilité et l’utilisation d’outils automatiques. Le premier impose une organisation itérative du travail et introduit une étape d’évaluation à la fin de chaque cycle d’annotation manuelle. Le deuxième introduit deux étapes supplémentaires en début de chaque cycle : l’entraînement des outils et la préannotation automatique. Notons que ces deux étapes sont également exécutées itérativement par le recours au bootstrapping (cf. section 2.5). Lors du premier passage par la boucle, l’entraînement des outils est effectué sur les ressources d’apprentissage minimales constituées manuellement dans le stade du travail de préparation (v. supra). Ces premiers modèles sont ensuite utilisés pour la préannotation du premier échantillon du corpus, la préannotation automatique est corrigée manuellement, et ensuite l’échantillon nouvellement validé est rajouté aux ressources d’entraînement initiales. Lors du prochain passage par la boucle, les outils automatiques sont entraînés sur ces ressources augmentées, ce qui leur permet de s’améliorer avec chaque itération, et cela facilite à son tour l’étape d’annotation manuelle.

Quant à l’étape d’évaluation, dans notre méthode elle diffère de ce qui est préconisé par Voormann & Gut (2008). Étant donné le temps nécessaire pour effectuer systémati- quement des évaluations de l’accord inter-annotateurs, nous ne les intégrons pas dans ce cycle. La qualité du travail des annotateurs est vérifiée à travers un contrôle ponctuel, de la part d’un annotateur expérimenté, des annotations produites. Ces contrôles sont focalisés sur les points identifiés comme problématiques par les annotateurs eux-mêmes ou dans le stade d’évaluation des guides d’annotation. Nous cherchons également à contrôler la qualité de l’annotation en faisant travailler les annotateurs dans un espace commun et en présence d’un annotateur expérimenté. Toute difficulté est donc soulevée, discutée et résolue en temps réel.

L’étape d’évaluation est également consacrée à un retour d’expérience des annotateurs : une séance de travail est organisée pour discuter des difficultés rencontrées avec les annotateurs et recueillir leurs remarques relatives aux guides d’annotation. Si les pro- blèmes identifiés sont systématiques et suffisamment importants, les guides sont modifiés de sorte à les prendre en compte. Pour éviter les incohérences qu’une telle démarche peut introduire dans l’annotation, deux solutions sont possibles. Premièrement, on peut envi- sager une étape d’harmonisation des annotations déjà produites immédiatement après la modification des guides, et avant d’entamer l’itération suivante. Alternativement, on peut garder ce travail pour la phase de la finalisation du corpus : dans ce cas, l’harmonisation des annotations s’effectue selon la dernière version des guides, et elle peut être confiée aux

mêmes annotateurs, ou à l’annotateur expérimenté. Dans le cadre de cette thèse, nous op- tons pour cette dernière option, qui permet d’effectuer toutes les modifications nécessaires à la fois.

La finalisation du corpus comprend donc le travail d’harmonisation des annotations mentionné ci-dessus. Elle porte également sur toutes les activités nécessaires à la diffusion du corpus : la conversion du corpus vers un format de diffusion standard, l’élaboration d’une documentation, la diffusion du corpus proprement dite.

Notons encore qu’une telle organisation du processus permet d’avoir un livrable à la fin de chaque cycle d’annotation. Il est donc possible d’interrompre le processus à ce moment. Ceci est particulièrement utile pour les projets avec des contraintes de temps importantes : si l’on ne réussit pas à traiter la totalité du corpus dans les délais impartis, cette démarche garantit qu’on obtiendra une ressource de taille plus petite mais ayant l’ensemble des traitements envisagés.

Le schéma présenté concerne une seule couche d’annotation. La section suivante ex- plique l’organisation de l’annotation multicouches.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 110-113)