Campagne 2 : annotation syntaxique manuelle

La deuxième campagne d’annotation a eu lieu du 20 mars au 7 avril 2017. Elle a été réalisée par deux annotatrices recrutées à l’Université de Belgrade, l’une de niveau L3, et l’autre de niveau M1, les deux inscrites au parcours LLCE - français au Département des études romanes. L’organisation du travail était comparable à celle durant la première campagne : les annotatrices effectuaient 5 heures d’annotation par jour divisées en deux parties, sous la surveillance de l’annotateur expérimenté. Comme pour l’annotation morphosyntaxique, les annotatrices travaillaient indépendamment l’une de l’autre. Encore une fois, la décision de ne pas mettre en place une annotation en double a été motivée par le séjour relativement court des annotateurs et l’impératif de maximiser leur rendement afin de faire avancer l’annotation du corpus.

8.6.1 Déroulement du travail et résultats de l’annotation syntaxique manuelle

Au début de la campagne, les deux premiers échantillons du corpus avaient déjà été annotés en dépendances syntaxiques de manière manuelle dans le cadre de la mise au point et de l’évaluation du guide d’annotation syntaxique et de l’initialisation de Talismane (cf. sections 7.5.2 et 7.4). Il restait donc 60 000 tokens à traiter (cf. tableau 8.10).

Le parser Talismane avait été entraîné sur le corpus manuellement annoté de 40 000 tokens. Cet apprentissage initial a été effectué avec les paramètres d’apprentissage par défaut, en exploitant seulement la partie du discours et le lemme en tant que trait morphosyntaxique pour l’entraînement9. L’outil a été évalué par une validation croisée à 10 itérations. Les valeurs moyennes de LAS et de UAS obtenues étaient respectivement de

9. Des tests détaillés exploitant les différentes propriétés morphosyntaxiques ont été conduits depuis la finalisation du corpus d’apprentissage et sont présentés dans le chapitre 9.

Échantillon Taille Annot. synt. Mode d’annotation

1_20 20 918 Oui Annotation manuelle par l’annotateur expéri- menté

2_20 20 619 Oui Annotation manuelle par l’annotateur expéri- menté et par les annotateurs UT2J dans le cadre de la mise au point du guide d’annotation 3_20 19 339 Non -

4_20 20 668 Non - 5_20 20 796 Non -

Table 8.10 – Avancement de l’annotation syntaxique au début de la campagne d’annotation

76,34 % et de 84,06 % (voir la section 7.4.1 pour les détails). Ces résultats ont été jugés satisfaisants et le modèle obtenu a été utilisé pour préannoter l’échantillon 3_20.

Dans cette étape du travail, une fonctionnalité de Talismane s’est montrée particuliè- rement utile. Il s’agit de la possibilité d’obtenir dans la sortie du parser les probabilités pour chaque étiquette émise. Nous avons exploité cette possibilité pour trier l’annotation produite de sorte à ne garder que les annotations avec une valeur de probabilité supérieure à 0,85. Nous espérions ainsi permettre aux annotateurs de bénéficier des analyses les plus fiables, en leur épargnant le besoin d’analyser et rectifier des dépendances mal posées. Une fois le filtre appliqué, 11 363 tokens gardaient leur annotation, ce qui correspond à 59 % de l’échantillon. C’est donc cette annotation partielle qui a été importée dans brat et qui a été corrigée et complétée manuellement par les annotateurs (cf. figure 8.8).

Figure 8.8 – Annotation partielle importée dans brat

L’échantillon 3_20 a été validé en 7 jours, correspondant à un total de 70 h de travail. L’échantillon validé devait alors être joint au corpus d’entraînement existant pour permettre un nouvel entraînement de Talismane. Or, ce processus est relativement complexe et exige de convertir les données du format brat vers le format CoNLL, mettre à jour les fichiers de configuration d’apprentissage de Talismane, ré-entraîner l’outil, utiliser le nou- veau modèle pour annoter l’échantillon 4_20, filtrer l’annotation produite, convertir les fichiers au format brat et les importer sur le serveur d’annotation. Ces activités auraient pris une demi-journée, alors qu’il ne restait que 6 jours avant la fin de la campagne. Comme

les annotateurs avaient exprimé leur satisfaction quant à la qualité de la préannotation, il a été décidé de ne pas passer par ce processus, mais d’annoter plutôt l’échantillon 4_20 avec le modèle existant. Le travail a donc été poursuivi sur le nouvel échantillon et la validation a pu être finalisée avant le départ des annotateurs, en 60 h de travail.

Après leur retour à Belgrade, l’une des annotatrices a continué le travail sur l’échan- tillon 5_20. Comme le temps n’était plus un facteur limitant, un ré-entraînement a été fait sur le corpus validé jusque-là, contenant 80 000 tokens. L’entraînement a été effectué dans les mêmes conditions que le premier. Les scores de l’outil se sont améliorés de manière importante : Talismane a obtenu 84,20 % en LAS et 89,70 % en UAS. Sur l’échantillon 5_20, 14 980 tokens (72 %) ont reçu des annotations avec un niveau de confiance supérieur à 0,85. La validation manuelle a été effectuée en 55 h de travail réparties sur 6 semaines. L’annotation syntaxique du corpus dans sa totalité a donc également été finalisée.

Nous n’avons pas effectué d’analyse d’erreur systématique ; néanmoins, dans les phases de discussion dédiées au retour d’expérience, les annotatrices nous ont indiqué que la pré- annotation était la plus fiable sur les relations intra-propositionnelles, notamment sur les dépendants directs du verbe et sur les relations à l’intérieur du groupe nominal. En revanche, les relations liées à la coordination et à la subordination étaient souvent problé- matiques.

8.6.2 Performances de Talismane et vitesse des annotateurs humains

Même s’il y a eu moins de cycles d’entraînement pour l’annotation syntaxique que pour l’annotation morphosyntaxique, nous avons tout de même pu observer les résultats du parser et la vitesse d’annotation des annotateurs humains en fonction de la taille du corpus d’entraînement utilisé pour la création du modèle de préannotation. La vitesse des annotatrices en annotation manuelle intégrale a été évaluée au démarrage de la campagne, sur des échantillons non annotés d’environ 2 000 tokens.

Le tableau 8.12 indique que l’annotation syntaxique est la tâche la plus lente parmi les trois considérées. Les mêmes observations globales restent par ailleurs valides ici : l’augmentation du corpus d’apprentissage mène à une amélioration des scores de l’outil automatique, et la vitesse d’annotation manuelle suit cette tendance. Bien qu’il soit difficile d’estimer l’effet d’apprentissage sur la vitesse d’annotation manuelle, ces améliorations importantes suggèrent encore une fois que la méthode de travail choisie était pertinente et efficace.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 189-191)