Qualité de l’annotation manuelle - Un treebank pour le serbe : constitution et exploitations

L’utilité d’un corpus dépend directement de la qualité de l’annotation manuelle : si elle est mauvaise, cela affecte l’apprentissage des outils automatiques, les résultats d’éva- luation, mais aussi la ré-utilisabilité du corpus. Or, comme le rappelle Fort (2012, p. 49), il n’est pas possible de mesurer automatiquement la validité d’une annotation manuelle (son caractère vrai ou faux) ; on doit se contenter d’en évaluer la fiabilité, autrement dit, la cohérence avec laquelle elle a été réalisée. Une fois les jeux d’étiquettes définis, il est donc nécessaire de s’assurer que les étiquettes retenues soient utilisées de manière systéma- tique à travers le corpus. Des méthodes ont été définies pour accompagner ce processus, qui incluent : les schémas et guides d’annotation (section 2.4.1), l’annotation manuelle redondante (section 2.4.2) et l’évaluation de l’accord inter-annotateurs (section 2.4.3).

2.4.1 Schémas et guides d’annotation

Un schéma d’annotation correspond à l’ensemble des règles d’application d’un jeu d’éti- quettes. Un guide d’annotation est un document qui exprime le schéma d’annotation dans un format destiné à des annotateurs humains. Il contient donc des instructions détaillées pour l’utilisation de chaque étiquette, et notamment pour le traitement des cas de figure problématiques. Les annotateurs humains sont censés maîtriser les guides et s’y reporter systématiquement au cours de l’annotation afin de vérifier leurs décisions. Cela permet de garantir la cohérence entre différents annotateurs (accord inter-annotateurs), mais aussi entre les annotations produites par le même annotateur tout au long du projet (accord intra-annotateur).

Un exemple de guide d’annotation disponible est celui de PDT15. Ce document d’en- viron 300 pages indique les principes globaux d’annotation (structure des arbres, attributs des nœuds, lien avec l’annotation morphosyntaxique) et donne des instructions détaillées pour l’utilisation de toutes les étiquettes du jeu syntaxique, en les accompagnant de nom- breux exemples. Hajič (2005) précise que la constitution du guide a été un processus long et cyclique : les règles posées étaient modifiées et complétées en continu selon le matériel rencontré dans les données.

Vu l’effort nécessaire pour constituer un tel document, il pouvait être bénéfique d’adop- ter un guide d’annotation déjà existant, tel que celui du projet PDT ou encore celui du projet UD. Cependant, nous avons déjà détaillé les raisons pour lesquelles nous ne le fai- sons pas (cf. sections 2.3.4 et 2.3.5). Par conséquent, nous avons rajouté la création des guides d’annotation parmi les tâches à réaliser dans cette thèse.

2.4.2 Annotation manuelle redondante

Une autre manière d’assurer la qualité de l’annotation manuelle est de mettre en place des annotations redondantes. Dans ce cadre de travail, plusieurs annotateurs traitent le même contenu indépendamment les uns des autres. Cela permet de confronter leurs productions par la suite et de détecter les points de divergence. Ces divergences doivent ensuite être étudiées et résolues pour établir l’annotation finale du corpus.

Différents scénarios de travail concrets peuvent être envisagés. Par exemple, dans la constitution de PDT, l’annotation morphosyntaxique était faite entièrement en double, et les divergences ont été résolues par un troisième annotateur (Hajič, 2005). Dans le cas du treebank NEGRA, tous les niveaux d’annotation ont été faits en double, et les divergences étaient résolues par un consensus des deux annotateurs travaillant en parallèle (Brants et al., 2003). Enfin, dans le cas de FTB, l’annotation morphosyntaxique était effectuée par un annotateur et validée par un deuxième (Abeillé et al., 2003).

Ces démarches assurent effectivement une meilleure cohérence des annotations, et per- mettent par ailleurs d’identifier les points problématiques récurrents, ce qui peut mener à une amélioration des guides d’annotation. En revanche, elles présentent un désavantage pratique important : elles augmentent le temps nécessaire pour réaliser l’annotation du corpus.

Comme la durée de ce projet était fortement contrainte, une annotation redondante complète était difficile à réaliser. Nous l’avons cependant intégrée ponctuellement dans le processus d’annotation, ce qui nous a permis de faire des évaluations de l’accord inter- annotateurs dans le but d’évaluer les guides et les annotateurs humains.

2.4.3 Accord inter-annotateurs

La cohérence des annotations peut être explicitement mesurée en évaluant l’accord inter-annotateurs. Cette mesure exprime le taux d’accord entre deux (ou plusieurs) annotateurs traitant le même contenu indépendamment l’un de l’autre. Il peut être basé sur un simple pourcentage d’annotations concordantes ou bien sur des mesures plus complexes, telles les mesures de la famille kappa, dont le kappa de Cohen. Le taux d’accord inter- annotateurs est typiquement exploité de deux manières principales : au début d’un projet, cette mesure peut être utilisée pour évaluer la qualité du guide d’annotation, alors que dans des étapes ultérieures elle permet d’estimer la cohérence des annotations dans le corpus. Il peut être calculé entre différents annotateurs, ou entre un annotateur et l’annotation de référence. Ce dernier mode d’utilisation permet notamment d’évaluer la production d’un annotateur.

À titre d’illustration, Marcus et al. (1993) indiquent que le degré de désaccord au niveau des annotations morphosyntaxiques dans PennTreebank est de 4,1 % entre annotateurs, et

de 4 % en moyenne entre les annotateurs et l’annotation de référence, typiquement établie à travers une annotation redondante. Dans le cas de PDT, le désaccord entre les annotateurs est de 3 %, et celui entre les annotateurs et la référence varie entre 1 % et 5 % (Hajič, 2005). Il est intéressant de remarquer que le jeu d’étiquettes morphosyntaxiques décrit dans ce travail contient 4712 étiquettes différentes (idem Hajič, 2005, p. 56), alors que le jeu de PennTreebank en contient 36. La cohérence de l’annotation du corpus tchèque n’a donc pas été impactée par la taille du jeu d’étiquettes. Le corpus NEGRA signale un taux d’accord en morphosyntaxe (avec 54 étiquettes) de 98,6 % (Brants, 2000a). Pour le même treebank, l’accord inter-annotateurs au niveau des structures syntaxiques est de 92,4 %.

Le kappa de Cohen (Carletta, 1996) prend en compte l’accord relatif des annotateurs et la probabilité d’un accord aléatoire. Si l’accord des annotateurs est parfait, la valeur de kappa est égale à 1, et s’ils sont complètement en désaccord ou en accord uniquement dû au hasard, le kappa est proche de 0. L’interprétation des valeurs intermédiaires est une question plus complexe. Plusieurs échelles ont été définies dans ce but (cf. Krippendorff, 1980 ; Green, 1997 ; Landis & Koch, 1977) ; nous reprenons ici celle de Landis & Koch (1977) (cf. tableau 2.5).

Valeur de kappa Force de l’accord <0,00 Mauvais 0,00-0,20 Faible 0,21-0,40 Médiocre 0,41-0,60 Modéré 0,61-0,80 Important 0,81-1,00 Quasi-parfait

Table 2.5 – Échelle de valeurs de kappa de Cohen définie dans (Landis & Koch, 1977)

À titre d’illustration, cette mesure a été utilisée par Urieli (2013) pour évaluer l’accord inter-annotateurs sur le corpus FrWikiDisc, qui contient des discussions Wikipédia. L’accord a été calculé sur les dépendances labellisées du corpus. Le kappa de Cohen était de 0,86 entre les deux annotateurs, et les annotateurs avaient atteint respectivement un taux de 0,97 et 0,88 par rapport à l’annotation de référence.

Malgré des critiques récentes et des propositions d’autres mesures (cf. Artstein & Poesio, 2008), le kappa de Cohen reste une mesure standard communément utilisée pour l’évaluation de l’accord inter-annotateurs (cf. Urdu treebank (Bhat & Sharma, 2012a), Hinoki treebank du japonais (Bond et al., 2008), treebank EPEC du basque (Uria et al., 2009), Prague Discourse Treebank (Poláková et al., 2014), treebanks HOBS et SETimes.hr du croate (Agić & Merkler, 2013)). Nous l’avons également mise en œuvre dans le cadre d’une évaluation de la qualité des guides d’annotation et des annotateurs humains (cf.

section 7.5).

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 64-67)