Mise au point du guide d’annotation syntaxique

7.5 Mise au point des guides d’annotation

7.5.2 Mise au point du guide d’annotation syntaxique

Cette tâche a été confiée à deux annotatrices serbophones de l’Université de Belgrade. L’une d’entre elles faisait partie du groupe qui avait participé à l’évaluation de l’accord inter-annotateurs pour la morphosyntaxe (niveau M1), alors que l’autre avait été recru- tée au Département d’études romanes à l’Université de Belgrade (niveau L3). Les deux annotatrices avaient été formées à la tâche et avaient déjà eu l’occasion de se familiariser avec l’annotation syntaxique sur corpus en utilisant notre guide d’annotation. Elles avaient effectué un minimum de 10 h d’annotation chacune avant le début de l’évaluation.

L’évaluation a été effectuée sur un échantillon de 3000 tokens. Le contenu avait été préannoté en utilisant le parser par transitions Talismane (Urieli, 2013) selon les modalités décrites dans la section 7.4. Les annotatrices avaient donc à corriger et compléter l’analyse partielle produite par l’outil.

Le travail a été effectué en environ 3 semaines. Pour estimer le taux d’accord, nous avons de nouveau utilisé la mesure de kappa de Cohen (cf. section 2.4). Nous nous sommes servie de la fonctionalité evaluate du parser Talismane pour calculer l’accord entre les deux annotatrices, mais aussi entre chacune des annotatrices et l’annotation de référence. Le calcul a été fait sur le score LAS. Les résultats sont donnés dans le tableau 7.12.

Scénario kappa de Cohen Annot1 vs Annot2 0,94

Annot1 vs Réf 0,94 Annot2 vs Réf 0,93

Table 7.12 – Accord inter-annotateurs en annotation syntaxique

selon l’échelle d’interprétation proposée par Landis & Koch (1977). Le taux d’accord des annotatrices par rapport à l’annotation de référence est également remarquable.

Afin d’identifier les points problématiques, nous avons analysé les matrices de confusion pour chacune des annotatrices. Les mêmes groupes d’étiquettes se sont avérés difficiles pour les deux.

Les étiquettes dédiées au traitement de l’ellipse ont généré le plus d’erreurs. Pour essayer de contrer cet effet, nous avons introduit des tests dans le guide d’annotation pour faciliter l’identification du gouverneur d’une forme dépendante d’un élément élidé.

Quant à l’identification des étiquettes, les confusions les plus nombreuses concernent le traitement des subordonnées complétives et du sujet logique. Les erreurs sur les com- plétives étaient dues à une conjonction serbe polysémique, da. Elle peut être équivalente de que en français et introduire des complétives (Filip traži da Ana dođe ‘Filip demande qu’Ana vienne’), mais elle peut également signifier si dans les phrases hypothétiques ir- réelles (Da si došao, sve bi video ‘Si tu étais venu, tu aurais tout vu’), ou encore avoir un sens final (Filip se sakrio da ga Ana ne vidi ‘Filip s’est caché pour qu’Ana ne le voie pas). Afin de faciliter la distinction de ces cas de figure, de nouveaux exemples ont été rajoutés au guide, ainsi que des rappels explicites de la nature problématique de la conjonction da.

En ce qui concerne le sujet logique, cette fonction a été confondue avec l’objet direct et l’objet indirect casuel. Ceci reflète les problèmes d’ambiguïté de la forme du sujet logique évoquées dans la section 5.2.5. Il faut souligner cependant qu’il n’y avait que 3 occurrences de cette fonction dans l’échantillon de test. Il est donc relativement difficile d’évaluer l’ampleur de ce problème. Nous avons néanmoins inclus des exemples supplémentaires dans le guide d’annotation pour illustrer plus clairement la distinction entre ces fonctions.

7.6 Bilan intermédiaire

Grâce aux démarches décrites dans ce chapitre, nous avons complété le premier stade de notre méthode : le travail de préparation pour la campagne d’annotation. Plus particu- lièrement, nous avons complété et évalué nos guides d’annotation, d’abord à travers une première utilisation sur les données, et ensuite dans le cadre des évaluations de l’accord

inter-annotateurs. Nous avons également effectué l’entraînement initial des trois outils et les avons ainsi préparés pour la préannotation automatique. Les différentes activités liées à ce premier entraînement nous ont menée à annoter ou valider manuellement une cer- taine quantité de données ; l’annotation du corpus ParCoTrain-Synt a donc également été entamée.

Tous ces facteurs réunis, nous pouvions passer au stade de la pré-campagne, dédiée au recrutement et à la formation des annotateurs, puis à la campagne d’annotation elle-même. Cette partie de notre travail est décrite dans le chapitre 8.

Campagnes d’annotation manuelle

La majorité de l’annotation manuelle de notre corpus d’apprentissage et d’évaluation a été effectuée dans le cadre de deux campagnes d’annotation avec des annotateurs étudiants. Le projet ParCoLab entretient des liens forts avec le Département d’études romanes à la Faculté de Philologie de l’Université de Belgrade. De nombreux étudiants avaient déjà participé au projet, notamment dans le cadre de la vérification manuelle des alignements et dans la préparation de différents types de contenu pour l’intégration au corpus. Ce groupe d’étudiants a servi de vivier principal pour l’identification des candidats à la tâche d’annotation manuelle.

Les deux campagnes d’annotation ont été organisées à l’Université de Toulouse - Jean Jaurès. La première campagne a duré 2 semaines, et la deuxième 3. Les étudiants retenus ont été accueillis par le laboratoire CLLE, où la majorité de leur travail s’est déroulée. Ces séjours ont été possibles grâce à un financement fourni par le projet ParCoLab, obtenu dans le cadre d’un projet bilatéral franco-serbe PHC « Pavle Savic », alloué par Campus France.

La suite de ce chapitre est dédiée aux aspects pratiques de ces campagnes. Tout d’abord, nous décrivons le stade de la pré-campagne : la sélection des interfaces d’annotation, aussi bien pour l’annotation morphosyntaxique et la lemmatisation (section 8.1) que pour l’annotation syntaxique (cf. section 8.2), alors que la section 8.3 décrit la démarche de sélection et de formation des annotateurs. Ensuite, nous présentons les conditions de travail et les résultats obtenus dans les campagnes d’annotation par niveau d’annotation : le travail en morphosyntaxe est décrit dans la section 8.4, celui en lemmatisation dans la section 8.5, et celui en syntaxe dans la section 8.6, suivi d’un bilan dans la section 8.9. La dernière phase de ce projet, la finalisation du corpus, est abordée dans la section 8.8. Enfin, la section 8.9 résume les apports des campagnes, mais aussi du processus de la constitution de ParCoTrain-Synt.

8.1 Interface d’annotation manuelle pour l’étiquetage mor-

phosyntaxique et la lemmatisation

La relative simplicité des tâches d’annotation morphosyntaxique et de lemmatisation nous a permis d’avoir recours à un outil de base, ne nécessitant pas d’apprentissage : un tableur. En effet, la sortie de l’étiqueteur et du lemmatiseur se présente dans un format verticalisé, où une ligne correspond à un token. Chaque ligne contient le token lui-même et l’annotation qui lui a été attribuée par l’outil de traitement. Il était donc simple de traiter ces fichiers de sortie comme des fichiers .csv et de les importer dans un tableur.

Des aménagements ont été faits pour garantir un certain degré d’ergonomie, notamment pour l’annotation morphosyntaxique. Pour rappel, HunPos reproduit les étiquettes morphosyntaxiques du corpus d’apprentissage. Il s’agit d’étiquettes complexes exprimant la partie du discours, mais aussi une série de traits morphosyntaxiques sous forme de codes. Cela rend la correction de l’annotation difficile.

À titre d’illustration, un extrait de la sortie de HunPos est donné dans la figure 8.1. Dans cet exemple, le token noćne (forme fléchie de noćni ‘nocturne’) est annoté comme adjectif à l’accusatif pluriel du féminin au positif (A=adjectif, qual=qualificatif, acc=accusatif, pl=pluriel, f=féminin, pos=positif), et le token hladnoće (forme fléchie de hladnoća ‘froid’) comme nom commun féminin au nominatif pluriel (N=nom, com=commun, nom=nominatif, pl=pluriel, f=féminin). Or, les deux formes sont au génitif singulier, im- posé par la préposition od ‘de’. L’étiquette correcte pour l’adjectif serait donc

A_qual_gen_sg_f_pos, et celle du nom N_com_gen_sg_f.

od Prep

noćne A_qual_acc_pl_f_pos hladnoće N_com_nom_pl_f je V_aux_pres_3_sg_-_- kašljao V_main_partact_-_sg_m_-

Figure 8.1 – Illustration de la sortie de HunPos

Afin de faciliter la détection des erreurs et la correction des étiquettes, nous avons mis en place un autre format, dans lequel chaque trait occupe une colonne, et les valeurs des traits sont données en mots pleins. L’extrait correspondant à celui ci-dessus est donné dans la figure 8.2.

Ce format facilite l’accès à chaque type d’information, et pour effectuer une correction, il suffit de modifier la valeur du trait erroné sans se soucier du reste de l’étiquette. Ce- pendant, on remarque que la même colonne correspond à différents traits en fonction de la partie du discours. Pour simplifier l’identification des traits, nous avons créé un en-tête dynamique : les intitulés des colonnes, qui correspondaient aux noms des traits représentés

od Prep

noćne A opsti akuzativ mnozina zenski rod pozitiv hladnoće N opsta nominativ mnozina zenski rod

je V pomocni prezent trece lice jednina — —

kašljao V glavni particip_radni — jednina muski rod —

Figure 8.2 – Illustration de la transformation explicite de la sortie de HunPos

dans les colonnes, changent en fonction de la valeur de la colonne contenant la partie du discours. Par conséquent, dès que l’annotateur apporte une correction à la partie du discours, l’en-tête change pour indiquer les traits appropriés. Deux en-têtes différents (celui du pronom et celui du verbe) sont montrés dans la figure 8.3.

Figure 8.3 – En-tête dynamique pour l’annotation morphosyntaxique

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 171-177)