Finalisation du corpus et améliorations possibles

Comme nous l’avons noté à la fin des sections 8.4, 8.5 et 8.6, ces deux campagnes d’annotation nous ont permis de valider l’annotation du corpus ParCoTrain-Synt aux trois niveaux d’annotation retenus. Nous avons donc passé à la dernière phase de ce projet : la

finalisation du corpus. Dans cette étape, nous avons, en tant qu’annotateur expérimenté, effectué l’harmonisation des annotations dans le corpus. Pour ce travail, nous nous sommes servie des versions les plus récentes des guides d’annotation. Durant les campagnes, nous avions établi un inventaire des changements qui ont eu lieu ; l’harmonisation a donc porté sur ces aspects-là.

Une fois ce travail finalisé, nous avons procédé à la préparation du corpus pour la diffusion. Le corpus est diffusé dans le format CoNLL-X. Il s’agit d’un standard de facto pour le stockage des treebanks adaptés au parsing en dépendances. Une ligne correspond à un token, et les différentes colonnes contiennent les informations suivantes : 1) l’ID du token, 2) le token, 3) le lemme, 4) l’étiquette POS gros grain, 5) l’étiquette POS plus spécifique, 6) les traits morphosyntaxiques, 7) l’ID du gouverneur du token et 8) l’étiquette syntaxique du token. Notons que nous exploitons la colonne 5 pour indiquer les étiquettes morphosyntaxiques détaillées. Un extrait du corpus est montré dans la figure 8.9.

Figure 8.9 – Extrait du corpus ParCoTrain-Synt

Suivant une pratique courante dans le TAL, nous l’avons divisé en trois sections : train (destinée à l’entraînement des parsers), dev (dédiée au paramétrage fin) et test (réservée à l’évaluation). Afin d’éviter le biais quant à la longueur des phrases dans différents segments du corpus, les phrases ont été réordonnées de manière aléatoire avant la segmentation du corpus en sections. Quelques informations sur les propriétés du corpus annoté sont données dans le tableau 8.14.

On constate que les étiquettes syntaxiques et les étiquettes des parties du discours sont bien représentées dans toutes les sections, mais c’est moins vrai pour les étiquettes morphosyntaxiques détaillées : sur les 1042 étiquettes détaillées possibles définies par notre jeu d’étiquettes (cf. section 5.1.1), 679 sont instanciées dans le corpus complet, et ce taux est plus bas dans les sections individuelles. Ce fait pourrait se montrer problématique lors de l’utilisation du corpus pour l’entraînement des étiqueteurs morphosyntaxiques sur cette couche d’annotation.

Nous donnons également des indications de la complexité intrinsèque du texte au niveaux syntaxique à travers les mesures de longueur moyenne de la phrase et de profondeur maximale moyenne d’arbre syntaxique. La profondeur maximale est calculée comme la distance en nœuds entre le token le plus profond dans l’arbre et la racine de l’arbre. Ces

deux mesures sont stables à travers les sections du corpus. On peut donc considérer que les différentes sections sont d’une difficulté intrinsèque proche.

Section Tokens Phrases Formes Lemmes Étiq. Étiq. Traits Étiq. Long(ph) Prof(a)

fléchies POS détail. MS synt.

all 101 029 3861 22 739 11 251 16 679 165 67 27,16 6,98 train 80 869 3116 19 598 10 120 16 643 159 67 26,95 6,98 test 10 162 367 4033 2802 15 432 134 60 28,69 7,11 dev 9 998 379 3959 2722 16 424 126 58 27,38 6,88

Table 8.14 – ParCoTrain-Synt : statistiques de base.Long(ph)= longueur moyenne de phrase

en tokens ; Prof(a) = valeur moyenne de la profondeur d’arbre maximale

Le corpus est téléchargeable à partir de l’adresse suivante : https://github.com/ aleksandra-miletic/serbian-nlp-resources/tree/master/ParCoTrain-Synt.

Dans l’avenir, nous souhaitons examiner plusieurs pistes d’amélioration du corpus. Tout d’abord, nous reprendrons certains points de l’annotation syntaxique. Il s’agit en premier lieu des phénomènes volontairement mis de côté au moment de la création du schéma d’annotation (cf. le traitement des datifs, le statut des réflexifs, l’annotation dé- taillée des dépendants verbaux, nominaux et adjectivaux), mais aussi de ceux qui se sont montrés comme non optimaux a posteriori, comme l’ellipse. Des analyses plus poussées ba- sées sur le corpus existant peuvent permettre d’identifier une meilleure manière d’encoder ces phénomènes en corpus.

Nous souhaitons également ré-examiner le traitement des unités polylexicales. Pour le moment, elles ne sont pas regroupées au niveau de la tokénisation, bien que certaines d’entre elles (notamment les locutions grammaticales) sont traitées au niveau syntaxique. Nous envisageons donc de traiter ces expressions comme des tokens uniques et d’évaluer l’effet de cette modification sur le parsing. Ce travail pourrait être basé sur les listes des locutions grammaticales fournies dans (Mrazović, 2009).

Étant donné l’utilité du schéma UD pour différentes applications en TAL (parsing multilingue, comparaisons des parsers, etc.), nous envisageons également une conversion de ParCoTrain-Synt vers ce formalisme. Nous précisons cependant que cette nouvelle annotation ne prendra pas la place de l’annotation existante, mais sera ajoutée comme une couche d’information supplémentaire.

La première piste d’amélioration à être poursuivie concerne le caractère mono-genre du corpus. Afin de combler cette lacune, un projet d’extension et de diversification de ParCoTrain-Synt a été entamé : l’une des annotatrices qui ont travaillé sur l’annotation manuelle a entrepris la constitution d’un échantillon journalistique de 30 000 tokens qui viendra enrichir le corpus existant. Ce travail est effectué dans le cadre de son mémoire de Master 2 à l’Université de Belgrade, que nous co-encadrons avec D. Stosic et V. Stanojevic.

Bien que ces différents aspects du corpus puissent être réexaminés et optimisés, ParCoTrain- Synt s’est déjà montré utile dans plusieurs applications différentes. Dans le chapitre suivant, nous optimisons l’exploitation des traits morphosyntaxiques en parsing à partir de ParCoTrain-Synt, alors que dans la partie III, nous illustrons l’utilité globale du corpus en TAL, mais surtout en linguistique théorique.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 192-195)