Taille des jeux d’étiquettes syntaxiques : granularité faible obligatoire ?

2.3 Jeux d’étiquettes : principes et enjeux

2.3.4 Taille des jeux d’étiquettes syntaxiques : granularité faible obligatoire ?

La tendance à réduire le jeu d’étiquettes, que nous avons remarquée dans le cadre de l’étiquetage morphosyntaxique, peut également être repérée en parsing. C’est le cas des premiers projets de création de treebank pour le croate et le slovène. Le premier treebank croate (cf. Tadić, 2007 ; Berović et al., 2012) exploite un jeux de 70 étiquettes syntaxiques basé sur celui du corpus tchèque PDT. Or, suite aux remarques des annotateurs humains, relatives au fait que ce jeu était mal adapté au croate, un nouveau jeu de 15 étiquettes a été mis en place (Agić & Merkler, 2013). Quant au slovène, la création du premier treebank pour cette langue a également été basée sur un jeu d’étiquettes adapté à partir de celui de PDT (Džeroski et al., 2006) ; celui-ci a été remplacé par un ensemble de 10 étiquettes lors de la création d’un deuxième treebank slovène (Erjavec et al., 2010).

Cette démarche a eu des effets positifs dans le cas du croate : elle a permis d’améliorer l’accord inter-annotateurs lors de la création du treebank SETimes, et elle a également mené à de meilleurs résultats de parsing (cf. Agić & Merkler, 2013). Cependant, cette réduction importante du jeu d’étiquettes entraîne de nombreuses simplifications difficiles à justifier du point de vue linguistique. Par exemple, dans SETimes.hr (Agić & Ljubešić, 2014), tous les arguments d’un verbe portent l’étiquette Objsans faire la distinction entre les objets directs et indirects, même si celle-ci est systématiquement marquée au niveau des cas. On y trouve également des étiquettes regroupant des phénomènes très hétérogènes : l’étiquetteAtvest utilisée pour annoter les participes, mais aussi les compléments verbaux sous forme d’infinitifs, ainsi que des éléments qui correspondent à l’attribut du sujet et à l’attribut de l’objet direct en français. Cette perte d’information limite l’utilité du corpus non seulement pour des recherches en linguistique, mais aussi pour diverses exploitations en TAL : une distinction telle que celle entre l’objet direct et l’objet indirect peut être précieuse dans le cadre de la traduction automatique ou bien de l’extraction d’événements.

Or, d’après les résultats de Mille et al. (2012) sur l’espagnol, ce sont précisément les étiquettes qui couvrent des phénomènes trop hétérogènes qui posent le plus de problèmes aux parsers. Le même travail indique également qu’un jeu d’étiquettes syntaxiques plus étendu n’entraîne pas forcément une perte de performances en parsing. Nous analysons les détails de ce travail dans la suite.

Cette étude a été effectuée sur le treebank espagnol Ancora-UPF. Dans le cadre de ce projet, un effort important a été consacré à la constitution du jeu d’étiquettes syntaxiques et à l’examen de l’effet de sa granularité sur les performances en parsing. Tout d’abord, Burga et al. (2011) ont mis en place un système d’identification des fonctions syntaxiques basé sur des critères inspirés de la Théorie Sens-Texte (TST), portant notamment sur les propriétés morphosyntaxiques du gouverneur et du dépendant et sur les caractéristiques de leur ordre linéaire dans la phrase. L’utilisation de ce système a abouti à un ensemble de 70 fonctions syntaxiques. Dans une deuxième étape présentée dans (Mille et al., 2012), ces 70 fonctions ont été transformées en un jeu maximal de 60 étiquettes, avec 3 versions plus restreintes, contenant respectivement 44, 31 et 15 étiquettes. Les 4 versions du jeu ont été utilisées pour évaluer 4 parsers différents : celui de (Che et al., 2009) désigné comme Che, celui de (Gesmundo et al., 2009) désigné comme Merlo, celui de (Bohnet, 2009) désigné comme Bohnet, ainsi que Malt parser de (Nivre et al., 2007b). Il y a donc 16 scénarios d’évaluation au total. Les résultats indiqués dans (Mille et al., 2012) sont repris dans le tableau 2.4.

LAS UAS

Taille jeu synt. Taille jeu synt. Parser 15 31 44 60 15 44 31 60 (Bohnet, 2009) 84,69 84,28 84,11 81,95 90,27 90,31 90,39 90,49 (Che et al., 2009) 85,11 84,67 84,24 75,14 90,6 90,57 90,37 86,28 (Nivre et al., 2007b) 82,2 82,1 81,9 79,7 87,75 87,83 88 87,91 (Gesmundo et al., 2009) 84,52 84,05 84,53 82,32 - 90,39 90,67 90,11

Table 2.4 – Résultats du parsing en fonction de la taille du jeu syntaxique (Mille et al., 2012)

Les résultats montrent que le score LAS12 diminue de plus de 2 points entre le jeu minimal et le jeu maximal pour les 4 parsers. En revanche, il diminue très légèrement (voire pas du tout) en passant du jeu minimal à celui de 31 tags. Même lors du passage vers le jeu de 44 étiquettes, la diminution la plus importante est de 0,87 pour le parser de Che et al. (2009). En ce qui concerne le score UAS13, les résultats sont encore plus

12. Labelled Attachment Score : pourcentage des tokens pour lesquels le gouverneur et la fonction syntaxique ont été correctement identifiés (cf. section 3.4).

stables : pour les parsers de (Bohnet, 2009) et (Nivre et al., 2007b), la variation maximale à travers les scénarios est de 0,25 et c’est également le cas du parser (Che et al., 2009) sauf pour le scénario avec 60 étiquettes, où il marque la perte la plus importante de toute l’expérience (4,32 points). Pour l’outil de (Gesmundo et al., 2009), la variation maximale est de 0,56.

D’autres corpus utilisant des jeux syntaxiques à granularité forte confortent ces ré- sultats. Le treebank russe SynTagRus utilise environ 80 étiquettes syntaxiques, dont plus de la moitié proviennent des travaux de I. Mel’čuk sur le russe dans le cadre de la TST (Boguslavsky et al., 2002b). Malgré ce nombre d’étiquettes important, les tests de parsing donnent des résultats solides : Malt parser atteint un score LAS de 82,3 points, et un score UAS de 89,1 points (Nivre et al., 2008). Ces résultats sont comparables à ceux obtenus sur d’autres langues slaves dans le cadre de la tâche partagée de CoNNL-X (Buchholz & Marsi, 2006). Il faut néanmoins noter que le corpus est large (environ 400 000 tokens), ce qui facilite l’apprentissage.

Le travail de Agić et al. (2014) sur HOBS 2.0 (Hrvatska ovisnosna banka stabala, Croatian Treebank, version 2.0) est un autre exemple des effets positifs d’une augmentation de granularité dans le jeu d’étiquettes syntaxiques. Dans cette deuxième version du corpus, l’étiquette unique utilisée pour tout type de propositions subordonnées a été remplacée par des étiquettes dédiées, de sorte que la taille du jeu est passée de 70 à 81 étiquettes. Une évaluation des deux schémas d’annotation a montré que le nouveau jeu d’étiquettes apportait une amélioration des scores LAS (+3,88 points) et UAS (+2,72 points) (Agić et al., 2014). Cet effet est probablement dû à l’effort d’homogénéiser le traitement des différents types des subordonnées.

Les travaux présentés ci-dessus ont motivé deux principes retenus pour notre travail. Tout d’abord, les résultats mitigés des travaux qui ont réutilisé le jeu d’étiquettes du PDT sur d’autres langues slaves nous ont motivée à abandonner cette piste. Par ailleurs, une telle démarche aurait été contradictoire avec notre souhait de constituer une ressource dédiée au serbe. Nous optons donc pour la création d’un nouveau jeu d’étiquettes syntaxiques. Quant aux principes de constitution de ce jeu, nous prenons en compte les implications du travail de Burga et al. (2011) et de Mille et al. (2012) : nous n’essayons pas de minimiser le nombre d’étiquettes syntaxiques à tout prix ; nous cherchons plutôt une bonne expressivité au niveau syntaxique, avec des distinctions basées sur des critères de surface. Nous visons également une structuration du jeu qui permet une conversion facile vers des jeux moins étendus selon les besoins.

2.3.5 Jeu d’étiquettes syntaxiques Universal Dependencies

Étant donné la popularité croissante du projet UD, le jeu d’étiquettes qu’il propose mérite d’être abordé plus en détail. En effet, comme mentionné dans la section 2.1, ce projet compte désormais plus de 100 treebanks et la campagne d’évaluation CoNLL2017 a été entièrement dédiée au parsing basé sur ce formalisme14. Nous présentons dans la suite ses principales propriétés.

Comme nous l’avons déjà dit, le projet UD a pour objectif la création d’un ensemble de corpus de différentes langues qui partagent les mêmes principes d’annotation. Ainsi se constitue une base de données linguistiques directement comparables à travers les langues. Pour ce faire, le projet définit des inventaires d’étiquettes pour différents niveaux d’annotation, censées permettre la description linguistique de toute langue ; les auteurs d’un treebank particulier puisent ensuite dans ces répertoires pour sélectionner les étiquettes pertinentes pour la langue traitée.

Au niveau morphosyntaxique, l’annotation est divisée en deux couches : pour l’annotation des parties du discours, un jeu de 17 étiquettes est proposé (adjectif, adverbe, nom, adposition, pronom, etc.), alors que le jeu pour la description des traits morphosyntaxiques fins contient 48 traits différents, qui peuvent être lexicaux (type de pronom, type de numéral, etc.), nominaux (genre, nombre, définitude, etc.) ou verbaux (mode, temps, polarité, etc.). Les valeurs possibles de ces traits sont également définies par le projet.

Quant à l’annotation syntaxique, le projet propose un ensemble de 37 étiquettes de base, communes à tous les treebanks. Pour accommoder les spécificités des langues in- dividuelles, un deuxième ensemble d’étiquettes est mis en place : il s’agit d’une sous- catégorisation des étiquettes basiques, ce qui permet donc une qualification plus fine des relations syntaxiques. Il existe 198 étiquettes fines, mais en général seul un petit sous- ensemble est utilisé dans une langue donnée. À titre d’illustration, 17 étiquettes de ce type sont utilisées pour l’annotation du français.

L’uniformisation de l’analyse syntaxique pour l’ensemble des langues représentées dans le projet introduit des contraintes fortes. Nous avons déjà évoqué le traitement des dé- pendants verbaux dans la section 2.3.3 ; la décision de n’annoter comme objet direct ou indirect que les réalisations prototypiques de ces dépendants vient de la volonté d’har- moniser la représentation de ces éléments à travers les différentes langues. Cependant, cela signifie que la phrase française Donne leur les jouets contient un objet indirect (ex- primé par le pronom au datif), alors que la phrase Donne les jouets aux enfants est plutôt dotée d’un dépendant oblique du verbe, vu que la forme enfants est introduite par une préposition.

14. Un descriptif de la campagne est disponible à l’adresse suivante : http://universaldependencies. org/conll17/.

Afin d’établir un parallèle entre les langues à cas et les langues qui n’en disposent pas, on introduit un traitement particulier pour les prépositions : elles sont considérées (tout comme les postpositions) comme marqueurs de cas et annotées comme des dépendants des noms qu’elles introduisent. Par conséquent, dans une phrase comme Je donne le livre à Pierre, le verbe donner est considéré comme le gouverneur du nom Pierre, qui gouverne à son tour la préposition à.

Un autre exemple concerne le traitement des phrases à copule. Pour avoir des traite- ments comparables entre les langues qui ont des verbes copules et celles qui n’en ont pas (cf. le russe ou l’arabe), on considère que la racine de ce type de phrase est la forme introduite par la copule. Autrement dit, dans la phrase Pierre est honnête, l’adjectif honnête est annoté comme la racine, et il gouverne le nom Pierre en tant que sujet, et le verbe est en tant que copule.

Ces deux derniers exemples illustrent l’un des principes de base du projet UD : la pri- mauté des mots lexicaux par rapport aux mots fonctionnels. Comme mentionné ci-dessus, ce mécanisme est adopté dans un souci d’assurer un traitement universel entre différentes langues, et il permet effectivement de lisser certaines différences. Nous constatons cependant qu’il peut mener à des règles d’annotation qui sont contraires à la tradition linguistique d’une langue donnée. Qui plus est, comme le soulignent Groß & Osborne (2015), ce principe va à l’encontre de la majorité des travaux en syntaxe théorique, où la position prépondérante est que les mots fonctionnels gouvernent les mots lexicaux (cf. Pollard & Sag, 1994 ; Bresnan, 2001 ; Chomsky, 1995, 1993 ; Hudson, 1984 ; Mel’čuk, 1988). Au-delà de ce statut problématique du point de vue théorique, Groß & Osborne (2015) indiquent également des situations problématiques en corpus, parmi lesquelles la représentation des structures à verbes supports, de la négation phrastique et de l’ellipse du groupe verbal en anglais (ibid, p. 112-115). Du fait que cette représentation s’appuie sur des relations entre les mots lexicaux, elle peut également être interprétée comme plus proche d’une structure sémantique que syntaxique, notamment si l’on considère une syntaxe de surface telle que définie dans la théorie TST (Mel’čuk, 1988).

Le nombre de langues qui participent au projet UD semble démentir ces critiques : elle sont plus de 60 à avoir été annotées en utilisant ce jeu d’étiquettes. Toutefois, nous avons décidé de ne pas l’adopter dans le cadre de cette thèse. Cette décision est motivée en premier lieu par le fait que ce formalisme a des effets concrets sur la représentation de divers phénomènes dans le corpus. Plus particulièrement, ces principes d’annotation divergent de manière importante de la tradition grammaticale serbe, qui favorise les têtes fonctionnelles. Nous ne les considérons donc pas adaptés à l’annotation de notre corpus. Pour rappel, notre treebank devait devenir la première ressource de ce type pour cette langue. Il était donc justifié d’adopter un schéma d’annotation spécifique à cette langue.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 59-64)