Théorie Sens-Texte : propriétés distinctives des relations

5.2 Jeu d’étiquettes syntaxiques et schéma d’annotation

5.2.1 Théorie Sens-Texte : propriétés distinctives des relations

Dans la partie consacrée à la syntaxe de surface de la Théorie Sens-Texte (TST), I. Mel’čuk propose des critères pour identifier les relations syntaxiques de surface (doré- navant RSS) : il formule des principes pour déterminer si deux formes sont reliées par une RSS, pour distinguer le gouverneur et le dépendant dans une RSS, et pour déterminer si deux relations de dépendance relèvent de la même RSS ou non.

Pour pouvoir considérer que deux formes sont reliées par une relation syntaxique di- recte, la TST définit :

— le critère de linéarité, qui postule que la position dans la phrase de l’une des deux formes est déterminée par rapport à la position de l’autre si une relation de dépendance existe entre elles (l’une des formes doit se positionner à gauche ou à droite de l’autre), et

— le critère d’unité prosodique : deux formes liées par une dépendance font une unité prosodique, ou bien l’une des formes peut être liée prosodiquement avec une unité prosodique dont l’autre forme est la tête (Mel’čuk, 1988, pp. 129-132). En ce qui concerne la direction de la relation, entre deux formes reliées par une relation syntaxique, le gouverneur est :

— la forme qui détermine la valence passive du syntagme (son schéma distribu- tionnel), ou

— dans les cas où les deux formes appartiennent à la même catégorie grammaticale (et ont par conséquent les mêmes propriétés distributionnelles), le gouverneur est la forme qui représente le point de contact morphologique avec le contexte (ibid, pp. 133-138).

Mel’čuk propose également deux autres principes concernant l’orientation de la relation syntaxique : l’omissibilité (en règle générale, c’est le dépendant qui peut être omis de l’arbre syntaxique, et non pas le gouverneur) et la prédictibilité (le dépendant permet de « prédire » la présence de son gouverneur ; par exemple, un déterminant « prédit » la présence d’un nom). Il souligne cependant que ces critères ne sont pas infaillibles et leur accorde le statut d’heuristique utile, à utiliser avec précaution (ibid, pp. 139-140).

Enfin, pour considérer que deux relations de dépendance relèvent de la même fonction syntaxique, l’un ou plusieurs des critères suivants doivent être respectés :

— Test des paires minimales : une même relation de dépendance ne peut pas décrire deux constructions différentes basées sur les mêmes lexèmes qui exhibent un contraste sémantique tout en ne se distinguant que par un élément de nature syntaxique (cf. the visible stars ‘les étoiles qui sont visibles en principe’ vs the stars visible ‘les étoiles qui sont visibles en ce moment’) (cf. Mel’čuk, 2009, pp. 34-35) ;

— Caractère interchangeable des sous-arbres : si deux relations de dépendance relèvent de la même fonction syntaxique, il doit être possible de remplacer le dé- pendant de l’une par le dépendant (ou le sous-arbre dont le dépendant est la tête) de l’autre. Dans une variante moins stricte, ce critère exige que pour chaque relation de dépendance il existe un dépendant prototypique qui est adapté à chaque gouverneur possible de cette relation (cf. Mel’čuk, 2009, pp. 35-37).

— Caractère répétable du dépendant : le dépendant d’une relation peut être soit répétable avec n’importe quel gouverneur, soit non répétable ; si les deux paires de dépendances considérées n’ont pas le même comportement par rapport à ce critère, il s’agit de relations différentes (cf. Mel’čuk, 2009, pp. 37-39).

Ces critères généraux sont des outils qui permettent d’analyser les dépendances rencon- trées, mais ils ne sont pas suffisants pour dresser un inventaire des RSS d’une langue. Ceci est en grande partie dû à la nature même des RSS : à la différence des relations de syntaxe profonde, qui peuvent être considérées comme indépendantes de la langue, l’ensemble des RSS est spécifique à chaque langue donnée. Le travail d’identification des relations syntaxiques doit donc être effectué pour chaque langue indépendamment des autres, et exige l’application de critères plus spécifiques, eux aussi dépendants de la langue, qui s’ajoutent aux critères de base présentés ci-dessus.

Cette approche a été utilisée par Mel’čuk et ses différents collaborateurs afin d’identifier les relations syntaxiques de surface dans différentes langues, notamment en russe (Mel’čuk, 1995), en anglais (Mel’čuk & Pertsov, 1987 ; Mel’čuk, 2003) et en français (Iordanskaja & Mel’čuk, 2009). Dans ce dernier travail, par exemple, les auteurs dérivent un ensemble de critères plus spécifiques qui leur permettent de comparer les différentes relations qui s’établissent entre un verbe et ses dépendants argumentaux en français. Ces critères re- lèvent des propriétés du gouverneur et du dépendant de la relation en question. Ils peuvent être syntaxico-sémantiques (le dépendant fait partie de la structure argumentale du verbe ou non), purement syntaxiques (caractère obligatoire ou non du dépendant, possibilité de pronominalisation par un clitique, implication dans la promotion/démotion, etc.), ou syntaxico-morphologiques (le fait d’être la cible de l’accord morphologique, le fait de gou- verner l’accord du verbe principal, etc.) (p. 157-160). A travers cette méthode, les auteurs examinent différentes relations de dépendances de manière systématique (en utilisant le même ensemble de paramètres) et établissent ainsi une liste cohérente des relations syntaxiques qui peuvent exister entre un verbe et son argument en français.

La même approche a été mise en œuvre dans les travaux de (Burga et al., 2011 ; Mille et al., 2012). Pour garantir l’adaptation de cette méthode au travail en corpus, Burga et al. (2011) posent les contraintes supplémentaires suivantes sur l’élaboration des critères :

ou morphologiques) ;

— ils doivent être faciles à reconnaître et ne peuvent pas être trop nombreux, afin d’assurer une implémentation réussie dans le cadre d’une annotation manuelle. Les résultats des évaluations effectuées, décrits dans la section 2.3.3, ont montré qu’il est possible d’augmenter la granularité d’un jeu d’étiquettes syntaxiques de manière im- portante sans remettre en cause la qualité du parsing. Comme ces conclusions coïncident parfaitement avec notre double objectif d’établir une annotation aussi détaillée que possible du point de vue linguistique mais capable d’assurer un parsing performant, nous adoptons le même procédé général. Nous reprenons donc la liste des critères d’identification des relations syntaxiques proposée par les auteurs et l’adaptons au serbe. L’ensemble des critères retenus est donné ci-dessous.

Liste des propriétés utilisées dans l’identification des relations syntaxiques — catégories morphosyntaxiques et lemmes possibles du gouverneur et du dépendant ; — flexion du dépendant et du gouverneur si des traits morphosyntaxiques spécifiques sont liés à la fonction en question (par exemple, un cas ou une forme verbale spécifique) ;

— pour les dépendants verbaux considérés comme objets, la possibilité de pronominalisation avec un clitique et le type de clitique utilisé ;

— accord : les constituants et les traits concernés ; — règles de linéarisation :

— ordre canonique gouverneur - dépendant ;

— caractère flexible ou rigide de l’ordre gouverneur - dépendant ;

— caractère obligatoire ou non de l’adjacence du gouverneur et du dépendant (pos- sibilité que le dépendant soit séparé du gouverneur par un autre constituant) ; — possibilité que la relation soit non projective.

Nous nous servons de ces propriétés dans deux perspectives : pour évaluer la cohérence d’une étiquette et pour estimer sa démarcation par rapport à d’autres relations. Autre- ment dit, si les constructions syntaxiques qui sont censées être regroupées sous une même étiquette présentent des valeurs de ces propriétés très hétérogènes, c’était un indicateur que la relation était mal définie et qu’elle recouvre en effet plusieurs relations différentes. Dans ce cas, on cherchait à les dégager et à leur accorder des traitements appropriés. Et deuxièmement, si les valeurs des propriétés analysées pour une étiquette donnée ne per- mettaient pas de la distinguer nettement par rapport aux autres relations du jeu, nous considérions qu’il s’agissait d’une augmentation de granularité non justifiée du point de vue linguistique et qui risquait en outre de causer des difficultés dans le cadre du trai- tement automatique. Nous introduisions donc une étiquette plus globale, regroupant les

phénomènes ayant des propriétés similaires.

Cette démarche a bien évidemment ses limites : comme nous le verrons à la fin de cette section, les propriétés listées ci-dessus se sont montrées insuffisantes pour l’analyse de certaines relations, notamment des dépendants nominaux et des phénomènes syntaxiques complexes comme la coordination et l’ellipse. Il ne faut cependant pas remettre en cause l’utilité de ce procédé : il nous a permis de confirmer la pertinence de certaines distinctions présentes dans la tradition grammaticale serbe, mais abandonnées dans certains corpus, notamment dans les treebanks croates HOBS (Agić et al., 2014) et SETimes (Agić & Ljubešić, 2014).

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 122-125)