Propriétés des arbres en dépendances - Cadre théorique : syntaxe en constituants vs syntaxe en

2.2 Cadre théorique : syntaxe en constituants vs syntaxe en dépendances

2.2.3 Propriétés des arbres en dépendances

Les arbres de dépendances tels qu’ils sont exploités en TAL prennent la forme d’un graphe. Par conséquent, on utilise souvent la terminologie de la théorie des graphes pour les décrire : les mots (ou les tokens) représentent les nœuds du graphe, alors que les dépendances correspondent aux arêtes. En plus des caractéristiques globales citées dans la section 2.2.2, ces graphes respectent plusieurs autres critères. Kübler et al. (2009) défi- nissent les propriétés suivantes :

1. racine unique : dans l’arbre, il existe exactement un nœud racine qui n’est gou- verné par aucun autre nœud ;

2. caractère couvrant : l’arbre couvre tous les tokens de la phrase ;

3. caractère connecté : il existe un chemin entre n’importe quelle paire de nœuds dans l’arbre ;

4. caractère orienté : toutes les arêtes de l’arbre sont orientées ;

5. gouverneur unique : un token ne peut avoir qu’un seul gouverneur (chaque token peut être la cible d’une seule dépendance) ;

6. acyclicité : il ne peut y avoir de cycles fermés dans l’arbre (aucun token ne peut gouverner un de ses ancêtres).

La contrainte de la racine unique est artificielle, mais elle facilite la réalisation d’autres propriétés (notamment 2 et 3). Elle est souvent instanciée par l’introduction d’un nœud artificiel root en début de phrase. Ce fait permet de satisfaire le caractère couvrant de l’arbre sans avoir à relier tous les sous-arbres entre eux : ils peuvent simplement être rattachés à la racine externe. Ceci est par ailleurs le cas dans Prague Dependency Treebank, où le token racine de la phrase, la ponctuation finale et les modifieurs phrastiques peuvent se trouver simultanément rattachés au nœud root. D’autres projets adoptent l’approche selon laquelle la racine externe n’a qu’un descendant dans la phrase (cf. Candito et al., 2009). L’existence du root facilite également la satisfaction du caractère connecté, vu que

tous les tokens sont en effet des descendants de ce nœud et un chemin entre n’importe quelle paire de tokens peut être retrouvé à travers le root. La propriété 2 (caractère couvrant) répond au principe défini dans des travaux théoriques (cf. Mel’čuk, 1988) selon lequel tous les mots doivent participer à la structure syntaxique de la phrase. Le caractère orienté des arêtes exprime simplement la nature asymétrique des relations de dépendance, autrement dit, le fait que chaque dépendance relie un gouverneur et un dépendant. D’après (Mel’čuk, 1988), les dépendances sont orientées du gouverneur vers le dépendant. La majorité des théories en syntaxe de dépendance reconnaissent également la contrainte du gouverneur unique et celle de l’acyclicité, mais des exceptions existent (cf. Hudson, 1984 ; Debusmann et al., 2004).

Dans certains cadres applicatifs en TAL, on impose une dernière contrainte aux arbres de dépendances exploités : celle de la projectivité. Un arbre syntaxique est considéré comme non projectif si au moins une dépendance qui le constitue est elle-même non projective. Si l’on reprend la définition proposée dans (Kuhlmann & Nivre, 2006), une dépendance entre un gouverneur G et un dépendant D est considérée comme non projective s’il existe au moins un token entre G et D dans l’ordre linéaire de la phrase qui n’est pas dominé par G (autrement dit, que G n’est ni sont gouverneur immédiat, ni son ancêtre). Si l’on revient encore une fois à l’exemple 6, on remarque que la relation entre le gouverneur knjigu et le dépendant lepu est non projective, vu que l’auxiliaire je, situé entre ces deux formes, n’est pas dominé par knjigu. En revanche, la dépendance entre le verbe principal kupio et l’auxiliaire je est projective, car les deux tokens intervenants knjigu et Filip sont gouvernés par kupio.

(6)

Lep-u je knjig-u Filip kupio.

beau-ACC.SG.F est livre-ACC.SG Filip.NOM.SG acheté

Sujet Objet direct Verbe auxiliaire Modifieur

Racine

‘C’est un beau livre que Filip a acheté.’

La non-projectivité est le reflet de la nature discontinue des constituants dans une phrase ; le taux de non-projectivité dans un corpus peut être utilisé comme un indicateur du degré de liberté de l’ordre des constituants dans la langue en question. D’après les résultats de Havelka (2007), le pourcentage de dépendances non projectives dans les langues à morphologie riche est variable : à titre d’illustration, il est de 0,40 % (pour le bulgare) et de 2,13 % (pour le tchèque). Cependant, ces dépendances relativement peu nombreuses se répartissent sur une portion beaucoup plus importante de phrases : 5 % en bulgare et

23 % en tchèque.

Ce phénomène est important pour le parsing. Plus particulièrement, le besoin de trai- ter ce type de dépendances augmente la complexité de la tâche, et l’un des deux types de parsers principaux – les parsers par transitions – n’est pas capable d’analyser les dépen- dances non projectives de manière naturelle. L’utilisation des parsers par transitions peut donc exiger qu’une analyse projective artificielle soit imposée au treebank traité. Cepen- dant, des parsers par transitions modernes disposent souvent des extensions permettant de gérer la non-projectivité (cf. section 3.4).

Dans notre travail, nous adoptons les 6 principes de base cités ci-dessus, mais nous n’imposons pas la non-projectivité à notre corpus : les structures discontinues comme celle de l’exemple 6 sont fidèlement représentées dans le corpus. Ceci nous permet de capter l’une des caractéristiques essentielles du serbe, qui est sa capacité d’admettre des structures syntaxiques discontinues, et c’est également avantageux du point de vue pratique : une telle annotation peut par la suite être transformée en une représentation projective si nécessaire ; l’inverse n’est pas vrai. Le phénomène de non-projectivité dans notre corpus est étudié en détail dans le chapitre 11.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 52-54)