Discourse Lexicalized Tree Adjoining Grammar

2.2 Cadres théoriques

2.2.3 Discourse Lexicalized Tree Adjoining Grammar

Le formalisme des Discourse Lexicalized Tree Adjoining Grammar (désormais D-LTAG) (WEBBER,

2004) étend le formalisme des Lexicalized Tree Adjoining Grammar (LTAG) (JOSHI, 1987 ; SCHABES,

1990) de la syntaxe aux phénomènes discursifs. Dans une grammaire LTAG, les items lexicaux, appelés ancres, sont représentés par des arbres dits élémentaires. Les arbres élémentaires sont de deux types : les arbres initiaux portent des nœuds sur lesquels peuvent se substituer d’autres arbres, les arbres auxiliaires portent des nœuds auxquels peuvent s’adjoindre d’autres arbres. La substitution correspond de manière générale à l’insertion d’éléments nécessaires, comme le sujet d’un verbe, et l’adjonction à une modification, par exemple par un adjectif, en introduisant une possible récursion. Le formalisme D-LTAG part de l’observation que les connecteurs discursifs peuvent fonctionner, aux niveaux syntaxique et sémantique, comme les verbes. Les connecteurs sont vus comme des prédicats prenant deux arguments, des clauses ou des ensembles de clauses liées, entre lesquels ils établissent une relation discursive. Les connecteurs et certains verbes sont donc les ancres d’arbres, initiaux ou auxiliaires, dans lesquels la racine et les feuilles autres que l’ancre représentent des unités discursives. Les clauses simples peuvent être représentées par l’arbre syntaxique TAG correspondant, ce qui permet de mener en même temps analyse syntaxique et discursive. Un arbre est défini pour chaque réalisation possible de l’ancre (nombre d’arguments, disposition . . .). Les différentes opérations de combinaison d’arbres aboutissant à l’arbre dérivé sont enregistrées dans un arbre dit de dérivation. Une interface syntaxe-sémantique permet quant à elle de calculer une interprétation pour le discours par l’application de règles compositionnelles à partir de l’arbre de dérivation (FORBES-RILEYet WEBBER, 2006).

En D-LTAG, ce sont les arbres qui définissent la nature des EDU vues comme les arguments des connecteurs, ce sont donc aussi essentiellement des propositions dont la nature dépend du type de connecteur utilisé (conjonction de coordination, de subordination ou adverbial).

D-LTAG opère une distinction entre différents types de connecteurs ou autres éléments lexicaux déclenchant une relation en regard du type d’arbre qu’ils ancrent, initial ou auxiliaire, et du type de relation qu’ils déclenchent, relation de type prédicat-argument ou élaboration du discours précédent. La première catégorie correspond aux connecteurs (dont les arguments sont) structurels ancrant des arbres initiaux dont les nœuds de substitution correspondent à des clauses et déclenchant des relations prédicat-argument. Ces arbres sont ancrés par des conjonctions de subordination, des constructions parallèles (either..or) et certaines conjonctions de coordination. Certains verbes, comme suppose en forme impérative quand il introduit une condition, peuvent aussi ancrer ce type d’arbre, ainsi que certains items lexicaux appelés « subordinateurs » comme in order for ou in

order to dont l’une des clauses est à temps non fini. Les conjonctions de coordination entrant dans ce cadre sont celles déclenchant une relation spécifique, les auteurs donnent comme exemple so déclenchant une relation de type Result. L’arbre correspondant à ce type d’ancre est représenté dans la figure 2.4a pour le connecteur because en position médiane avec Duune unité discursive et

DC un connecteur discursif. La sémantique liée à cet arbre est représentée sous l’arbre : l1est une

étiquette correspondant à la représentation sémantique de la structure formée par le connecteur lié à ses arguments (i.e. unité discursive complexe). Cette représentation correspond donc, de la même manière que pour tout prédicat, à l’application de because à ses deux arguments représentés ici par une étiquette siet une adresse dans l’arbre. Les arguments de type EDU sont simplement

représentés par leur formule en logique des prédicats. Par exemple, si l’argument s1 correspond à la clause Jean aime Marie, sa représentation correspond à l2= like(j, m).

Les deux autres catégories correspondent à des items ancrant des arbres auxiliaires. Les arbres auxiliaires en TAG permettent d’introduire une récursion et de modifier des arbres élémentaires. Le premier type d’arbre auxiliaire correspond à des connecteurs structurels qui continuent une description d’une situation ou d’une entité (and), la continuation étant donc vue comme un ajout au discours précédent. Le connecteur vide, représentant les exemples implicites, fait partie de cette classe. Nous donnons en figure 2.4b l’arbre D-LTAG correspondant au connecteur vide ainsi que sa représentation sémantique. Le second type d’arbre auxiliaire est ancré par des adverbiaux considérés comme des connecteurs anaphoriques (comme then) au sens où ils prennent seulement l’un de leurs arguments structurellement tandis que l’autre est récupéré en contexte. La représentation sémantique associée à ce type de connecteur, en figure 2.4c, rend compte de cette spécificité dans le sens où seul un argument est représenté structurellement (ici s1), l’autre, ici le second argument du

prédicat then, sera résolu anaphoriquement en contexte. Cet argument anaphorique est représenté par une fonction d’assignation et n’est pas résolu par une compositionnalité sémantique, il doit être déterminé par un système de résolution d’anaphore.

Les relations discursives dans ce cadre sont confondues avec les connecteurs, vus comme des prédicats, ce qui ne signifie pas qu’un connecteur ne peut déclencher qu’une seule relation. Des informations supplémentaires de type sémantique, lexicale ou syntaxique doivent être prises en compte pour permettre d’inférer la relation déclenchée par le connecteur ou la relation implicite liant deux propositions. En D-LTAG, la structure se construit comme dans les grammaires TAG par substitution ou adjonction d’unités discursives, ou plutôt des arbres leur correspondant, dans les arbres représentant les connecteurs. Des règles de compositionnalité sémantique permettent de construire une interprétation pour le discours. Des contraintes peuvent être utilisées pour restreindre les arbres possibles, notamment en utilisant un critère existant en TAG (flexible direction of composition (JOSHIet al., 2003)) qui bloque certaines possibilités de composition. On obtient,

à la fin de l’analyse d’un discours, un arbre représentant le niveau syntaxique de l’analyse, une formule logique correspondant à sa représentation sémantique et une structure de dérivation, généralement de type arborescente mais qui peut éventuellement être un graphe (FORBES-RILEYet WEBBER, 2006).

Un autre formalisme nommé Discourse Synchronous TAG (D-STAG) a été développé par DANLOS

(2009). Il étend au discours les TAG synchrones permettant de lier deux niveaux d’analyse dont les opérations se font simultanément. Dans D-STAG, la représentation en syntaxe du discours est menée en même temps que le calcul de son interprétation. Ce formalisme diffère sur plusieurs points de D-LTAG. Notamment, D-STAG reprend le principe hiérarchique sur les relations de la SDRT ce qui permet de conserver les contraintes imposées sur la structure définies dans ce cadre. Notons que ce formalisme fait actuellement l’objet d’une traduction vers le formalisme des Grammaires Catégorielles Abstraites (ACG) (DANLOSet al., 2015).

(a)Arbre élémentaire pour because Du Du# DC because Du# l1: because(s1, s2) arg : < s1, (1) >, < s2, (3) >

(b)Arbre auxiliaire pour le connecteur vide. Du ? DC ; Du# l1: ;(s1, s2) arg : s1, < s2, (3) >

(c)Arbre auxiliaire pour then.

then ?

then(s1, [ei]ac)

arg :s1

Figure 2.4.:Types d’arbres élémentaires en D-LTAG.

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 40-42)