• Aucun résultat trouvé

2.2 Cadres théoriques

2.2.2 Segmented Discourse Representation Theory

La Segmented Discourse Representation Theory (désormais SDRT) (ASHER, 1993 ; LASCARIDESet

ASHER, 1993 ; ASHERet LASCARIDES, 2003) est un cadre d’analyse discursive qui étend les principes

de la sémantique dynamique de la Discourse Representation Theory (DRT) (KAMP, 1981 ; KAMP 7. Notons que dans le manuel d’annotation du RST Discourse Treebank, la situation et inversée : la relation Cause correspond à une expression de la cause dans le nucleus, et la relation Result à une expression de la cause dans le satellite. 8. En suivant le manuel d’annotation du RST Discourse Treebank, la relation Non-volitional Result serait étiquetée par Cause et la relation Non-volitional Cause par Result.

(1){1} Non-Volitional Result (1,2) {1} (2){2} Sequence (1,3) {1, 3} Non-Volitional Cause (3,4) {3} (3){3} (4){4} N S N N N S

Figure 2.2.:Arbre RST pour le discours en (6).

et REYLE, 1993) et reprend la notion de structure discursive composée grâce à des relations

rhétoriques comme en RST. La prise en compte des structures discursives permet, par exemple, de mieux contraindre les possibilités d’antécédents d’un pronom ou de rendre compte de l’ordre temporel d’évènements quand celui-ci ne suit pas l’ordre du texte. Les relations rhétoriques ne sont cependant pas définies en termes d’intentions comme en RST, mais de contraintes et d’effets sémantiques. La SDRT est un cadre formel qui vise l’interprétation du discours en terme logique de valeur de vérité par rapport à un modèle. Les contraintes sur la structure n’imposent pas une forme arborescente, un document peut être représenté par un graphe dirigé.

En SDRT, l’EDU est définie en termes sémantiques comme une unité contenant la description d’une éventualité, unité porteuse d’une valeur de vérité. Elle doit pouvoir être représentée en DRT sous la forme d’une DRS (Discursive Representation Structure). Ce sont aussi essentiellement des clauses. La DRS permet de représenter le contenu propositionnel du discours, c’est un niveau intermédiaire de représentation entre le texte et le modèle. La première étape de l’analyse, à l’interface syntaxe-sémantique, consiste donc à associer, à partir de la représentation syntaxique, une représentation sémantique, une DRS, à chaque unité élémentaire. Une DRS correspond à une paire : un ensemble d’entités — les référents du discours — est lié à des conditions sur ces référents — des formules logiques ou d’autres DRS.

Les relations discursives sont également définies sur une base logique à partir de règles déclenchant leur inférence. L’inventaire de relations est plus restreint qu’en RST, avec environ 12 relations (BUS- QUETSet al., 2001). La cause d’un tel écart ne réside cependant pas tant dans des différences

fondamentales entre les types de relations définies que dans une granularité plus fine du jeu de re- lations RST. Cette perte en granularité en SDRT est due aux exigences imposées par le cadre formel de description qui n’autorise la description d’une nouvelle relation qu’à condition de correspondre à des règles de déclenchement, des contraintes sémantiques nouvelles. Les auteurs de la SDRT ont utilisé des relations de l’inventaire de la RST mais ont défini un critère uniquement sémantique pour leur identification : des relations déclenchant une même modification de la valeur de vérité sont groupées. Ainsi, la classe de relations causales de la RST contenant 5 relations est réduite à 3 relations, Explanation, Result et Goal. Notamment, le fait que l’action causant une certaine situation soit volontaire ou non ne conduit pas à définir un nouveau type de relation.

Contrairement à la RST, la SDRT définit donc des règles formelles de déclenchement d’une relation fondées sur des informations sémantiques, pragmatiques et lexicales. Les règles sont associées à des effets sémantiques qui décrivent les conséquences des relations, ajoutant des informations à la représentation, et qui servent de contraintes en empêchant éventuellement l’inférence d’autres relations. Le module correspondant à ces règles modélise l’interface sémantique-pragmatique. Les relations s’établissent entre des DRS ou des ensembles de DRS liées, appelées SDRS (Segmented DRS). Les règles de déclenchement sont décrites dans un cadre de logique non monotone permettant

d’exprimer des règles qui vont s’appliquer par défaut. Ces règles doivent être défaisables pour tenir compte des nouvelles informations introduites lors de l’ajout d’une nouvelle EDU au discours, l’analyse étant incrémentale, les EDU sont ajoutées une à une, dans l’ordre du texte pour former la structure complète. Ainsi, alors que dans l’exemple (7a) (traduit de (LASCARIDESet ASHER, 1993)),

on inférera entre les deux phrases une relation Explanation, la chute de Paul étant causée par le fait qu’il a été poussé, dans l’exemple (7b), on comprend que le fait d’être poussé n’est pas la cause de la chute de Paul, la chute intervient avant l’action de pousser. L’utilisation d’une logique non monotone permet de définir des règles par défaut et donc de réviser une inférence : on peut dire qu’en l’absence d’information supplémentaire, une relation de causalité sera détectée dans (7a) tandis que des informations permettent dans (7b) de réviser ce jugement et d’associer aux mêmes segments textuels la relation Narration.

(7) a. Paul est tombé. Marie l’a poussé.

b. Paul est tombé. Marie l’a poussé. Elle lui a ainsi évité une chute mortelle.

Les règles de déclenchement se fondent sur le contenu de la proposition en cours d’évaluation, sur le contexte, c’est-à-dire les propositions déjà rattachées et leur structure, des principes généraux (comme les principes gricéens) et des connaissances du monde. Par exemple, la présence d’un connecteur discursif peut être, contrairement à la RST, un indice suffisant de l’inférence d’une relation. Ainsi, dans le cas de deux propositions reliées par la conjonction de coordination car, une règle permet d’inférer la relation Explanation. Les règles sont exprimées à l’aide d’un prédicat ternaire R(↵, , ) indiquant que ↵ et sont liées par la relation R dans la SDRS , ?(↵, , ) correspondant à une relation de discours encore inconnue. Dans ce cadre, la règle pour décrire l’inférence de Explanation pour l’exemple (8a) est donnée par la formule (8b), avec [car]( ) un prédicat indiquant la présence de car dans l’unité . L’effet sémantique de cette inférence, le fait que l’évènement de pousser intervient avant la chute, est décrit par la formule (8c) avec e↵et e

dénotant les éventualités intervenant dans les propositions, event(ei) un prédicat indiquant que ei

est un évènement et un opérateur de précédence temporelle entre évènements. La formule (8b) indique que la mise en lien des éventualités ↵ et à l’aide du connecteur ici identifié à car implique qu’une relation Explanation s’établit entre ↵ et . La première partie de la formule (8c) précise que l’existence d’une relation Explanation entre deux unités entraîne la présence d’un lien de causalité entre les évènements correspondant à chacune des unités mises en jeu.

(8) a. [Max est tombé]↵[car Jean l’a poussé.]

b. (?(↵, , ) ^ [car]( )) =) Explication(↵, , ) c. Explication(↵, ) =) cause(e , e↵)

(cause(e↵, e )^ event(e )) =) e↵ e

Les connaissances du monde peuvent aussi permettre d’inférer des relations entre des évènements à travers des règles défaisables. LASCARIDESet ASHER(1993) décrivent ainsi la différence entre (7a)

et (9) (également traduit de (LASCARIDESet ASHER, 1993)) par l’existence de connaissances sur le

monde concernant un rapport entre tomber et pousser, tandis qu’il n’y en n’a pas sur un lien entre se lever et saluer. Comme noté par BUSQUETSet al. (2001), la définition de ces règles nécessite

des analyses linguistiques fines afin d’identifier les déclencheurs des relations et de formaliser les connaissances partagées, c’est un travail long et encore en cours.

(9) Max s’est levé. Marie l’a salué.

Comme en RST, la structure discursive doit couvrir l’ensemble du document. En SDRT, la structure du discours est représentée par une SDRS similaire aux DRS définies en DRT, cadre dans lequel un discours est vrai s’il existe un modèle dans lequel le modèle représenté par sa DRS peut s’enchâsser (BUSQUETSet al., 2001). En DRT cependant, les relations rhétoriques n’interviennent

pas de manière centrale. Au contraire, en SDRT, la SDRS permet de représenter l’emballage de l’information en représentant les liens entre les segments.

Une SDRS correspond formellement à un couple < U, C > avec U un ensemble d’étiquettes et C un ensemble de conditions. Les étiquettes correspondent aux constituants, les unités discursives, généralement notées ⇡i. Une condition est une formule ⇡i: K⇡i, avec K⇡i une DRS ou une SDRS représentant l’unité d’étiquette ⇡i, ou une formule représentant une relation de discours R entre

deux unités notée R(⇡i, ⇡j). La SDRS représentant un discours est construite incrémentalement,

chaque nouvelle EDU est ajoutée, attachée à la structure et permet de mettre à jour la représentation. Cette mise à jour correspond à la représentation dynamique du sens qui se fait, selon (ASHERet

LASCARIDES, 2003), par une redéfinition de la notion de sens d’une phrase : d’abord vu comme

l’ensemble des modèles que la phrase satisfait, il devient une relation entre un ensemble de contextes en entrée représentant le contenu du discours avant l’unité courante, et un ensemble de contextes en sortie qui représentent le contenu du discours en incluant cette unité. Cette définition relationnelle du sens est appelée context change potential. Le système permet de calculer une forme logique du discours et donc de définir de façon computationnelle l’incohérence d’un discours : si aucune relation ne peut être calculée entre deux segments d’un discours, il y a incohérence. La SDRT reprend le principe hiérarchique sur les arguments en définissant directement les rela- tions comme coordonnantes ou subordonnantes, ce qui correspond, respectivement, à des schémas multi-nucléaires et mono-nucléaires en RST (DANLOS, 2006). Cette asymétrie permet cependant

ici, en plus d’identifier des segments plus importants, de contraindre la structure en restreignant les sites d’attachement possibles pour une nouvelle EDU à travers la contrainte dite de la frontière droite (POLANYI, 1985). Cette contrainte stipule que seuls certains sites de la SDRS en cours

de construction sont ouverts à l’attachement d’une nouvelle unité. Plus précisément, lorsqu’une relation coordonnante s’établit entre deux segments a et b, alors seul b est un site ouvert, aucun nouveau segment ne pourra être attaché à a. C’est une contrainte forte qui nécessite d’identifier pré- cisément relations coordonnantes et subordonnantes, puisque ces types restreignent les structures possibles. Les critères d’identification de ces types peuvent notamment correspondre à la possibilité d’attachement vis-à-vis de la frontière droite ou leur compatibilité avec d’autres relations du même type (ASHERet VIEU, 2005). Cette distinction qui impose une hiérarchie sur la structure est cruciale,

elle permet notamment de restreindre les référents possibles pour une anaphore : ils doivent se situer sur la frontière droite. Comme les relations SDRT sont binaires, on peut représenter les SDRS sous la forme de graphe, où les arcs, étiquetés par les relations, relient les étiquettes. Les traits verticaux représentent les relations subordonnantes et les traits horizontaux les relations coordonnantes. Une telle représentation permet de visualiser la frontière droite. On peut ainsi représenter l’exemple précédent repris en (10) dans lequel chaque EDU est représentée par une étiquette ⇡i par le graphe en figure 2.39. Après l’attachement de la proposition représentée par

l’étiquette ⇡3, on ne peut plus attacher de nouvelles informations à ⇡1ou ⇡2. Dans le graphe final,

la frontière droite est constituée des étiquettes ⇡0, ⇡

3et ⇡4. Notons qu’une étude sur les données

annotées dans le cadre du projet ANNODISa montré que des annotateurs naïfs construisaient des

structures respectant cette contrainte dans environ 95% des cas (AFANTENOSet ASHER, 2010). (10) [Les tours se sont effondrées moins de deux heures plus tard]⇡1 [entraînant l’immeuble du

Marriott World Trade Center dans leur chute.]⇡2[La tour 7 du WTC s’est effondrée dans l’après-

9. La relation Result est généralement considérée comme coordonnante mais la rendre coordonnante ici violerait la contrainte de la frontière droite.

⇡0 ⇡2 ⇡1 ⇡3 ⇡4 Result Narration Explanation

Figure 2.3.:Graphe SDRT pour le discours en (10).

midi]⇡3[en raison d’incendies et des dégâts occasionnés par la chute des Twin Towers.]⇡4

ANNODIS, Document Attentats