• Aucun résultat trouvé

Corpus annotés en discours

Dans le document Vers une algèbre des relations de discours (Page 98-102)

3.2 L’identification des relations de discours

3.2.2 Corpus annotés en discours

Dans cette section, nous décrivons différentes campagnes d’annotation visant à produire des corpus annotés pour les relations de discours. Les campagnes d’annotation à grande échelle ont essentiellement été menées sur des corpus en anglais. Nous nous limitons ici à présenter les corpus annotés en discours pour deux langues : l’anglais, car c’est pour cette langue que les efforts d’annotation ont été les plus nombreux ; le français, car nous travaillons sur des textes en français. Toutefois, d’autres efforts d’annotation sont à mentionner, comme ceux du Postdam Commentary Corpus (Stede, 2004), constitué de 170 commentaires provenant du quotidien régional allemand Märkische Allgemeine Zeitung annotés pour les relations rhétoriques (dans le cadre de la RST). Dans le cadre de la RST toujours, un corpus espagnol a été développé, le RST Spanish Treebank (da Cunha et al., 2011).

Les différentes campagnes d’annotation décrites ici varient tout d’abord dans l’adoption d’un cadre théorique ou non, et, le cas échéant, dans le choix de ce cadre. Par conséquent, le type de structures annotées, tout comme les relations utilisées, ne sont pas toujours les mêmes. Les campagnes d’annotation varient également dans les objectifs de l’annotation et donc les

consignes d’annotation, ainsi que dans les objectifs d’utilisation des corpus produits.

3.2.2.1 Structures discursives partielles

Penn Discourse TreeBank Le Penn Discourse TreeBank ou PDTB (Prasad et al., 2008) est le fruit d’une annotation des relations de discours effectuée sur le corpus du Wall Street Journal. L’annotation s’ajoute à l’annotation syntaxique du Penn TreeBank ou PTB (Marcus et al., 1993). La construction de ce corpus a été faite dans une approche lexicale des relations de discours, comme dans les travaux de Knott (1996), qui s’appuie sur les marques de relations de discours que sont les connecteurs. L’approche adoptée est volontairement indépendante de tout cadre théorique, notamment parce qu’elle a pour objectif de produire un corpus utilisable par des chercheurs travaillant dans différents cadres théoriques. Cette indépendance vis-à-vis d’un cadre théorique a pour conséquence qu’il n’y a pas d’hypothèses faites sur le type des structures discursives de haut niveau. L’annotation effectuée dans le PDTB est une annotation de bas niveau : c’est une annotation partielle, qui ne couvre pas l’ensemble de la structure discursive du texte. Elle couvre les relations signalées par un connecteur — et l’identification des arguments du connecteur — et les relations entre des phrases consécutives non signalées par un connecteur.

Les consignes d’annotation des relations sont les suivantes. Lorsque une relation est signalée par un connecteur dans le texte d’origine, la relation est identifiée comme appartenant à la catégorie Explicit, et les arguments du connecteur sont identifiés. Lorsqu’aucune relation n’est lexicalisée entre deux phrases consécutives, l’annotateur doit insérer un connecteur lexicalisant la relation inférée entre elles. Si l’insertion d’un connecteur est possible, alors la relation identifiée est identifiée comme appartenant à la catégorie Implicit. Lorsqu’il n’est pas possible d’insérer un connecteur, le manuel d’annotation du PDTB propose de distinguer les 3 cas suivants :

– si l’impossibilité d’insérer un connecteur est dûe à une redondance liée à la lexicalisa- tion de la relation par une expression autre qu’un connecteur, la relation est identifiée comme appartenant à la catégorie AltLex — pour le français, on peut illustrer ces lexicalisations alternatives par une expression comme ceci s’explique par le fait que ; – s’il n’y a pas de lexicalisations alternatives et s’il est possible d’identifier une relation de

coréférence entre deux expressions apparaissant respectivement dans les deux phrases entre lesquelles on veut annoter un lien, la relation est identifiée comme appartenant à la catégorie EntRel ;

– si aucune relation ne peut être identifiée entre les deux phrases, la relation est identifiée comme appartenant à la catégorie NoRel.

L’annotation couvre aussi des informations autour des relations d’attribution : les infor- mations concernant la source des relations de discours et du contenu de leurs arguments sont renseignées13

. L’ensemble de relations utilisé est celui de la hiérarchie présentée à la section 2.2.2.4. Nous donnons à la Table 3.3 le nombre de relations dans le corpus pour chaque classe et chaque catégorie de relation. En ce qui concerne l’annotation des relations, l’accord entre les annotateurs est de 94% en tenant compte uniquement des classes des rela- tions annotées, de 84% en tenant compte du type des relations, et de 80% en tenant compte

13. Comme nous l’avons vu à la section 2.2.1.5, les relations de discours et le contenu de leurs arguments ne sont pas nécessairement pris en charge par l’auteur : ils peuvent l’être par d’autres agents introduits dans le texte, notamment dans le cas des citations.

du grain le plus fin, c’est-à-dire les sous-types de la hiérarchie du PDTB. On observe donc que l’accord inter-annotateurs baisse de façon significative en descendant dans les niveaux de la hiérarchie. Le corpus est utilisé dans de nombreux travaux sur le discours, notam- ment pour le développement de systèmes visant à identifier automatiquement les relations de discours.

Classe de relation Explicit Implicit AltLex Total

temporal 3612 950 88 4650

contingency 3581 4185 276 8042

comparison 5516 2832 46 8394

expansion 6424 8861 221 15506

Total 19133 16828 634 36592

Table 3.3 – Nombre de relations dans le PDTB pour chaque classe et chaque catégorie de relation

3.2.2.2 Arbres discursifs

RST Discourse Treebank Le RST Discourse Treebank ou RST-DT (Carlson et al., 2001) est un corpus de 385 articles du Wall Street Journal, constituant un sous-ensemble du PTB, pour lesquels une structure discursive complète a été annotée, dans le cadre théorique de la RST. L’ensemble de relations de la RST contient à l’origine 24 relations de discours (Mann & Thompson, 1988). Cependant, l’ensemble de relations a évolué, et les annotations du RST-DT utilisent 78 relations — 53 relations Nucleus-Satellite et 25 relations multi- nucléaires. Ces relations sont décrites dans le manuel d’annotation du RST-DT (Carlson & Marcu, 2001). Pour permettre aux annotateurs d’annoter des relations moins fines, 16 groupes plus généraux de relations ont été définis. L’accord entre les annotateurs a été évalué en utilisant la mesure kappa (Siegel & Castellan, 1988), pour des paires d’annotateurs, sur les différentes étapes de l’annotation — on considère généralement qu’entre 0, 6 et 0, 8, le kappa est bon, et qu’au-delà, le kappa est très bon. Deux évaluations ont été effectuées : une évaluation a été faite après la première annotation, puis une seconde après une procédure de correction et de validation des arbres impliquant une vérification manuelle et automatique. Après la procédure de validation, l’accord le plus bas — pour une paire d’annotateurs — est de 0, 6 et l’accord le plus haut est de 0, 79, en ce qui concerne l’annotation des relations. En ne tenant compte que des groupes auxquels les relations annotées appartiennent, l’accord le plus bas est de 0, 62 et l’accord le plus haut est de 0, 82. Comme le corpus du PDTB, le RST-DT est largement utilisé dans le développement de systèmes d’analyse automatique (Di Eugenio et al., 1997; Sagae, 2009; Hernault et al., 2010), mais il présente l’avantage de proposer une représentation complète de la structure discursive.

3.2.2.3 Graphes discursifs contraints

Discor Le projet Discor (Discourse Structure and Coreference Resolution, Reese et al., 2007) avait pour objectif principal de tester des hypothèses concernant l’interaction entre la structure discursive et la résolution d’anaphores. L’annotation a été faite sur 60 articles du Wall Street Journal provenant du corpus MUC-6 (Message Understanding Conferences, Chinchor & Sundheim, 2003) et sur une partie des dépêches du corpus ACE-2 (Automatic

Content Extraction, Mitchell et al., 2003). Les corpus MUC-6 et ACE-2 ont été choisis car ils sont annotés pour les chaînes de coréférence. Les représentations discursives produites ont été faites dans le cadre de la SDRT, en utilisant un ensemble de 14 relations de discours.

Annodis Comme le corpus Discor, le corpus ANNODIS (Péry-Woodley et al., 2009; Afantenos et al., 2012) a été construit dans le cadre de la SDRT, mais pour des textes en français. Le corpus est constitué de 156 textes. Parmi ces textes, on trouve des articles de Wikipedia et du journal l’Est Républicain, des articles de recherche en linguistique (Congrès Mondial de Linguistique Française) et des rapports de relations internationales (Institut Français des Relations Internationales). Le corpus constitue la première ressource en an- notations discursives du français de cette taille. En ce qui concerne l’ensemble de relations adopté, 19 relations de discours sont utilisées dans le corpus. Nous les présentons dans le tableau 3.4, avec leur nombre d’occurrences dans les annotations. Chaque texte du corpus a fait l’objet d’une double annotation. Le kappa de Cohen pour l’identification des relations est de 0, 4.

Relation Nombre d’occurrences Pourcentage

Alternation 18 0,5 Attribution 75 2,2 Background 155 4,6 Comment 78 2,3 Continuation 681 20,3 Contrast 144 4,3 Entity Elaboration 527 15,7 Elaboration 625 18,6 Explanation 130 3,9 Flashback 27 0,8 Frame 211 6,3 Goal 95 2,8 Narration 349 10,4 Parallel 59 1,8 Result 163 4,9 Temporal location 18 0,5 Total 3 355 100

Table 3.4 – Nombre d’occurrences et pourcentage des relations dans le corpus ANNODIS

Outre la constitution d’une ressource, l’un des objectifs de la construction de ce corpus était de tester la validité des principes de la SDRT, notamment tester la validité de la contrainte de la frontière droite (Afantenos & Asher, 2010), dont l’application ne faisait pas partie des consignes d’annotation.

3.2.2.4 Graphes discursifs peu contraints

Discourse Graphbank Le corpus Discourse Graphbank (Wolf et al., 2003; Wolf & Gib- son, 2005) est constitué de 135 textes provenant du Wall Street Journal et du corpus AP Newswire. Chaque texte a été annoté indépendamment par deux annotateurs. Les structures

discursives annotées dans ce corpus sont des graphes peu contraints, permettant notamment la représentation de dépendances croisées — voir section 2.1.2.3, page 32. Elles n’intègrent pas les différentes contraintes structurelles des théories du discours — que ce soient les contraintes inhérentes à la représentation arborescente ou les contraintes comme la RFC. Wolf & Gibson ont choisi de ne pas contraindre les structures dans l’idée que les contraintes à définir dans les théories du discours doivent être motivées par les données empiriques, et non pas contraindre a priori l’annotation des structures. Chaque texte du corpus a été annoté indépendamment par deux annotateurs. L’accord inter-annotateurs est supérieure à 0, 8.

French Discourse TreeBank Il existe un projet de construction d’un corpus annoté suivant un schéma d’annotation similaire à celui du PDTB pour le français : le French Discourse TreeBank ([FTB, Danlos et al., 2012). Ce projet s’inscrit, comme le PDTB, dans une approche lexicale des relations de discours. En revanche, l’objectif visé est l’annotation de la structure complète des textes. Cette annotation discursive vient s’ajouter à l’annotation syntaxique du French TreeBank (FTB, Abeillé et al., 2003), corpus français dont les textes proviennent du journal Le Monde. Le FDTB est en cours de construction. Une première annotation expérimentale des occurrences dans le FTB d’un petit groupe de connecteurs a été effectuée — le FTB comporte aux alentours de 80 occurrences de chacun de ces connecteurs —, en vue de la consolidation d’un manuel d’annotation.

Dans le document Vers une algèbre des relations de discours (Page 98-102)