• Aucun résultat trouvé

STRUCTURES DISCURSIVES ET APPLICATIONS DE TAL 29 La tâche de résumé automatique proposée par Marcu (2000) combine des techniques de

La structure du discours Sommaire

1.4. STRUCTURES DISCURSIVES ET APPLICATIONS DE TAL 29 La tâche de résumé automatique proposée par Marcu (2000) combine des techniques de

surface et des méthodes statistiques.

Marcu (2000) propose d’aborder la tâche du résumé automatique de textes en tenant compte de la structure discursive de ceux-ci, suivant les travaux de la rst. Il démontre, d’une part, que la structure rhétorique des textes permet de mettre en lumière des change-ments de thématique dans le texte et, d’autre part, que celle-ci permet de déterminer la ou les phrases centrales en se basant sur la distinction opérée par la rst entre le noyau et le satellite d’une relation de discours, le noyau étant considéré comme un élément essentiel du texte et le satellite comme non essentiel et facultatif. Cette notion d’importance, appelée nucléarité, est utilisée par Marcu (2000) pour déterminer les segments les plus importants du texte, qui seront ainsi retenus pour l’obtention du résumé.

Les applications de tal font appel à d’autres traitements automatiques discursifs tels que la résolution anaphorique. Le décalage entre l’apport des approches théoriques et le traitement en tal pour cette tâche est important. Nous avons vu que les théories du dis-cours ont beaucoup étudié les contraintes qui pèsent sur la résolution anaphorique avec la définition de la frontière droite. Les applications de tal ne mettent pas en place de tech-niques d’analyse profonde des textes mais utilisent des méthodes de surface pour analyser les phrases et opèrent un calcul de saillance des unités référentielles basé sur la proximité de l’unité par rapport à l’élément anaphorique et la position syntaxique. Aucune approche de résolution anaphorique, à notre connaissance, ne fait appel à des structures de discours complexes.

1.4.2 Travaux récents sur la détection automatique des relations de dis-cours

Étant donné que la structure du discours est basée sur des relations sémantiques et pragmatiques entre des unités de texte, détecter celle-ci automatiquement demeure un défi pour les recherches en tal. Dans cette section, nous allons présenter quelques travaux récents ayant pour objectif d’atteindre automatiquement tout ou partie de ces structures discursives.

Généralement, l’approche adoptée consiste en un apprentissage automatique sur un corpus annoté en relations de discours selon diverses méthodes (approche probabiliste (Bal-dridge et Lascarides, 2005), approche d’apprentissage en logique du premier ordre (Subba et Di Eugenio, 2009)). Ces approches visent à détecter automatiquement tout (Baldridge et Lascarides, 2005; Subba et Di Eugenio, 2009) ou partie (les relations implicites (Lin et al., 2009)) des structures discursives d’un texte. Pour ce faire, il est nécessaire d’employer des corpus enrichis automatiquement avec des informations lexicales, syntaxiques, sémantiques et manuellement avec des relations de discours. De tels corpus existent déjà pour l’anglais (le corpus discor (Reese et al., 2007), le pdtb (Carlson et Marcu, 2001)). Dans le cadre du projet annodis, nous avons participé à la construction d’un tel corpus pour le français, nous permettant à l’issue de ce travail de thèse de bénéficier de données uniques pour le français. Nos objectifs seront moins ambitieux que ceux des travaux ci-dessus car nous sou-haitons nous concentrer sur le marquage d’une relation de discours spécifique, la relation d’Élaboration et amorcer des études sur son repérage automatique.

Il est généralement admis que des informations issues de la structure discursive vont jouer un rôle important dans des applications de tal. Par exemple, la reconnaissance des relations causales permet de répondre aux questions en «pourquoi» dans un système de question-réponse (Verberne et al., 2006) ou les relations de Contraste, de Résumé et d’Élaboration sont utilisées dans des systèmes de résumé automatique ou des systèmes de détection des paraphrases. Leur détection automatique constitue donc un enjeu considé-rable.

1.5 Bilan et positionnement

Dans ce chapitre, nous avons présenté de nombreux aspects de l’analyse discursive. Dans notre thèse, nous adoptons une approche ascendante, qui part des plus petites unités du discours (ude) pour atteindre la globalité du texte via des relations de discours. Nous souhaitons étudier plus précisément une relation de discours, la relation d’Élaboration. Les approches ascendantes que nous avons présentées ont travaillé sur la construction de modèle(s) visant à décrire, représenter, modéliser les discours dans leur globalité. Ils ont défini, décrit, modélisé les relations de discours nécessaires. Mais peu d’études ont porté sur l’analyse et la description approfondies d’une relation de discours. Nous pouvons citer à titre d’exemple les travaux sur la relation de Contraste (Busquets, 2007). Nous souhaitons, dans cette thèse, approfondir la description de la relation d’Élaboration en fournissant des analyses les plus fines possibles. Comme nous l’avons signalé en introduction, ce travail a pris sa source dans le cadre du projet ilf. La relation d’Élaboration avait été jusqu’alors peu étudiée. Le projet a fait émerger le peu de consensus existant sur les définitions de cette relation (Kleiber et Vassiliadiou, 2009), cette question sera développée dans le chapitre 2. Les projets d’annotation sur corpus des relations de discours ont permis de montrer que la relation d’Élaboration est d’une part très fréquente dans les textes (dans le corpus annodis, 46% des relations annotées sont des relations d’élaboration) et d’autre part souvent confondues avec d’autres relations de discours (Arrière-Plan, Explication...). Ces deux constats confirment la nécessité d’approndir la description et les définitions de cette relation, comme cela a été commencé dans les travaux de Prévot et al. (2009) dont nous ferons état dans le chapitre 3.

Parmi les approches ascendantes que nous avons présentées, nous avons opté pour une approche sémantique de la structure du discours, la Théorie des Représentations de Dis-cours Structurées (sdrt). Plusieurs raisons ont guidé le choix de cette théorie.

D’abord, la sdrt propose un éventail d’une dizaine de relations de discours. Chacune des relations de discours est définie rigoureusement, comme nous l’avons présenté, avec des règles de déclenchement et des effets sémantiques. Une nouvelle relation de discours ne peut alors être intégrée dans le modèle qu’à condition que ses effets sémantiques soient différents de ceux des relations de discours déjà existantes. L’analyse avec le modèle sdrt repose sur un ensemble réduit mais également fermé de relations de discours, avec une analyse procédant par élimination. À priori, cela permet d’inférer dans tous les cas une relation de discours.

Ensuite, la sdrt est une théorie formelle qui vise à rendre compte de la manière dont on interprète un discours par le biais de sa représentation et de sa construction au moyen

1.5. BILAN ET POSITIONNEMENT 31 de règles d’inférence rigoureuses. C’est à la fois un modèle explicatif qui cherche à expliciter la sémantique d’une séquence d’énoncés et un modèle prédictif qui cherche à fournir les moyens de dire qu’un énoncé sera valable ou non comme poursuite d’un discours.

Nous notons également que la sdrt accorde une place primordiale aux marquages des relations de discours en général et aux connecteurs en particulier. Les représentations logiques se construisent à partir de ce qui est disponible dans le texte (tandis que les intentions sont rarement signalées). Les règles d’inférence se basent sur différents types d’informations et sur la façon dont ces types d’informations intéragissent entre eux. Cette approche sémantique implique de porter une attention extrêmement fine aux détails des réalisations linguistiques.

Enfin, le cadre de la sdrt nous paraît de plus très approprié pour notre travail car il s’agit d’une théorie en mouvement, pour laquelle de nombreux travaux sont produits visant à compléter, voire à améliorer, le modèle. Notre travail se situe donc dans une recherche dynamique.

Comme nous l’avons vu, une étape délicate de la construction d’un modèle de la cohé-rence consiste à établir une liste de relations de discours et leurs descriptions. Pour pour-suivre cet état de l’art, nous allons présenter, dans les deux prochains chapitres, d’abord la notion d’élaboration, puis la relation d’Élaboration. Nous dégagerons des descriptions pour cette relation sur lesquelles nous nous appuierons ensuite dans nos analyses.

Chapitre 2

Outline

Documents relatifs