Analyseurs discursifs - Description des données annotées utilisées

2.5 Description des données annotées utilisées

3.1.1 Analyseurs discursifs

3.1.3 Applications . . . 64 3.2 Identification automatique des relations implicites : importance, complexité et

difficultés . . . 65

3.2.1 Importance de l’identification des relations implicites . . . 66 3.2.2 Un problème complexe . . . 67 3.2.3 Préliminaires en apprentissage statistique . . . 68 3.2.4 Difficultés liées à l’apprentissage automatique . . . 72 3.3 Études précédentes . . . 75

3.3.1 Configurations et problèmes de comparaison entre les études . . . 75 3.3.2 Motifs de traits . . . 80 3.3.3 Stratégies entièrement supervisées . . . 82 3.3.4 Stratégies fondées sur une forme de non supervision . . . 87 3.3.5 Résumé des scores sur les études existantes . . . 95 3.4 Systèmes de référence . . . 96

3.4.1 Configuration et nombre d’exemples disponibles . . . 96 3.4.2 Algorithmes de classification par régression logistique . . . 97 3.4.3 Résultats avec différents jeux de traits . . . 100

Le domaine de l’analyse discursive automatique est relativement récent en TAL, le premier système datant de 1999 (MARCU, 1999). Il est cependant devenu un champ très actif avec l’annota-

tion de nouveaux corpus, augmentant la masse de données annotées disponibles, et l’utilisation d’informations discursives pour améliorer d’autres systèmes de TAL comme la génération automatique (TABOADAet MANN, 2006a), le résumé automatique (DAUMÉIII et MARCU, 2009 ; THIONE

et al., 2004 ; SPORLEDER et LAPATA, 2005), les systèmes question-réponse (CHAI et JIN, 2004 ;

VERBERNE, 2007), l’évaluation de la qualité de devoirs (BURSTEINet al., 2003 ; HIGGINSet al., 2004) ou l’analyse de sentiment (POLANYIet ZAENEN, 2006 ; VOLL et TABOADA, 2007 ; BHATIA

et al., 2015). De plus, notons qu’une première tâche partagée a été organisée cette année dans le cadre de la conférence CoNLL1_{(Conference on Natural Language Learning), les participants étant}

invités à construire des systèmes d’analyse discursive complets à partir de données du type de celles annotées dans le PDTB. Cet évènement va permettre, comme ça a été le cas pour d’autres niveaux d’analyse, de définir les performances actuelles sur la tâche et de comparer ou d’innover au niveau des méthodes employées.

Un analyseur discursif automatique construit la structure discursive d’un document. On peut identifier de manière générale plusieurs tâches au sein d’un tel système comme la segmentation du texte en EDU, l’attachement des segments — c’est-à-dire l’identification de la structure, sans étiquette

1. http://www.cs.brandeis.edu/~clp/conll15st/

de relation — et l’identification des relations discursives les liant. Les systèmes automatiques, complets ou dédiés aux sous-tâches, sont relativement dépendants des cadres sur lesquels reposent les corpus. En particulier, la construction de la structure dépend fortement, au niveau du processus d’attachement, du cadre théorique et des contraintes qu’il définit liées au type de structure postulé, arbre pour le RST DT, graphe pour ANNODISou structure partielle pour le PDTB. Les systèmes de

segmentation dépendent plus faiblement du cadre puisque, comme nous l’avons vu, les principes de segmentation sont relativement consensuels. Le PDTB fait cependant quelque peu exception puisque la segmentation n’est pas la première étape et correspond quelque part à des hypothèses simplificatrices : si tout système de segmentation prend en compte les connecteurs discursifs, qui sont de très bons indices, un tel système construit sur le PDTB ne nécessite pas l’identification des EDU intra-phrastiques ne contenant pas de connecteur ce qui simplifie largement la tâche. Enfin, l’identification automatique des relations discursives est liée au cadre théorique qui définit la nature des segments liés et le jeu de relations à identifier mais sans dépendance forte puisque tous les cadres aboutissent plus ou moins à des segments de nature analogue et des relations similaires. L’annotation du PDTB a permis de séparer cette tâche en deux sous-tâches : l’identification des relations explicites et celle des relations implicites. En particulier, les systèmes construits à partir de ce corpus ont démontré la difficulté de cette identification pour les relations implicites. Étant donné que ces relations représentent une bonne moitié des données, il est clair que les basses performances actuelles sur cette tâche ont un impact majeur sur les systèmes complets et donc sur la possibilité de les utiliser pour améliorer d’autres tâches de TAL.

Nous présentons dans la section suivante 3.1 les systèmes complets d’analyse discursive en rap- portant les scores obtenus par ces systèmes pour les différentes tâches et pour l’analyse complète. Nous séparons les systèmes construits sur des corpus se fondant sur les cadres de la SDRT ou de la RST, pour lesquels nous réservons le terme d’analyseur discursif (section 3.1.1), des systèmes construits sur le PDTB que nous appelons chunkers discursifs (section 3.1.2). La grande majorité de ces systèmes ont été construits pour l’anglais. Les analyseurs construits dans le cadre de la RST ont été développés à partir du corpus RST DT, donc pour la langue anglaise. Nous n’avons pas connaissance d’analyseurs développés à partir d’un corpus construit sur le modèle du PDTB mais sur une langue autre que l’anglais. Pour la SDRT, par contre, à notre connaissance, seul le corpus français ANNODISa donné lieu au développement d’un analyseur complet. Nous présentons ensuite

(section 3.1.3) les applications de TAL utilisant des informations discursives dont la diversité reflète l’importance de la construction de systèmes automatiques performants. Les sections suivantes sont consacrées à la tâche d’identification automatique des relations implicites dont nous précisons le caractère crucial décrivons les difficultés en section 3.2. Nous présentons ensuite les études existantes sur cette tâche en section 3.3. Finalement, nous donnons des résultats pour des systèmes de référence en section 3.4, résultats qui pourront servir de référence tout au long de cette thèse.

3.1 Analyse automatique du discours

Dans cette section, nous décrivons les systèmes d’analyse discursive existants en nous focalisant sur les systèmes développés sur les corpus RST DT, ANNODISet PDTB sur lesquels ont été construits la

majorité des systèmes existants. Nous avons décrit dans le chapitre précédent les différences entre ces corpus, différences qui se reflètent dans les systèmes automatiques construits. Notamment, les systèmes reproduisent le processus d’annotation, on a donc clairement une différence entre ceux construits à partir de corpus comme le RST DT ou ANNODISet ceux utilisant les données du PDTB.

Dans le premier cas, l’annotation ou le système automatique commence par une segmentation intégrale de chaque document en EDU qui sont ensuite attachées pour former une structure dans laquelle tous les segments sont liés les uns aux autres. Pour le PDTB, le processus est centré sur

les connecteurs et différents principes d’annotation font que la couverture n’est pas totale. On parle en général de chunking discursif (discourse chunking) (WEBBERet al., 2010) ou d’analyse

discursive de surface (shallow discourse parsing, définition de la tâche partagée organisée lors de la conférence CoNLL 2015) pour la tâche consistant à reproduire les annotations du PDTB et d’analyse discursive automatique (discourse parsing) pour les autres corpus. Cette terminologie rend compte des liens que l’on peut établir entre l’analyse syntaxique des phrases et l’analyse discursive des documents. Nous adoptons donc désormais cette terminologie et décrivons dans les parties suivantes les analyseurs et les chunkers discursifs complets ainsi que les systèmes dédiés aux tâches intermédiaires, en réservant cependant une description plus détaillée des systèmes d’identification des relations implicites pour la suite de ce chapitre. Nous présentons dans une seconde partie les tâches de TAL et les applications qui se sont appuyées sur une analyse discursive automatique complète ou partielle.

3.1.1 Analyseurs discursifs

Un analyseur discursif complet comporte un module de segmentation du document en EDU et un système permettant de construire une structure étiquetée couvrant tout le document. La tâche s’apparente à de l’analyse syntaxique qui part d’une segmentation en mots et fournit une structure couvrant la phrase. En conséquence, les systèmes mettent généralement en œuvre des techniques adaptées de l’analyse syntaxique et rencontrent des problèmes similaires : l’explosion combinatoire, qui correspond au fait que le nombre d’analyses possibles pour une phrase/un document augmente exponentiellement avec le nombre de mots/d’EDU, et la définition des critères de validité d’une structure — des étapes de post-traitement ont ainsi pu être mis en œuvre pour prendre en compte les contraintes comme l’adjacence en RST ou la frontière droite en SDRT. La représentation des données nécessite une adaptation des analyseurs développés en syntaxe, car les unités élémentaires sont des segments textuels et non des mots. De plus, l’analyse discursive est probablement plus influencée par les propagations d’erreurs de l’étape de segmentation. Notons que les études donnent rarement des scores pour la seule tâche d’identification de la relation, car les étapes d’attachement et d’étiquetage ne sont en général pas séparées, l’algorithme prédisant un attachement qui détermine la structure et l’étiquette (comprenant éventuellement la nucléarité). Pour des scores globaux d’accord inter-annotateurs sur le RST DT, on trouve généralement le chiffre de 98% pour l’étape de segmentation, de 88, 70% pour la construction de la structure globale sans relation ni nucléarité et de 77, 72% pour cette structure avec la nucléarité seulement. La tâche complète, avec annotation des étiquettes de relations, correspond à un accord de 65, 75%. Pour ANNODIS, AFANTENOS et al. (2012a) rapportent un accord de 66% en F1 pour la tâche

d’attachement (la construction de la structure sans étiquette de relation) et un coefficient kappa de 0, 4 pour la tâche complète avec 17 relations et de 0, 57 en se limitant à la distinction entre relations coordonnantes et subordonnantes.

3.1.1.1 Segmentation

La segmentation se décompose en général en un découpage du document en phrases — considéré comme un problème plus ou moins résolu (PALMER et HEARST, 1997 ; GILLICK, 2009) — puis

des phrases en EDU — un problème plus complexe étant donné la relative diversité de ces unités. L’approche statistique est de loin la plus fréquente, mais on peut citer le système par règles développé par MARCU (2000) sur le premier corpus construit dans le cadre de la RST (MARCU

et al., 1999) qui obtient une exactitude assez haute, 90, 3%, en se fondant sur les connecteurs et la ponctuation. Marcu avait par ailleurs précédemment construit sur ce même corpus un système statistique, dont les performances étaient largement supérieures (97% ) (MARCU, 1999). Le système

se fonde sur des informations lexico-syntaxiques et un algorithme de classification par arbre de

décision pour identifier l’une des cinq classes suivantes : un token (i.e. un mot ou un signe de ponctuation) est une frontière d’EDU, de phrase, commence une unité parenthétique (correspondant aux unités enchâssées) ou la finit, ou n’entre dans aucune de ces catégories (token interne). Les études suivantes, sur le RST DT, ont modélisé la tâche comme un problème de classification binaire sur les tokens (i.e. un token constitue ou non une frontière d’EDU). SORICUT et

MARCU(2003) proposent un système de segmentation intra-phrastique de ce type fondé sur un

modèle génératif utilisant des informations lexico-syntaxiques et rapportent une F1 de 84, 7%.

Ces performances sont améliorées d’environ 2% par SAGAE(2009) avec un perceptron moyenné

et des informations d’une analyse en dépendances. Par ailleurs, FISHER et ROARK (2007) ont

montré l’utilité des informations dérivées de l’arbre syntaxique pour enrichir les informations issues d’étiqueteurs morpho-syntaxiques et de chunkers utilisées dans (SPORLEDER et LAPATA, 2005). Cependant, JOTYet al. (2012) ont proposé un modèle de segmentation intra-phrastique qui utilise

moins de traits mais une méthode d’agrégation pour gérer le problème de déséquilibre des données, ce modèle parvenant à des performances similaires, de l’ordre de 90, 5%. Pour la segmentation inté- grale du document, SAGAE(2009) rapportent un score de F1de 92, 9% et HERNAULTet al. (2010)

de 95, 0% avec une analyse syntaxique manuelle et d’environ 94% avec une analyse automatique en utilisant le jeu de traits défini dans (SORICUTet MARCU, 2003) mais en augmentant le contexte

(i.e. la taille de la fenêtre autour du token considéré) et un algorithme SVM. Les performances sur cette tâche sont donc élevées mais n’atteignent pas encore les performances humaines (98%). Notons que le traitement des unités enchâssées n’est pas clair dans les études sur le RST DT : il semble que le problème ait été ignoré dans toutes les études fondées sur une classification binaire de la tâche (STEDE, 2011), pourtant les analyseurs incluent clairement la relation Same-unit destinée à

rattacher des segments discontinus d’une EDU. Comme nous l’avons dit dans le chapitre précédent, les unités dites enchâssées ne le sont pas forcément, donc il est possible que ces études n’aient considéré que les cas où cette relation liait des unités consécutives. Sur ANNODIS, AFANTENOSet al.

(2010) proposent un système de segmentation qui doit gérer cette difficulté puisque le corpus comporte environ 10% d’EDU enchâssées. Au lieu de construire un classifieur binaire, les auteurs proposent un modèle à quatre classes correspondant au fait que le token commence un segment, finit un segment, est un segment à lui tout seul ou est un token interne. Le classifieur repose sur des informations lexico-syntaxiques et des indicateurs de présence de connecteurs discursifs. Les auteurs ajoutent une étape de post-traitement pour s’assurer de la cohérence de la segmentation. Au final, le système correspond à des performances de l’ordre de 73, 3% en F1, montrant que la

prise en compte des unités enchâssées rend la tâche plus difficile. 3.1.1.2 Construire l’arbre discursif, cadre de la RST

Dans le cadre du RST DT, l’étiquetage en relations peut se faire en utilisant l’intégralité du jeu de relations du corpus — donc 78 relations, inventaire étendu à 110 pour prendre en compte la nucléarité2 _{—, ou des classes plus générales — les 16 classes définies dans (C}_ARLSON_{et al.,}

2001), inventaire étendu à 18 pour inclure deux relations concernant l’organisation textuelle (Textual-organization et Same-unit) et à 41 pour prendre en compte la nucléarité. Comme pour la segmentation, l’attachement et l’étiquetage ont généralement été modélisés dans le cadre de systèmes d’apprentissage automatique. On peut cependant citer les systèmes par règles de MARCU

(2000), développé sur le corpus de MARCU et al. (1999), et de LE THANHet al. (2004), sur le

RST DT. Le premier s’appuie sur les connecteurs discursifs pour l’identification des liens — indices cependant non suffisants —, et sur une formalisation des structures discursives spécifiant des contraintes (principe de nucléarité, contrainte d’adjacence, de binarité des arbres, etc. . .) formulées

2. La relation Evaluation définie dans le RST DT correspond ainsi à une version multi-nucléaire et deux versions mononucléaires (CARLSONet MARCU, 2001), on a donc dans les systèmes trois relations Evaluation.

en logique du premier ordre — formalisme qui n’est cependant pas suffisant pour gérer l’explosion combinatoire. LETHANHet al. (2004) enrichissent ce système par la mise en œuvre d’une approche

multi-niveaux — les arbres discursifs sont construits au niveau des phrases, puis des paragraphes et enfin du texte entier en respectant la contrainte d’adjacence —, approche qui ne permet cependant pas non plus de gérer l’ensemble de la combinatoire des analyses et n’est donc pas applicable à des textes longs.

Dans le cadre d’un système statistique, on peut distinguer trois grandes approches. MARCU(1999) a

proposé d’utiliser, sur le corpus décrit dans (MARCUet al., 1999), un algorithme par transition (shift-

reduce) : chaque EDU du document est considérée l’une après l’autre et l’algorithme décide soit de transférer cette EDU dans une pile (opération shift) soit de fusionner les éléments de la pile (EDU ou sous-arbres) en un nouveau sous-arbre (opération reduce). Plus précisément dans ce cas, le système comporte, en plus de l’opération de shift, un certain nombre d’opérations de type reduce liées à l’étiquette de relation et aux informations de nucléarité3_{. L’apprentissage des séquences d’actions}

se fait à partir d’un algorithme par arbre de décision en utilisant un ensemble assez large de traits : informations lexicales, syntaxiques, structurelles (comme le nombre de sous-arbres actuellement dans la pile) mais aussi de similarité sémantique (comme la mesure cosinus entre les segments en cours de traitement ou des mesures de similarité utilisant Wordnet reflétant la présence de synonymes, d’antonymes, etc. . .). SAGAE(2009) reprennent l’idée d’utiliser un algorithme de type

shift-reduce mais n’intègrent que des informations lexico-syntaxiques extraites en se fondant sur l’analyse en dépendances et utilisent un perceptron moyenné pour l’apprentissage. Cette approche leur permet d’obtenir, avec une analyse syntaxique et une segmentation automatique, un score de F1de 52, 9% pour 18 relations4pour les cas intra-phrastiques et de 44, 5% pour l’analyse complète

des documents.

Le système de SORICUT et MARCU (2003) (nommé SPADE), limité au cadre intra-phrastique,

correspond à une autre modélisation du problème. Il se fonde sur un modèle d’analyse (parsing model) qui assigne une probabilité à chaque arbre candidat, et un analyseur (généralement appelé discourse parser) qui cherche le meilleur arbre parmi les candidats. Le modèle d’analyse est un modèle génératif qui se fonde sur des informations lexico-syntaxiques et structurelles, l’analyseur utilise une approche de programmation dynamique pour gérer l’explosion combinatoire. Cette étude a montré l’importance des informations tirées d’une analyse syntaxique en constituants. Avec une analyse syntaxique et une segmentation automatiques, les auteurs obtiennent des scores de F1de 70, 5% pour la structure sans relation, de 49, 0% en se restreignant à 18 relations (donc

inférieur aux 52, 9% rapportés par SAGAE(2009)), et de 45, 6% avec 110 relations. Lorsque ces pré-

traitements viennent d’une annotation manuelle, les scores sont bien plus élevés (respectivement 96, 2%, 75, 5% et 70, 3%).

Une troisième approche se fonde sur des classifieurs en cascade, l’un gérant l’attachement l’autre l’étiquetage en relation. C’est la méthode mise en place par HERNAULT et al. (2010) (système HILDA) : la liste contient initialement toutes les EDU ; des scores d’attachement sont calculés pour tous les éléments consécutifs de la liste et la paire ayant reçu le plus haut score est étiquetée avec une relation et fusionnée en un sous-arbre ; le processus se répète jusqu’à ce que la liste ne contienne plus qu’un seul arbre couvrant l’ensemble du texte. HERNAULTet al. (2010) utilisent

des classifieurs de type SVM et un jeu de traits inspirés de celui de SORICUTet MARCU(2003).

3. MARCU(1999) définit ainsi 102 opérations de type reduce, pour 17 groupes de relation étendus pour prendre en compte les 6 différentes configurations liées à la nucléarité (rappelons que cette étude n’est pas menée sur le RST DT).

4. Nous ne sommes pas sûre de comprendre si la mention de ce chiffre dans cette étude comme dans (SORICUTet MARCU, 2003) signifie que la nucléarité n’est pas prise en compte ou s’il s’agit juste d’une simplification dans la présentation des données. SORICUTet MARCU(2003) présentent par ailleurs également des scores pour 110 relations, donc incluant la nucléarité. Il est donc probable que ces deux études, quand elles se limitent aux 18 groupements, considèrent en fait les 41 relations.

Les auteurs rapportent des scores de F1 de 47, 3% pour la structure complète avec l’ensemble

de 41 relations et une segmentation automatique, et de 54, 8% avec une segmentation manuelle. Les auteurs rapportent par ailleurs un score d’exactitude de 66, 8% (macro-F1de 47, 7%) pour la

tâche d’identification des relations comprenant l’identification de la nucléarité. FENGet HIRST

(2012) montrent que l’introduction dans ce système de nouveaux traits et des filtres sur ces traits proposés dans une étude sur l’identification des relations implicites dans le PDTB (LIN et al.,

2009) permet d’améliorer les étapes d’attachement et d’identification des relations. Ils utilisent notamment les traits contextuels qui permettent de représenter les relations autour des segments courants et montrent ainsi les dépendances qui existent entre les sous-structures au sein d’un document. Le système complet fondé sur ces nouveaux traits (FENGet HIRST, 2014) correspond à

une amélioration d’environ 5% par rapport à (HERNAULTet al., 2010).

Les systèmes suivants ont cherché à tirer profit des conclusions précédentes, tant au point de vue algorithmique que de modélisation des données. De plus, ils ajoutent généralement une distinction entre les niveaux inter- et intra-phrastiques d’analyse. Il a en effet été noté qu’il existe une forte corrélation entre frontières de phrase et frontières de discours, du moins dans le RST DT : dans ce corpus, une phrase correspond à une structure discursive complète bien formée dans 95% des cas (SORICUT et MARCU, 2003)5. JOTYet al. (2013) et JOTYet al. (2015) proposent ainsi

deux modèles d’analyse (inter- et intra-phrastiques) entraînés séparément — afin de refléter les spécificités de chacun des niveaux d’analyse, par exemple la distribution des relations —, de type CRF — donc prenant en compte des dépendances séquentielles pour refléter les interactions entre les sous-structures —, et utilisant des traits surfaciques, lexico-syntaxiques et contextuels. L’analyseur utilise une approche par programmation dynamique (SORICUT et MARCU, 2003). Les auteurs

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 70-77)