Surface Realisation from Knowledge Bases

(1)

HAL Id: tel-01754499

https://hal.inria.fr/tel-01754499v2

Submitted on 18 Feb 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Bikash Gyawali

To cite this version:

Bikash Gyawali. Surface Realisation from Knowledge Bases. Computation and Language [cs.CL]. Universite de Lorraine, 2016. English. �NNT : 2016LORR0004�. �tel-01754499v2�

(2)

´

Ecole doctorale IAEM Lorraine

Surface Realisation from Knowledge

Bases

TH`

ESE

pr´esent´ee et soutenue publiquement le 20 Janvier 2016

pour l’obtention du

Doctorat de l’Universit´

e de Lorraine

(Mention Informatique)

par

Bikash Gyawali

Composition du jury

Directrice : Claire Gardent Directrice de recherche, CNRS, LORIA, France Rapporteurs : Karin Harbush Professor, Universit¨at Koblenz-Landau, Germany

Albert Gatt Senior Lecturer, University of Malta, Malta Examinateurs : Christophe Cerisara Charg´e de recherche, CNRS, LORIA, France

Guy Perrier Professor Emerite, Universit´e de Lorraine, France Patrick Saint-Dizier Directeur de recherche, CNRS, IRIT, France (Pr´esident)

(3)

(4)

Acknowledgements

I take this opportunity to express my sincere thanks to everyone who directly or indirectly contributed to the success of my PhD studies. First and foremost thanks to my supervisor, Claire. You guided me with enthusiasm and supported me in exploring new research directions. Under your supervision, I felt free to try and test my ideas (which were, at times, very random and naive) but had the privilege of relying on your very strong expertise for judgements. Your gentle but ﬁrm reminders helped me stay on track, produce good results and successfully complete my PhD studies. I enjoyed a fruitful, healthy and rich research experience with you and had ample opportunities to learn; thank you very much for all these.

My dear wife, Rupa, you deserve a very special credit for supporting me in times of good and bad, happy or sad. Living in a foreign country is already quite diﬃcult; you have endured me throughout these years and supported me in every possible ways for completing my PhD. Thank you very much indeed. Special thanks to my parents and family members who have helped me to become what I am today.

Thank you jury members, Albert Gatt, Christophe Cerisara, Guy Perrier, Karin Harbush and Patrick Saint-Dizier for reviewing my research and providing sugges-tions for improving the manuscript.

My colleagues in the SyNaLP team – Ali, Alejandra, Alexandre, Celine, Christophe, Ingrid, Laura, Lina, Shashi – thank you everyone for forming a very cooperative work-ing environment and givwork-ing me numerous feedbacks in my work. The team meetwork-ings, presentations and discussions we had from time to time helped me to improve upon my work.

Many thanks to Imen, Laura, Mariem, Nabil and Nicolas for helping me write the French summary section of this manuscript. Thank you Guillaume for suggesting presentation skills for the defense session.

The petit Nepalese community in Nancy consisting of hardly 3-4 persons at any time – Anju, Binod, Jugdish, Manish, Nirmal, Santosh, Sharib – thank you all for the good times spent together.

Un grand merci to Université de Lorraine and the LORIA research laboratory for providing me a sound research platform and helping me realise the PhD dream.

(5)

(6)

Résumé

Bases de Connaissances et Réalisation de Surface Bikash Gyawali

La Génération Automatique de Langue Naturelle (GLN) vise à produire des textes ou de la parole dans une langue humaine à partir d’un ensemble de données non-linguistiques. A partir d’un ensemble de données et d’un but communicatif, la génération automatique de textes exécutera trois tâches principales: (i) sélection et organisation d’un sous-ensemble de données d’entrée, lesquelles répondent au but communicatif; (ii) détermination des mots à utiliser pour verbaliser les données d’entrée; et (iii) regroupement de ces mots en un texte en langue naturelle verbalisant les données sélectionnées. La dernière sous-tâche est connue comme la sous-tâche de Réalisation de Surface (RS). Dans ce travail de thèse, nous étudions la tâche de réalisation de surface quand les données d’entrée sont extraites de Bases de Connaissances (BC). Ce qui motive la verbalisation de bases de connaissances est le besoin, d’une part, de faciliter l’accès au contenu de celles-ci (motif pratique) et, d’autre part, de développer des méthodes générales et fondées sur des principes linguistiques (motif théorique).

Nous proposons deux nouvelles approches pour la réalisation de surface à partir de bases de connaissances: une approche supervisée et une approche faiblement supervisée.

Approche supervisée: La Tâche Commune de Réalisation de Surface KBGen (KBGen challenge) a été conçue avec le but de comparer et d’évaluer les systèmes de réalisation de surface prenant en entrée des bases de connaissances. A partir d’un sous-ensemble de données cohérent extrait de la base de connaissances, l’objectif de la tâche de réalisation de surface est de produire des phrases complexes en anglais qui sont à la fois grammaticales et naturelles. Dans cette tâche commune, le challenge met à disposition des participants un petit (208 exemples) corpus parallèle de paires phrase / sous-ensemble de données de la base de connaissances ainsi que des lexiques qui associent les symboles de la base de connaissances à des mots et à des phrases. Dans la première partie de cette thèse, nous présentons une méthode pour extraire une Grammaire d’Arbres Adjoints basée sur les traits (Feature Based Lexicalized Tree Adjoining Grammar (FB-LTAG)) à partir d’un corpus parallèle de textes et de données. La grammaire FB-LTAG résultante inclut une sémantique compositionnelle basée sur l’unification et peut être utilisée par un réalisateur de surface existant pour pro-duire des phrases à partir de bases de connaissances. Nous appliquons la méthode sur les données de KBGen, nous étendons le réalisateur de surface existant en ajoutant un mécan-isme de classement ainsi que de recherche en faisceau, et nous testons la grammaire obtenue sur les données KBGen. Les évaluations expérimentales montrent que notre approche est

(7)

produites avec une grammaire symbolique développée manuellement. En outre, une car-actéristique de notre approche est qu’elle s’appuie sur une grammaire compacte (quelques centaines d’arbres) et fondée sur des principes linguistiques (elle suit les principes séman-tiques et de domaine de localité étendu dans les grammaires TAG). Nous montrons comment cette caractéristique donne lieu à une approche hybride où une grammaire extraite automa-tiquement peut être révisée manuellement et améliorer la couverture et la qualité des phrases produites.

Approche faiblement supervisée: Une limitation importante de l’approche supervisée décrite précédemment est qu’elle requiert l’existence d’un corpus parallèle alignant un frag-ment de la base de connaissances avec une phrase verbalisant ce fragfrag-ment. Dans la seconde partie de cette thèse, nous explorons par conséquent une approche pour la réalisation de surface à partir de données des base de connaisences qui utilise un lexique fourni mais ne requièrent pas ce type de corpus parallèle. A la place, nous construisons un corpus à partir de sources hétérogènes de textes liées au domaine des bases de connaissances pour lesquelles la réalisation de surface est développée (dans ce cas, biologie) et nous utilisons ce corpus pour identifier les lexicalisations possibles des symboles de la BC (classes et relations). Nous utilisons ensuite ce corpus pour estimer les probabilités des lexicalisations des symboles de la BC, des cadres de sous-catégorisation et des liens entre les différents arguments syn-taxiques et sémantiques d’un évènement donné. Nous proposons des modèles probabilistes pour la sélection de cadres de sous-catégorisation et associations syntaxiques/sémantiques appropriés et nous utilisons une fonction attribuant un score qui utilise les probabilités pour verbaliser une entrée donnée. Nous présentons des évaluations automatiques et des évalu-ations réalisées par les humains des phrases générées et nous analysons les problèmes lié à l’apprentissage automatique à partir d’un corpus non-aligné.

Dans chacune de ces approches, nous utilisons des données dérivées d’une ontologie biomédi-cale existante comme référence d’entrée (à savoir la base de connaissances AURA [Chaudhri et al., 2013]). Cependant, nos méthodes sont génériques et peuvent être facilement adaptées pour une entrée à partir d’autres ontologies pour lesquels un corpus parallèle/non-parallèle existe.

(8)

Abstract

Surface Realisation from Knowledge Bases Bikash Gyawali

Natural Language Generation (NLG) is the task of automatically producing natural lan-guage text to describe information present in non-linguistic data. Given some non-linguistic data as input and a defined communicative goal, NLG involves three main tasks: (i) se-lecting and structuring the relevant portion of input data which addresses the specified communicative goal; (ii) determining the words that will be used to verbalise the selected data; and (iii) mapping these words into a natural language text verbalising the information contained in the selected data. The latter task is known as Surface Realisation (SR) and in this thesis, we study the SR task in the context of input data coming from Knowledge Bases (KB). The motivation for verbalising KB data comes from the need of having human friendly access to such data (practical motive) and of developing generic and linguistically principled approaches for doing so (theoretical motive).

We present two novel approaches to surface realisation from knowledge base data: a su-pervised and a weakly susu-pervised approach.

Supervised Approach: The KBGen challenge [Banik et al., 2012, Banik et al., 2013] was designed to compare and evaluate surface realisation systems taking as input knowledge base data. Given a knowledge base fragment which forms a coherent unit, the task was to generate complex sentences which are both grammatical and fluent in English. The chal-lenge made available to the participants a small (207 training examples) parallel corpus of text and KB fragment pairs as well as lexicons mapping KB symbols to words and phrases. In the first part of this thesis, we present a corpus-based method for inducing a Feature Based Lexicalized Tree Adjoining Grammar (FB-LTAG) from a parallel corpus of text and data. The resulting extracted TAG includes a unification based semantics and can be used by an existing surface realiser to generate sentences from KB data. We apply our induction method to the KBGen data, use an existing surface realiser and implement a ranking module to test the resulting grammar on KBGen test data. Experimental evaluation shows that our approach outperforms a data-driven generate-and-rank approach based on an automatically induced probabilistic grammar; and yields results that are close to those produced by a handcrafted symbolic approach. Moreover, a distinguishing feature of our approach is that it relies on an automatically extracted grammar that is compact (a few hundred trees) and linguistically principled (it follows the semantic and extended domain of locality principles of Tree Adjoining Grammar). We show that this feature allows for a hybrid approach where an automatically extracted grammar can be manually revised to improve both coverage and output quality.

(9)

sentence verbalising that fragment. In the second part of this thesis, we therefore explore an approach for surface realisation from KB data that uses a supplied lexicon but does not require a parallel corpus. Instead, we build a corpus from heterogeneous sources of text related to the domain of the knowledge base for which surface realisation is being developed (in this case, biology) and we use this corpus to identify possible lexicalisations of the KB symbols (classes and relations). We then use this corpus to estimate the probabilities of KB symbol lexicalisations, of subcategorisation frames and of the linking between the various syntactic and semantic arguments of a given event. We propose probabilistic models for the selection of appropriate frames and syntax/semantics mapping and use a scoring function that utilises the learnt probabilities to verbalise the given input. We present automatic and human based evaluations of the output sentences and analyze issues relevant to learning from non-parallel corpora.

In both these approaches, we use the KBGen data as a reference input. The KBGen data is itself derived from an existing biomedical ontology (namely, the AURA Knowledge base, [Chaudhri et al., 2013]). Our methods are generic and can be easily adapted for input from other ontologies for which a parallel/non-parallel corpora exists.

(10)

(11)

(12)

Bases de Connaissances et

Réalisation de Surface

Sommaire

1 Introduction . . . xi

1.1 Génération automatique de langue naturelle et réalisation de surface(RS) . . . xi

1.2 Entrées de RS . . . xii

1.3 Approches de RS . . . xii

1.4 RS à partir des bases de connaissances . . . xiii

2 Verbalisation de triples – Une approche supervisée . . . xiv

3 Verbalisation des événements n-aire dans les Ontologies – Une approche faiblement supervisée . . . xviii

4 Conclusion . . . xxii

1 Introduction

1.1 Génération automatique de langue naturelle et réalisation de surface(RS)

La Génération Automatique de Langue Naturelle (GLN) peut être déﬁnie comme la tâche qui consiste ) produire un texte en langue naturelle à partir d’informations codées dans un système de représentation machine (par exemple: les bases de don-nées, les bases de connaissances, les formules logiques, etc.). La représentation et le stockage des informations dans de tels systèmes sont souvent régis par des contraintes formelles, ce qui les rend diﬃciles à utiliser pour les humains. La GLN se charge de

(15)

générer des descriptions textuelles de ces informations en langue naturelle (telles que le français, népalais, etc.) et oﬀre ainsi un moyen naturel et ﬂuide de communication pour les utilisateurs humains.

[Reiter and Dale, 2000] présente une architecture de référence pour les systèmes GLN. Il s’agit d’une architecture en pipeline qui modélise la tâche de génération en trois tâches séquentielles: Planification de Document, Planification de Surface et Réalisation de Surface. La planification de document est la tâche d’identification et de structuration des unités pertinentes à partir de l’entrée. La planification de surface (appelé aussi micro-planification) se base sur cette tâche et explore ainsi l’aspect linguistique des unités sélectionnées, comme par exemple, en identifiant les formes de mots corrects pour décrire une entité dans l’entrée ou la détermination des unités de contenu qui se réfèrent à l’autre. La réalisation de surface (RS) se charge de produire des expressions de surface réelles qui verbalisent ces unités de contenu dans des structures syntaxiquement correctes et sémantiquement cohérentes.

1.2 Entrées de RS

Selon l’application traitée, la nature des entrées de la réalisation de surface (RS) diﬀére. Trois grands types d’entrées sont généralement distingués. Le premier type comprend une collection de données, soit des données brutes non structurées (con-nues aussi sous le nom de “données plates), soit des données organisées par leurs interrelations dans un ensemble d’enregistrements comme dans une base de données. Des exemples de tels entrées RS ont été présentés dans [Reiter et al., 2005], [Belz, 2007], [Ratnaparkhi, 2000], [Angeli et al., 2010], [Konstas and Lapata, 2012b], etc. Le deuxième type d’entrées comprend les représentations linguistiques (syntaxiques ou bien sémantiques), comme par exemple, les arbres de dépendance et les représen-tations de discours [Bohnet et al., 2010], [Wang and Zhang, 2012], [Kondadadi et al., 2013], [Dethlefs and Cuayáhuitl, 2012a] etc. Enﬁn, le troisième type est constitué des structures provenant de divers formalismes logiques, comme la logique de premier ordre [Gerdemann and Hinrichs, 1990], les termes lambda [Lu and Ng, 2011] et les bases de connaissances [Stevens et al., 2011], [Cimiano et al., 2013], [Ell and Harth, 2014], [Duma and Klein, 2013], etc.

1.3 Approches de RS

Dans la littérature, trois types d’approches ont été distinguées pour la réalisation de surface : i) approches basée sur les chablons; ii) approches basées sur les gram-maires et iii) approches d’associations directes. Dans les approches basées sur les

(16)

1. Introduction

chablons, les structures linguistiques incomplètes contenant des trous sont utilisées. Pour une réalisation de surface réussite, tous les trous dans les chablons doivent êtres remplis à partir des données d’entrée, et ainsi générer une phrase. Plusieurs approches de réalisation de surface basées sur les chablons ont été proposées : à l’aide des chablons définies à la main [Van Deemter and Odijk, 1997], [McRoy et al., 2003], [Androutsopoulos et al., 2013], etc., ou des chablons extraits automa-tiquement à partir d’un corpus d’un domaine particulier [Duma and Klein, 2013], [Ell and Harth, 2014], [Cimiano et al., 2013], etc.. Dans les approches basées sur les grammaires, une grammaire est utilisée pour décrire l’association entre les don-nées d’entrée et l’expression de surface. Une grammaire est un ensemble de règles spécifiant la relation entre les fragments de l’entrée, les constituants syntaxiques et les expressions de la langue naturelle. Pour la génération, les règles sont com-binées selon les contraintes imposées par la grammaire afin d’obtenir un texte en sortie. Plusieurs travaux suivent cet axe en utilisant : i) une grammaire spécifique à une tâche [Elhadad, 1993], ii) une grammaire existante à large couverture [Car-roll and Oepen, 2005], [Rajkumar et al., 2011], [Cahill and Van Genabith, 2006], [Narayan and Gardent, 2012b], et iii) une grammaire créée automatiquement par des méthodes d’apprentissage automatique [Lu and Ng, 2011], [Belz, 2007], [DeVault et al., 2008b]. Enfin, les approches d’association directe transforment directement les variables d’entrées en des expressions de surface à partir d’un corpus parallèle sans considérer les relations syntaxiques et sémantiques [Bohnet et al., 2010], [Wang and Zhang, 2012], [Ballesteros et al., 2015], [Guo et al., 2008], [Filippova and Strube, 2007], [Ringger et al., 2004], [Zhong and Stent, 2009], [Konstas and Lapata, 2012b], [Wong and Mooney, 2007] etc.

1.4 RS à partir des bases de connaissances

Dans cette thèse, nous présentons notre travail sur la RS à partir d’une base de connaissances (ontologie).

Une ontologie est une conceptualisation d’un domaine à travers des entités on-tologiques, à savoir les concepts, les individus, les relations et les axiomes. Notre choix d’ontologies pour la RS est motivé par des raisons théoriques et pratiques. D’un point de vue théorique, ça nous aide à étudier les déﬁs de la verbalisation posés par les expressions logiques des ontologies et à explorer les méthodes qui les résol-vent. D’un point de vue pratique, utiliser les ontologies permet de proﬁter de toutes les technologies, les corpus, les ressources, et les outils proposés par la communauté de web sémantique.

(17)

réalisa-tion de surface est inspiré par des motivaréalisa-tions linguistiques. Les deux autres types d’approches (à base de chablons ou bien d’associations directes) discutées précédem-ment ne peuvent pas modéliser les contraintes linguistiques (syntaxiques et séman-tiques) qui régissent la bonne forme des phrases dans une langue quelconque. Ainsi, dans ces approches, les contraintes linguistiques simples (e.g. l’accord sujet-verbe) et les contraintes les plus complexes (e.g. la liaison entre les arguments syntax-iques et sémantsyntax-iques) sont tout simplement ignorées. Cependant, dans les approches basées sur la grammaire, les données d’entrée sont associées à des constructions lin-guistiques précisant leurs rôles syntaxiques, tels que les informations des cadres de sous-catégorisations et catégories lexicales. La grammaire décrit un ensemble de règles syntaxiques qui stipulent la combinaison des constituants syntaxiques (sélec-tionnés par les données d’entrée) pour la production de la verbalisation correcte de la totalité de l’entrée. De cette façon, une approche basée sur la grammaire modélise la relation syntaxique parmi les données d’entrée et fournit un chablon linguistique de la réalisation de surface.

En outre, pour éviter les problèmes associés aux grammaires construites manuelle-ment (perte de temps et intervention massive d’utilisateurs) ou à la réutilisation des grammaires à large couverture (diﬃcultés de conversion de format [Callaway, 2003] et [Busemann, 1996]), nous proposons un apprentissage automatique de la gram-maire à partir d’un corpus d’un domaine donné. Comme le résument les Sections 2 et 3 et le détaillent les Chapitres 3 et 4, nous développons une approche pour ap-prendre une grammaire à partir d’un corpus parallèle et non parallèle. Le chapitre 3 présente notre approche supervisée pour apprendre une grammaire associant entrée et réalisation de surface à partir d’un corpus parallèle à l’aide d’un lexique fourni a priori. Le chapitre 4 présente une autre approche pour la réalisation de surface basée sur une grammaire qui utilise un lexique fourni mais qui ne nécessite pas un corpus parallèle.

2 Verbalisation de triples – Une approche supervisée

Dans le contexte de la réalisation surface à partir de bases de connaissances, les ressources créées manuellement (chablons ou grammaires) ont été largement utilisées. Des travaux précédents, par exemple [Carenini et al., 1994], [Paris, 1988], [Aguado et al., 1998], [Galanis et al., 2009] utilisent des chablons écrits manuellement pour établir la correspondance entre le texte et l’information sémantique dans les bases de connaissances. D’autres travaux tels que [Bontcheva and Wilks., 2004], [Williams and Power, 2010] et [Cimiano et al., 2013] utilisent des règles spéciﬁées manuellement.

(18)

2. Verbalisation de triples – Une approche supervisée

Ici nous explorons un approche alternative dans laquelle nous induisons, à partir d’un corpus parallèle alignant texte et données, une grammaire qui sera utilisé par un réalisateur de surface. Étant donné un ensemble d’apprentissage constitué de paires ({t1, . . . , tn},S) où {t1, . . . , tn} est un ensemble de triplets issus d’ontologies, et S est

une phrase verbalisant cet ensemble de triplets, nous développons une méthodolo-gie pour l’apprentissage de grammaires TAG, qui capture la correspondance entre les triplets des bases de connaissance et le texte. De plus, nous connectons au-tomatiquement les unités sémantiques de l’entrée aux constructions syntaxiques de la grammaire extraite et imposons ainsi une intégration synaxique et sémantique plus forte en utilisation une sémantique basée uniﬁcation ([Gardent and Kallmeyer, 2003]). La méthode d’induction suit des principes linguistiques et permet d’obtenir une grammaire compacte et facilement généralisable qui permet de traiter d’entrée non vues dans le corpus d’apprentissage.

:TRIPLES (

:ROOT-TYPES (

Sentence :

The function of a gated channel is to release particles from the endoplasmic reticulum.

Figure 1: Un exemple d’apprentissage avec le datasetKBGen

Notre entrée (le dataset KBGen ) est constitué de données issues d’une base de données connaissances biologique existante (la KB Bio 101 [Chaudhri et al., 2013]) fournie par le déﬁKBGen[Banik et al., Banik et al., 2012, 2013]. L’objectif de ce déﬁ est d’évaluer la génération de grammaires à partir de bases de connaissances. Comme [Angeli et al., 2010], nous utilisons le terme “scénario” pour décrire le contenu d’une base de connaissance associé avec la phrase qui lui correspond. Le datasetKBGenest constitué de 207 scénari d’apprentissages (un exemple est décrit dans la Figure1), et de 72 scenari de test. Nous apprenons une grammaire qui connecte le contenu

(19)

de la base de connaissance aux chaines de caractères des scenari d’apprentissage, et utilisons les phrases dans les scenari de test comme phrase de référence pour l’évaluation des phrases générées par notre approche.

Le datasetKBGenfournit également un lexique qui liste les mots et les phrases qui peuvent être utilisés pour verbaliser les variables (entités et évènements) apparaissant dans les ensembles d’apprentissage et de test. Le lexique déﬁnit un mapping entre types d’évènements, verbes, leur formes ﬂéchies et leur nominalisation ainsi qu’entre entité, noms et forme plurielle. Par exemple, les entrées du lexiques pour les entités et évènements présentés Figure 1 sont décrites dans la Figure 2 ci-dessous.

Release-Of-Calcium releases, release, released, release

Particle-In-Motion molecule in motion, molecules in motion Endoplasmic-Reticulum endoplasmic reticulum, endoplasmic reticulum Gated-Channel gated channel, gated channels

Figure 2: Example Entries from theKBGenLexicon

Nous avons pour but d’apprendre les arbres dune grammaire d’arbres adjoints lexicalisée à traits (Feature-Based Lexicalised Tree Adjoining Grammar, FB-LTAG) chaque exemple de l’ensemble d’apprentissage, afin de construire une grammaire qui pourra ensuite être utilisée pour la génération à partir des données de test. À cette fin, nous traitons chaque scenario d’apprentissage séparément, la tâche pou-vant être résumée comme suit. Premièrement, pour chaque scenario d’apprentissage, nous alignons les variables de la base de connaissances aux chaines de caractères de la phrase correspondante, en utilisant la correspondancde exacte ou presque ex-acte d’une ou plusieurs entrées lexicales. Ensuite, nous définissons un ensemble d’heuristiques et les utilisons pour projeter les variables de la base de connaissance sur les noeuds syntaxiques de l’arbre syntaxique de la phrase. Une fois toutes les projections effectuées, nous obtenons les sous-arbres ayant pour racines les noeuds de projection des variables et nous les associons aux variables qui correspondent séman-tiquement. Les motivations et les étapes pour extraire de tels arbres sont expliqués en détails dans la Section 3.5.2.

Deuxièmement, nous découpons les arbres obtenus pour les variables évènemen-tielles en des arbres plus petits, chacun représentant des arguments syntaxiques ou sémantiques à un moment donné. Comme détaillé dans la Section 3.5.4, ceci permet la création de nouveaux arbres TAG auxiliaires qui représentent des verbalisations de relations sémantiques indépendantes (servant couramment de modiﬁeurs option-nels dans les phrases). En outre, cette stratégie permet de limiter un overﬁt de la grammaire et de traiter de cas d’entrée où la combinaison des relations donnée n’a

(20)

2. Verbalisation de triples – Une approche supervisée

pas été vue dans les données de test.

Enfin, pour traiter les cas de test avec des variables d’évènement et d’entités non detectées, nous définissons une procédure d’adaptation de la grammaire automatique qui connecte un arbre existant dans la grammaire à l’entrée de test donné, en se basant sur leur similarité sémantique. Dans la Section 3.5.5, nous montrons que cette procédure fournit une couverture complète pour les 72 scenari de test, et que nous pouvons adapter les arbres issus de différents ensembles d’apprentissage pour traiter la même entrée de test.

Pour faire la génération avec la grammaire extraite, nous utilisons un réalisateur de surface existant, GenI [Gardent et al., 2007]. Nous évaluons les phrases générées en les comparant avec deux systèmes diﬀérents qui génèrent à partir du même dataset KBGen – le système UDEL [Butler et al., 2013] (un système construit manuelle-ment avec un système de règles) et le système IMS [Zarrieβ and Richardson, 2013] (un système statistique utilisant une grammaire probabiliste). Les phrases écrites par l’humain pour chaque scenario de test fournis par le dataset KBGen servent de références pour comparer les décisions de chaque système. Une évaluation automa-tique est réalisé en terme de score BLEU [Papineni et al., 2002] et une évaluation par des humains a été menée sous la forme d’une enquête demandant à des utilisa-teurs humains de noter les phrases générées par chaque système pour leur facilité de compréhension (le text est il facile à lire?), leur qualité grammaticale (la phrase est elle naturelle et bien formée?) et leur adéquation sémantique avec les phrases de référence (Le sens de la phrase générée est il le meme que celui de la phrase de référence?). L’analyse de ces deux évaluations montrent que notre système oﬀre de moins bonnes performances que le système UDEL construit manuellement, mais de meilleures performances que le système statistique IMS.

Ainsi, en utilisant le datasetKBGen nous proposons une nouvelle méthode pour extraction automatique de grammaires qui peuvent permettre de connecter séman-tiquement et syntacséman-tiquement les triplets des bases de connaissances avec les chaînes de caractères d’un texte. La grammaire résultante est constituée via des principes linguistiques et possède des performances statisfaisantes au regard des autres ap-proches symboliques et statistiques. Par ailleurs, notre méthode est générique et peut être adaptée à toute base de connaissance.

(21)

3 Verbalisation des événements n-aire dans les

Ontolo-gies – Une approche faiblement supervisée

Une forte limitation de l’approche supervisée qu’on vient de décrire est qu’elle néces-site l’existence d’un corpus parallèle alignant un fragment KB avec une phrase qui verbalise ce fragment. Dans la deuxième partie de cette thèse, nous explorons donc une approche pour la réalisation de surface à partir des données KB qui utilise un lexique fourni mais ne nécessite pas un corpus parallèle.

Notre entrée pour cette expérience, le KBGen+ dataset, est dérivée du KBGen dataset discuté plus tôt. Dans leKBGendataset, l’entrée est composée des unités de contenu, dont chacune exprime un ensemble de relations entre les types de concepts diﬀérents, à savoir événement-à-entité, événement-à-événement, entité-à-événement, entité-à-entité et les relations propriétés-valeurs. Cependant, dans ce travail, nous nous intéressons à décrire les événements en lien avec leurs arguments de type entité seulement et, par conséquent, nous traitons le KBGen dataset pour produire tous les fragments KB qui représentent un événement unique avec des rôles à des entités seulement. LeKBGen+ dataset est donc une collection de descriptions d’événements biologiques par lesquels une description d’événement est constituée d’un événement, ses arguments et les n-plusieurs rôles reliant chaque argument à l’événement. Au total, nous obtenons 336 descriptions d’événements pour notreKBGen+ dataset. Un exempleKBGen+entrée (seulement le :TRIPLES section) dérivée de l’entrée _KBGen

de la Figure 1 est montrée dans la Figure 3 ci-dessous. Notez que nous créons les phrases de référence pour notre KBGen+ dataset en ne retenant que les structures de description de l’événement dans les phrases correspondantes duKBGen avec des modiﬁcations minimales et analyse manuelle minutieuse.

:TRIPLES (

Sentence :

A gated channel release particles from the endoplasmic reticulum.

Figure 3: Un Exemple de Scénario d’Apprentissage à partir duKBGen+ Dataset

Pour générer automatiquement des verbalisations en langage naturel des descrip-tions d’événements dans le répertoireKBGen+ dataset, nous proposons une méthode probabiliste qui extrait les possibles cadres de verbalisation à partir d’un large cor-pus d’un domaine spéciﬁque en biologie et qui utilise les probabilités à la fois pour

(22)

3. Verbalisation des événements n-aire dans les Ontologies – Une approche faiblement supervisée

sélectionner un cadre approprié étant donnée une description de l’événement et pour déterminer la mappage entre les arguments syntaxiques et sémantiques. À cette ﬁn, nous commençons par la collecte des phrases provenant de plusieurs corpus du domaine biomédical publiquement disponibles. Ceci inclu les corpus BioCause [Mi-hăilă et al., 2013], BioDef1_{, BioInfer [Pyysalo et al., 2007], Grec [Thompson et al.,}

2009], Genia [Kim et al., 2003a] and PubMedCentral (PMC)2_{. Nous incluons aussi}

les phrases disponibles dans les des concepts nommés dans l’ontologie KB Bio 101 . Cette collection personnalisée de phrases sera le corpus sur lequel notre approche d’apprentissage va se construire.

Pour identiﬁer les phrases du corpus qui pourraient contenir des verbalisations des événements et entités du KBGen+ , nous avons également besoin d’un lexique mappant les variables événement et entité contenues dans KBGen+ à des mots ou des phrases langage naturel. Pour cela, nous prenons le lexique fourni par le déﬁ KBGen et nous l’augmentons avec les entrées synonymes pour les événements et entités du KBGen+ trouvés dans Mesh3 dans le vocabulaire BioDef. Mesh est un dictionnaire existant à large couverture des termes dans les sciences de la vie et fournit la synonymie des termes. BioDef est notre nom personnalisé pour vocabulaire de synonymes que nous construisons automatiquement en analysant les entrées dans la section hSynonymsi des pages html rampés d’un dictionnaire de biologie ouvert à http://www.biology-online.org/dictionary/. The lexique résultant est donc une fusion de toutes les entrées extraites de toutes les sources mentionnées ci-dessus pour tous les événements et entités duKBGen+ .

Equipés avec les phrases et le lexique, nous procédons à extraire les cadres syntax-iques pour les événements survenus dans le datasetKBGen+ tout en traitant chaque événement à son tour. Pour chaque événement e dans le dataset KBGen+ nous recherchons toutes les phrases S dans le corpus qui mentionnent une ou plusieurs des formes de mot disponibles pour cet événement dans le lexique fusionné. Chacune de ces phrases s ∈ S est ensuite analysée selon l’analyseur de dépendance Stanford

4 _{pour la structure de dépendance eﬀondrée. Depuis l’arbre d’analyse de}

dépen-dance résultant, nous extrayons la sous-arborescence t enracinée au nœud étiqueté avec la forme de mot pour la variable d’événement et couvrant seulement ses dépen-dances immédiats en charge (ie les nœuds enfants directs). Le cadre obtenu pour l’événement e depuis cette phrase s est alors une chaîne composée de séquence

or-1

Obtenu par analyse de la section hSupplementi des pages html rampé à partir de http://www.biology-online.org/dictionary/ 2 ftp://ftp.ncbi.nlm.nih.gov/pub/pmc 3 http://www.nlm.nih.gov/mesh/filelist.html 4 http://nlp.stanford.edu/software/lex-parser.shtml

(23)

donnée de relations de dépendance se produisant dans t ainsi que le tag partie du discours (pos) du nœud racine. Dans le cadre, nous généralisons les tags NN, NNS, NNP et NNPS comme NP; les pos tags VBD, VBG, VBN, VBP et VBZ comme VB et nous gardons le reste tel qu’il est. Par exemple, étant donné la phrase et son arbre d’analyse de dépendance correspondant comme indiqué dans 4, un cadre VB enraciné nsubj,VB,dobj est obtenu pour l’événement Block indiquant que la forme du verbe block exige un sujet et un objet.

New immunosuppressive drug pnu156804 blocks IL-2-dependent proliferation

JJ JJ NN NNS VBZ JJ JJ AMOD AMOD NN NSUBJ DOBJ AMOD

Figure 4: Exemple d’arbre de dépendances

La procédure d’extraction de cadre peut nous fournir une grande variété de mod-èles de verbalisation syntaxiques pour chaque événement dans la datasetKBGen+ . De plus, nous devons établir la correspondance syntaxique/sémantique entre la struc-ture syntaxique dans des cadres et les rôles sémantiques dans la datasetKBGen+pour un système réussi. Pour résoudre ces problèmes, nous proposons trois diﬀérents mod-èles probabilistes qui sont entrainés sur les cadres extraites et seront utilisés pour générer les descriptions des événements deKBGen+ pendant la phase de test. Étant donné F un ensemble de structures syntaxiques, E un ensemble de événements de KBGen+ _D un ensemble de noms de dépendance syntaxiques et R, un ensemble de

KB rôles, nous construisons trois modèles probabilistes génératifs, à savoir la P (f|e), P(f |r) et P (d|r).

Le modèle P (f|e) avec f ∈ F et e ∈ E dénote la probabilité d’un cadre sachant un événement. Elle est calculé comme suit:

P(f |e) = P counts((f, e) ∈ Ce) + 0.1

f′(counts ((f′, e) ∈ Ce) + 0.1)

(1)

où Ce représente la collection de toutes les cadres extraites de l’événement e à partir

du corpus de phrases; counts(f, e) est le nombre de fois que le cadre f est observée pour l’événement e dans Ce et counts(f′, e) est la fréquence de tout cadre f′ observé

pour l’événement e dans Ce.

(24)

3. Verbalisation des événements n-aire dans les Ontologies – Une approche faiblement supervisée

un rôle. Elle est calculée comme suit:

P(f |r) = P counts((f, r) ∈ Cr) + 0.1

f′(counts ((f′, r) ∈ Cr) + 0.1)

(2)

où Cr représente la collection de tous les cadres alignés sur le rôle r; counts(f, r) est

le nombre de fois que le cadre f est observé pour le rôle e dans Cr et counts(f′, r)

est la fréquence de tout cadre f′ _{observé pour le rôle r dans C}

r. Pour ce modèle,

nous supposons qu’un cadre de l’événement f extrait de certaines sous-arborescence de dépendances t est aligné à un rôle r dans le total des descriptions d’événements KBGen+ chaque fois que t a une entité e comme dépendante et l’entité e est lié via

le rôle r dans l’une des descriptions d’événements dans la dataset KBGen+ .

Le modèle P (d|r) vise à apprendre la relation syntaxe/sémantique pour verbaliser le cadre sélectionnée. Il est calculé comme suit:

P(d|r) = P counts((d, r) ∈ Cd) + 0.1

d′(counts ((d′, r) ∈ Cd) + 0.1)

(3)

où Cdreprésente la collection de toutes les dépendances alignées sur le rôle r; counts(d, r)

est le nombre de fois la dépendance d est observée pour le rôle r dans Cdet counts(d′, r)

est la fréquence de toute dépendance d′ _{observé pour le rôle r dans C}

d. Pour ce

modèle, nous supposons qu’une relation de dépendance d présente dans une sous-arborescence de dépendances t peut être aligné à un rôle r dans le total des entrées à chaque fois que d lie une entité e en t et l’entité e est lié via le rôle r dans l’une des descriptions d’événements de l’entrée. A l’opposition du modèle ’P (f|r), ici, nous alignons les rôles de l’entrée à la relation de dépendance correspondante dans le cadre plutôt qu’au cadre lui-même.

La tâche de la réalisation de surface pour verbaliser les descriptions d’événements dans la base KBGen+ rend l’utilisation des modèles appris jusqu’ici. Etant donnée une description de l’événement, nous identiﬁons d’abord l’événement e et l’ensemble des rôles r1. . . rn qu’il contient. Nous déﬁnissons l’arité de l’événement e comme

étant le nombre de types de rôles distincts présents dans la description de l’événement. Puis, à partir de tous les cadres présents dans Ce pour cet événement, nous ne

sélec-tionnons que ceux qui ont la même arité (ceci est égal au nombre de dépendances syntaxiques dans le cas de cadres) que l’événement d’entrée. Tous ces cadres sont des cadres candidats pour notre tâche de réalisation de surface. Nous voulons iden-tiﬁer les 5 meilleurs cadres pour lesquels nous considérons deux fonctions de score alternatives (M1) et (M2).

(25)

P(f |e) × n Y i=1 P(f |ri) (M1) P(f |e) × n Y i=1 P(f |ri) × n Y i=1 P(di|ˆrf_i) (M2) où (ˆrf₁, . . . ,ˆrf_n) = argmax (s1,...,sn)∈P({r1,...,rn}) n Y i=1 P(di|si)

et P({r1, . . . , rn}) est l’ensemble des permutations de roles.

Nous sélectionnons les 5 cadres ayant les meilleurs scores (à partir des deux équa-tions (M1) et (M2)) et de déterminer la correspondance entre dépendances syntax-iques que contient le cadre et les rôles sémantsyntax-iques dans la description de l’événement d’entrée pour lequel ce cadre a été sélectionné en utilisant la fonction (ˆrf

1, . . . ,rˆ f n)

déﬁni ci-dessus. Une fois une telle cartographie est connue, la tâche de génération est réduite à remplir chaque fente de dépendance dans le cadre de l’entrée avec l’entité lexicale liée du rôle correspondant (l’entité argument) dans l’entrée et préserver le premier mot verbalisant l’évènement.

Nous évaluons les résultats obtenus à la fois quantitativement (évaluation Au-tomatique) et qualitativement (évaluation Humaine) et nous analysons les problèmes relatifs à l’apprentissage à partir de corpus non-parallèle.

4 Conclusion

Au total, nous proposons deux nouvelles approches motivées linguistiquement pour la réalisation de surfaces à partir à partir de base de connaissances. Nous utilisons une entrée échantillon provenant d’une ontologie biomédicale existante, mais nos approches sont génériques et peuvent être facilement étendues à d’autres ontolo-gies. Pour chacune de nos approche, nous présentons une description détaillée des procédures impliquées, nous montrons les résultats obtenus nous les analysons. Nous identiﬁons les cas de problèmes éventuels, nous présentons les visions linguistiques dans les causes des échecs et nous fournissons des indications pour une les prochaines recherches.

(26)

List of Figures

1.1 A toy database containing student records . . . 2 1.2 Example input from KBGen . . . 4 2.1 NLG Reference Architecture . . . 17 2.2 Depiction of Template based Surface Realisation Approach . . . 20 3.1 Example Training Scenarios from KBGendataset . . . 40 3.2 Example Entries from the KBGenLexicon . . . 40 3.3 Example Initial and Auxiliary TAG trees . . . 41 3.4 Example LTAG . . . 42 3.5 Substitution Operation in TAG . . . 42 3.6 Adjunction Operation in TAG . . . 43 3.7 Example FB-LTAG with Semantics . . . 44 3.8 Feature Unification during Substitution in FB-LTAG . . . 44 3.9 Feature Unification during Adjunction in FB-LTAG . . . 45 3.10 Toy FB-LTAG with Unification based Semantics . . . 45 3.11 FB-LTAG with Unification based Semantics for a KBGen Scenario . 47 3.12 An example Data-to-Text Alignment . . . 48 3.13 Visualisation of Variable Projection Procedure . . . 50 3.14 Grammar extracted for Training Scenario in Figure 3.1a. . . 53

3.15 Grammar extracted for the Training Scenario in Figure 3.1b. . . 54

3.16 Grammar extracted for the Training Scenario in Figure 3.1c . . . 56

3.17 Training Scenario showing relation between entities with property values . 57

3.18 Grammar extracted for the Training Scenario in 3.17 . . . 58

3.19 Tree Schema for the tree in 3.14a and example entries for its lexicon 60 3.20 Trees Added by Grammar Expansion Activity on Figure 3.14 . . . 62

3.21 Trees Added by Grammar Expansion Activity on Figure 3.15 . . . 63

(27)

3.23 An Example Test Scenario . . . 65

3.24 Grammar Adaptation for the Test Scenario in Figure 3.23 . . . 66

3.25 Example generated sentences verbalising diﬀerent relation types . . . 69 3.26 BLEU scores and Grammar Size (Number of Elementary TAG trees) 71 3.27 Human Evaluation Results on a scale of 0 to 5 . . . 72 4.1 An example of Corpus based Template Extraction . . . 83 4.2 Example Dependency Parse Tree . . . 90 4.3 Dependency subtree : Maintain . . . 95 4.4 Dependency subtree : Release . . . 95 4.5 Dependency subtree : Intracellular-Digestion . . . 108 4.6 Dependency subtree resulting from parser error . . . 108

(28)

List of Tables

4.1 KBGen+ Statistics. . . 85 4.2 Count of sentences in diﬀerent corpora . . . 86 4.3 Count of lexical entries and KBGen+ variables in diﬀerent lexicons . 88 4.4 Proportion of KBGen+ variables for which a lexical entry was found . 89 4.5 Min/Max/Avg number of lexical items observed for KBGen+ variables 89

4.6 Cr after processing EventMaintain . . . 96

4.7 Cr after processing Events Maintainand Release . . . 96

4.8 Cd after processing Event Maintain . . . 97

4.9 Cd after processing Events Maintain andRelease . . . 97

4.10 Sample P (d|r) . . . 100 4.11 Role Mapping Accuracies . . . 103

(29)

(30)

Chapter 1

Introduction

Contents 1.1 Thesis Scope . . . 2 1.2 Motivations . . . 4 1.3 Research Issues . . . 6 1.4 Contributions . . . 9 1.5 Thesis Roadmap . . . 10

(31)

1.1 Thesis Scope

This thesis is about generating sentences from Knowledge Base data. Using an ex-isting Knowledge Base (the KBBio101 ontology [Chaudhri et al., 2013]) as reference, we present novel approaches to Surface Realisation from Knowledge Base (KB) data that are generic and independent of a particular KB domain.

Surface Realisation is the task of automatically producing surface text from some sentence size input. In a typical Natural Language Generation (NLG) system, it constitutes the ﬁnal phase of the generation task. The reference architecture for NLG system proposed by [Reiter and Dale, 2000] presents a pipeline architecture for text generation which models the generation task as three main activities in sequence – Content Planning, Micro Planning and Surface Realisation. Content Planning is related to choosing and organizing content units from the input that are relevant to the communicative goal of the NLG system. Micro Planning builds upon this by exploring the linguistic aspects of the selected content units; for example, identifying word forms to describe an entity in the input or determining the content units that refer to each other. Finally, Surface Realisation is responsible for producing actual surface expressions that verbalise those content units in syntactically correct and semantically coherent structures when put in the context of natural language text.

Consider a toy input (Figure 1.1) derived from a sample database of student records to see how the diﬀerent modules making up the NLG system come into play while generating a simple sentence.

Academic Year Number of Students Pass % Attendance %

2009 200 52 44

2010 200 68 56

2011 200 80 32

Figure 1.1: A toy database containing student records

Assuming that we want to have a description of academic performance of stu-dents in diﬀerent years, the Content Planning module would select the attributes “Attendance %”, “Pass %” and “Academic Year” and organize them in that order while leaving out the “Number of Students” attribute since it contains redundant information (it is the same throughout all the “Academic Year” and the “Pass %” and “Attendance %” already abstract over the actual numbers). After the relevant contents are selected, the Content Planning module may also decide on the choice of discourse rhetoricts to link them (e.g. using “Despite” to express a contrast in selected content). The Micro Planning phase might then determine the proper word

(32)

1.1. Thesis Scope

forms to express the attributes and attribute values, for example, chosing the lexical form “success” to denote the “Pass %” attribute and using gradable adjectives like “low” or “large” to represent values below/above a certain threshold, etc. Finally, the Surface Realisation module might map the output of the micro planning step into a sentence such as (1) .

(1) Despite low attendance, a large number of students succeeded in 2011. In this thesis, we focus our research objectives on the surface realisation task alone and for this, we assume that the Content Planning and Micro Planning tasks on the KB have been carried out beforehand. In practice, we accept a fragment of the KBio101 ontology extracted by the KBGen organisers for the KBGen challenge [Banik et al., 2012, Banik et al., 2013] as input to our surface realisation task. In this dataset provided by the KBGen challenge, each input describes a coherent unit of semantic content which can be verbalised by a single, possibly complex sentence that is grammatical and meaningful and the set of content units express as many diﬀerent relations and concepts of diﬀerent semantic types (events, entities, properties etc.) as possible.

Figure 1.2 shows a sample KBGen input. As can be seen, the :TRIPLES section speciﬁes a single connected unit (possibly a graph) of binary relations between KB entities (events or individuals), the :INSTANCE-TYPES section provides information on the semantic types of the entities mentioned in the :TRIPLES section and the :ROOT-TYPES section deﬁnes the data types of these entities. Basically, the appro-priate content units for the generation of a, possibly complex, sentence have already been determined and the lexicalisation information is provided. What remains is the development of methods for generating surface text expressions from these content units, such as the sentence shown in (2) for the input shown in Figure 1.2.

(2) The function of a gated channel is to release particles from the endoplasmic reticulum.

We experiment and evaluate a supervised and a weakly supervised approach for surface realisation from such inputs, discuss their feasibility to address diﬀerent KB inputs and provide pointers to further research directions. Learning from parallel data (supervised learning) allows for immediate analysis of problems faced during verbalisation since the parallel text serves as a quick reference upon which the output from our system can be compared against. Also because the supervised approach learns from parallel text, it promises on reﬂecting the updates which may occur in the parallel text (in future) into the sentences generated by the system. Learning from

(33)

:TRIPLES (

:ROOT-TYPES (

Figure 1.2: Example input from KBGen

non-parallel texts (weakly supervised learning), however, allows for a more general setting for learning of generation resources whereby the need of having/authoring the parallel text is eliminated.

1.2 Motivations

There are both practical and theoretical grounds for exploring surface realisation from Knowledge Base data.

Knowledge Bases are software artifacts for storing, processing and inferring hu-man knowledge in a computational framework. As such, Knowledge Bases encode real world knowledge in terms of concepts and relations represented via logical ax-ioms. This makes them well suited for computational representation and reasoning but counter-intuitively less insightful for a human user to understand. Moreover, the expressive complexity of Knowledge Bases is ever increasing (i.e. more complex logical formalisms are emerging); the Knowledge Bases keep on dynamically evolving (so as to reﬂect newly acquired knowledge over time) and they often embody a large body of domain knowledge. In this context, a verbalisation system allows for auto-matic expression of Knowledge Base data in the most natural and comprehensible way to human, can scale up to the changing nature of Knowledge Base content and provides the information in a piecemeal fashion as relevant to the communicative goal set by the human user.

Thanks to the Semantic Web vision, Knowledge Bases (ontologies) have gained huge popularity as knowledge modeling tool across several domains and the number

(34)

1.2. Motivations

of ontologies on the web has exploded in recent years. Ranging from the environmen-tal domain (e.g. the SWEET5 _{ontology) to biological processes (e.g. the BioPAX}6

ontology), linguistic descriptions (e.g. the GOLD7 _{ontology) and several others,}

on-tologies provide ample opportunities for verbalising data from heterogeneous sources. Existing research on verbalisation from ontologies have mainly been motivated by the following three application scenarios :

• Description and Summary generation : Several works target the description of fragments of ontology data (in the form of logical axioms expressed in OWL or RDF standards) in response to diﬀerent use-cases. [Androutsopou-los et al., 2013], for example, generate multi-lingual (in English and Greek), multi-sentences text describing classes and individuals in ontologies; [Duma and Klein, 2013] present a natural language generation system producin short text describing factual, non-temporal information of entities in DBpedia8 _and

[Mellish and Pan, 2006] additionally take into account the knowledge inferred from logical consequences of axioms in ontologies while verbalising them. Sim-ilarly, research in aggregating logical axioms in ontologies for obtaining textual summaries has been presented in [Bontcheva, 2005], [Williams and Power, 2010] etc. Overall, such systems aim to reduce the work of domain experts by avoid-ing the need to author resource deﬁnitions by hand and to provide an easy access to the information content to casual users.

• Intelligent Tutoring systems : Verbalising Knowledge Base data with the goal of tutoring human users in achieving some pedagogical goals have been reported in the ﬁeld of Computer-Aided Language Learning (CALL). In [Amoia et al., 2012], for example, the Knowledge Base contents relevant to a given pedagog-ical goal are selected and verbalised to make up sentences posing as exercise questions to human users. Along these lines is the task of question/answer generation from ontologies. [Papasalouros et al., 2008] generate multiple-choice questions from ontology, [Gyawali, 2011] generate short answer texts to factoid questions posed upon ontologies and [Lopez et al., 2007] present the AquaLog system which derives answers to user queries from multiple ontologies.

• Human friendly interface : Following the idea presented in [Tennant et al., 1989], [Hallett et al., 2007] proposed the “Conceptual Authoring” model which

5 http://sweet.jpl.nasa.gov/ 6 http://biopax.org/ 7 http://linguistics-ontology.org/ 8 http://wiki.dbpedia.org/

(35)

describes the use of natural language text as a human interface to ontologies. The basic premise of this model is that the underlying logical structures in ontologies can be masked via natural language text during user interaction with the ontology, for example while editing or querying the ontology. Such an interface allows for proposing upcoming suggestions consistent with the existing knowledge in the ontology in a human friendly way. Based on this model, [Franconi et al., Franconi et al., 2010, 2011] present a natural language based query interface to ontologies and [Perez-Beltrachini et al., 2014] extend it by allowing for incremental query generation. [Evans and Power, 2003], on the other hand, present a natural language interface for ontology authoring. In sum, the development of the semantic web and the proliferation of Knowledge Bases call for many applications in which natural language generation can signiﬁ-cantly aid human interactions. There are thus practical reasons to work on surface realisation from Knowledge Bases. Importantly however, this large set of homoge-neous, logical, data is also a great opportunity for the development, evaluation and comparison of surface realisers. As is well known, the input to NLG can be varied (numerical, logical, linguistic) which makes such comparisons diﬃcult across het-erogeneous data formats. The current availability of large quantities of Knowledge Base data encoded in a uniform formalism (e.g., in RDF standard) makes such a comparison now possible. There are thus both practical and theoretical reasons to explore surface realisation from knowledge bases.

1.3 Research Issues

There are two main issues that need to be tackled when generating sentences from Knowledge Base data.

First, the mapping between data and text must be accounted for.

As shall be detailed in the next chapter, existing approaches to surface realisation address this requirement by using templates, grammars or a direct data-to-string mapping. Templates are partially complete linguistic expressions containing gaps (slots) which need to be ﬁlled up by the data coming from the input for a successful generation. A grammar speciﬁes a set of transformation rules; each one mapping some portion of input data to corresponding syntactic constituents and the output text is generated by combination of those rules. Finally, direct mapping approaches learn a data-to-text mapping from parallel data-text corpora. The mapping learned

(36)

1.3. Research Issues

is then used to generate new sentences from unseen test data. Several works based on templates, grammars (both manually deﬁned and automatically learnt) and direct mapping models have been proposed in the literature and integrated with symbolic as well as with statistical techniques.

In this thesis, we provide new methods for addressing this issues in the super-vised and weakly supersuper-vised settings. In the supersuper-vised setting, we automatically induce a grammar from a parallel data-text corpus and use it for surface realisation using an existing surface realiser where the choice of the best output is guided by a language model. In the weakly supervised setting, however, we use the supplied lexicon to extract a set of lexicalisations and subcategorisation frames for Knowl-edge Base symbols from non-parallel corpora and then use a probabilistic model to predict the best mapping of the syntactic arguments in a subcategorisation frame to the semantic arguments of the corresponding Knowledge Base symbol.

A second important issue that needs to be handled when generating text concerns the ranking of the alternative sentences generated by the generation system. Because of the paraphrasing power of natural language or because of the noise introduced by the generation system, a strategy must be defined for choosing the best paraphrase from among the many possible alternatives usually produced by the surface realisa-tion of the input.

Using natural languages, humans can describe a given set of data in different contexts and via different expressions making use of lexical, phrasal and syntactic paraphrases. A successful surface realiser would mimick such “human-like” behaviour by producing coherent and varied sentences. This calls for techniques utilising resources (gram-mar and templates) that support alternative verbalisations and allow for fluency rating of sentences so produced. However, integral to this aspect is the drawback of over-generation that is, the production of overwhelmingly many sentences resulting from very generic templates or poorly constrained combination rules in the grammar.

By allowing the same input to be verbalised in different ways, the approaches we propose here allow for paraphrases. To choose the best output, we exploit a basic ranking technique using a language model in the case of the supervised approach and a general probabilistic model, in the case of the weakly supervised approach.

Overall, one distinguishing feature of the approaches proposed in this thesis, is that we make explicit use of linguistic knowledge to guide surface realisation. Many

(37)

cur-rent approaches to data-to-text assume either the use of ﬁxed templates or a direct data-to-text mapping (learned from a parallel corpus using some machine learning technique). In such approaches, simple linguistic constraints such as subject-verb agreement and more complex constraints such as the linking between syntactic and semantic arguments, are mostly ignored. In contrast, we propose approaches for surface realisation from Knowledge Base data which make explicit use of linguistic constraints. In the supervised setting, we induce from a parallel data-text corpus a Feature-Based Lexicalised Tree Adjoining Grammar which imposes strong con-straints on the syntax-semantic interface i.e., on how the semantic arguments of a Knowledge Base relation and the syntactic arguments of a verb or a relational noun lexicalising that relation relate. Similarly, in the weakly supervised approach, we propose a probabilistic model which makes use of syntactic frames extracted from corpora and is designed to predict the linking between syntactic and semantic argu-ments. In short, in this thesis:

we argue for surface realisation approaches which combine explicit linguistic con-straints with statistical learning either through the combination of an automatically extracted grammar with a surface realiser guided by a language model or through the use of a probabilistic model combined with a frame extractor.

All these issues speciﬁc to the surface realisation task justify for a stand-alone re-search; not necessarily in conjunction with the preceding phases (Content Planning and Micro Planning) for a full scale NLG system. Indeed, in recent years, there has been increasing interest in surface realisation. Thus, [Bohnet et al., 2010] discuss surface realisation from the dependency trees of CoNLL-2009 shared task corpus [Hajič et al., 2009]. The First Surface Realisation Shared Task [Belz et al., 2011] was held in 2011 inviting research on surface realisation from dependency tree struc-tures. More recently, the KBGen Challenge [Banik et al., Banik et al., 2012, 2013] was held in 2013 as a challenge on surface realisation from Knowledge Base data. Since then, many works have been inspired and focus on the surface realisation task alone – [Wang and Zhang, 2012], [Guo et al., 2011], [Butler et al., 2013], [Zarrieβ and Richardson, 2013], to name a few.

From the theoretical perspective, the aim of this thesis is to explore the issues raised by surface realisation from Knowledge Base data and to propose methods for addressing those issues in a linguistically principled way and with very minimal manual eﬀort.

(38)

1.4. Contributions

1.4 Contributions

In this thesis, we present two novel approaches to Surface Realisation from Knowl-edge bases.

Supervised Approach: The KBGen challenge [Banik et al., 2012, Banik et al., 2013] was designed to compare and evaluate surface realisation systems taking as input Knowledge Base data. Given a Knowledge Base fragment which forms a co-herent unit, the task was to generate complex sentences which are both grammatical and fluent in English. The challenge made available to the participants a small (207 training examples) parallel corpus of text and KB fragment pairs as well as lexi-cons mapping KB symbols to words and phrases. In the first part of this thesis, we present a corpus-based method for inducing a Feature Based Lexicalized Tree Ad-joining Grammar (FB-LTAG) from a parallel corpus of text and data. The resulting extracted TAG includes a unification based semantics and can be used by an existing surface realiser to generate sentences from KB data. We apply our induction method to the KBGen data, use an existing surface realiser and implement a ranking module to test the resulting grammar on KBGen test data. Experimental evaluation shows that our approach outperforms a data-driven generate-and-rank approach based on an automatically induced probabilistic grammar; and yields results that are close to those produced by a handcrafted symbolic approach. Moreover, a distinguish-ing feature of our approach is that it relies on an automatically extracted grammar that is compact (a few hundred trees) and linguistically principled (it follows the se-mantic and extended domain of locality principles of Tree Adjoining Grammar). We show that this feature allows for a hybrid approach where an automatically extracted grammar can be manually revised to improve both coverage and output quality.

Weakly Supervised Approach. A strong limitation of the supervised approach just described is that it requires the existence of a parallel corpus aligning a KB fragment with a sentence verbalising that fragment. In the second part of this the-sis, we therefore explore an approach for surface realisation from KB data that uses a supplied lexicon but does not require a parallel corpus. Instead, we build a corpus from heterogeneous sources of text related to the domain of the Knowledge Base for which surface realisation is being developed (in this case, biology) and we use this corpus to identify possible lexicalisations of the KB symbols (classes and relations). We then use this corpus to estimate the probabilities of KB symbol lexicalisations, of subcategorisation frames and of the linking between the various syntactic and

(39)

se-mantic arguments of a given event. We propose probabilistic models for the selection of appropriate frames and syntax/semantics mapping and use a scoring function that utilises the learnt probabilities to verbalise the given input. We present automatic and human based evaluations of the output sentences and analyze issues relevant to learning from non-parallel corpora.

In both these approaches, we use the KBGen data as a reference input. The KB-Gen data is itself derived from an existing biomedical ontology (namely, the AURA Knowledge base, [Chaudhri et al., 2013]). Our methods are generic and can be easily adapted for input from other ontologies for which a parallel/non-parallel corpora exists.

1.5 Thesis Roadmap

The organisation of the chapters making up this thesis is as follows.

Chapter 2 provides a broad overview of NLG and studies the surface realisation task in detail. We discuss the relevant issues, the varying nature of inputs along with existing approaches to deal with them and put the study of surface realisation from ontologies into context.

In Chapter 3, we present a complete description of our supervised approach. In this chapter, we explore the surface realisation task from a grammar based approach. We learn a Feature based Lexicalised Tree Adjoining Grammar (FB-LTAG) with uniﬁcation semantics from parallel corpora of Knowledge Base data and text. We present a novel method for inducing the grammar from corpora and use it for the surface realisation task. The grammar we induce is driven by the linguistic principles of TAG and takes into account both the syntactic and semantic information. We evaluate the output sentences using both the automatic and human ranking metrics and show that the grammar we extracted is conceptually simple, is adaptable to unseen test cases and restricts the overgeneration problem.

In Chapter 4, we describe the weakly supervised approach in detail. This chapter pursues the surface realisation task from a diﬀerent perspective; i.e. the use of non-parallel corpora to learn verbalisation of event descriptions in ontologies. Here, we present a probabilistic approach which induces syntax/semantic mapping between the Knowledge Base data and surface text from a large domain corpora. We ana-lyze the output sentences for their semantic/syntactic accuracy and identify future research avenues.

(40)

1.5. Thesis Roadmap

the problems faced.

Finally, in Chapter 5, we conclude by presenting a summary of our approaches and providing pointers for further research.

(41)

(42)

Chapter 2

Natural Language Generation and

Surface Realisation

Contents 2.1 The NLG Task . . . 14 2.1.1 Issues to Solve . . . 14 2.1.1.1 Content Planning . . . 14 2.1.1.2 Micro Planning . . . 15 2.1.1.3 Surface Realisation . . . 16 2.1.2 NLG Architecture . . . 16 2.1.2.1 Sequential Architecture . . . 16 2.1.2.2 Joint Architecture . . . 16 2.1.3 NLG Inputs . . . 17 2.2 Surface Realisation . . . 18 2.2.1 Inputs to SR . . . 18 2.2.2 Approaches to SR . . . 19 2.2.2.1 Template Based Approaches . . . 19 2.2.2.2 Grammar-Based Approaches . . . 22 2.2.2.3 Direct Mapping Approaches . . . 24 2.2.3 Discussion . . . 25 2.3 NLG from Ontologies . . . 28 2.4 Conclusion . . . 29