• Aucun résultat trouvé

Natural Language Generation for Language Learning

N/A
N/A
Protected

Academic year: 2021

Partager "Natural Language Generation for Language Learning"

Copied!
206
0
0

Texte intégral

(1)

HAL Id: tel-01749799

https://hal.inria.fr/tel-01749799v2

Submitted on 18 Jan 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

Laura Haide Perez

To cite this version:

Laura Haide Perez. Natural Language Generation for Language Learning. Artificial Intelligence

[cs.AI]. Université de Lorraine, 2013. English. �NNT : 2013LORR0062�. �tel-01749799v2�

(2)

en´

eration automatique de phrases

pour l’apprentissage des langues

(Natural Language Generation for Language Learning)

TH`

ESE

pr´esent´ee et soutenue publiquement le 19 avril 2013

pour l’obtention du

Doctorat de l’Universit´

e de Lorraine

(Mention Informatique)

par

Laura Haide PEREZ

Composition du jury

Rapporteurs :

Karin HARBUSCH

Professeur, Universit¨

at Koblenz-Landau, Allemagne

Richard POWER

Professeur, Open University, Milton Keynes, R.U.

Examinateurs :

Claire GARDENT

Directeur de Recherches CNRS, LORIA Nancy, France

(3)
(4)

I would like to use this spa e to thank many people who have ontributed to this

thesisworkin one wayor another.

First of all,I want to thankmy supervisorClaire for givingme theopportunity

to work inthis topi ,for her onstant support, for givingme spa ebut at thesame

time being always ready to give advi e, and for orre ting many papers, slides and

this manus ript as well. Thank you Claire for all I have learnt in the past three

years.

I am indebted to the Université de Lorraine for the nan ial support and the

do toral s hool IAEM as well as LORIA for thene essary or hestration altogether

making my do toralstudies possible.

Many thanksalso go to themembers of the jury, Karin Harbus h, Guy Perrier

and Ri hard Power for their onstru tive omments and interesting feedba k and

dis ussions about the resear h work inthis thesis.

A spe ialthank you to myAllegro olleagues Alex, Céline, German, Ingrid and

Marilisa for dis ussions about work and their ollaboration as well as Elise and

NataliafortheirhelpwiththeevaluationsandSamuelandNadiafor fa ilitatingthe

use of IFLEG with Fren h language students. Thanks also to Céline for reviewing

theFren hparts,Linaforagreeingtoreadsome haptersandShashiforthetriangle

tree drawings. Many thanks to all the members of the Synalp/Talaris group for

the omfortable work environment. Thank youverymu h toKristina Striegnitz for

kindly fa ilitating methe sour esfor the drawing ofthedependen y tree.

Iwouldliketo thankmyfriendsand extendedfamily,hereandinArgentina, for

sharing with me re reation time, mails, visits, home-made s arves and many good

things and forenthusiasti ally en ouragingme duringthese years.

I am innitely grateful to my family for their un onditional support. I thank

myparents, Nilda and Ri ardo,for beingan unbeatable example. Theyarestrong,

loving andintelligent; Ifeelvery proud ofthem. Thanksto mybrotherMariano for

his are and for pointing me out to those simple big things about life. I want to

thank Yannfor staying bymyside;hislove and patien emake mehappy.

Thank youto those Ihave forgotten tomention.

I dedi atethis thesisto Nilda,Ri ardo, Mariano,Tataand Yann.

(5)
(6)

Mots- lés: Grammaired'ArbresAdjointsàStru turesdeTraits(FB-TAG),Réalisateurde

Surfa e (RS),Optimisation dela RéalisationdeSurfa e, Grammaire d'Arbres Réguliers à

Stru turedeTraits(FB-RTG),Représentationssémantiquesplatesetsous-spé iées,

Généra-tionAutomatiquedeLangueNaturelle(GLN),ApprentissageAssistéparOrdinateur(CALL),

Création(Semi-)automatiqued'exer i esdegrammaire.

Dans estravaux,nousexplorons ommentleste hniquesdeGénérationsAutomatiques

deLangueNaturelle(GLN)peuventêtreutiliséespouraborderlatâ hedegénération

(semi-)automatiquedematérieletd'a tivitésdansle ontextedel'apprentissagedelanguesassisté

parordinateur.Enparti ulier,nousmontrons ommentunRéalisateurdeSurfa e(RS)basé

surunegrammairepeutêtreexploitépourla réationautomatiqued'exer i esdegrammaire.

Notreréalisateurdesurfa eutiliseunegrammaireréversibleétendue,àsavoirSemTAG,qui

est une Grammaire d'Arbre Adjoints à Stru ture de Traits (FB-TAG) ouplée ave une

sémantique ompositionnelle basée sur l'uni ation. Plus pré isément, la grammaire

FB-TAGintègreune représentationplateet sous-spé iéedes formulesdeLogiquede Premier

Ordre(FOL).

Dans la première partie de la thèse, nous étudions la tâ he de réalisation de surfa e

àpartirdeformules sémantiquesplates et nous proposons unalgorithmede réalisationde

surfa e basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases

longues étant donné une grammaire et un lexique à large ouverture. L'appro he suivie

pourl'optimisationdelaréalisationdesurfa ebaséesur FB-TAGàpartirdesémantiques

plates repose sur lefaitqu'une grammaireFB-TAGpeutêtre traduite enune Grammaire

d'Arbres RéguliersàStru turede Traits (FB-RTG) dé rivantsesarbresde dérivation. Le

langaged'arbresdedérivationdelagrammaireTAG onstitueunlangageplussimplequele

langaged'arbresdérivés, 'estpourquoidesappro hesdegénérationbaséessurlesarbresde

dérivationontdéjàétéproposées. Notreappro hesedistinguedespré édentesparlefaitque

notre en odage FB-RTG prend en ompte lesstru tures detraits présentes dans la

gram-maire FB-TAG originelle, ayant de e fait des onséquen es importantes par rapport à la

sur-générationetlapréservationdel'interfa esyntaxe-sémantique. L'algorithmede

généra-tiond'arbresdedérivation quenousproposonsest unalgorithmedetypeEarleyintégrant

un ensemble de te hniques d'optimisation bien onnues: tabulation, partage- ompression

(sharing-pa king)etindexationbaséesurlasémantique.

Danslase ondepartiedelathèse,nousexplorons ommentnotreréalisateurdesurfa e

basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exer i es de

grammaire. Habituellement, les enseignants éditent manuellement les exer i es et leurs

solutions et les lassent au regard de leur degré de di ulté ou du niveau attendu de

(7)

deste hniquesd'apprentissageautomatiqueet des te hniques d'analyse de textes(par

ex-emple,analysedephrases,POStagging,et .). Cesappro hes onfrontentl'apprenantàdes

phrasesquiontdessyntaxespotentiellement omplexesetduvo abulairevarié. Enrevan he,

l'appro he que nous proposons dans ette thèse aborde la génération (semi-)automatique

d'exer i esdutyperen ontré dans lesmanuels pour l'apprentissagedeslangues. Ils'agit,

end'autrestermes,d'exer i esdontlasyntaxeet levo abulairesontfaitssur mesurepour

desobje tifspédagogiquesetdessujetsdonnés. Lesappro hesdegénérationbaséessurdes

grammaires asso ient les phrases du langage naturel ave une représentation linguistique

nedeleurpropriétémorpho-syntaxiqueset deleursémantiquegrâ eàquoiilest possible

dedénirunlangagede ontraintessyntaxiquesetmorpho-syntaxiquespermettantla

séle -tiondephrasessou hesena ordave unobje tifpédagogiquedonné. Cettereprésentation

permetenoutred'opérerunpost-traitementdesphrasesséle tionéespour onstruiredes

ex-er i esdegrammaire. Nousmontrons ommentlesexer i esdegrammairedetypeàtrous,

dere onstitution oude reformulationde phrasespeuvent être automatiquementproduits.

L'appro heaétéintégréedanslejeuxsérieuxI-FLEG(Intera tiveFren hLearningGame,

Jeuintera tif pourl'apprentissagedu français) et a été évaluée àlafois par l'analyse des

intera tionsave desjoueursenligneeten ollaborationave desenseignants.

Abstra t

Keywords: Feature-BasedTreeAdjoiningGrammars(FB-TAG),Surfa eRealisation(SR),

Surfa eRealisationOptimisation, Featured-Based Regular Tree Grammar(FB-RTG), at

andunderspe iedsemanti representations,NaturalLanguageGeneration(NLG),

Computer-AssistedLanguageLearning(CALL), (Semi-)automati authoringof grammarexer ises.

In this work, weexplore howNatural LanguageGeneration(NLG) te hniques anbe

usedtoaddressthetaskof(semi-)automati allygeneratinglanguagelearningmaterialand

a tivitiesinCamputer-AssistedLanguageLearning(CALL). Inparti ular,we showhowa

grammar-basedSurfa eRealiser(SR) anbeusefully exploited fortheautomati reation

ofgrammarexer ises. Oursurfa erealiserusesawide- overagereversiblegrammarnamely

SemTAG, whi h is aFeature-BasedTree Adjoining Grammar(FB-TAG) equipped witha

uni ation-based ompositionalsemanti s.Morepre isely,theFB-TAGgrammarintegrates

aatand underspe iedrepresentationofFirstOrderLogi (FOL)formulae.

In the rst part of the thesis, we study the task of surfa e realisation from at

se-manti formulae and we propose an optimised FB-TAG-based realisation algorithm that

supportsthe generationof longer senten esgivenalarges ale grammarand lexi on. The

approa hfollowed tooptimise TAG-based surfa erealisationfrom atsemanti sdrawson

thefa t that an FB-TAG an be translatedinto aFeature-BasedRegular Tree Grammar

(8)

in that our FB-RTG en oding a ounts for feature stru tures presentin the original

FB-TAGhavingthusimportant onsequen esregardingover-generationandpreservationofthe

syntax-semanti sinterfa e. The on retederivation treegenerationalgorithmthat we

pro-pose is anEarley-stylealgorithm integratinga set of well-known optimisationte hniques:

tabulation,sharing-pa king,andsemanti -basedindexing.

Inthese ondpartofthethesis,weexplorehowourSemTAG-basedsurfa erealiser an

beputtoworkforthe(semi-)automati generationofgrammarexer ises. Usually,tea hers

manually edit exer isesand their solutions, and lassify them a ordingto the degree of

di ulty or expe ted learner level. A strand of resear hin (Natural LanguagePro essing

(NLP)forCALLaddressesthe(semi-)automati generationofexer ises. Mostly, thiswork

drawsontextsextra ted fromtheWeb, usema hine learningandtext analysiste hniques

(e.g. parsing, POS tagging,et .). These approa hesexpose thelearner to senten es that

have a potentially omplex syntax and diverse vo abulary. In ontrast, the approa h we

proposein this thesis addressesthe (semi-) automati generation of grammar exer isesof

thetype foundin grammar textbooks. Inother words, itdealswith thegeneration of

ex-er ises whose syntax andvo abulary are tailored to spe i pedagogi algoals and topi s.

Be ausethegrammar-basedgenerationapproa hasso iatesnaturallanguagesenten eswith

ari hlinguisti des ription,itpermitsdeningasynta ti andmorpho-synta ti onstraints

spe i ationlanguageforthesele tionof stemsenten es in omplian e withagiven

peda-gogi al goal. Further,it allowsfor thepost pro essing ofthe generated stemsenten es to

build grammar exer iseitems. We show how Fill-in-the-blank, Shue and Reformulation

grammar exer ises an be automati ally produ ed. The approa h has been integrated in

theIntera tiveFren hLearningGame (I-FLEG)serious gameforlearningFren hand has

beenevaluatedbothbasedin theintera tionswithonlineplayersandin ollaborationwith

(9)
(10)

Génération automatique de phrases pourl'apprentissage des langues ix

1 Introdu tion 1

2 Ba kground and related work 11

2.1 NaturalLanguageGeneration . . . 12

2.2 TheSemTAG grammar . . . 20

2.3 Computer AssistedLanguageLearning . . . 34

3 Optimising surfa e realisation 43 3.1 Introdu tion . . . 44

3.2 RTGen surfa erealisation algorithm . . . 61

3.3 Evaluation. . . 79

3.4 Related work one ient surfa e realisation . . . 88

3.5 Con lusions andperspe tives . . . 92

4 Natural language generation for language learning 95 4.1 Introdu tion . . . 97

4.2 Generating exer isestems . . . 98

4.3 Building Fill-in-the-blankand Shue exer ises . . . 105

4.4 Transformation-based grammar exer ises . . . 112

4.5 Comparison with previous work on (semi-)automati grammar exer- isesgeneration . . . 125

4.6 Con lusions andperspe tives . . . 126

5 Con lusions 131 5.1 Summingup and on luding . . . 131

(11)

Appendi es 139

A GramEx pedagogi al goals and exer ise items 141

A.1 Ex erpt ofpedagogi algoals . . . 141

A.2 Ex erpt oftransformation-based grammar exer i es . . . 153

(12)

phrases pour l'apprentissage des

langues

This hapter presents a summary of the thesis, in Fren h.

Ce hapitre présente un résumé en françaisde la thèse.

Sommaire

1 Optimisation dumodulede réalisation de surfa e . . . . xvii

2 Génération automatique de texte pour l'apprentissage

des langues . . . xviii

3 Con lusions . . . xix

Cette thèse aborde l'utilisation des te hniques de génération automatique de

texte(NLG,NaturalLanguage Generation)pourl'apprentissage deslangues assisté

par ordinateur (CALL, Computer-Assisted Language Learning). Nous montrons,

en parti ulier, omment un réalisateur de surfa e (SR, Surfa e Realiser) basé sur

une grammaire d'arbres adjoints peut être utilisé an d'automatiser la génération

d'exer i es degrammairepourl'apprentissage deslangues. Leréalisateur desurfa e

utilise une grammaire réversible à large ouverture dénomméeSemTAG, une

gram-maired'arbresadjointsàstru turesdetraits (FB-TAG, Feature-BasedTree

Adjoin-ingGrammar) oupléeave une sémantique ompositionnelle baséesurl'uni ation.

La présente thèse sedé ompose endeux parties:

Dans la première partie, nous examinonsla tâ he de génération de phrasesà partirdeformulessémantiquesetproposonsunalgorithmeoptimiséquipermet

degénérerdesphraseslonguesàpartir d'unegrammaireetd'unlexiqueàlarge

ouverture.

(13)

basé sur SemTAG peut être utilisé pour la génération d'exer i es de

gram-mairedontlasyntaxeetlevo abulairepeuventêtre ontrlés. Nousproposons

une appro he qui s'appuie sur les ara téristiques spé iques aux stru tures

linguistiques produites par leréalisateurde surfa e. D'unepart, lagrammaire

onstitue une ressour e linguistique ri he et pré ise dé rivant les expressions

de la langue naturelle. Cela permet la génération de phrases qui satisfont à

ertaines ontraintessynta tiquesetmorpho-synta tiques ommeparexemple,

les ontraintes imposées par un but pédagogique omme l'apprentissage de la

voix passive. En outre, lesri hes informationslinguistiques asso iéesau texte

généré par notre réalisateur de surfa e permettent un traitement n

permet-tant de réerdesitems d'exer i es detypestextes àtrous etdere onstitution

ou dereformulationdephrases. D'autrepart, lesentrées sous-spé iéesetpar

onséquent les diérentes phrases produites par notre réalisateur de surfa e

permettent laprodu tionautomatique, àpartirdepeud'entrées,d'unevariété

d'exer i es syntaxiquement etmorpho-syntaxiquement variés.

L'obje tif de la génération automatique de texte en langage naturel est de

pro-duiredutexte ompréhensibleenlangagehumainàpartirdedonnées. Cepro édéest

guidépar un but ommuni atif, basésur une sour e d'information (les données),et

omporte une série d'étapesou de sous-tâ hes. Traditionnellement, es sous-tâ hes

sont onçues et organisées dans une séquen e ou pipeline, permettant de gérer

des dé isions stratégiques quoi dire et des dé isions ta tiques  omment le dire.

Une fois que le ontenu ou sens à exprimer en langage naturel a été déterminé, le

omposant ta tique ee tuera diérents hoix omme par exemple les mots et les

onstru tionssynta tiquesà utiliserpour exprimer e ontenu en langage naturel.

En parti ulier, le module du réalisateur de surfa e d'un système de génération,

généralement ledernier modulede e pipeline, transforme une spé i ation

linguis-tique abstraite en une expression en langue naturelle. C'est à dire qu'il onnaît

le langage iblé omme par exemple l'ordre des mots. Il existe diérents niveaux

d'abstra tion dans la spé i ation de l'entrée du réalisateur. Par exemple, l'entrée

peutêtre unarbre de dépendan eoù les rlessynta tiques ainsiqueles mots-outils

ont été spé iés. En fon tion du degré de spé i ation de son entrée, le

réalisa-teurde surfa e peutpro éder de façon (presque) déterministe ou au ontraire,

pro-duireplusieurs réponses enprenant desdé isions variablespar rapportà lamanière

d'exprimer la représentation sémantique. Dans ette thèse, nous supposons une

entréesémantique(p.ex. une formelogique)etpluspré isément,desformules de

sé-mantiqueà ré ursionminimale (MRS,Minimal Re ursionSemanti s). Étant donné

(14)

(1) a.

{l

0

: named(t, T ex), l

0

: indiv(t, m, sg), qeq(T R, l

0

), l

1

: properq(t, T R, T S),

l

2

: le(u, CR, CS), qeq(CR, l

3

), l

3

: universite(u), l

3

: indiv(u, f, sg),

l

4

: travailler(e, t, u), l

4

: event(e, pres, indet, ind)}

b. Textravailleàl'université. (Texworksattheuniversity)

. C'est Texquitravailleàl'université. (ItisTexwhoworksattheuniversity)

Laréalisationdesurfa eàpartird'uneformulesémantiqueplate(p.ex. unsa de

prédi ats ommeillustrédansl'exemple (1a))est unetâ he de omplexité

exponen-tielle. Brew(1992) etKoller andStriegnitz (2002) fournissentdespreuvesformelles

indiquant qu'elleappartient à la lasse desproblèmes NP- omplets. Plusieurs

te h-niques d'optimisation ont été proposées pour améliorer les temps d'exé ution dans

la pratique. Notre obje tif est l'optimisation du réalisateur de surfa e basé sur la

grammaireFB-TAG.A etten,noussuivonsl'idéede KollerandStriegnitz (2002)

onsistantàutiliserlesarbresdedérivationdelagrammaireTAGpourlagénération.

Cependant, en nous appuyant surune tradu tionbien dénie de FB-TAG vers une

grammaire d'arbres réguliersbasés sur les traits (FB-RTG ou Feature-Based

Regu-larTreeGrammar,[S hmitz andLe Roux,2008℄ ) pourdé rire lelangaged'arbre de

dérivationde lagrammaire FB-TAG, nousdiérons de ette appro he.

Cettetradu tion onservetoutel'informationsémantique,synta tiqueet

morpho-synta tiquede lagrammaireoriginelle ayant,de efait, d'importantes onséquen es

qui distinguent notre appro he des pré édentes. En préservant toutes les

informa-tions linguistiques, l'en odage FB-RTG préserve l'interfa e syntaxe/sémantique et

fournit une grammaire exa te desarbres de dérivation FB-TAG. Nous développons

un algorithme de réalisation de surfa e basé sur lagrammaire FB-RTG qui intègre

plusieurs te hniques pour optimiser laréalisation desurfa e.

Traditionnellement, la génération de textes a été utilisée entre autres pour (i)

générer des rapports (par exemple pour générer des textes à partir de bases de

données ontenant des données issues d'appareil de mesures), (ii) pour générer des

des riptions à partir d'une base de onnaissan e et (iii) pour exprimer en langue

naturelle la sortie d'un gestionnaire de dialogue (dialogue manager). Les domaines

d'appli ationsontaussivariés: domainemédi al,prévisionsmétéorologiques,manuels

d'instru tions, verbalisation d'instru tions à l'intérieur de mondes virtuels, entre

autres. Deplus, d'autres typesd'appli ations de traitement automatiquede langue

(NLP, Natural Language Pro essing) tels que le résumé automatique de texte, la

simpli ation de texteet lagénération automatiquede questions peuvent aussi

(15)

de génération automatique de textes ont également été utilisées dans le ontexte

de l'enseignement intelligent des langues assistépar ordinateur (ICALL, Intelligent

Computer-AssistedLanguage Learning).

Une grande variété de travaux dans le domaine du traitement automatique de

langue(NLP)etd'ICALLont étéee tuésau oursdesdernières années. Les

te h-niquesNLPontprin ipalementétéutiliséespour ontribueràla réationde ontenus

etd'a tivités d'apprentissage oupour évaluerles résultatsdel'apprenant etgénérer

un retour approprié. Par exemple, ALICE- han ([ Levin and Evans, 1995℄ ) est un

tuteur intelligent de langage pour l'apprentissage du Japonais qui utilise la

gram-mairelexi ale-fon tionnelle (LFG, Lexi al Fun tionalGrammar) pour l'analyse des

phrases. Il permet ainsi d'assister les instru teurs dans la réation d'exer i es et

ore la possibilité d'évaluer les réponses des apprenants à es exer i es.

ALICE- han propose une interfa e pour la réation d'exer i es où les instru teurs entrent

untexte orrespondant au ontexte, auxquestionsetaux réponsesde esexer i es.

Laréponseest analyséepar lemoduleNLP générant, àpartir de elle- i,une

stru -turedetraitssynthétisant destraitssynta tiquesetmorpho-synta tiques quiseront

utilisésplustardpourévaluerlesréponsesde l'apprenantquiserontanalyséesd'une

façonsimilaire. Il existed'autressystèmesdetutorat ommeTAGARELA([Amaral

and Meurers, 2011℄ ). Celui- i in lut desa tivités similaires à elles issues de livres

d'apprentissage de langues: le ture et ompréhension orale, des ription d'images,

reformulations, textes à trous et exer i es de vo abulaire. Diérents outils de type

NLP(p.ex. segmenteurouanalyseurdephrases)sontdéployésdanssonar hite ture.

Celle- iest entréesurletraitement desréponsesdel'apprenantetsurlaprodu tion

deretoursappropriésàpartirdesmodèlesexperts( onnaissan edulangagenaturel),

desmodèles d'a tivitésetdesmodèles d'apprenants.

Parmi les diérentesappli ationsICALL,ilyadessystèmes qui onstituent des

aides à l'é riture tels qu'ICICLE ([Mi haud et al., 2000℄ ) ou des assistants pour la

le ture tels que CALLE ([Rypa and Feuerman, 1995℄ ) qui utilisent des te hniques

d'analysede phrases. ICICLEutilise deste hniquesd'analysedephrasespour

anal-yserles réponsesde l'apprenant, tandisqueCALLE utilise deste hniquesd'analyse

dephrasespouranalyserdesdo umentsséle tionnéspar l'apprenantet ainsifournir

des informations relatives aux onstru tions linguistiques présentes dans es

do u-ments. Cha uneàleurmanière, esdeuxappli ationsontpourbutdemettrel'a ent

surla onnaissan e etl'apprentissage des onstru tions grammati ales de la langue

iblée. WERTI([Meurers et al., 2010℄ ) etVISL ([Bi k, 2005℄ ) sont deux autres

ap-pli ationsont dontlebut prin ipal estde promouvoirlasensibilisationlinguistique.

(16)

re-intera tivepourl'apprentissagedesyntaxe,quiutilise desoutilsNLPpourl'analyse.

Certains travaux se sont on entrés sur l'édition automatique d'exer i es pour

l'apprentissagedeslangues([Mitkovetal.,2006;HeilmanandEskenazi,2007;Karamanis

et al., 2006;Chao-Lin et al., 2005; Coniam, 1997; Sumita et al., 2005;Simon etal.,

2010;Linetal.,2007;Lee andSene,2007℄ ). Plusparti ulièrement, ertaines

propo-sitions ont pour objetlapropositiond'exer i es de grammaire(p.ex. [Aldabe etal.,

2006; Chen et al., 2006℄ ). En général, es appro hes reposent sur des te hniques

d'apprentissage automatiqueetgénèrent desa tivitéspour l'apprentissage avan é.

Dans CALL, il existe des outils d'édition tels que Hot Potatoes 1

([Winke and

Ma Gregor,2001℄)quin'utilisentpasdeste hniquesNLP.Ilssontégalementappelés

outilsd'éditionbaséssurdesmodèlespar equ'ilsfournissentunensembled'a tivités

typesqueleprofesseur delanguespeututiliserpour réer desexer i es. Cependant,

le ontenupour haqueexer i e, 'est-à-direletextedel'exer i e,laoulesréponse(s)

attendue(s) et le retour utilisateur doivent être manuellement par le professeur de

langues.

En résumé, ilexiste desappli ationsCALL ou lesexer i espour l'apprentissage

sontéditésàlamain,oudesappli ationsICALLdanslesquelleslaplupartdes

te h-niquesdeTALdédiéesàla réation(semi-)automatiquedematérielpourl'apprentissage

sont baséesurl'analyse detexte. Dansledernier as, le ontenutextuel utilisépour

réer des a tivités d'apprentissage est soit fourni par le professeur de langues, soit

olle té automatiquement à partirduWeb. Dans ette thèse,nousmontrons que la

génération automatique de texte est une appro he rassemblant les ara téristiques

appropriées pour la génération (semi-)automatique d'exer i es de grammaire pour

l'apprentissage deslangues.

Nous exploitons la grammaire paraphrastique à large ouverture FB-TAG qui

fournituneri hedes riptionlinguistiquedulangagenaturelenasso iant des

expres-sions du langage naturel ave des syntaxes et des représentations sémantiques. Le

fait que la grammaire apture les paraphrases en asso iant diérentes expressions

de langage naturel ayant lamême signi ation noyau, est spé ialement intéressant

dans le ontexte de l'apprentissage des langues. Généralement, les professeurs

édi-tentmanuellement desexer i esetleurssolutions,puisles lassentsuivantleurdegré

de di ulté et le niveau attendu de l'apprenant. L'appro he que nous proposons,

appeléeGramEx, permetpotentiellement la(semi-)automatisation de l'ensembledu

pro essus. Premièrement, en raison de la sous-spé i ation des entrées et de la

1

(17)

génération de paraphrases; plusieurs réalisations sont possibles à partir d'uneseule

entrée. Comme nous le montrons dans le hapitre 4, à partir d'une signi ation

prin ipale,plusieurs paraphrasessontgénéréesetpeuvent,à leurtour, ha uneêtre

utiliséespour onstruire plusieurs exer i esdiérents. Dans e sens,notre appro he

dé harge le professeur de langues d'é rire manuellement haque alternative ou de

ré-é rire manuellement une phrase donnée à utiliser dans un autre type d'exer i e.

Deuxièmement, les ri hes informations linguistiques asso iées au texte généré

peu-vent être exploitées pour lagénération automatiqued'a tivités d'apprentissage. I i,

nous montrons omment les exer i es de grammaire de type à textes-à-trous, de

motsmélangés: re onstitutionoudereformulationdephrasespeuventêtre

automa-tiquement réés. Troisièmement, la génération d'exer i es à partir de la génération

automatique de phrases permet potentiellement la lassi ation automatique des

exer i es générés etleur ordonnan ement dans une séquen e pédagogique. Par

ex-emple, les onstru tions grammati ales pourraient être élaborées suivant diérents

degrésdedi ulté. A ette n,GramExpeutêtreintégrédansuneappli ation telle

que I-FLEG (Intera tive Fren h Learning Game, [Amoia et al., 2012℄ ) omme ela

va être dis uté dans la se tion 5.2. Dans I-FLEG, les intera tions de l'apprenant

ave le jeu sont sto kées dans une base de données et fournissent des informations

détaillées on ernant, pour haque exer i e, les items résolus par l'apprenant. Ces

informationspeuventêtreexploitées,parexemple,pourfournirautomatiquementun

entraînement spé iquesurles points degrammaire quel'apprenant doitaméliorer.

Les livresd'apprentissage de langues in luent en général desexer i es de

gram-maire. Parexemple,lelivreenligneTex'sFren hGrammar 2

forinstan e,in ludesat

theendofea hle ture,asetofgrammarexer iseswhi htargetaspe i pedagogi al

goalsu haslearning theplural form ofnounsorlearningthepla ement ofadje tives

in lut, à la n de haque unité, un ensemble d'exer i es de grammaire visant un

butpédagogiquespé iquetelquel'apprentissage dela forme plurielledes noms ou

l'apprentissagedel'ordre desadje tifs. LaFigure1montrelesexer i essetrouvantà

landel'unitésurlaformationduplurieldesnoms. Commeonpeutlevoirsur ette

gure, esexer i es dièrent notablement desa tivitésd'apprentissage avan ées qui

her hent àfamiliariserl'apprenantave desphrases ouramment employées. Pour

permettre l'apprentissage in situ, e dernier type d'a tivité onfronte l'apprenant

2

Tex'sFren hGrammarhttp://www.laits.utexas.edu/te x/isanonlinepedagogi alreferen e grammar that ombines explanations with surreal dialogues and artoon images. Tex's Fren h Grammar is arranged like many other traditional referen e grammars with the parts of spee h (nouns,verbs,et .) usedto ategorizespe i grammaritems (genderof nouns,irregular verbs). Individualgrammaritems are arefully explainedinEnglish, thenexempliedinadialogue, and nallytestedinself- orre ting,Fill-In-the-Blankexer ises.

(18)

livresd'apprentissage delangues ont généralementpourbut defa iliterl'a quisition

d'un point de grammaire spé ique en onfrontant l'apprenant ave des exer i es

onstruitsà partirde phrases ourtesetde vo abulaire restreint.

Give the plural form of the noun indicated in parentheses. Pay attention to both the article and the noun.

1.

Bette aime _____ . (le bijou)

2.

Fiona aime ______ . (le cheval)

3.

Joe-Bob aime ______ américaines. (la bière)

4.

Tex n’aime pas ______ . (le choix)

5.

Joe-Bob n’aime pas ______ difficiles. (le cours)

6.

Tammy n’aime pas ______ . (l’hôpital)

7.

Eduard aime ______. (le tableau)

8.

Bette aime ______ de Tex. (l’oeil)

9.

Tex aime ______ français. (le poëte)

10.

Corey aime ______ fraîches. (la boisson)

11.

Tammy aime ______ américains. (le campus)

12.

Corey n’aime pas ______ . (l’examen)

Figure 1: Exer i esdegrammaireissus dulivred'apprentissagede languesTex's Fren h Grammar.

Comme nous l'avons dis uté dans les pré édents paragraphes, la plupart des

travauxexistants surla génération d'exer i es de grammaires'est on entrée sur la

réation automatique d'exer i es du premier type, 'est à dire des exer i es dans

lesquels les phrases sour es sont extraites à partir de orpus existants. Dans ette

thèse,nousprésentonsunear hite turequiviselesexer i esdedeuxièmetype, 'est

à dire les exer i es de grammaire dans lesquels la syntaxe et le vo abulaire sont

fortement ontrlés.

Nousutilisonsunréalisateurdesurfa eutilisantunegrammairepourproduiredes

phrasesqui,suite aupro essusdegénération, sontasso iéesàderi hesinformations

linguistiques. Nousdénissonsun mé anismebasésurles informationslinguistiques

pour séle tionner les phrasesappropriées. Plus pré isément, nous nous intéressons

aux exer i esde deuxtypes : d'une part, des exer i esgénérés à partir d'une seule

phrase tels quelesexer i es de type textes-à-trous oumots mélangés,.d'autre part,

desexer i esdereformulationoutransformationsdephrasesquirequièrentun ouple

de phrases.

La produ tion (semi-)automatique d'a tivités àpartir du Web ou dedo uments

existantsa ontribuéàla réationàgrandeé helled'exer i estelsquelesexer i esde

type questionnairesà hoix multiples ou textes-à-trous. En majorité, es appro hes

asso ient des annotations synta tiques etmorpho-synta tiques ave les phrases

ol-le téesgrâ eàl'utilisationdeste hniquesd'analysedephrases,d'étiquetage,d'étiquetage

(19)

au-tomatiqued'exer i es baséssurlatransformation dephrasesrequiertdeste hniques

d'analyselinguistiqueplusprofondes eta reçupeu ou pasd'attention.

Considérons,parexemple,le asdelaprodu tionautomatiquedepairesquestion

(Q)etréponse (S)pour l'exer i e suivant:

(2) Ré-é rire les phrasessuivantes en utilisant lavoix passive.

1. (Q) C'est Texqui donne lelivre aTammy.

It isTexwhogivesthebookto Tammy

2. (S) C'estparTexquelelivreestdonné aTammy.

It isbyTexthat thebook isgiventoTammy

Pour produire automatiquement la solution (S), nous avons besoin de générer

unephrase qui ontient lemême sens etqui estexpriméeen voixpassive. Enoutre,

il est également né essaire que les autres ara téristiques synta tiques et

morpho-synta tiques(parexemple letemps du verbeetlathématisation) soient maintenues

lepluspro he possibledelaphraseoriginelledanslaquestion(Q).Notregrammaire

F-TAGfournitdesinformationslinguistiquesdétaillées( ontenusémantique,

synta -tiqueetmorpho-synta tique)né essairespouridentierlespairesdephrasesquisont

liéespar une transformation synta tique. Enparti ulier, lesarbres de dérivation de

lagrammaireFB-TAG onstituentunbonniveaudereprésentationpourl'analysede

transformation synta tique par e qu'ils apturent à lafois les ontraintes formelles

etde ontenus gouvernant les transformations synta tiques. Les mots pleins et les

fon tionsgrammati ales étiquetant les n÷uds des arbres permettent de vérier que

deuxphrasessetrouventdanslarelationsémantiqueappropriée(p.ex. ontenu

om-plètementidentiqueou ontenuidentiquemodulodes hangementslo aux). Deplus,

les propriétés synta tiques étiquetant es n÷uds (les noms des arbres élémentaires

FBL-TAG mais également les informations linguistiques additionnelles fournis par

legénérateur)permettent d'assurer qu'elles setrouvent danslarelation synta tique

appropriée.

Contributions prin ipales

Les ontributions de ettethèse sont les suivantes:

Un nouvel algorithme pour la réalisation de surfa e basée sur une grammaire FB-TAG. Cetalgorithme reposesurun en odage FB-RTG desarbres de

(20)

variées: partageet ompressiondesstru turesintermédiaires,indexationbasée

surlesindi essémantiquesetltragedesstru turesintermédiairesin omplètes

Une appro he baséesurla générationautomatique delangage naturel pour la génération automatique d'exer i es similaires à eux présents dans les livres

d'apprentissage des langues. Nous exploitons les représentations sémantiques

d'entrée sous-spé iée ainsi que le pouvoir paraphrastique de la grammaire

SemTAG pour produire des exer i es grammati aux. Les ri hes informations

linguistiquesasso iéesauxphrasesgénéréespermettentla réation(semi-)automatique

d'exer i es de grammaire.

Une nouvelle appro he pour la génération d'exer i es de reformulation. Nous utilisonsl'information ontenuedanslesarbresdedérivationdeFB-LTAGpour

identierlespairesdephrasesquisontliéesparunetransformationsynta tique.

Stru ture de la thèse

Dans e hapitre, nous introduisons les problématiques de re her he dont traite la

présente thèse. Dans e qui suit,nous résumonsle ontenu des hapitres restant de

lathèse.

Chapter 2: Ba kground and related work. Dans e hapitre, nous passons

brièvementenrevueles on eptsmajeurspourlesdeuxthématiques ouvertesparles

travauxde ettethèse,àsavoirlagénérationdephrases(Se tion2.1)etl'apprentissage

des langues assistépar ordinateur (Se tion 2.3), le but de ette démar he étant de

situer nos travaux dans es larges domaines. Pour la génération automatique de

phrases,nousdis utonsdesproblèmesde omplexitédanslaréalisation desurfa eà

partirde sémantiques plates. Pour CALL,nous dis utonsdestravaux onnexesqui

motivent nostravauxsurl'appli ation deste hniques degénération automatiquede

phrases pour la génération d'exer i es grammati aux. Enn, nous dé rivons

Sem-TAG, lagrammaire utiliséepar notre générateur, dansla Se tion 2.2etmettons en

avantlesdénitionset ara téristiquesde ettegrammairequisontpertinentespour

sonutilisation dansle adre de ette thèse.

1 Optimisation du module de réalisation de surfa e

Laréalisationdesurfa eàpartirdesémantiquesplatesestexponentiellepar rapport

(21)

de ette omplexité sont le manque d'ordre des informations etl'ambiguïté lexi ale

( f Chapitre 2). Pour optimiser la réalisation de surfa e basée sur les grammaire

d'arbresadjoints(TAG),nousproposonsune appro he,baséesurunen odagedans

unegrammaired'arbresréguliers(FB-RTG,[S hmitzandLeRoux,2008℄)desarbres

de dérivation de la grammaire FB-TAG, qui est inspirée de [Koller and Striegnitz,

2002℄ .

Notre hypothèse repose sur le fait que l'utilisation de et en odage permet de

simplieretd'optimiserlaréalisation desurfa e baséesurlagrammaireTAG. Nous

ommençonspar dé rirel'appro he deKolleretStriegnitz,nousdonnonsensuiteles

prin ipesde notreappro heet ennnousprésentons latradu tionde FB-TAG vers

FB-RTG de S hmitz et Le Roux dans la Se tion 3.1. Nous présentons un nouvel

algorithme pour la réalisation de surfa e TAG basé sur l'en odage [Gardent and

Perez-Beltra hini, 2010; Gardent et al., 2011a℄ , appelé RTGen, dans laSe tion 3.2.

Nous réalisons une évaluation omparative en utilisant des as de suites de tests

graduées. [Gardent et al., 2010;Gardent et al.,2011a℄ . Nous dis utonsles résultats

dans la Se tion 3.3. Dans la Se tion 3.4, nous omparons notre appro he ave les

travauxenlien ave l'optimisation de laréalisation desurfa e. Nousprésentonsnos

on lusionsdanslaSe tion 3.5.

2 Génération automatique de texte pour l'apprentissage

des langues

Lagénérationautomatiquedematérieletd'a tivitéspourl'apprentissagedeslangues

a été abordée par les te hniques d'analyse de phrases. Dans e Chapitre, nous

ex-plorons une autre alternative basée sur les te hniques NLG. Nous exploitons un

on ept lé de la génération à partir de représentations sémantiques sous-spé iées

ave une grammaire paraphrastique, à savoir la génération de paraphrases

alterna-tivespermise par lagrammaire etlapossibilitéde hoisir parmi elles- i. Enoutre,

notreappro he de génération basée surune grammaireproduit du texteet, dansle

mêmetemps, etexteestasso iéave unereprésentation linguistiquedétaillée. Nous

développons un logi iel appelée GramEx, pour la génération d'exer i es de

gram-maire. Dans la Se tion 4.1, nous dé rivons le type d'a tivité pour l'apprentissage

que nous générons. La Se tion 4.2.1 dé rit l'appro he pour l'obtention de textes

quiintègre les ontraintes liées auxobje tifspédagogiques donnés ainsiet aux

on-naissan es de l'apprenant. Une fois que le texte approprié a été produit, il peut

êtreexploitépour onstruire desexer i esdegrammairedeplusieurs types. Dansla

(22)

textes-à-trous, de mots mélangés dérivés àpartir du texte généré[Perez-Beltra hini et al.,

2012℄ . Nousee tuonsuneévaluationquimontrel'utilité del'appro he auregardde

laprodu tion d'exer i es. En premier lieu,nousmesuronsla variabilité, 'est àdire

omment le degréde variation de phrasesissuesdu pro essus degénération permet

la réationd'exer i esvariés. Deuxièmement, nousmesuronslaprodu tivité, 'està

dire,dansquelle mesurelelamême phrase généréepeut-elle êtreutilisée pour réer

diérent types d'exer i es et ombien d'exer i es sont réés a partir d'une entrée

donnée. Nous évaluons également l'exa titude qui permet de vérier si les

exer i- es générés son orre ts et signi atifs. Dans la Se tion 4.4, nous démontrons que

l'appro hepermetlagénérationautomatiqued'exer i esdereformulationdephrases

([GardentandPerez-Beltra hini,2012℄). Nousrésumonslestravaux onduitset

on- luons danslaSe tion 4.6.

3 Con lusions

Nousdressonsnos on lusionssurnotrethématiquebaséesurnotrepropreréalisateur

de surfa e et ses appli ations dansle adre de l'apprentissage des langues (Se tion

5.1). Dans laSe tion 5.2, nous approfondissons les pistes de travail futur sur ette

(23)
(24)

1.1 Grammarexer ises fromthe Tex's Fren h Grammartextbook . . . . 6

2.1 NLG pipeline ar hite ture . . . 12

2.2 Tree forthe semanti representation in(8b). . . 16

2.3 Tree forthe semanti representation in(8 ). . . 17

2.4 Dis onne tedtree representation withlabelled predi ates. . . 17

2.5 Example ofsubstitution operation inTAG . . . 21

2.6 Example ofadjun tion operation inTAG. . . 21

2.7 Substitution operationinan FB-LTAG . . . 24

2.8 Adjun tionoperationinan FB-LTAG . . . 24

2.9 Example feature-basedtree adjoining grammar. . . 25

2.10 Examplefeature-basedtreeadjoining grammarillustratingthe

imple-mentation of SAwith featurestru tures. . . 26

2.11 ParsetreesforLatatouparle fort (Thearmadillospeaksloudly)usingthe

grammarof Figure2.9. . . 26

2.12 An FB-TAG augmented with an uni ation-based ompositional

se-manti s. For the sake of larity, feature stru tures are abbreviated,

featureper olationhasbeensimpliedpre ludingthepossibilitythat

adjun tion modies feature values and only thesemanti feature

val-ues relevant for semanti onstru tion are indi ated. C

x,l

/C

x,l

ab-breviate a node with ategory Cand a top/bottom feature stru ture

in ludingthefeature-valuepairs

{

index :

x

,label :

l}

.. . . 28 2.13 Derived tree and semanti s for Une tatouvoit souventTex hanter (An

armadillooftensees Tex sing).. . . 29

2.14 An FB-LTAG augmented with a uni ation-based ompositional

se-manti s that produ es the senten e Tammy voit souvent Tex hanter

(Tammy oftensees Tex sing) from the given semanti representation

(25)

2.15 Elementarytrees hemaforatransitiveverb(left)andthetrees hema

an horedbythe lemma faire (bake)(right). . . 31

2.16 Some tree s hemas within the transitive verb family. (Note: feature

stru tures andsemanti s arenot shownfor thesake of larity). . . . 32

2.17 Simplied XMG metagrammarexample. . . 33

3.1 Example ofTDG parsetree and lexi on. . . 45

3.2 An example of TAG grammar variant used in Koller and Striegnitz

forthe Fren hversionofthesenten eTexa hèteunevoiturerouge (Tex

buys a red ar), with semanti s

{

tex(t), a hète(e, t, v), voiture(v), rouge(v)

}

.. . . 47 3.3 Dependen ytree . . . 47

3.4 Example RTGdes ribing thederivation trees ofa toyTAG. . . 52

3.5 AnexampleSemTAGsub-grammarsele tedfortheinput

{l

1

: une(v, h

r

, h

s

), qeq(h

r

, l

2

), l

2

:

voiture(v), l

2

: rouge(v), l

5

: achete(e, t, v), l

6

: tex(t)}

orresponding

to the senten e Texa hèteune voiturerouge (Texbuysared ar). Note:

apital lettersrepresent variable values (underspe ied feature values). 53

3.6 FB-RTG translationofthe SemTAG sub-grammarshown inFigure 3.5 54

3.7 FB-RTG derivation. . . 57

3.8 FB-RTG derivation tree (a.) andleft- orner FB-RTG derivationtree

(b.) for the senten e One of the ats has aught a sh. Node labels

of the derivation trees start with

α

s and

β

s indi ating whether they orrespond to an initial or auxiliarytree respe tively. . . 58

3.9 Example of left- orner transformed RTG des ribing the derivation

trees of atoy TAG (thesame asthatofFigure 3.4). . . 59

3.10 Re allofelementary trees forune,voiture,rouge fromthegrammar in

Figure 3.5 . . . 60

3.11 Left- orner FB-RTG translation of the trees voiture, rouge une of the

SemTAG grammarfragment showninFigure3.10. . . 60

3.12 The lexi al item in the left is sele ted given the input semanti s in

(25),

{L : regard(E, X, Y )} ⊑ ψ

. Note that

e

3

, x

1

, x

2

are onstants. Thus,in the generation pro ess,

x

1

would neverbeinstantiated with

x

2

or anyother onstant. . . 62 3.13 . . . 65

3.14 Example of items in a hart (ex erpt) and generation forest for the

generationfrom

φ

ofthesenten esTexa hèteunevoiturerouge andUne voiturerouge esta hètéeparTex. . . 66

(26)

tive lause. Senten e Lagentille petite tatou qui dort hante (The kind

small armadillothatsleepssings). . . 71

3.16 One-to-one orresponden e between nodes in a derivation tree of a

lexi alisedgrammar and wordsof thegenerated string. . . 72

3.17 A hildren-ordered tree (a.) and the dependen y stru ture indu ed

by a pre-order traversal (b.) and a treelet-ordered tree ( .) and the

dependen y stru tureobtained by treelet-order traversal. . . 74

3.18 Term for thetreelet-orderedtree ofFigure3.17 . . . 74

3.19 (a)Dependen ystru ture,(b)tree,( )blo k-orderedtreeand (d)term. 76

3.20 ToyTAGgrammar . . . 77

3.21 (a.) FB-RTG derivation tree and (b.) derivation tree with order

annotations usingthe grammar inFigure3.20for thestring

aabbccdd

. 79 3.22 Sele tedlexi alitems withassignedpolarities. . . 81

3.23 Performan eofrealisation approa hesontheModifiersben hmark,

averageunpa ked hartsize asa fun tionof thenumber ofmodiers. 86

3.24 Performan e of realisation approa hes on the Complexity

ben h-mark,averageunpa ked hartsize asa fun tionoftheISS omplexity. 86

4.1 Linguisti information asso iated byGraDewiththesenten eTammy

aunvoixdou e (Tammyhasasoftvoi e). . . 99

4.2 GramEx ar hite ture.. . . 104

4.3 Grammarexer ises fromthe Tex's Fren h GrammarTextbook . . . . 108

4.4 Grammar,Derivation Tree andExample TreeProperty (Bottomright)for

thesenten eC'est Tammy qui faitla tarte(ItisTammywhobakesthepie) 115

4.5 Derived (top) and Derivation (bottom) Trees for the a tive voi ed

senten eC'est Texqui afaitla tarte (ItisTexwhobakedthepie)and its

passive variant . . . 117

4.6 Treeltertypes(trees hemasontheleftdepi tsour esenten ederiv

a-tiontrees and those to theirright their transform). . . 118

A.1 An example of exer ise of the (15) Preposition - Fill in the blank

-missingword pedagogi al goalgivento thelearner. . . 154

A.2 Answerentered bythe learnerand feedba kgiven byI-FLEG to the

learnerfor thepreposition exer isequestion inFigureA.1. . . 154

A.3 Anexampleofexer iseofthe(52)Adje tiveorder-SyntaxS ramble

(27)

A.4 Answer entered by thelearner and feedba k given by I-FLEGto the

(28)

3.1 En odingof thegrammarinFigure3.2 . . . 47

3.2 RTGen derivation tree generationalgorithm (dedu tive system).. . . 63

3.3 Average results on 610 test ases from the Modifiers ben hmark.

Ea h test ase has 3 modi ations, distributed in various ways

be-tween adje tival and adverbial modi ations. The se ond olumn,

Generation Forest (GF), is the number of derivation trees present in

the generated parse forest. The third and fourth olumns show the

hart and unpa ked hart sizes, respe tively. The last olumn shows

the runtimeinse onds.. . . 87

3.4 Average results on 335 ases with

10000 < ISS ≤ 100000

, from the Complexity ben hmark. The olumns show the same performan e

metri s asinTable 3.3. . . 88

3.5 Summary of the number of predi tions running the generation

algo-rithms (Se tions 3.2.1 and Se tion 3.2.2) for the generation of the

senten e (and its li ensed paraphrases) using theSemXTAG English

grammar. . . 89

3.6 Summary ofRTGenrun on3 samplesenten es. . . 90

3.7 Extra tof the results reportedinCarroll and Oepen (2005). . . 90

4.1 Somegrammati al and morpho-synta ti propertiesthat an beused

to spe ifypedagogi al goals. . . 102

4.2 Exer iseCorre tnesstestedon10randomlysele ted(pedagogi algoal,

exer isepairs) . . . 109

4.3 Variability: Distributionof thenumberof distin tsentential patterns

that an be produ edfor a given pedagogi al goalfroma given input

semanti s. . . 110

(29)

4.5 Exer ise Produ tivity: Number of exer ises produ ed per input

se-manti s. . . 111

4.6 Pedagogi al Produ tivity: NumberofTea hingGoalsthesour e

sen-ten e produ ed froma given semanti s an be usedfor.. . . 111

4.7 Sour eSenten es(S),TransformationsofSour eSenten es(T),

Num-berofFilters (F)and Pre ision (Ratio of orre t transformations). . 124

(30)

Introdu tion

ThisthesisisaboutusingNaturalLanguageGeneration(NLG)te hniquesin

Computer-AssistedLanguage Learning (CALL). We show inparti ular how a grammar-based

Surfa eRealiser (SR) an beusefully exploitedto automatethegeneration of

gram-mar exer ises for language learning. The surfa e realiser uses a wide- overage

re-versible grammarnamelySemTAG,aFeature-BasedTree Adjoining Grammar

(FB-TAG) equippedwitha uni ation-based ompositionalsemanti s.

The thesisfallsinto two parts:

In the rst part, we examine the task of generating senten es from semanti formulae and proposean optimised algorithm thatsupports thegeneration of

longer senten es given alarge s ale grammarand lexi on.

Inthe se ondpart, we explorehowourSemTAG-basedsurfa e realiser an be exploited for the generation of grammar exer i es whose syntax and

vo abu-lary an be ontrolled. We propose an approa h that takes advantage of the

parti ular features ofthe underlying grammati al framework and therealiser.

First, the grammar onstitutes a pre ise and ri h linguisti resour e

des rib-ingnaturallanguage expressions. Thispermitsthegenerationoftext material

thatsatises ertainsynta ti and morpho-synta ti onstraints (forinstan e,

those imposed bya pedagogi al goalof learningpassive voi e). Moreover, the

ri h linguisti information asso iated with the generated text by our realiser

permits further pro essing it to reate exer ise items of the type

Fill-in-the-blank, Shue and Reformulation. Se ond, the underspe ied input and thus

the several output produ ed by our surfa e realiser make it possible to

auto-mati ally obtain synta ti and morpho-synta ti varied text material, and in

(31)

ThegoaloftheNLGtaskistoprodu e understandable textinhumanlanguage.

Thispro essisgovernedbyagiven ommuni ativeintention,basedonsome

informa-tionsour e, and involves a series ofsteps or subtasks. Traditionally,these subtasks

are thought to be organised in a sequen e or pipeline and to deal with strategi

de isions (what to say) and ta ti al de isions (how to say it). On e the ontent

or meaning to be expressed in natural language has been determined, the ta ti al

omponentneedsto make several hoi es su hasthewordsandsynta ti stru tures

to be used to express that meaning in natural language. In parti ular, the surfa e

realisation omponentofanNLGsystem,usuallythelast omponentinthepipeline,

maps an abstra t linguisti spe i ation into a natural language expression. That

is, it knows about the target language, for instan e, its word order. There an be

dierent levels of abstra tions in the spe i ation of the input to the realiser. For

instan e,theinput ouldbeadependen ytreewheresynta ti roleshavebeen

spe -iedaswellasfun tion words. Dependingonthedegreeofspe i ationofitsinput,

therealiser ouldbedeterministi orprodu eseveraloutputtakingvariousde isions

about how to say things. In this thesis, we assume a semanti input (e.g a logi al

form),and more spe i ally, a Minimal Re ursion Semanti (MRS 3

) semanti

for-mula. Given the MRS shown in (3a), the task of the surfa e realiser is to output

senten es su has(3b- ).

(3) a.

{l

0

: named(t, T ex), l

0

: indiv(t, m, sg), qeq(T R, l

0

), l

1

: properq(t, T R, T S),

l

2

: le(u, CR, CS), qeq(CR, l

3

), l

3

: universite(u), l

3

: indiv(u, f, sg),

l

4

: travailler(e, t, u), l

4

: event(e, pres, indet, ind)}

b. Tex travailleàl'université. (Texworksat theuniversity)

. C'est Texqui travailleàl'université. (ItisTexwhoworksattheuniversity)

Surfa e realisation from at semanti s (i.e. a bag of predi ations as illustrated

surface realisation

optimisation

inexample (3a))is a omputationally expensive task( Brew (1992)and Koller and

Striegnitz(2002)provide NP- ompletenessproofs). Various optimisation te hniques

have been proposedto helpimproving runtimesinpra ti e. Our goalisthe

optimi-sationofFB-TAGbasedsurfa erealisation. Tothisend,wefollowtheideaof using

TAG derivation trees for generation from [Koller and Striegnitz, 2002℄ . We depart

from this approa h however inthat we relyon a well dened translation from

FB-TAGtoanFB-RTG (Feature-BasedRegularTreeGrammar,[S hmitzandLe Roux,

2008℄ )todes ribe thederivationtreelanguageoftheFB-TAG.Thistranslation

ar-riesoverall semanti , synta ti and morpho-synta ti information from theoriginal

3

MRSare atunderspe iedsemanti representations ([Copestake etal.,2005℄), i.e. theyare attenedands opeunderspe iedrepresentationsofFirstOderLogi (FOL)formulae. Wedis uss thistypeofsemanti representationsindetailinse tions2.1.1and2.2.4

(32)

serves the syntax/semanti s interfa e and provides an exa t grammar of FB-TAG

derivationtrees. WeprovideanFB-RTGbasedsurfa erealisationalgorithm,namely

RTGen,whi h integrates various te hniquesto improve surfa e realisation.

NLG te hnology has been used inter alia to generate reports (for instan e, to

generate text from a database of measurements from some measuring devi e), to

generatedes riptionsfromanunderlyingknowledgebaseandtomaptheoutputofa

dialoguemanagertoanaturallanguageexpression. Thedomainsofappli ationhave

widely varied too: medi al, weather fore asting, instru tional leaets, verbalizing

instru tionsinvirtualenvironments,amongothers. Moreover,othertypesofNatural

Language Pro essing(NLP) taskssu h astext summarization or simpli ationand

question generation may also involve a nalre-generation step. To a lesser extent,

NLG te hniques have also been used within the ontext of Intelligent

Computer-AssistedLanguageLearning (ICALL).

A varietyof workinNLP andICALL hasbeen arriedoutalong thepast years.

Mostly,NLPte hniqueshave beenusedto supporttheauthoring oflearning ontent

andlearninga tivitiesortoevaluatelearnerinputandgenerateappropriatefeedba k.

For instan e,ALICE- han ([Levinand Evans, 1995℄)isanintelligent languagetutor

forJapaneseinstru tionthatusesLexi alFun tionalGrammar(LFG)basedparsing

to assist instru tors in reating exer ises and to evaluate learner answers to those

exer i es. Itprovidesaninterfa e forexer iseauthoringwhereinstru tors an reate

exer ises by entering text orresponding to the ba kground, the question and the

answeroftheexer ises. TheanswerisanalysedbytheNLPmodules whi hprodu e

afeaturestru turesummarizingmorpho-synta ti andsynta ti featuresthatwillbe

usedlater ontoevaluatelearnerinput(whi hisanalysedinasimilarway). Another

tutoringsystemisTAGARELA([AmaralandMeurers,2011℄ ). Itin ludesworkbook

stylea tivities: readingandlistening omprehension,pi turedes ription,rephrasing,

Fill-in-the-blank and vo abulary exer ises. Dierent NLP tools (e.g. tokenizer and

parser ) aredeployed initsar hite ture. TAGARELA fo uses onpro essing learner

input and providing appropriate feedba k making use ofexpert models (knowledge

about the language),a tivitymodelsand learnermodels.

Within the range of ICALL appli ations, there are some systems that embody

writing aids su h as ICICLE ([ Mi haud et al., 2000℄ ) or reading assistants su h as

CALLE ([ Rypa and Feuerman, 1995℄ ) whi h rely on parsing te hniques. ICICLE

uses parsing to analyse learners' input, whereas CALLE uses parsing to analyse

(33)

on-stru tionspresent inthetext. Indierent ways,bothaim atemphasizingawareness

and learning of the grammati al onstru tions in the target language. Two other

systemswhose major aim is to promote linguisti awareness are WERTI([Meurers

etal.,2010℄ ),aso- alledtextenhan ementappli ation,usingNLPtoolstore ognise

and highlight dierent grammati al features insele ted Web do uments; and VISL

([Bi k, 2005℄ ), a visual intera tive syntax learning tool, using also NLP tools for

analysis.

Some work has spe ially on entrated on the automati authoring of language

learningexer ise and test items ([ Mitkovet al., 2006; Heilman and Eskenazi, 2007;

Karamanis et al., 2006; Chao-Lin et al., 2005; Coniam, 1997; Sumita et al., 2005;

Simon et al., 2010; Lin et al., 2007; Lee and Sene, 2007℄ ). In parti ular, some

proposals target the produ tion of grammar exer i es (e.g. [Aldabe et al., 2006;

Chenetal.,2006℄ ). Ingeneral,theseapproa hesrelyonma hinelearningte hniques

andgenerate advan edlearning a tivities.

Within CALL there exist authoring tools su h as Hot Potatoes 4

([Winke and

Ma Gregor,2001℄ )whi hdonotuseNLPte hniques. Theyare alledtemplatebased

authoring tools be ause they provide a set of template a tivities that thelanguage

tea her an useto reate exer ises. However, the ontent for ea h exer ise, thatis,

thesour e text, the expe ted solution(s) and the feedba k, is manually entered by

thelanguagetea her.

In sum, there exist CALL appli ations where the language learning material is

editedbyhandor ICALLappli ationsinwhi hmostoftheworkonNLP devotedto

the(semi-)automati reation oflearning material isbased on text analysis. In the

latter ase, the textual ontent used to reate learning a tivities is eitherprovided

bythelanguage tea hers or gathered automati allyfrom theWeb.

Inthisthesis, wearguethatNLGisanatural andidateforthe(semi-)automati

generation of language learning material. We exploit an FB-TAG wide- overage

paraphrasti grammar whi h provides a ri h linguisti des ription of natural

lan-guageasso iatingnaturallanguageexpressions withsyntaxandsemanti s. Thefa t

that the grammar aptures paraphrases by asso iating dierent natural language

expressions with the same underlying ore meaning is spe ially attra tive in the

ontext of language learning. Usually, tea hers manually edit exer ises and their

solutions, and lassify them a ording to the degree of di ulty or the expe ted

learner level. The approa h we propose, alled GramEx, potentially supports the

(semi-)automation ofthe whole pro ess. First,due to input underspe i ation and

paraphrasegeneration, fromone input several realisationsarepossible. Aswe show

4

(34)

leasesthelanguagetea herfrommanuallywritingea halternativeor frommanually

re-writing agivensenten e tobe usedinanotherexer isetype. Se ond,theri h

lin-guisti information asso iated withthe generated text material an be exploited for

theautomati generationoflearninga tivities. Here,weshowhowFill-in-the-blank,

Shueand Reformulationgrammar exer ises an be automati ally reated. In this

way,thelanguage tea herdoesnotneed tomanuallymodifythetextor toenterthe

solutions. Third, the NLG-based exer ise generation approa h potentially enables

the automati lassi ation of the generated exer i es for instru tional sequen ing.

For instan e,the grammar onstru tions ouldbemappedto dierent levels of

di- ulty. Further,aswillbedis ussedinthefutureworkse tion5.2, GramEx hasbeen

integratedintheI-FLEGappli ation (Intera tive Fren h LearningGame,[Amoia et

al., 2012℄ ), a serious game for pra ti ing grammar exer i esin Fren h. In I-FLEG,

the learner intera tions are stored in a database and provide detailed information

aboutea hexer iseitemsolvedbythelearner. Thisinformation ouldbeexploited,

for instan e, to automati ally provide training in the grammar points that a given

learnerneeds to reinfor e.

Textbooks for language learning generally in lude grammar exer ises. Tex's

Fren h Grammar 5

for instan e, in ludesat theend of ea hle ture, aset of gram-

textbook-style

exercises

mar exer ises whi h target a spe i pedagogi al goal su h as learning the plural

form ofnounsorlearningthepla ementofadje tives. Figure1.1showstheexer ises

provided by this book at the end of the le ture on the plural formation of nouns.

As exemplied in this gure, these exer ises markedly dier from more advan ed

learning a tivities whi h seek to familiarise the learner with realworld senten es.

To support in situ learning, this latter type of a tivity presents the learner with

senten es drawn from theWeb or from existing do umentstherebyexposing herto

a potentially omplex syntax and to a diverse vo abulary. In ontrast, textbook

grammar exer ises usually aim to fa ilitate the a quisition of a spe i grammar

point by presenting the learnerwith exer isesmade up of short senten es involving

a restri tedvo abulary.

As we argued in previous paragraphs, most existing work on the generation of

5

Tex'sFren hGrammarhttp://www.laits.utexas.edu/t ex/isanonlinepedagogi alreferen e grammar that ombines explanations with surreal dialogues and artoon images. Tex's Fren h Grammar is arranged like many other traditional referen e grammars with the parts of spee h (nouns,verbs, et .) usedto ategorisespe i grammaritems(gender ofnouns, irregular verbs). Individualgrammaritems are arefully explained inEnglish, thenexempliedina dialogue, and nallytestedinself- orre ting,Fill-In-the-Blankexer ises.

(35)

Give the plural form of the noun indicated in parentheses. Pay attention to both the article and the noun.

1.

Bette aime _____ . (le bijou)

2.

Fiona aime ______ . (le cheval)

3.

Joe-Bob aime ______ américaines. (la bière)

4.

Tex n’aime pas ______ . (le choix)

5.

Joe-Bob n’aime pas ______ difficiles. (le cours)

6.

Tammy n’aime pas ______ . (l’hôpital)

7.

Eduard aime ______. (le tableau)

8.

Bette aime ______ de Tex. (l’oeil)

9.

Tex aime ______ français. (le poëte)

10.

Corey aime ______ fraîches. (la boisson)

11.

Tammy aime ______ américains. (le campus)

12.

Corey n’aime pas ______ . (l’examen)

Figure 1.1: Grammarexer isesfrom theTex's Fren hGrammartextbook

grammar exer ises has on entrated on the automati reation of the rst type of

exer isesi.e., exer iseswhose sour esenten esareextra tedfromanexisting orpus.

Here, we present a framework whi h addresses thegeneration of these ond type of

grammar exer ises usedfor language learning i.e., grammar exer ises whose syntax

andvo abularyarestrongly ontrolled.

Weuseourgrammar-basedsurfa erealisertoprodu esenten eswhi h,asaresult

ofthegeneration pro ess,areasso iated withri h linguisti information. Wedene

ame hanismtosele tappropriatesenten esbasedonthislinguisti information. We

show how these senten es an be further pro essedto generate grammar exer ises.

More pre isely, we fo us on exer ises of two types. The rst type, in ludes those

exer ises that are generated from a single sele ted senten e su h as the

Fill-in-the-blankandShueexer ises. These ondtype,istheReformulationortransformation

exer isetypewhi h requiresa pairof senten es.

The (semi-)automati produ tion of a tivities from the Web or existing

do u-ments has ontributed to the large s ale reation of exer ises su h as

multiple-

transformation-based grammar

exercises

hoi eorFill-in-the-blank. Mostly,theseapproa hesasso iatesynta ti and

morpho-synta ti annotationswiththe olle tedsenten esusingparsing, part-of-spee h

tag-gingand hunkingte hniques. However,theautomati generationof

transformation-based exer ise types requires deeper linguisti pro essing and has re eived little or

no attention. Consider, for instan e, the ase of automati ally produ ing question

(Q) and expe ted answer (S) pairs for the following a tive/passive Reformulation

exer ise:

(4) Rewrite the senten es using passive voi e.

1. (Q) C'est Texqui donne lelivre aTammy.

(36)

To automati ally produ e the solution (S), we need to generate a senten e that

bearsthesame oremeaning andisinthe passivevoi e,butalso theothersynta ti

and morpho-synta ti features(e.g. topi alization and tense) should be maintained

as loseaspossible tothe originalsenten einthequestion(Q).OurFB-TAG

gram-marprovidesthedetailedlinguisti information(i.e. semanti ontent andsynta ti

and morpho-synta ti information) ne essaryto identify senten e pairs that are

re-latedbyasynta ti transformation. Inparti ular,thederivationtreesoftheFB-TAG

grammar provide a goodlevel of representation for analysing synta ti

transforma-tionsasthey aptureboththeformalandthe ontent onstraintsgoverning

transfor-mations. The ontent words andthegrammati al fun tionslabelling thetreenodes

permit he king that the two senten es stand in the appropriate semanti relation

(i.e.,fullyidenti al ontent oridenti al ontent modulosomelo al hange). Further,

thesynta ti propertieslabellingthese nodes(FB-LTAG elementarytree namesbut

also some additional information provided by our generator) permit ensuring that

they standintheappropriate synta ti relation.

Main ontributions

The ontributions ofthis thesisarethe following.

A new algorithm for FB-TAG basedsurfa e realisation. This algorithm relies on an FB-RTG en oding of FB-TAG derivation trees and in orporates

var-ious optimisation te hniques: pa king, sharing, indexing based on semanti

argumentsand lteringof intermediatein omplete stru tures.

An NLG-based approa h for the automati generation of textbook-style exer- ises. We exploit the underspe ied input semanti representations and the

paraphrasti power of the SemTAG grammar to produ e text material. The

ri hlinguisti informationasso iatedwiththegeneratedsenten espermitsthe

(semi-)automati reationof grammarexer ises.

A novel approa h for the generation of transformation-based grammar exer- ises. We useFB-TAG derivationalinformation to identify pairs of senten es

(37)

Road map of the thesis

In this hapter, we introdu ed the resear h issues this thesis addresses. In what

follows, we summarisethe ontent of theremaining hapters of thethesis.

Chapter 2: Ba kground and related work. In this hapter, we briey

sur-vey the major on epts underlying the two resear h trends adressed in this thesis,

namely natural language generation (Se tion 2.1) and omputer-assisted language

learning(Se tion 2.3) andwe situateour work within these broad areas. For NLG,

wedis ussthe omplexityissuesinsurfa erealisationfromat semanti sthat

moti-vate our resear h onsurfa e realisation optimisation. For CALL,we dis uss related

workthatmotivatesour resear hon applyingNLG te hniquesfor thegeneration of

languagelearning material. Finally,we des ribe SemTAG, our underlying grammar

framework, in(Se tion 2.2). In doing this,we aim at emphasizing thosedenitions

or features of the underlying grammati al formalism and our spe i grammar

im-plementation thatareneededfor the dis ussionof the presented approa hes.

Chapter 3: Optimising surfa e realisation. Surfa e realisation from at

se-manti isexponential in thesize of theinput(numberof predi ations) intheworst

ase. The major auses forthis omplexityarethela kofordering information and

thelexi alambiguity( f. Chapter2). TooptimiseTAG-basedsurfa erealisation,we

proposeanapproa h basedonan FB-RTG([S hmitzandLe Roux,2008℄ ) en oding

ofFB-TAGderivation trees thatis inspired from[Kollerand Striegnitz, 2002℄ . Our

hypothesis isthatusing thisen odingpermits simplifyingandoptimising

FB-TAG-basedsurfa e realisation. We begin bydes ribing Koller and Striegnitz's approa h,

giving the intuitions about our approa h, and presenting S hmitz and Le Roux's

FB-TAG to FB-RTG translation in Se tion 3.1. We present a new algorithm for

FB-TAG-based surfa e realisation basedon this en oding([Gardent and

Perez-Bel-tra hini,2010;Gardentetal.,2011a℄ ),namelyRTGen,inSe tion3.2. We arriedout

a omparative evaluation using automati ally built graduated test-suites ([Gardent

etal.,2010;Gardentetal.,2011a℄ ). We dis ussthe resultsinSe tion3.3. InSe tion

3.4,we ompareour approa h withrelatedwork onsurfa erealisation optimisation.

We on ludeinSe tion 3.5.

Chapter 4: Natural language generation for language learning. The

au-tomati generation of learning ontent and learning a tivities has mostly been

ad-dressed by using text analysis and ma hine learning te hniques. In this hapter,

(38)

grammar and the possibility of hoosing among them. Moreover, our

grammar-based generation approa h generates senten es and XFthe generated senten es are

asso iated withri h linguisti information produ ed bythe generation pro ess. We

develop a framework, namely GramEx, for the generation ofgrammar exer ises. In

Se tion 4.1, we des ribe the type of learning a tivities we generate. Se tion 4.2.1

des ribestheapproa hforthe generationoftextmaterial thatsupportspedagogi al

goals and learner knowledge onstraints. On e the appropriate text material has

been sele ted, we an exploit it to build dierent types of grammar exer ises. In

Se tion 4.3,we showhowFill-in-the-blankandShue exer ises anbederivedfrom

generated text ([Perez-Beltra hini et al., 2012℄ ). We arriedout an evaluationthat

showsthe usefulness oftheapproa hintermsofexer iseprodu tion. First,we

mea-sure variability, that is, to what extent thedegree of variation in theoutput of the

generation pro ess permits the generation of varied exer ises. Se ond, we measure

produ tivity, that is, to what extent the same generated senten e serves to reate

dierentexer isesaswellashowmanyexer ises anbeprodu edfromagiveninput.

Wealsoevaluate orre tness,thatis, whetherthegeneratedexer isesaremostofthe

timemeaningful and orre t. In Se tion 4.4, we showthat thegeneration approa h

ni ely supports the automati reation of senten e reformulation type of exer ises

([Gardent and Perez-Beltra hini, 2012℄ ). We summarise the work arried out and

on lude inSe tion 4.6.

Chapter 5: Con lusions. We draw our on lusions on our parti ular surfa e

realisation task and its appli ation to language learning (Se tion 5.1). In Se tion

(39)

Références

Documents relatifs

As data-driven approaches started to make their way into the Natural Language Generation (NLG) domain, the need for automation of corpus building and extension became apparent..

In the lower-part of the third component, external sources like Web search engines (Yahoo!, Bing,. ), freely available structured data (Freebase, Wolfram|Alpha) or empoyees’ reports

To have reference descriptions to compare with the generated texts from the NLG system, two of the physicians (who had knowledge in SNOMED) were asked to use

Our previous work on constraint based program- ming and modelling tools (allowing for example behaviour-preserving refactor- ing and well-formedness preserving completions or

In Figure 1 and in Section 3 we review all the necessary elements for our investigation: the notion of argumentation schemes; how to represent argument networks in the

Word embeddings types, word embeddings sizes, word embeddings updating, character embeddings, deep architectures (CNN, LSTM, GRU), optimizers, gradient control, classifiers, drop

Hence, several methods were born to learn the best representation for a given problem, as is the case of Deep Neural Networks and Multiple Kernel Learning.. These methods reduce

Mapping to output language predicate-argument structures Starting from the structures provided by the text planning module (see Section 4), first, some idiosyncratic transformations