HAL Id: tel-01749799
https://hal.inria.fr/tel-01749799v2
Submitted on 18 Jan 2016
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
Laura Haide Perez
To cite this version:
Laura Haide Perez. Natural Language Generation for Language Learning. Artificial Intelligence
[cs.AI]. Université de Lorraine, 2013. English. �NNT : 2013LORR0062�. �tel-01749799v2�
G´
en´
eration automatique de phrases
pour l’apprentissage des langues
(Natural Language Generation for Language Learning)
TH`
ESE
pr´esent´ee et soutenue publiquement le 19 avril 2013
pour l’obtention du
Doctorat de l’Universit´
e de Lorraine
(Mention Informatique)
par
Laura Haide PEREZ
Composition du jury
Rapporteurs :
Karin HARBUSCH
Professeur, Universit¨
at Koblenz-Landau, Allemagne
Richard POWER
Professeur, Open University, Milton Keynes, R.U.
Examinateurs :
Claire GARDENT
Directeur de Recherches CNRS, LORIA Nancy, France
I would like to use this spa e to thank many people who have ontributed to this
thesisworkin one wayor another.
First of all,I want to thankmy supervisorClaire for givingme theopportunity
to work inthis topi ,for her onstant support, for givingme spa ebut at thesame
time being always ready to give advi e, and for orre ting many papers, slides and
this manus ript as well. Thank you Claire for all I have learnt in the past three
years.
I am indebted to the Université de Lorraine for the nan ial support and the
do toral s hool IAEM as well as LORIA for thene essary or hestration altogether
making my do toralstudies possible.
Many thanksalso go to themembers of the jury, Karin Harbus h, Guy Perrier
and Ri hard Power for their onstru tive omments and interesting feedba k and
dis ussions about the resear h work inthis thesis.
A spe ialthank you to myAllegro olleagues Alex, Céline, German, Ingrid and
Marilisa for dis ussions about work and their ollaboration as well as Elise and
NataliafortheirhelpwiththeevaluationsandSamuelandNadiafor fa ilitatingthe
use of IFLEG with Fren h language students. Thanks also to Céline for reviewing
theFren hparts,Linaforagreeingtoreadsome haptersandShashiforthetriangle
tree drawings. Many thanks to all the members of the Synalp/Talaris group for
the omfortable work environment. Thank youverymu h toKristina Striegnitz for
kindly fa ilitating methe sour esfor the drawing ofthedependen y tree.
Iwouldliketo thankmyfriendsand extendedfamily,hereandinArgentina, for
sharing with me re reation time, mails, visits, home-made s arves and many good
things and forenthusiasti ally en ouragingme duringthese years.
I am innitely grateful to my family for their un onditional support. I thank
myparents, Nilda and Ri ardo,for beingan unbeatable example. Theyarestrong,
loving andintelligent; Ifeelvery proud ofthem. Thanksto mybrotherMariano for
his are and for pointing me out to those simple big things about life. I want to
thank Yannfor staying bymyside;hislove and patien emake mehappy.
Thank youto those Ihave forgotten tomention.
I dedi atethis thesisto Nilda,Ri ardo, Mariano,Tataand Yann.
Mots- lés: Grammaired'ArbresAdjointsàStru turesdeTraits(FB-TAG),Réalisateurde
Surfa e (RS),Optimisation dela RéalisationdeSurfa e, Grammaire d'Arbres Réguliers à
Stru turedeTraits(FB-RTG),Représentationssémantiquesplatesetsous-spé iées,
Généra-tionAutomatiquedeLangueNaturelle(GLN),ApprentissageAssistéparOrdinateur(CALL),
Création(Semi-)automatiqued'exer i esdegrammaire.
Dans estravaux,nousexplorons ommentleste hniquesdeGénérationsAutomatiques
deLangueNaturelle(GLN)peuventêtreutiliséespouraborderlatâ hedegénération
(semi-)automatiquedematérieletd'a tivitésdansle ontextedel'apprentissagedelanguesassisté
parordinateur.Enparti ulier,nousmontrons ommentunRéalisateurdeSurfa e(RS)basé
surunegrammairepeutêtreexploitépourla réationautomatiqued'exer i esdegrammaire.
Notreréalisateurdesurfa eutiliseunegrammaireréversibleétendue,àsavoirSemTAG,qui
est une Grammaire d'Arbre Adjoints à Stru ture de Traits (FB-TAG) ouplée ave une
sémantique ompositionnelle basée sur l'uni ation. Plus pré isément, la grammaire
FB-TAGintègreune représentationplateet sous-spé iéedes formulesdeLogiquede Premier
Ordre(FOL).
Dans la première partie de la thèse, nous étudions la tâ he de réalisation de surfa e
àpartirdeformules sémantiquesplates et nous proposons unalgorithmede réalisationde
surfa e basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases
longues étant donné une grammaire et un lexique à large ouverture. L'appro he suivie
pourl'optimisationdelaréalisationdesurfa ebaséesur FB-TAGàpartirdesémantiques
plates repose sur lefaitqu'une grammaireFB-TAGpeutêtre traduite enune Grammaire
d'Arbres RéguliersàStru turede Traits (FB-RTG) dé rivantsesarbresde dérivation. Le
langaged'arbresdedérivationdelagrammaireTAG onstitueunlangageplussimplequele
langaged'arbresdérivés, 'estpourquoidesappro hesdegénérationbaséessurlesarbresde
dérivationontdéjàétéproposées. Notreappro hesedistinguedespré édentesparlefaitque
notre en odage FB-RTG prend en ompte lesstru tures detraits présentes dans la
gram-maire FB-TAG originelle, ayant de e fait des onséquen es importantes par rapport à la
sur-générationetlapréservationdel'interfa esyntaxe-sémantique. L'algorithmede
généra-tiond'arbresdedérivation quenousproposonsest unalgorithmedetypeEarleyintégrant
un ensemble de te hniques d'optimisation bien onnues: tabulation, partage- ompression
(sharing-pa king)etindexationbaséesurlasémantique.
Danslase ondepartiedelathèse,nousexplorons ommentnotreréalisateurdesurfa e
basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exer i es de
grammaire. Habituellement, les enseignants éditent manuellement les exer i es et leurs
solutions et les lassent au regard de leur degré de di ulté ou du niveau attendu de
deste hniquesd'apprentissageautomatiqueet des te hniques d'analyse de textes(par
ex-emple,analysedephrases,POStagging,et .). Cesappro hes onfrontentl'apprenantàdes
phrasesquiontdessyntaxespotentiellement omplexesetduvo abulairevarié. Enrevan he,
l'appro he que nous proposons dans ette thèse aborde la génération (semi-)automatique
d'exer i esdutyperen ontré dans lesmanuels pour l'apprentissagedeslangues. Ils'agit,
end'autrestermes,d'exer i esdontlasyntaxeet levo abulairesontfaitssur mesurepour
desobje tifspédagogiquesetdessujetsdonnés. Lesappro hesdegénérationbaséessurdes
grammaires asso ient les phrases du langage naturel ave une représentation linguistique
nedeleurpropriétémorpho-syntaxiqueset deleursémantiquegrâ eàquoiilest possible
dedénirunlangagede ontraintessyntaxiquesetmorpho-syntaxiquespermettantla
séle -tiondephrasessou hesena ordave unobje tifpédagogiquedonné. Cettereprésentation
permetenoutred'opérerunpost-traitementdesphrasesséle tionéespour onstruiredes
ex-er i esdegrammaire. Nousmontrons ommentlesexer i esdegrammairedetypeàtrous,
dere onstitution oude reformulationde phrasespeuvent être automatiquementproduits.
L'appro heaétéintégréedanslejeuxsérieuxI-FLEG(Intera tiveFren hLearningGame,
Jeuintera tif pourl'apprentissagedu français) et a été évaluée àlafois par l'analyse des
intera tionsave desjoueursenligneeten ollaborationave desenseignants.
Abstra t
Keywords: Feature-BasedTreeAdjoiningGrammars(FB-TAG),Surfa eRealisation(SR),
Surfa eRealisationOptimisation, Featured-Based Regular Tree Grammar(FB-RTG), at
andunderspe iedsemanti representations,NaturalLanguageGeneration(NLG),
Computer-AssistedLanguageLearning(CALL), (Semi-)automati authoringof grammarexer ises.
In this work, weexplore howNatural LanguageGeneration(NLG) te hniques anbe
usedtoaddressthetaskof(semi-)automati allygeneratinglanguagelearningmaterialand
a tivitiesinCamputer-AssistedLanguageLearning(CALL). Inparti ular,we showhowa
grammar-basedSurfa eRealiser(SR) anbeusefully exploited fortheautomati reation
ofgrammarexer ises. Oursurfa erealiserusesawide- overagereversiblegrammarnamely
SemTAG, whi h is aFeature-BasedTree Adjoining Grammar(FB-TAG) equipped witha
uni ation-based ompositionalsemanti s.Morepre isely,theFB-TAGgrammarintegrates
aatand underspe iedrepresentationofFirstOrderLogi (FOL)formulae.
In the rst part of the thesis, we study the task of surfa e realisation from at
se-manti formulae and we propose an optimised FB-TAG-based realisation algorithm that
supportsthe generationof longer senten esgivenalarges ale grammarand lexi on. The
approa hfollowed tooptimise TAG-based surfa erealisationfrom atsemanti sdrawson
thefa t that an FB-TAG an be translatedinto aFeature-BasedRegular Tree Grammar
in that our FB-RTG en oding a ounts for feature stru tures presentin the original
FB-TAGhavingthusimportant onsequen esregardingover-generationandpreservationofthe
syntax-semanti sinterfa e. The on retederivation treegenerationalgorithmthat we
pro-pose is anEarley-stylealgorithm integratinga set of well-known optimisationte hniques:
tabulation,sharing-pa king,andsemanti -basedindexing.
Inthese ondpartofthethesis,weexplorehowourSemTAG-basedsurfa erealiser an
beputtoworkforthe(semi-)automati generationofgrammarexer ises. Usually,tea hers
manually edit exer isesand their solutions, and lassify them a ordingto the degree of
di ulty or expe ted learner level. A strand of resear hin (Natural LanguagePro essing
(NLP)forCALLaddressesthe(semi-)automati generationofexer ises. Mostly, thiswork
drawsontextsextra ted fromtheWeb, usema hine learningandtext analysiste hniques
(e.g. parsing, POS tagging,et .). These approa hesexpose thelearner to senten es that
have a potentially omplex syntax and diverse vo abulary. In ontrast, the approa h we
proposein this thesis addressesthe (semi-) automati generation of grammar exer isesof
thetype foundin grammar textbooks. Inother words, itdealswith thegeneration of
ex-er ises whose syntax andvo abulary are tailored to spe i pedagogi algoals and topi s.
Be ausethegrammar-basedgenerationapproa hasso iatesnaturallanguagesenten eswith
ari hlinguisti des ription,itpermitsdeningasynta ti andmorpho-synta ti onstraints
spe i ationlanguageforthesele tionof stemsenten es in omplian e withagiven
peda-gogi al goal. Further,it allowsfor thepost pro essing ofthe generated stemsenten es to
build grammar exer iseitems. We show how Fill-in-the-blank, Shue and Reformulation
grammar exer ises an be automati ally produ ed. The approa h has been integrated in
theIntera tiveFren hLearningGame (I-FLEG)serious gameforlearningFren hand has
beenevaluatedbothbasedin theintera tionswithonlineplayersandin ollaborationwith
Génération automatique de phrases pourl'apprentissage des langues ix
1 Introdu tion 1
2 Ba kground and related work 11
2.1 NaturalLanguageGeneration . . . 12
2.2 TheSemTAG grammar . . . 20
2.3 Computer AssistedLanguageLearning . . . 34
3 Optimising surfa e realisation 43 3.1 Introdu tion . . . 44
3.2 RTGen surfa erealisation algorithm . . . 61
3.3 Evaluation. . . 79
3.4 Related work one ient surfa e realisation . . . 88
3.5 Con lusions andperspe tives . . . 92
4 Natural language generation for language learning 95 4.1 Introdu tion . . . 97
4.2 Generating exer isestems . . . 98
4.3 Building Fill-in-the-blankand Shue exer ises . . . 105
4.4 Transformation-based grammar exer ises . . . 112
4.5 Comparison with previous work on (semi-)automati grammar exer- isesgeneration . . . 125
4.6 Con lusions andperspe tives . . . 126
5 Con lusions 131 5.1 Summingup and on luding . . . 131
Appendi es 139
A GramEx pedagogi al goals and exer ise items 141
A.1 Ex erpt ofpedagogi algoals . . . 141
A.2 Ex erpt oftransformation-based grammar exer i es . . . 153
phrases pour l'apprentissage des
langues
This hapter presents a summary of the thesis, in Fren h.
Ce hapitre présente un résumé en françaisde la thèse.
Sommaire
1 Optimisation dumodulede réalisation de surfa e . . . . xvii
2 Génération automatique de texte pour l'apprentissage
des langues . . . xviii
3 Con lusions . . . xix
Cette thèse aborde l'utilisation des te hniques de génération automatique de
texte(NLG,NaturalLanguage Generation)pourl'apprentissage deslangues assisté
par ordinateur (CALL, Computer-Assisted Language Learning). Nous montrons,
en parti ulier, omment un réalisateur de surfa e (SR, Surfa e Realiser) basé sur
une grammaire d'arbres adjoints peut être utilisé an d'automatiser la génération
d'exer i es degrammairepourl'apprentissage deslangues. Leréalisateur desurfa e
utilise une grammaire réversible à large ouverture dénomméeSemTAG, une
gram-maired'arbresadjointsàstru turesdetraits (FB-TAG, Feature-BasedTree
Adjoin-ingGrammar) oupléeave une sémantique ompositionnelle baséesurl'uni ation.
La présente thèse sedé ompose endeux parties:
•
Dans la première partie, nous examinonsla tâ he de génération de phrasesà partirdeformulessémantiquesetproposonsunalgorithmeoptimiséquipermetdegénérerdesphraseslonguesàpartir d'unegrammaireetd'unlexiqueàlarge
ouverture.
basé sur SemTAG peut être utilisé pour la génération d'exer i es de
gram-mairedontlasyntaxeetlevo abulairepeuventêtre ontrlés. Nousproposons
une appro he qui s'appuie sur les ara téristiques spé iques aux stru tures
linguistiques produites par leréalisateurde surfa e. D'unepart, lagrammaire
onstitue une ressour e linguistique ri he et pré ise dé rivant les expressions
de la langue naturelle. Cela permet la génération de phrases qui satisfont à
ertaines ontraintessynta tiquesetmorpho-synta tiques ommeparexemple,
les ontraintes imposées par un but pédagogique omme l'apprentissage de la
voix passive. En outre, lesri hes informationslinguistiques asso iéesau texte
généré par notre réalisateur de surfa e permettent un traitement n
permet-tant de réerdesitems d'exer i es detypestextes àtrous etdere onstitution
ou dereformulationdephrases. D'autrepart, lesentrées sous-spé iéesetpar
onséquent les diérentes phrases produites par notre réalisateur de surfa e
permettent laprodu tionautomatique, àpartirdepeud'entrées,d'unevariété
d'exer i es syntaxiquement etmorpho-syntaxiquement variés.
L'obje tif de la génération automatique de texte en langage naturel est de
pro-duiredutexte ompréhensibleenlangagehumainàpartirdedonnées. Cepro édéest
guidépar un but ommuni atif, basésur une sour e d'information (les données),et
omporte une série d'étapesou de sous-tâ hes. Traditionnellement, es sous-tâ hes
sont onçues et organisées dans une séquen e ou pipeline, permettant de gérer
des dé isions stratégiques quoi dire et des dé isions ta tiques omment le dire.
Une fois que le ontenu ou sens à exprimer en langage naturel a été déterminé, le
omposant ta tique ee tuera diérents hoix omme par exemple les mots et les
onstru tionssynta tiquesà utiliserpour exprimer e ontenu en langage naturel.
En parti ulier, le module du réalisateur de surfa e d'un système de génération,
généralement ledernier modulede e pipeline, transforme une spé i ation
linguis-tique abstraite en une expression en langue naturelle. C'est à dire qu'il onnaît
le langage iblé omme par exemple l'ordre des mots. Il existe diérents niveaux
d'abstra tion dans la spé i ation de l'entrée du réalisateur. Par exemple, l'entrée
peutêtre unarbre de dépendan eoù les rlessynta tiques ainsiqueles mots-outils
ont été spé iés. En fon tion du degré de spé i ation de son entrée, le
réalisa-teurde surfa e peutpro éder de façon (presque) déterministe ou au ontraire,
pro-duireplusieurs réponses enprenant desdé isions variablespar rapportà lamanière
d'exprimer la représentation sémantique. Dans ette thèse, nous supposons une
entréesémantique(p.ex. une formelogique)etpluspré isément,desformules de
sé-mantiqueà ré ursionminimale (MRS,Minimal Re ursionSemanti s). Étant donné
(1) a.
{l
0
: named(t, T ex), l
0
: indiv(t, m, sg), qeq(T R, l
0
), l
1
: properq(t, T R, T S),
l
2
: le(u, CR, CS), qeq(CR, l
3
), l
3
: universite(u), l
3
: indiv(u, f, sg),
l
4
: travailler(e, t, u), l
4
: event(e, pres, indet, ind)}
b. Textravailleàl'université. (Texworksattheuniversity). C'est Texquitravailleàl'université. (ItisTexwhoworksattheuniversity)
Laréalisationdesurfa eàpartird'uneformulesémantiqueplate(p.ex. unsa de
prédi ats ommeillustrédansl'exemple (1a))est unetâ he de omplexité
exponen-tielle. Brew(1992) etKoller andStriegnitz (2002) fournissentdespreuvesformelles
indiquant qu'elleappartient à la lasse desproblèmes NP- omplets. Plusieurs
te h-niques d'optimisation ont été proposées pour améliorer les temps d'exé ution dans
la pratique. Notre obje tif est l'optimisation du réalisateur de surfa e basé sur la
grammaireFB-TAG.A etten,noussuivonsl'idéede KollerandStriegnitz (2002)
onsistantàutiliserlesarbresdedérivationdelagrammaireTAGpourlagénération.
Cependant, en nous appuyant surune tradu tionbien dénie de FB-TAG vers une
grammaire d'arbres réguliersbasés sur les traits (FB-RTG ou Feature-Based
Regu-larTreeGrammar,[S hmitz andLe Roux,2008℄ ) pourdé rire lelangaged'arbre de
dérivationde lagrammaire FB-TAG, nousdiérons de ette appro he.
Cettetradu tion onservetoutel'informationsémantique,synta tiqueet
morpho-synta tiquede lagrammaireoriginelle ayant,de efait, d'importantes onséquen es
qui distinguent notre appro he des pré édentes. En préservant toutes les
informa-tions linguistiques, l'en odage FB-RTG préserve l'interfa e syntaxe/sémantique et
fournit une grammaire exa te desarbres de dérivation FB-TAG. Nous développons
un algorithme de réalisation de surfa e basé sur lagrammaire FB-RTG qui intègre
plusieurs te hniques pour optimiser laréalisation desurfa e.
Traditionnellement, la génération de textes a été utilisée entre autres pour (i)
générer des rapports (par exemple pour générer des textes à partir de bases de
données ontenant des données issues d'appareil de mesures), (ii) pour générer des
des riptions à partir d'une base de onnaissan e et (iii) pour exprimer en langue
naturelle la sortie d'un gestionnaire de dialogue (dialogue manager). Les domaines
d'appli ationsontaussivariés: domainemédi al,prévisionsmétéorologiques,manuels
d'instru tions, verbalisation d'instru tions à l'intérieur de mondes virtuels, entre
autres. Deplus, d'autres typesd'appli ations de traitement automatiquede langue
(NLP, Natural Language Pro essing) tels que le résumé automatique de texte, la
simpli ation de texteet lagénération automatiquede questions peuvent aussi
de génération automatique de textes ont également été utilisées dans le ontexte
de l'enseignement intelligent des langues assistépar ordinateur (ICALL, Intelligent
Computer-AssistedLanguage Learning).
Une grande variété de travaux dans le domaine du traitement automatique de
langue(NLP)etd'ICALLont étéee tuésau oursdesdernières années. Les
te h-niquesNLPontprin ipalementétéutiliséespour ontribueràla réationde ontenus
etd'a tivités d'apprentissage oupour évaluerles résultatsdel'apprenant etgénérer
un retour approprié. Par exemple, ALICE- han ([ Levin and Evans, 1995℄ ) est un
tuteur intelligent de langage pour l'apprentissage du Japonais qui utilise la
gram-mairelexi ale-fon tionnelle (LFG, Lexi al Fun tionalGrammar) pour l'analyse des
phrases. Il permet ainsi d'assister les instru teurs dans la réation d'exer i es et
ore la possibilité d'évaluer les réponses des apprenants à es exer i es.
ALICE- han propose une interfa e pour la réation d'exer i es où les instru teurs entrent
untexte orrespondant au ontexte, auxquestionsetaux réponsesde esexer i es.
Laréponseest analyséepar lemoduleNLP générant, àpartir de elle- i,une
stru -turedetraitssynthétisant destraitssynta tiquesetmorpho-synta tiques quiseront
utilisésplustardpourévaluerlesréponsesde l'apprenantquiserontanalyséesd'une
façonsimilaire. Il existed'autressystèmesdetutorat ommeTAGARELA([Amaral
and Meurers, 2011℄ ). Celui- i in lut desa tivités similaires à elles issues de livres
d'apprentissage de langues: le ture et ompréhension orale, des ription d'images,
reformulations, textes à trous et exer i es de vo abulaire. Diérents outils de type
NLP(p.ex. segmenteurouanalyseurdephrases)sontdéployésdanssonar hite ture.
Celle- iest entréesurletraitement desréponsesdel'apprenantetsurlaprodu tion
deretoursappropriésàpartirdesmodèlesexperts( onnaissan edulangagenaturel),
desmodèles d'a tivitésetdesmodèles d'apprenants.
Parmi les diérentesappli ationsICALL,ilyadessystèmes qui onstituent des
aides à l'é riture tels qu'ICICLE ([Mi haud et al., 2000℄ ) ou des assistants pour la
le ture tels que CALLE ([Rypa and Feuerman, 1995℄ ) qui utilisent des te hniques
d'analysede phrases. ICICLEutilise deste hniquesd'analysedephrasespour
anal-yserles réponsesde l'apprenant, tandisqueCALLE utilise deste hniquesd'analyse
dephrasespouranalyserdesdo umentsséle tionnéspar l'apprenantet ainsifournir
des informations relatives aux onstru tions linguistiques présentes dans es
do u-ments. Cha uneàleurmanière, esdeuxappli ationsontpourbutdemettrel'a ent
surla onnaissan e etl'apprentissage des onstru tions grammati ales de la langue
iblée. WERTI([Meurers et al., 2010℄ ) etVISL ([Bi k, 2005℄ ) sont deux autres
ap-pli ationsont dontlebut prin ipal estde promouvoirlasensibilisationlinguistique.
re-intera tivepourl'apprentissagedesyntaxe,quiutilise desoutilsNLPpourl'analyse.
Certains travaux se sont on entrés sur l'édition automatique d'exer i es pour
l'apprentissagedeslangues([Mitkovetal.,2006;HeilmanandEskenazi,2007;Karamanis
et al., 2006;Chao-Lin et al., 2005; Coniam, 1997; Sumita et al., 2005;Simon etal.,
2010;Linetal.,2007;Lee andSene,2007℄ ). Plusparti ulièrement, ertaines
propo-sitions ont pour objetlapropositiond'exer i es de grammaire(p.ex. [Aldabe etal.,
2006; Chen et al., 2006℄ ). En général, es appro hes reposent sur des te hniques
d'apprentissage automatiqueetgénèrent desa tivitéspour l'apprentissage avan é.
Dans CALL, il existe des outils d'édition tels que Hot Potatoes 1
([Winke and
Ma Gregor,2001℄)quin'utilisentpasdeste hniquesNLP.Ilssontégalementappelés
outilsd'éditionbaséssurdesmodèlespar equ'ilsfournissentunensembled'a tivités
typesqueleprofesseur delanguespeututiliserpour réer desexer i es. Cependant,
le ontenupour haqueexer i e, 'est-à-direletextedel'exer i e,laoulesréponse(s)
attendue(s) et le retour utilisateur doivent être manuellement par le professeur de
langues.
En résumé, ilexiste desappli ationsCALL ou lesexer i espour l'apprentissage
sontéditésàlamain,oudesappli ationsICALLdanslesquelleslaplupartdes
te h-niquesdeTALdédiéesàla réation(semi-)automatiquedematérielpourl'apprentissage
sont baséesurl'analyse detexte. Dansledernier as, le ontenutextuel utilisépour
réer des a tivités d'apprentissage est soit fourni par le professeur de langues, soit
olle té automatiquement à partirduWeb. Dans ette thèse,nousmontrons que la
génération automatique de texte est une appro he rassemblant les ara téristiques
appropriées pour la génération (semi-)automatique d'exer i es de grammaire pour
l'apprentissage deslangues.
Nous exploitons la grammaire paraphrastique à large ouverture FB-TAG qui
fournituneri hedes riptionlinguistiquedulangagenaturelenasso iant des
expres-sions du langage naturel ave des syntaxes et des représentations sémantiques. Le
fait que la grammaire apture les paraphrases en asso iant diérentes expressions
de langage naturel ayant lamême signi ation noyau, est spé ialement intéressant
dans le ontexte de l'apprentissage des langues. Généralement, les professeurs
édi-tentmanuellement desexer i esetleurssolutions,puisles lassentsuivantleurdegré
de di ulté et le niveau attendu de l'apprenant. L'appro he que nous proposons,
appeléeGramEx, permetpotentiellement la(semi-)automatisation de l'ensembledu
pro essus. Premièrement, en raison de la sous-spé i ation des entrées et de la
1
génération de paraphrases; plusieurs réalisations sont possibles à partir d'uneseule
entrée. Comme nous le montrons dans le hapitre 4, à partir d'une signi ation
prin ipale,plusieurs paraphrasessontgénéréesetpeuvent,à leurtour, ha uneêtre
utiliséespour onstruire plusieurs exer i esdiérents. Dans e sens,notre appro he
dé harge le professeur de langues d'é rire manuellement haque alternative ou de
ré-é rire manuellement une phrase donnée à utiliser dans un autre type d'exer i e.
Deuxièmement, les ri hes informations linguistiques asso iées au texte généré
peu-vent être exploitées pour lagénération automatiqued'a tivités d'apprentissage. I i,
nous montrons omment les exer i es de grammaire de type à textes-à-trous, de
motsmélangés: re onstitutionoudereformulationdephrasespeuventêtre
automa-tiquement réés. Troisièmement, la génération d'exer i es à partir de la génération
automatique de phrases permet potentiellement la lassi ation automatique des
exer i es générés etleur ordonnan ement dans une séquen e pédagogique. Par
ex-emple, les onstru tions grammati ales pourraient être élaborées suivant diérents
degrésdedi ulté. A ette n,GramExpeutêtreintégrédansuneappli ation telle
que I-FLEG (Intera tive Fren h Learning Game, [Amoia et al., 2012℄ ) omme ela
va être dis uté dans la se tion 5.2. Dans I-FLEG, les intera tions de l'apprenant
ave le jeu sont sto kées dans une base de données et fournissent des informations
détaillées on ernant, pour haque exer i e, les items résolus par l'apprenant. Ces
informationspeuventêtreexploitées,parexemple,pourfournirautomatiquementun
entraînement spé iquesurles points degrammaire quel'apprenant doitaméliorer.
Les livresd'apprentissage de langues in luent en général desexer i es de
gram-maire. Parexemple,lelivreenligneTex'sFren hGrammar 2
forinstan e,in ludesat
theendofea hle ture,asetofgrammarexer iseswhi htargetaspe i pedagogi al
goalsu haslearning theplural form ofnounsorlearningthepla ement ofadje tives
in lut, à la n de haque unité, un ensemble d'exer i es de grammaire visant un
butpédagogiquespé iquetelquel'apprentissage dela forme plurielledes noms ou
l'apprentissagedel'ordre desadje tifs. LaFigure1montrelesexer i essetrouvantà
landel'unitésurlaformationduplurieldesnoms. Commeonpeutlevoirsur ette
gure, esexer i es dièrent notablement desa tivitésd'apprentissage avan ées qui
her hent àfamiliariserl'apprenantave desphrases ouramment employées. Pour
permettre l'apprentissage in situ, e dernier type d'a tivité onfronte l'apprenant
2
Tex'sFren hGrammarhttp://www.laits.utexas.edu/te x/isanonlinepedagogi alreferen e grammar that ombines explanations with surreal dialogues and artoon images. Tex's Fren h Grammar is arranged like many other traditional referen e grammars with the parts of spee h (nouns,verbs,et .) usedto ategorizespe i grammaritems (genderof nouns,irregular verbs). Individualgrammaritems are arefully explainedinEnglish, thenexempliedinadialogue, and nallytestedinself- orre ting,Fill-In-the-Blankexer ises.
livresd'apprentissage delangues ont généralementpourbut defa iliterl'a quisition
d'un point de grammaire spé ique en onfrontant l'apprenant ave des exer i es
onstruitsà partirde phrases ourtesetde vo abulaire restreint.
Give the plural form of the noun indicated in parentheses. Pay attention to both the article and the noun.
1.
Bette aime _____ . (le bijou)
2.
Fiona aime ______ . (le cheval)
3.
Joe-Bob aime ______ américaines. (la bière)
4.
Tex n’aime pas ______ . (le choix)
5.
Joe-Bob n’aime pas ______ difficiles. (le cours)
6.
Tammy n’aime pas ______ . (l’hôpital)
7.
Eduard aime ______. (le tableau)
8.
Bette aime ______ de Tex. (l’oeil)
9.
Tex aime ______ français. (le poëte)
10.
Corey aime ______ fraîches. (la boisson)
11.
Tammy aime ______ américains. (le campus)
12.
Corey n’aime pas ______ . (l’examen)
Figure 1: Exer i esdegrammaireissus dulivred'apprentissagede languesTex's Fren h Grammar.
Comme nous l'avons dis uté dans les pré édents paragraphes, la plupart des
travauxexistants surla génération d'exer i es de grammaires'est on entrée sur la
réation automatique d'exer i es du premier type, 'est à dire des exer i es dans
lesquels les phrases sour es sont extraites à partir de orpus existants. Dans ette
thèse,nousprésentonsunear hite turequiviselesexer i esdedeuxièmetype, 'est
à dire les exer i es de grammaire dans lesquels la syntaxe et le vo abulaire sont
fortement ontrlés.
Nousutilisonsunréalisateurdesurfa eutilisantunegrammairepourproduiredes
phrasesqui,suite aupro essusdegénération, sontasso iéesàderi hesinformations
linguistiques. Nousdénissonsun mé anismebasésurles informationslinguistiques
pour séle tionner les phrasesappropriées. Plus pré isément, nous nous intéressons
aux exer i esde deuxtypes : d'une part, des exer i esgénérés à partir d'une seule
phrase tels quelesexer i es de type textes-à-trous oumots mélangés,.d'autre part,
desexer i esdereformulationoutransformationsdephrasesquirequièrentun ouple
de phrases.
La produ tion (semi-)automatique d'a tivités àpartir du Web ou dedo uments
existantsa ontribuéàla réationàgrandeé helled'exer i estelsquelesexer i esde
type questionnairesà hoix multiples ou textes-à-trous. En majorité, es appro hes
asso ient des annotations synta tiques etmorpho-synta tiques ave les phrases
ol-le téesgrâ eàl'utilisationdeste hniquesd'analysedephrases,d'étiquetage,d'étiquetage
au-tomatiqued'exer i es baséssurlatransformation dephrasesrequiertdeste hniques
d'analyselinguistiqueplusprofondes eta reçupeu ou pasd'attention.
Considérons,parexemple,le asdelaprodu tionautomatiquedepairesquestion
(Q)etréponse (S)pour l'exer i e suivant:
(2) Ré-é rire les phrasessuivantes en utilisant lavoix passive.
1. (Q) C'est Texqui donne lelivre aTammy.
It isTexwhogivesthebookto Tammy
2. (S) C'estparTexquelelivreestdonné aTammy.
It isbyTexthat thebook isgiventoTammy
Pour produire automatiquement la solution (S), nous avons besoin de générer
unephrase qui ontient lemême sens etqui estexpriméeen voixpassive. Enoutre,
il est également né essaire que les autres ara téristiques synta tiques et
morpho-synta tiques(parexemple letemps du verbeetlathématisation) soient maintenues
lepluspro he possibledelaphraseoriginelledanslaquestion(Q).Notregrammaire
F-TAGfournitdesinformationslinguistiquesdétaillées( ontenusémantique,
synta -tiqueetmorpho-synta tique)né essairespouridentierlespairesdephrasesquisont
liéespar une transformation synta tique. Enparti ulier, lesarbres de dérivation de
lagrammaireFB-TAG onstituentunbonniveaudereprésentationpourl'analysede
transformation synta tique par e qu'ils apturent à lafois les ontraintes formelles
etde ontenus gouvernant les transformations synta tiques. Les mots pleins et les
fon tionsgrammati ales étiquetant les n÷uds des arbres permettent de vérier que
deuxphrasessetrouventdanslarelationsémantiqueappropriée(p.ex. ontenu
om-plètementidentiqueou ontenuidentiquemodulodes hangementslo aux). Deplus,
les propriétés synta tiques étiquetant es n÷uds (les noms des arbres élémentaires
FBL-TAG mais également les informations linguistiques additionnelles fournis par
legénérateur)permettent d'assurer qu'elles setrouvent danslarelation synta tique
appropriée.
Contributions prin ipales
Les ontributions de ettethèse sont les suivantes:
•
Un nouvel algorithme pour la réalisation de surfa e basée sur une grammaire FB-TAG. Cetalgorithme reposesurun en odage FB-RTG desarbres devariées: partageet ompressiondesstru turesintermédiaires,indexationbasée
surlesindi essémantiquesetltragedesstru turesintermédiairesin omplètes
•
Une appro he baséesurla générationautomatique delangage naturel pour la génération automatique d'exer i es similaires à eux présents dans les livresd'apprentissage des langues. Nous exploitons les représentations sémantiques
d'entrée sous-spé iée ainsi que le pouvoir paraphrastique de la grammaire
SemTAG pour produire des exer i es grammati aux. Les ri hes informations
linguistiquesasso iéesauxphrasesgénéréespermettentla réation(semi-)automatique
d'exer i es de grammaire.
•
Une nouvelle appro he pour la génération d'exer i es de reformulation. Nous utilisonsl'information ontenuedanslesarbresdedérivationdeFB-LTAGpouridentierlespairesdephrasesquisontliéesparunetransformationsynta tique.
Stru ture de la thèse
Dans e hapitre, nous introduisons les problématiques de re her he dont traite la
présente thèse. Dans e qui suit,nous résumonsle ontenu des hapitres restant de
lathèse.
Chapter 2: Ba kground and related work. Dans e hapitre, nous passons
brièvementenrevueles on eptsmajeurspourlesdeuxthématiques ouvertesparles
travauxde ettethèse,àsavoirlagénérationdephrases(Se tion2.1)etl'apprentissage
des langues assistépar ordinateur (Se tion 2.3), le but de ette démar he étant de
situer nos travaux dans es larges domaines. Pour la génération automatique de
phrases,nousdis utonsdesproblèmesde omplexitédanslaréalisation desurfa eà
partirde sémantiques plates. Pour CALL,nous dis utonsdestravaux onnexesqui
motivent nostravauxsurl'appli ation deste hniques degénération automatiquede
phrases pour la génération d'exer i es grammati aux. Enn, nous dé rivons
Sem-TAG, lagrammaire utiliséepar notre générateur, dansla Se tion 2.2etmettons en
avantlesdénitionset ara téristiquesde ettegrammairequisontpertinentespour
sonutilisation dansle adre de ette thèse.
1 Optimisation du module de réalisation de surfa e
Laréalisationdesurfa eàpartirdesémantiquesplatesestexponentiellepar rapport
de ette omplexité sont le manque d'ordre des informations etl'ambiguïté lexi ale
( f Chapitre 2). Pour optimiser la réalisation de surfa e basée sur les grammaire
d'arbresadjoints(TAG),nousproposonsune appro he,baséesurunen odagedans
unegrammaired'arbresréguliers(FB-RTG,[S hmitzandLeRoux,2008℄)desarbres
de dérivation de la grammaire FB-TAG, qui est inspirée de [Koller and Striegnitz,
2002℄ .
Notre hypothèse repose sur le fait que l'utilisation de et en odage permet de
simplieretd'optimiserlaréalisation desurfa e baséesurlagrammaireTAG. Nous
ommençonspar dé rirel'appro he deKolleretStriegnitz,nousdonnonsensuiteles
prin ipesde notreappro heet ennnousprésentons latradu tionde FB-TAG vers
FB-RTG de S hmitz et Le Roux dans la Se tion 3.1. Nous présentons un nouvel
algorithme pour la réalisation de surfa e TAG basé sur l'en odage [Gardent and
Perez-Beltra hini, 2010; Gardent et al., 2011a℄ , appelé RTGen, dans laSe tion 3.2.
Nous réalisons une évaluation omparative en utilisant des as de suites de tests
graduées. [Gardent et al., 2010;Gardent et al.,2011a℄ . Nous dis utonsles résultats
dans la Se tion 3.3. Dans la Se tion 3.4, nous omparons notre appro he ave les
travauxenlien ave l'optimisation de laréalisation desurfa e. Nousprésentonsnos
on lusionsdanslaSe tion 3.5.
2 Génération automatique de texte pour l'apprentissage
des langues
Lagénérationautomatiquedematérieletd'a tivitéspourl'apprentissagedeslangues
a été abordée par les te hniques d'analyse de phrases. Dans e Chapitre, nous
ex-plorons une autre alternative basée sur les te hniques NLG. Nous exploitons un
on ept lé de la génération à partir de représentations sémantiques sous-spé iées
ave une grammaire paraphrastique, à savoir la génération de paraphrases
alterna-tivespermise par lagrammaire etlapossibilitéde hoisir parmi elles- i. Enoutre,
notreappro he de génération basée surune grammaireproduit du texteet, dansle
mêmetemps, etexteestasso iéave unereprésentation linguistiquedétaillée. Nous
développons un logi iel appelée GramEx, pour la génération d'exer i es de
gram-maire. Dans la Se tion 4.1, nous dé rivons le type d'a tivité pour l'apprentissage
que nous générons. La Se tion 4.2.1 dé rit l'appro he pour l'obtention de textes
quiintègre les ontraintes liées auxobje tifspédagogiques donnés ainsiet aux
on-naissan es de l'apprenant. Une fois que le texte approprié a été produit, il peut
êtreexploitépour onstruire desexer i esdegrammairedeplusieurs types. Dansla
textes-à-trous, de mots mélangés dérivés àpartir du texte généré[Perez-Beltra hini et al.,
2012℄ . Nousee tuonsuneévaluationquimontrel'utilité del'appro he auregardde
laprodu tion d'exer i es. En premier lieu,nousmesuronsla variabilité, 'est àdire
omment le degréde variation de phrasesissuesdu pro essus degénération permet
la réationd'exer i esvariés. Deuxièmement, nousmesuronslaprodu tivité, 'està
dire,dansquelle mesurelelamême phrase généréepeut-elle êtreutilisée pour réer
diérent types d'exer i es et ombien d'exer i es sont réés a partir d'une entrée
donnée. Nous évaluons également l'exa titude qui permet de vérier si les
exer i- es générés son orre ts et signi atifs. Dans la Se tion 4.4, nous démontrons que
l'appro hepermetlagénérationautomatiqued'exer i esdereformulationdephrases
([GardentandPerez-Beltra hini,2012℄). Nousrésumonslestravaux onduitset
on- luons danslaSe tion 4.6.
3 Con lusions
Nousdressonsnos on lusionssurnotrethématiquebaséesurnotrepropreréalisateur
de surfa e et ses appli ations dansle adre de l'apprentissage des langues (Se tion
5.1). Dans laSe tion 5.2, nous approfondissons les pistes de travail futur sur ette
1.1 Grammarexer ises fromthe Tex's Fren h Grammartextbook . . . . 6
2.1 NLG pipeline ar hite ture . . . 12
2.2 Tree forthe semanti representation in(8b). . . 16
2.3 Tree forthe semanti representation in(8 ). . . 17
2.4 Dis onne tedtree representation withlabelled predi ates. . . 17
2.5 Example ofsubstitution operation inTAG . . . 21
2.6 Example ofadjun tion operation inTAG. . . 21
2.7 Substitution operationinan FB-LTAG . . . 24
2.8 Adjun tionoperationinan FB-LTAG . . . 24
2.9 Example feature-basedtree adjoining grammar. . . 25
2.10 Examplefeature-basedtreeadjoining grammarillustratingthe
imple-mentation of SAwith featurestru tures. . . 26
2.11 ParsetreesforLatatouparle fort (Thearmadillospeaksloudly)usingthe
grammarof Figure2.9. . . 26
2.12 An FB-TAG augmented with an uni ation-based ompositional
se-manti s. For the sake of larity, feature stru tures are abbreviated,
featureper olationhasbeensimpliedpre ludingthepossibilitythat
adjun tion modies feature values and only thesemanti feature
val-ues relevant for semanti onstru tion are indi ated. C
x,l
/C
x,l
ab-breviate a node with ategory Cand a top/bottom feature stru turein ludingthefeature-valuepairs
{
index :x
,label :l}
.. . . 28 2.13 Derived tree and semanti s for Une tatouvoit souventTex hanter (Anarmadillooftensees Tex sing).. . . 29
2.14 An FB-LTAG augmented with a uni ation-based ompositional
se-manti s that produ es the senten e Tammy voit souvent Tex hanter
(Tammy oftensees Tex sing) from the given semanti representation
2.15 Elementarytrees hemaforatransitiveverb(left)andthetrees hema
an horedbythe lemma faire (bake)(right). . . 31
2.16 Some tree s hemas within the transitive verb family. (Note: feature
stru tures andsemanti s arenot shownfor thesake of larity). . . . 32
2.17 Simplied XMG metagrammarexample. . . 33
3.1 Example ofTDG parsetree and lexi on. . . 45
3.2 An example of TAG grammar variant used in Koller and Striegnitz
forthe Fren hversionofthesenten eTexa hèteunevoiturerouge (Tex
buys a red ar), with semanti s
{
tex(t), a hète(e, t, v), voiture(v), rouge(v)}
.. . . 47 3.3 Dependen ytree . . . 473.4 Example RTGdes ribing thederivation trees ofa toyTAG. . . 52
3.5 AnexampleSemTAGsub-grammarsele tedfortheinput
{l
1
: une(v, h
r
, h
s
), qeq(h
r
, l
2
), l
2
:
voiture(v), l
2
: rouge(v), l
5
: achete(e, t, v), l
6
: tex(t)}
orrespondingto the senten e Texa hèteune voiturerouge (Texbuysared ar). Note:
apital lettersrepresent variable values (underspe ied feature values). 53
3.6 FB-RTG translationofthe SemTAG sub-grammarshown inFigure 3.5 54
3.7 FB-RTG derivation. . . 57
3.8 FB-RTG derivation tree (a.) andleft- orner FB-RTG derivationtree
(b.) for the senten e One of the ats has aught a sh. Node labels
of the derivation trees start with
α
s andβ
s indi ating whether they orrespond to an initial or auxiliarytree respe tively. . . 583.9 Example of left- orner transformed RTG des ribing the derivation
trees of atoy TAG (thesame asthatofFigure 3.4). . . 59
3.10 Re allofelementary trees forune,voiture,rouge fromthegrammar in
Figure 3.5 . . . 60
3.11 Left- orner FB-RTG translation of the trees voiture, rouge une of the
SemTAG grammarfragment showninFigure3.10. . . 60
3.12 The lexi al item in the left is sele ted given the input semanti s in
(25),
{L : regard(E, X, Y )} ⊑ ψ
. Note thate
3
, x
1
, x
2
are onstants. Thus,in the generation pro ess,x
1
would neverbeinstantiated withx
2
or anyother onstant. . . 62 3.13 . . . 653.14 Example of items in a hart (ex erpt) and generation forest for the
generationfrom
φ
ofthesenten esTexa hèteunevoiturerouge andUne voiturerouge esta hètéeparTex. . . 66tive lause. Senten e Lagentille petite tatou qui dort hante (The kind
small armadillothatsleepssings). . . 71
3.16 One-to-one orresponden e between nodes in a derivation tree of a
lexi alisedgrammar and wordsof thegenerated string. . . 72
3.17 A hildren-ordered tree (a.) and the dependen y stru ture indu ed
by a pre-order traversal (b.) and a treelet-ordered tree ( .) and the
dependen y stru tureobtained by treelet-order traversal. . . 74
3.18 Term for thetreelet-orderedtree ofFigure3.17 . . . 74
3.19 (a)Dependen ystru ture,(b)tree,( )blo k-orderedtreeand (d)term. 76
3.20 ToyTAGgrammar . . . 77
3.21 (a.) FB-RTG derivation tree and (b.) derivation tree with order
annotations usingthe grammar inFigure3.20for thestring
aabbccdd
. 79 3.22 Sele tedlexi alitems withassignedpolarities. . . 813.23 Performan eofrealisation approa hesontheModifiersben hmark,
averageunpa ked hartsize asa fun tionof thenumber ofmodiers. 86
3.24 Performan e of realisation approa hes on the Complexity
ben h-mark,averageunpa ked hartsize asa fun tionoftheISS omplexity. 86
4.1 Linguisti information asso iated byGraDewiththesenten eTammy
aunvoixdou e (Tammyhasasoftvoi e). . . 99
4.2 GramEx ar hite ture.. . . 104
4.3 Grammarexer ises fromthe Tex's Fren h GrammarTextbook . . . . 108
4.4 Grammar,Derivation Tree andExample TreeProperty (Bottomright)for
thesenten eC'est Tammy qui faitla tarte(ItisTammywhobakesthepie) 115
4.5 Derived (top) and Derivation (bottom) Trees for the a tive voi ed
senten eC'est Texqui afaitla tarte (ItisTexwhobakedthepie)and its
passive variant . . . 117
4.6 Treeltertypes(trees hemasontheleftdepi tsour esenten ederiv
a-tiontrees and those to theirright their transform). . . 118
A.1 An example of exer ise of the (15) Preposition - Fill in the blank
-missingword pedagogi al goalgivento thelearner. . . 154
A.2 Answerentered bythe learnerand feedba kgiven byI-FLEG to the
learnerfor thepreposition exer isequestion inFigureA.1. . . 154
A.3 Anexampleofexer iseofthe(52)Adje tiveorder-SyntaxS ramble
A.4 Answer entered by thelearner and feedba k given by I-FLEGto the
3.1 En odingof thegrammarinFigure3.2 . . . 47
3.2 RTGen derivation tree generationalgorithm (dedu tive system).. . . 63
3.3 Average results on 610 test ases from the Modifiers ben hmark.
Ea h test ase has 3 modi ations, distributed in various ways
be-tween adje tival and adverbial modi ations. The se ond olumn,
Generation Forest (GF), is the number of derivation trees present in
the generated parse forest. The third and fourth olumns show the
hart and unpa ked hart sizes, respe tively. The last olumn shows
the runtimeinse onds.. . . 87
3.4 Average results on 335 ases with
10000 < ISS ≤ 100000
, from the Complexity ben hmark. The olumns show the same performan emetri s asinTable 3.3. . . 88
3.5 Summary of the number of predi tions running the generation
algo-rithms (Se tions 3.2.1 and Se tion 3.2.2) for the generation of the
senten e (and its li ensed paraphrases) using theSemXTAG English
grammar. . . 89
3.6 Summary ofRTGenrun on3 samplesenten es. . . 90
3.7 Extra tof the results reportedinCarroll and Oepen (2005). . . 90
4.1 Somegrammati al and morpho-synta ti propertiesthat an beused
to spe ifypedagogi al goals. . . 102
4.2 Exer iseCorre tnesstestedon10randomlysele ted(pedagogi algoal,
exer isepairs) . . . 109
4.3 Variability: Distributionof thenumberof distin tsentential patterns
that an be produ edfor a given pedagogi al goalfroma given input
semanti s. . . 110
4.5 Exer ise Produ tivity: Number of exer ises produ ed per input
se-manti s. . . 111
4.6 Pedagogi al Produ tivity: NumberofTea hingGoalsthesour e
sen-ten e produ ed froma given semanti s an be usedfor.. . . 111
4.7 Sour eSenten es(S),TransformationsofSour eSenten es(T),
Num-berofFilters (F)and Pre ision (Ratio of orre t transformations). . 124
Introdu tion
ThisthesisisaboutusingNaturalLanguageGeneration(NLG)te hniquesin
Computer-AssistedLanguage Learning (CALL). We show inparti ular how a grammar-based
Surfa eRealiser (SR) an beusefully exploitedto automatethegeneration of
gram-mar exer ises for language learning. The surfa e realiser uses a wide- overage
re-versible grammarnamelySemTAG,aFeature-BasedTree Adjoining Grammar
(FB-TAG) equippedwitha uni ation-based ompositionalsemanti s.
The thesisfallsinto two parts:
•
In the rst part, we examine the task of generating senten es from semanti formulae and proposean optimised algorithm thatsupports thegeneration oflonger senten es given alarge s ale grammarand lexi on.
•
Inthe se ondpart, we explorehowourSemTAG-basedsurfa e realiser an be exploited for the generation of grammar exer i es whose syntax andvo abu-lary an be ontrolled. We propose an approa h that takes advantage of the
parti ular features ofthe underlying grammati al framework and therealiser.
First, the grammar onstitutes a pre ise and ri h linguisti resour e
des rib-ingnaturallanguage expressions. Thispermitsthegenerationoftext material
thatsatises ertainsynta ti and morpho-synta ti onstraints (forinstan e,
those imposed bya pedagogi al goalof learningpassive voi e). Moreover, the
ri h linguisti information asso iated with the generated text by our realiser
permits further pro essing it to reate exer ise items of the type
Fill-in-the-blank, Shue and Reformulation. Se ond, the underspe ied input and thus
the several output produ ed by our surfa e realiser make it possible to
auto-mati ally obtain synta ti and morpho-synta ti varied text material, and in
ThegoaloftheNLGtaskistoprodu e understandable textinhumanlanguage.
Thispro essisgovernedbyagiven ommuni ativeintention,basedonsome
informa-tionsour e, and involves a series ofsteps or subtasks. Traditionally,these subtasks
are thought to be organised in a sequen e or pipeline and to deal with strategi
de isions (what to say) and ta ti al de isions (how to say it). On e the ontent
or meaning to be expressed in natural language has been determined, the ta ti al
omponentneedsto make several hoi es su hasthewordsandsynta ti stru tures
to be used to express that meaning in natural language. In parti ular, the surfa e
realisation omponentofanNLGsystem,usuallythelast omponentinthepipeline,
maps an abstra t linguisti spe i ation into a natural language expression. That
is, it knows about the target language, for instan e, its word order. There an be
dierent levels of abstra tions in the spe i ation of the input to the realiser. For
instan e,theinput ouldbeadependen ytreewheresynta ti roleshavebeen
spe -iedaswellasfun tion words. Dependingonthedegreeofspe i ationofitsinput,
therealiser ouldbedeterministi orprodu eseveraloutputtakingvariousde isions
about how to say things. In this thesis, we assume a semanti input (e.g a logi al
form),and more spe i ally, a Minimal Re ursion Semanti (MRS 3
) semanti
for-mula. Given the MRS shown in (3a), the task of the surfa e realiser is to output
senten es su has(3b- ).
(3) a.
{l
0
: named(t, T ex), l
0
: indiv(t, m, sg), qeq(T R, l
0
), l
1
: properq(t, T R, T S),
l
2
: le(u, CR, CS), qeq(CR, l
3
), l
3
: universite(u), l
3
: indiv(u, f, sg),
l
4
: travailler(e, t, u), l
4
: event(e, pres, indet, ind)}
b. Tex travailleàl'université. (Texworksat theuniversity). C'est Texqui travailleàl'université. (ItisTexwhoworksattheuniversity)
Surfa e realisation from at semanti s (i.e. a bag of predi ations as illustrated
surface realisation
optimisation
inexample (3a))is a omputationally expensive task( Brew (1992)and Koller and
Striegnitz(2002)provide NP- ompletenessproofs). Various optimisation te hniques
have been proposedto helpimproving runtimesinpra ti e. Our goalisthe
optimi-sationofFB-TAGbasedsurfa erealisation. Tothisend,wefollowtheideaof using
TAG derivation trees for generation from [Koller and Striegnitz, 2002℄ . We depart
from this approa h however inthat we relyon a well dened translation from
FB-TAGtoanFB-RTG (Feature-BasedRegularTreeGrammar,[S hmitzandLe Roux,
2008℄ )todes ribe thederivationtreelanguageoftheFB-TAG.Thistranslation
ar-riesoverall semanti , synta ti and morpho-synta ti information from theoriginal
3
MRSare atunderspe iedsemanti representations ([Copestake etal.,2005℄), i.e. theyare attenedands opeunderspe iedrepresentationsofFirstOderLogi (FOL)formulae. Wedis uss thistypeofsemanti representationsindetailinse tions2.1.1and2.2.4
serves the syntax/semanti s interfa e and provides an exa t grammar of FB-TAG
derivationtrees. WeprovideanFB-RTGbasedsurfa erealisationalgorithm,namely
RTGen,whi h integrates various te hniquesto improve surfa e realisation.
NLG te hnology has been used inter alia to generate reports (for instan e, to
generate text from a database of measurements from some measuring devi e), to
generatedes riptionsfromanunderlyingknowledgebaseandtomaptheoutputofa
dialoguemanagertoanaturallanguageexpression. Thedomainsofappli ationhave
widely varied too: medi al, weather fore asting, instru tional leaets, verbalizing
instru tionsinvirtualenvironments,amongothers. Moreover,othertypesofNatural
Language Pro essing(NLP) taskssu h astext summarization or simpli ationand
question generation may also involve a nalre-generation step. To a lesser extent,
NLG te hniques have also been used within the ontext of Intelligent
Computer-AssistedLanguageLearning (ICALL).
A varietyof workinNLP andICALL hasbeen arriedoutalong thepast years.
Mostly,NLPte hniqueshave beenusedto supporttheauthoring oflearning ontent
andlearninga tivitiesortoevaluatelearnerinputandgenerateappropriatefeedba k.
For instan e,ALICE- han ([Levinand Evans, 1995℄)isanintelligent languagetutor
forJapaneseinstru tionthatusesLexi alFun tionalGrammar(LFG)basedparsing
to assist instru tors in reating exer ises and to evaluate learner answers to those
exer i es. Itprovidesaninterfa e forexer iseauthoringwhereinstru tors an reate
exer ises by entering text orresponding to the ba kground, the question and the
answeroftheexer ises. TheanswerisanalysedbytheNLPmodules whi hprodu e
afeaturestru turesummarizingmorpho-synta ti andsynta ti featuresthatwillbe
usedlater ontoevaluatelearnerinput(whi hisanalysedinasimilarway). Another
tutoringsystemisTAGARELA([AmaralandMeurers,2011℄ ). Itin ludesworkbook
stylea tivities: readingandlistening omprehension,pi turedes ription,rephrasing,
Fill-in-the-blank and vo abulary exer ises. Dierent NLP tools (e.g. tokenizer and
parser ) aredeployed initsar hite ture. TAGARELA fo uses onpro essing learner
input and providing appropriate feedba k making use ofexpert models (knowledge
about the language),a tivitymodelsand learnermodels.
Within the range of ICALL appli ations, there are some systems that embody
writing aids su h as ICICLE ([ Mi haud et al., 2000℄ ) or reading assistants su h as
CALLE ([ Rypa and Feuerman, 1995℄ ) whi h rely on parsing te hniques. ICICLE
uses parsing to analyse learners' input, whereas CALLE uses parsing to analyse
on-stru tionspresent inthetext. Indierent ways,bothaim atemphasizingawareness
and learning of the grammati al onstru tions in the target language. Two other
systemswhose major aim is to promote linguisti awareness are WERTI([Meurers
etal.,2010℄ ),aso- alledtextenhan ementappli ation,usingNLPtoolstore ognise
and highlight dierent grammati al features insele ted Web do uments; and VISL
([Bi k, 2005℄ ), a visual intera tive syntax learning tool, using also NLP tools for
analysis.
Some work has spe ially on entrated on the automati authoring of language
learningexer ise and test items ([ Mitkovet al., 2006; Heilman and Eskenazi, 2007;
Karamanis et al., 2006; Chao-Lin et al., 2005; Coniam, 1997; Sumita et al., 2005;
Simon et al., 2010; Lin et al., 2007; Lee and Sene, 2007℄ ). In parti ular, some
proposals target the produ tion of grammar exer i es (e.g. [Aldabe et al., 2006;
Chenetal.,2006℄ ). Ingeneral,theseapproa hesrelyonma hinelearningte hniques
andgenerate advan edlearning a tivities.
Within CALL there exist authoring tools su h as Hot Potatoes 4
([Winke and
Ma Gregor,2001℄ )whi hdonotuseNLPte hniques. Theyare alledtemplatebased
authoring tools be ause they provide a set of template a tivities that thelanguage
tea her an useto reate exer ises. However, the ontent for ea h exer ise, thatis,
thesour e text, the expe ted solution(s) and the feedba k, is manually entered by
thelanguagetea her.
In sum, there exist CALL appli ations where the language learning material is
editedbyhandor ICALLappli ationsinwhi hmostoftheworkonNLP devotedto
the(semi-)automati reation oflearning material isbased on text analysis. In the
latter ase, the textual ontent used to reate learning a tivities is eitherprovided
bythelanguage tea hers or gathered automati allyfrom theWeb.
Inthisthesis, wearguethatNLGisanatural andidateforthe(semi-)automati
generation of language learning material. We exploit an FB-TAG wide- overage
paraphrasti grammar whi h provides a ri h linguisti des ription of natural
lan-guageasso iatingnaturallanguageexpressions withsyntaxandsemanti s. Thefa t
that the grammar aptures paraphrases by asso iating dierent natural language
expressions with the same underlying ore meaning is spe ially attra tive in the
ontext of language learning. Usually, tea hers manually edit exer ises and their
solutions, and lassify them a ording to the degree of di ulty or the expe ted
learner level. The approa h we propose, alled GramEx, potentially supports the
(semi-)automation ofthe whole pro ess. First,due to input underspe i ation and
paraphrasegeneration, fromone input several realisationsarepossible. Aswe show
4
leasesthelanguagetea herfrommanuallywritingea halternativeor frommanually
re-writing agivensenten e tobe usedinanotherexer isetype. Se ond,theri h
lin-guisti information asso iated withthe generated text material an be exploited for
theautomati generationoflearninga tivities. Here,weshowhowFill-in-the-blank,
Shueand Reformulationgrammar exer ises an be automati ally reated. In this
way,thelanguage tea herdoesnotneed tomanuallymodifythetextor toenterthe
solutions. Third, the NLG-based exer ise generation approa h potentially enables
the automati lassi ation of the generated exer i es for instru tional sequen ing.
For instan e,the grammar onstru tions ouldbemappedto dierent levels of
di- ulty. Further,aswillbedis ussedinthefutureworkse tion5.2, GramEx hasbeen
integratedintheI-FLEGappli ation (Intera tive Fren h LearningGame,[Amoia et
al., 2012℄ ), a serious game for pra ti ing grammar exer i esin Fren h. In I-FLEG,
the learner intera tions are stored in a database and provide detailed information
aboutea hexer iseitemsolvedbythelearner. Thisinformation ouldbeexploited,
for instan e, to automati ally provide training in the grammar points that a given
learnerneeds to reinfor e.
Textbooks for language learning generally in lude grammar exer ises. Tex's
Fren h Grammar 5
for instan e, in ludesat theend of ea hle ture, aset of gram-
textbook-style
exercises
mar exer ises whi h target a spe i pedagogi al goal su h as learning the plural
form ofnounsorlearningthepla ementofadje tives. Figure1.1showstheexer ises
provided by this book at the end of the le ture on the plural formation of nouns.
As exemplied in this gure, these exer ises markedly dier from more advan ed
learning a tivities whi h seek to familiarise the learner with realworld senten es.
To support in situ learning, this latter type of a tivity presents the learner with
senten es drawn from theWeb or from existing do umentstherebyexposing herto
a potentially omplex syntax and to a diverse vo abulary. In ontrast, textbook
grammar exer ises usually aim to fa ilitate the a quisition of a spe i grammar
point by presenting the learnerwith exer isesmade up of short senten es involving
a restri tedvo abulary.
As we argued in previous paragraphs, most existing work on the generation of
5
Tex'sFren hGrammarhttp://www.laits.utexas.edu/t ex/isanonlinepedagogi alreferen e grammar that ombines explanations with surreal dialogues and artoon images. Tex's Fren h Grammar is arranged like many other traditional referen e grammars with the parts of spee h (nouns,verbs, et .) usedto ategorisespe i grammaritems(gender ofnouns, irregular verbs). Individualgrammaritems are arefully explained inEnglish, thenexempliedina dialogue, and nallytestedinself- orre ting,Fill-In-the-Blankexer ises.
Give the plural form of the noun indicated in parentheses. Pay attention to both the article and the noun.
1.
Bette aime _____ . (le bijou)
2.
Fiona aime ______ . (le cheval)
3.
Joe-Bob aime ______ américaines. (la bière)
4.
Tex n’aime pas ______ . (le choix)
5.
Joe-Bob n’aime pas ______ difficiles. (le cours)
6.
Tammy n’aime pas ______ . (l’hôpital)
7.
Eduard aime ______. (le tableau)
8.
Bette aime ______ de Tex. (l’oeil)
9.
Tex aime ______ français. (le poëte)
10.
Corey aime ______ fraîches. (la boisson)
11.
Tammy aime ______ américains. (le campus)
12.
Corey n’aime pas ______ . (l’examen)
Figure 1.1: Grammarexer isesfrom theTex's Fren hGrammartextbook
grammar exer ises has on entrated on the automati reation of the rst type of
exer isesi.e., exer iseswhose sour esenten esareextra tedfromanexisting orpus.
Here, we present a framework whi h addresses thegeneration of these ond type of
grammar exer ises usedfor language learning i.e., grammar exer ises whose syntax
andvo abularyarestrongly ontrolled.
Weuseourgrammar-basedsurfa erealisertoprodu esenten eswhi h,asaresult
ofthegeneration pro ess,areasso iated withri h linguisti information. Wedene
ame hanismtosele tappropriatesenten esbasedonthislinguisti information. We
show how these senten es an be further pro essedto generate grammar exer ises.
More pre isely, we fo us on exer ises of two types. The rst type, in ludes those
exer ises that are generated from a single sele ted senten e su h as the
Fill-in-the-blankandShueexer ises. These ondtype,istheReformulationortransformation
exer isetypewhi h requiresa pairof senten es.
The (semi-)automati produ tion of a tivities from the Web or existing
do u-ments has ontributed to the large s ale reation of exer ises su h as
multiple-
transformation-based grammar
exercises
hoi eorFill-in-the-blank. Mostly,theseapproa hesasso iatesynta ti andmorpho-synta ti annotationswiththe olle tedsenten esusingparsing, part-of-spee h
tag-gingand hunkingte hniques. However,theautomati generationof
transformation-based exer ise types requires deeper linguisti pro essing and has re eived little or
no attention. Consider, for instan e, the ase of automati ally produ ing question
(Q) and expe ted answer (S) pairs for the following a tive/passive Reformulation
exer ise:
(4) Rewrite the senten es using passive voi e.
1. (Q) C'est Texqui donne lelivre aTammy.
To automati ally produ e the solution (S), we need to generate a senten e that
bearsthesame oremeaning andisinthe passivevoi e,butalso theothersynta ti
and morpho-synta ti features(e.g. topi alization and tense) should be maintained
as loseaspossible tothe originalsenten einthequestion(Q).OurFB-TAG
gram-marprovidesthedetailedlinguisti information(i.e. semanti ontent andsynta ti
and morpho-synta ti information) ne essaryto identify senten e pairs that are
re-latedbyasynta ti transformation. Inparti ular,thederivationtreesoftheFB-TAG
grammar provide a goodlevel of representation for analysing synta ti
transforma-tionsasthey aptureboththeformalandthe ontent onstraintsgoverning
transfor-mations. The ontent words andthegrammati al fun tionslabelling thetreenodes
permit he king that the two senten es stand in the appropriate semanti relation
(i.e.,fullyidenti al ontent oridenti al ontent modulosomelo al hange). Further,
thesynta ti propertieslabellingthese nodes(FB-LTAG elementarytree namesbut
also some additional information provided by our generator) permit ensuring that
they standintheappropriate synta ti relation.
Main ontributions
The ontributions ofthis thesisarethe following.
•
A new algorithm for FB-TAG basedsurfa e realisation. This algorithm relies on an FB-RTG en oding of FB-TAG derivation trees and in orporatesvar-ious optimisation te hniques: pa king, sharing, indexing based on semanti
argumentsand lteringof intermediatein omplete stru tures.
•
An NLG-based approa h for the automati generation of textbook-style exer- ises. We exploit the underspe ied input semanti representations and theparaphrasti power of the SemTAG grammar to produ e text material. The
ri hlinguisti informationasso iatedwiththegeneratedsenten espermitsthe
(semi-)automati reationof grammarexer ises.
•
A novel approa h for the generation of transformation-based grammar exer- ises. We useFB-TAG derivationalinformation to identify pairs of senten esRoad map of the thesis
In this hapter, we introdu ed the resear h issues this thesis addresses. In what
follows, we summarisethe ontent of theremaining hapters of thethesis.
Chapter 2: Ba kground and related work. In this hapter, we briey
sur-vey the major on epts underlying the two resear h trends adressed in this thesis,
namely natural language generation (Se tion 2.1) and omputer-assisted language
learning(Se tion 2.3) andwe situateour work within these broad areas. For NLG,
wedis ussthe omplexityissuesinsurfa erealisationfromat semanti sthat
moti-vate our resear h onsurfa e realisation optimisation. For CALL,we dis uss related
workthatmotivatesour resear hon applyingNLG te hniquesfor thegeneration of
languagelearning material. Finally,we des ribe SemTAG, our underlying grammar
framework, in(Se tion 2.2). In doing this,we aim at emphasizing thosedenitions
or features of the underlying grammati al formalism and our spe i grammar
im-plementation thatareneededfor the dis ussionof the presented approa hes.
Chapter 3: Optimising surfa e realisation. Surfa e realisation from at
se-manti isexponential in thesize of theinput(numberof predi ations) intheworst
ase. The major auses forthis omplexityarethela kofordering information and
thelexi alambiguity( f. Chapter2). TooptimiseTAG-basedsurfa erealisation,we
proposeanapproa h basedonan FB-RTG([S hmitzandLe Roux,2008℄ ) en oding
ofFB-TAGderivation trees thatis inspired from[Kollerand Striegnitz, 2002℄ . Our
hypothesis isthatusing thisen odingpermits simplifyingandoptimising
FB-TAG-basedsurfa e realisation. We begin bydes ribing Koller and Striegnitz's approa h,
giving the intuitions about our approa h, and presenting S hmitz and Le Roux's
FB-TAG to FB-RTG translation in Se tion 3.1. We present a new algorithm for
FB-TAG-based surfa e realisation basedon this en oding([Gardent and
Perez-Bel-tra hini,2010;Gardentetal.,2011a℄ ),namelyRTGen,inSe tion3.2. We arriedout
a omparative evaluation using automati ally built graduated test-suites ([Gardent
etal.,2010;Gardentetal.,2011a℄ ). We dis ussthe resultsinSe tion3.3. InSe tion
3.4,we ompareour approa h withrelatedwork onsurfa erealisation optimisation.
We on ludeinSe tion 3.5.
Chapter 4: Natural language generation for language learning. The
au-tomati generation of learning ontent and learning a tivities has mostly been
ad-dressed by using text analysis and ma hine learning te hniques. In this hapter,
grammar and the possibility of hoosing among them. Moreover, our
grammar-based generation approa h generates senten es and XFthe generated senten es are
asso iated withri h linguisti information produ ed bythe generation pro ess. We
develop a framework, namely GramEx, for the generation ofgrammar exer ises. In
Se tion 4.1, we des ribe the type of learning a tivities we generate. Se tion 4.2.1
des ribestheapproa hforthe generationoftextmaterial thatsupportspedagogi al
goals and learner knowledge onstraints. On e the appropriate text material has
been sele ted, we an exploit it to build dierent types of grammar exer ises. In
Se tion 4.3,we showhowFill-in-the-blankandShue exer ises anbederivedfrom
generated text ([Perez-Beltra hini et al., 2012℄ ). We arriedout an evaluationthat
showsthe usefulness oftheapproa hintermsofexer iseprodu tion. First,we
mea-sure variability, that is, to what extent thedegree of variation in theoutput of the
generation pro ess permits the generation of varied exer ises. Se ond, we measure
produ tivity, that is, to what extent the same generated senten e serves to reate
dierentexer isesaswellashowmanyexer ises anbeprodu edfromagiveninput.
Wealsoevaluate orre tness,thatis, whetherthegeneratedexer isesaremostofthe
timemeaningful and orre t. In Se tion 4.4, we showthat thegeneration approa h
ni ely supports the automati reation of senten e reformulation type of exer ises
([Gardent and Perez-Beltra hini, 2012℄ ). We summarise the work arried out and
on lude inSe tion 4.6.
Chapter 5: Con lusions. We draw our on lusions on our parti ular surfa e
realisation task and its appli ation to language learning (Se tion 5.1). In Se tion