HAL Id: inria-00114130
https://hal.inria.fr/inria-00114130
Submitted on 15 Nov 2006
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Algorithme de Earley pour les grammaires d’interaction
Jonathan Marchand
To cite this version:
Jonathan Marchand. Algorithme de Earley pour les grammaires d’interaction. [Travaux universitaires]
2006. �inria-00114130�
UFR math´
ematiques et informatique
Algorithme de Earley pour les
grammaires d’interaction
M´
EMOIRE
pr´esent´e et soutenu publiquement le 30 juin 2006
dans le cadre du
Master Informatique de l’Universit´
e Nancy 2
(sp´
ecialit´
e Traitement Automatique des Langues)
par
Jonathan Marchand
Composition du jury
Pr´
esidents :
Dominique M´ery
Guy Perrier
Encadrants :
Bruno Guillaume
Guy Perrier
Lesgrammairesd'intera tionsontunformalismepourfairedel'analysesyntaxiqueetsémantiquede lalanguenaturelle.Lesobjetssyntaxiquesdebasesontdesdes riptionsd'arbrespolariséesquispé ient partiellementdes arbressyntaxiques. L'originalité sesgrammairesd'intera tion résidedans l'utilisation d'unsystèmede polaritéspourgérerlanotionde ressour es onsommables.Dans e ontexte,l'analyse syntaxique est un pro édé qui onsiste à onstruire des modèles dedes riptions sousla formed'arbres syntaxiques omplètementspé iésetneutralisés.
Dans erapport,nousnousproposonsd'adapterunestratégied'analysesyntaxiquedes endante detype Earley aux grammaires d'intera tion. Ce travail est le prolongement de la dénition d'un algorithme de Earley pour une version simpliée de es grammaires par Joseph Le Roux et a fait l'objet d'une implémentationdansLEOPAR
1 .
Mots- lés:grammaired'intera tion,des riptiond'arbres,analysesyntaxique
1
Remer iements
Jetiensàremer ier:
GuyPerrier,quiapermisquelemastersedérouledanslesmeilleures onditions,poursagentillesse ettout lese oursqu'ilapum'apporteràplusieursreprises.
BrunoGuillaume poursadisponibilité dansl'en adrementdemon mémoireet sasympathie.
JosephLeRouxpourl'é outequ'ilm'a a ordéetsa ollaborationdanslemémoire.
Introdu tion 1
1 Présentation des outils théoriques 3
1.1 AlgorithmedeEarley. . . 3
1.1.1 Intuition. . . 3
1.1.2 Règlespointéeset itemsmanipulés . . . 3
1.1.3 Lesrèglesd'inféren e. . . 4
1.1.4 Uneanalysetabulaire . . . 4
1.1.5 Exemplededéroulementdel'algorithme . . . 5
1.2 Lesgrammairesd'intera tion . . . 6
1.2.1 Introdu tion . . . 6
1.2.2 Lesdes riptionsd'arbrespolarisées . . . 6
1.2.3 Unegrammairelexi alisée . . . 8
1.2.4 Constru tiondemodèlesdedes riptiond'arbres . . . 8
2 Unalgorithmede Earley pour lesgrammairesd'intera tionprimitives 11 2.1 Lesgrammairesd'intera tionprimitives . . . 11
2.1.1 Lesdes riptionsd'arbrespolarisésélémentaires . . . 11
2.1.2 Constru tiondemodèlesdedes riptionsd'arbres . . . 12
2.2 L'analyseurdeEarley . . . 12
2.2.1 Intuition. . . 12
2.2.2 Lesitemsmanipulés . . . 13
2.2.3 Règlesd'inféren e . . . 13
2.2.4 Exemplededéroulementdel'algorithme . . . 14
3 Unalgorithmede Earley pour lesgrammairesd'intera tion 16 3.1 Introdu tion. . . 16
3.2 Lesitemsmanipulés . . . 16
3.3 Lesrèglesd'inféren es . . . 17
3.3.1 Larègleaxiome. . . 17
3.3.2 Larègledeprédi tion . . . 17
3.3.3 Larègledebalayage . . . 18
3.4 ImplémentationdansLEOPAR . . . 18 3.5 Exemple dedéroulementdel'algorithme . . . 19
4 Résultatsexpérimentaux et on lusions 21 4.1 Premiersrésultats . . . 21 4.2 Pistesd'amélioration . . . 21 4.3 Con lusion . . . 22
Lesgrammairesd'intera tion ont été onçues pourmodéliserlasyntaxedes langues naturelles. Elles s'inspirent de deux traditions diérentes desgrammairesformelles : les grammaires atégorielles et les grammairesd'arbresadjoints.
Desgrammaires atégorielles,lesgrammairesd'intera tionreprennentl'idéequelessyntagmessontdes ressour es onsommableset qu'ilyaunedualitéentre elles- iquis'exprimedansleprin ipede ompo-sition.Dansunmêmetemps,lesgrammairesd'intera tion introduisentunassouplissement onsidérable dansleformalismeenayantre oursàlanotiondedes riptiond'arbres.L'intérêtd'unetelleappro heest qu'ellepermetunegrandesouplessede ompositionetuneexpressioné onomiquedelasous-spé i ation. L'analysesyntaxiquepeutalorss'exprimer ommela onstru tiond'unmodèlesdedes riptionsd'arbres parunpro essusdesuperpositiond'arbresrégiparlaneutralisationdepolaritésopposées.
Les algorithmes d'analyse syntaxique les plus onnus analysent des langages formels (souvent des langagesdeprogrammation).Cependantleslangagesnaturels, ontrairementauxlangagesformels,sont ambiguës.Leste hniqueslespluse a espouranalyserleslangagesambiguëss'appuientsurunprin ipe de tabulation an de ne pas analyser plusieurs fois les mêmes sous-arbres. C'est dans ette tradition qu'ont été développés les algorithmes de CYK et de Earley. Bien que es algorithmes soient onçus à l'originepourlesgrammaireshors- ontextes,leprin ipedetabulationsembleêtrevoieintéressantepour uneanalysee a edesgrammairesd'intera tion[Vil99℄.
Unlogi ield'analysesyntaxiquebasésurlesgrammairesd'intera tionestdéveloppéa tuellementdans l'équipe CALLIGRAMME. Ce logi iel est onçu de façon modulaire an de pouvoir tester diérentes stratégiesd'analyses.A tuellement,ilexistedeuxstratégiesd'analyseimplémentéesdansLEOPAR:une premièrestratégieutiliseunepro éduredetypeShift/Redu eet lase ondedetypeCYK.
Nousnousproposonsi id'étudieruneautrestratégied'analysebien onnueenanalysesyntaxique,ils'agit del'algorithme de Earley. L'originalité de ette algorithmepar rapport auxautres stratégies d'analyse estqu'ilfaitune re her hedes endante danslastru tured'analyse.
Lerapportseprésentedelamanièresuivante:
Nousprésentonstoutd'abordlesoutilsthéoriques manipulésenrappelantleprin ipedel'analyse syntaxiquedes endante deEarley,puisenprésentantuneformalisation desgrammaires d'intera -tion.
Dansundeuxièmetemps,nousprésentonsl'algorithmedetypeEarleyissud'untravailpréliminaire deJosephLeRoux,do torantdansl'équipedeCalligramme.Cetalgorithmes'intéresseàune ver-sionprimitivedesgrammairesd'intera tionetestàlabasedel'algorithmequenousdévelopponsi i.
Dans untroisième temps, nous présentonsunalgorithme pourles grammairesd'intera tion dans leurversion omplète. Cetravailaétéfait onjointementave Joseph LeRoux.Une longuephase d'implémentationdansLEOPARasuivi.
Enn, nous présenterons les premiers résultats de et analyseur dans LEOPAR parrapport aux stratégiesdéjà existantes et nous on luronssur lesperspe tivesenvisageables pour améliorer et algorithme.
Présentation des outils théoriques
1.1 Algorithme de Earley
L'algorithmedeEarley[Ear70℄estunalgorithmed'analysesyntaxiquepourleslangageshors- ontexte. Cetalgorithmeest unete hniqued'analyseprin ipalementdes endantquibalaieunénon édegau heà droite.
L'analysesefaitdanslepiredes as,parrapportàlalongueurdel'énon éàanalyser,entemps ubique dansle asgénéraletentempsquadratiquepourlesgrammairesnonambiguës.
1.1.1 Intuition
Nous présentons i i l'algorithme d'une manière légèrement diérente de elle que J. Earley avait présentéeen1970[Ear70℄:
Enpartantdusymboleinitial delagrammaire, l'analyseurdes enddans l'arbred'analyse enexplorant toutes les possibilités de gau he à droite (prédi tion). A haque fois que l'analyseurren ontre le mot attendu de l'énon é, l'analyse avan e d'un pas (balayage).Quand un sous-arbre d'analyse est analysé ave su ès,l'analyseurremontedansl'arbred'analyseetavan ed'unpas( omplétion).
Pourmieux omprendre esprin ipes,ilfauttoutd'abord omprendrelanotionderèglespointées.
1.1.2 Règles pointées et items manipulés
Soit
G
unegrammairehors- ontextetelle queG
=< N, T, S, R >
ave :N
l'ensemble(ni etnonvide)dessymbolesnon-terminaux
T
l'ensemble(niet nonvide)dessymbolesterminauxS
lesymboleinitial (S
∈ N
)
R
unensemble niderèglesdeprodu tiondelaformeY
−→ α
où:Y
estunnon-terminal
α
est unesuitedeterminauxetdenon-terminaux 1 Soitw
1
. . . w
n
unénon é.Etantdonné une règledeprodu tion
X
−→ αβ
,larègle pointéeX
−→ α • β
représentela situation oùα
adéjàétéanalyséeetoùlaséquen eβ
estattendue.Lesitemsdesrèglesd'inféren esontdénispar:
unerèglepointéereprésentantunsituation dansl'arbrel'analyse
un ouple d'entier
i
etj
représentant les indi es de la portion de l'énon é analysé dans la règle pointée1
Par onvent ionnousnotero nslesterminauxpardesminus ules,lesnon-terminauxpardesmajus ulesetlessuitesde terminauxetdenon-terminauxpardeslettresgre ques.
Plusformellement,l'item
< A
−→ α • β, (i, j) >
ara tériselestroispropriétéssuivantes:A
−→ αβ
appartientàR
.S
∗
⇒ w
1
. . . w
i
Aγ
oùγ
∈ (N |T )
∗
α
∗
⇒ w
i+1
. . . w
j
1.1.3 Les règles d'inféren e Larègle axiome
L'algorithmeétantdes endant,l'analyse ommen eparinitialiserlesrèglesdeprodu tiondontlatête estlesymboleinitial. L'analysesefaisantdegau heàdroite,
i
etj
sontinitialisésà0.< S
−→ •α, (0, 0) >
,pourtout élémentdeR
ayantpourtêteS
.Larègle de prédi tion
Si la règle pointée d'un item
I
attend à l'indi ei
l'analyse d'un non-terminalB
, alors l'analyseur prédittoutesles analysespossiblesde enon-terminal enproduisant, pourtoutes lesrèglesdeR
ayant pourtêteB
,unitemattendantl'analysedu orpsdelarègle orrespondante.< A
−→ α • Bβ, (i, j) >
< B
−→ •γ, (j, j) >
,pourtouterègleB
→ γ
deR.Larègle de balayage
Silarèglepointéed'unitem
I
attendàl'indi ej
l'analysed'unterminalw
,etquew
estluàl'indi ej
del'énon é,alorsl'analyseavan ed'unpasenproduisantunnouvelitemsimilaireàI
oùw
estanalysé etj
estin rémenté.< A
−→ α • wβ, (i, j) >
< A
−→ αw • β, (i, j + 1) >
, siw
= w
j
Larègle de omplétion
Silarèglepointéed'unitem
I
attendàl'indi ej
l'analysed'unnon-terminalB
,etqueB
estlatête delarègle d'un item omplètement analysé(le pointest tout àdroite de larègle pointée)entrej
etk
dansl'énon é,alorsl'analyseurproduitunitemsimilaireàI
oùB
estanalyséetoùlaportiondel'énon é analyséeestmiseàjour.< A
−→ α • Bβ, (i, j) > < B −→ γ•, (j, k) >
< A
−→ αB • β, (i, k) >
Résultatde l'analyse
Un énon é est orre t si l'analyse produit un item
< S
−→ α•, (0, n) >
oùn
est la longueur de l'énon é.1.1.4 Une analyse tabulaire
Anquel'analysesoite a e,ilestné essairedenepasanalyserplusieursfoislesmêmessous-arbres. Pour ela, les items produits lors de l'analyse sont sto késdans untableau et les items à traiter sont ordonnan ésdansunagenda.L'analysesedérouledelafaçonsuivante :
1. Initialiserl'agendaave lesitemsinitiaux(produits parl'axiome). 2. Tantquel'agendan'estpasvide:
Produiretouslesitemspossiblesave etitemetlesrèglesd'inféren e(enprenantunitemdans letableaupourlarèglede omplétion).
Pour haqueitemproduit,s'iln'estpasdéjàdansletableaualorslerajouterdansl'agendaetle tableau.
1.1.5 Exemple de déroulement de l'algorithme
Nousexposonsi iunexempledel'analysed'un énon éave une grammairehors- ontexted'unpetit fragmentdufrançais.
Soit
J
=< N, T, S, R >
lagrammairehors- ontextesuivante:N
= {S, V, SV, SN, N, Det}
,lesnon-terminaux
T
= {Jean, mange, une, pomme}
,lesterminauxS
lesymboleinitialet
R
l'ensembledesrèglesdeprodu tionsuivantes:S
−→
SN SV
SV
−→
V SN
SN
−→
Det N
SN
−→
J ean
V
−→
mange
Det
−→
une
N
−→
pomme
Et
W
l'énon ésuivant:0
J ean
1
mange
2
une
3
pomme
4
L'analysedeEarleyde
W
ave lagrammaireJ
produit lesitemssuivants:0
< S
−→ • SN SV
,(0, 0) >
axiome1
< SN
−→ • Det N
,(0, 0) >
prédi tion02
< SN
−→ • Jean
,(0, 0) >
prédi tion03
< Det
−→ • une
,(0, 0) >
prédi tion14
< SN
−→ Jean •
,(0, 1) >
balayage2 5< S
−→ SN • SV
,(0, 1) >
omplétion04 6< SV
−→ • V SN
,(1, 1) >
prédi tion5 7< V
−→ • mange
,(1, 1) >
prédi tion6 8< V
−→ mange •
,(1, 2) >
balayage7 9< SV
−→ V • SN
,(1, 2) >
omplétion68 10< SN
−→ • Det N
,(2, 2) >
prédi tion9 11< SN
−→ • Jean
,(2, 2) >
prédi tion912
< Det
−→ • une
,(2, 2) >
prédi tion1013
< Det
−→ une •
,(2, 3) >
balayage1214
< SN
−→ Det • N
,(2, 3) >
omplétion1013 15< N
−→ • pomme
,(3, 3) >
prédi tion14 16< N
−→ pomme •
,(3, 4) >
balayage15 17< SN
−→ Det N •
,(2, 4) >
omplétion1416 18< SV
−→ V SN •
,(1, 4) >
omplétion617 19< S
−→ SN SV •
,(0, 4) >
omplétion5181.2 Les grammaires d'intera tion
1.2.1 Introdu tion
Àl'instardesgrammairesd'arbresadjoints[JLT75℄,lesgrammairesd'intera tion[Per02℄sontun for-malismegrammati als'appuyantsurlanotiondedes ription d'arbres.Cettenotionaétéintroduitepar J.RogersetK.Vijay-Shankeren1992[RVS92℄et edernierl'areprisepourreprésenterl'opération d'ad-jon tiondesgrammairesd'arbresadjoints[VS92℄.
L'intérêtestderempla erlamanipulationd'arbressyntaxiques omplètementspé iésparla manipula-tiondespé i ationspartiellesde esarbres.
Unedes riptiond'arbresestdénie parunensemble den÷uds etde relationsd'as endan e,deparenté et depré éden e entre es n÷uds. Lesn÷uds représententdes syntagmes (éventuellement vides)et les relationsexprimentlesdépendan es entre es syntagmes.Les propriétésmorpho-syntaxiquesde e syn-tagmessontdé ritespardesstru turesdetraits.
Cetteappro heestbien adaptéeàlaexibilitéetàl'ambiguïtédeslanguesnaturelles.
num = sg
gen = m
cat < - n
/le/
num = sg
gen = m
cat = = det
pers = 3
num = sg
gen = m
funct < - ?
cat -> np
Fig.1.1Des riptiond'arbresélémentairedudéterminantle
Cependant,l'analysesyntaxiquefondéesurdesdes riptionsd'arbrespeutêtretrès oûteuse[KNT01℄. Eneet,dans etteappro he,l'analysesyntaxique onsisteà her herdesmodèlesdedes riptionsd'arbres sousformed'arbressyntaxiques omplètementspé iés.Cepro essusesthautementindéterministe. Danslesformalismesréalistesfondéssurlesdes riptionsd'arbres, etindéterminismeestlimitéen ontrai-gnantlasyntaxedesdes riptionsetlemé anismede ompositionsyntaxique.
L'originalitédes grammairesd'intera tion setrouvedans le mé anismede omposition syntaxique régi parles polarités. Cette notionde polarité est liée àla dualité besoins-ressour es qui est à labase des grammaires atégorielles[Ré00℄: ertainesressour esmunies depolaritésnégativessontattenduesalors que d'autres, munies de polarités positives, sont disponibles si bien que les premières vont her her à ren ontrerlesse ondes, 'estleprin ipedeneutralisationdespolaritésopposée s.
1.2.2 Les des riptions d'arbres polarisées
Lesgrammairesd'intera tionontpourobjetssyntaxiquesdebaselesdes riptionsd'arbrespolarisées [Per02℄.
Lesdes riptionsd'arbrespolariséessont onstruitessurunesignature
(N , T )
oùN
estunensemblede n÷udssyntaxiquesetT
unebase detraits.T
est unensemblenide ouples(T, D
T
)
oùpourunnom detraitT
est asso iél'ensembleniD
T
desvaleursatomiquesqu'ilpeutprendre.Lesgrammairesd'intera tionpeuventêtrevues ommeunranementdesgrammaires atégoriellesen esensquelanotiondepolaritéestdes endueduniveaudessyntagmesauniveaudestraitsgrammati aux quiledé rivent.
Ainsià haquetrait, enplusd'unevaleur,est asso iéeunpolaritépourindiqueréventuellementsi 'est uneressour e onsommable ouunbesoin.Une polaritépeut êtrepositive(
→
),négative(←
)ouneutre (=).Ilest né essairededistinguerlesn÷uds initialementneutresdesn÷uds issusd'uneneutralisation. Dans edernier asonnotelapolarité↔
.Lapolarité⊥
indiquel'é he del'uni ationdedeuxpolarités.←
→
=↔
←
⊥
↔
←
⊥
→
↔
⊥
→
⊥
=
←
→
=↔
↔
⊥
⊥
↔
⊥
Tab.1.1Résultatsdel'uni ationdedeuxpolarités
Si nousfaisonsréféren e àlagure1.1,nous onstatonsque lades riptiond'arbresdudéterminant le demandeunnomet unefon tionsyntaxique etfournitunsyntagmenominal.
prep = = a
cat = = prep
funct = = dat
cat = = n | np
funct -> obj
cat < - np
pers = 1 | 3
num = sg
funct -> subj
cat < - np
tense = pres
reflex = = false
pers = 1 | 3
num = sg
m ood = = ind | subj
aux = = void
cat < - v
/donne/
tense = pres
reflex = = false
pers = 1 | 3
num = sg
neg = = false
m ood = = ind | subj
aux = = void
cat -> v
cat == v
prep < - a
funct -> dat
cat < - pp
m ood = = ind | subj
cat -> s
Fig.1.2Des riptiond'arbresélémentaireduverbedonne danslaphraseqqndonne qq àqqn
Unedes riptiond'arbrespolariséesur unesignature
(N , T )
estdénie parunensemblede n÷udsN
( ha unétiqueté parune stru turede traitspolarisésappartenantàT
) maisaussipar unensemble de relationsentre esn÷uds.Cesrelationspeuventêtredequatretypes:Relationsde dominan e immédiate
N
1
> N
2
signieque lesyntagmeN
2
est un onstituant im-médiatdeN
1
, e qu'on représente graphiquement parun è he de haut en bas. Dans la gure 1.2, le syntagmes
sedé omposeenquatre onstituantsimmédiats:subj
,v
,np
,pp
.Relations de dominan e sous-spé iée
N
1
∗
> N
2
signie que lesyntagmeN
2
est in lus dansN
1
àuneprofondeur indéterminée (éventuellementN
1
s'identie àN
2
), e qu'on représente parune è helapossibilitéd'appliquerdesmodieursàunsyntagme.Danslesdeux as,onpeut ontraindrelarelation quidevient
N
1
∗
>
[f
1
= v
1
, . . . , f
n
= v
n
]M
, equi signieque tout syntagmequi est in lus dansN
1
et qui ontientN
2
doitavoirsa stru turede trait ompatible ave[f
1
= v
1
, . . . , f
n
= v
n
]
. Dans l'exemple de la gure 1.2, la relation de domination sous-spé iée entre les deux n÷udsv
signie la possibilité d'appliquerunmodieurdeverbeàdonne .Relationsde pré éden e immédiate
N
1
≺ N
2
signiequelesyntagmeN
1
pré èdeimmédiatement lesyntagmeN
2
dansl'ordrelinéairedesmotsdelaphrase, e qu'on représente graphiquementparune è hehorizontale.Dansl'exempledelagure1.2,lesyntagmesujetpré èdeimmédiatementlesyntagme verbal.Relationsde pré éden e sous-spé iée
N
1
∗
≺ N
2
signiequelesyntagmeN
1
pré ède lesyntagmeN
2
dansl'ordrelinéairedes motsdelaphrase, e qu'onreprésente graphiquementparune è hegrisée horizontale.Dansl'exempledelagure1.2,lesyntagmeverbalpré èdelesyntagmenominaletlesyntagme prépositionnel.1.2.3 Une grammaire lexi alisée
Lesgrammairesd'intera tionsontlexi alisées.C'est-à-direque haquedes riptiond'arbresélémentaire estdistinguéeparsonn÷udan requiexprimelarelationentrelades riptionetlelexique.Ainsi, haque itemlexi alestasso ié àunensemblededes riptionsd'arbresélémentaires.
Si nous prenonsà nouveau l'exemple de la gure1.1, le n÷udan re orrespondau n÷udde atégorie déterminant.
1.2.4 Constru tion de modèles de des ription d'arbres
La ompositionsyntaxiquededeux des riptionsd'arbresest unpro essusdeneutralisation de n÷uds opposés danslequell'opérationfondamentalepeutêtrevue ommeunefusionparti ulièrededeuxn÷uds dansle asoù eux- i sontporteursdetraits opposés.Cetteneutralisationne sepassantpasseulement entrelara ined'unarbreetunefeuilled'uneautreimpliquequelesarbresnesontpasseulementa ro hés lesuns auxautresmaisqu'ilspeuventêtreaussisuperposéspartiellement.
Analyserune des riptiond'arbres onsisteàitérer l'opérationde neutralisationdestraits opposés pour spé ierprogressivementlades riptioninitiale.Cela orrespondàlare her hed'unmodèlededes ription d'arbres:
Unmodèled'unedes riptiond'arbres
D
est une oupleforméd'unarbreA
etd'uneinterprétationI
:A
estunarbreordonnéetsesn÷udssontétiquetéspardesstru turesdetraits.I
est unefon tiond'interprétationdel'ensemble|D|
desn÷uds deD
dansl'ensemble|A|
desn÷uds deA
quivérientles onditionssuivantes:Pourtouttrait
T
d'unn÷udN
deD
,I(N )
omprenduntraitdemêmenomqueT
ave unevaleur gurantdansladisjon tiondutrait.Si
N
1
> N
2
alorsI(N
1
)
etlepère deI(N
2
)
dansA
. SiN
1
∗
>
[f
1
= v
1
, . . . , f
n
= v
n
]N
2
alorsI(N
1
)
domineI(N
2
)
(éventuellementI(N
1
) = I(N
2
)
)dansA
et pour tout n÷udN
′
de
A
qui estun des endantdeI(N
1
)
et un as endant deI(N
2
)
ausens large,lastru turedetraitsdeI(N
′
)
ompatible ave
[f
1
= v
1
, . . . , f
n
= v
n
]
. SiN
1
≺ N
2
,alorsI(N
1
)
pré èdeimmédiatementI(N
2
)
dansA
.Si
N
1
∗
≺ N
2
,alorsI(N
1
)
pré èdeI(N
2
)
dansA
.L'analyseréussit si elle s'a hève par un arbre omplètement spé ié sans relation large où tous les traitsontéténeutralisés.Cela orrespondàunmodèlededes riptiond'arbresminimalet neutre. Un modèle minimal et neutre
A
d'une des riptiond'arbresD
est un modèle satisfaisantles propriétés suivantes :minimalité :Si
N
1
estlepèred'unn÷udN
2
dansA
,ilexisteaumoinsunerelationN
′
1
> N
2
′
dansD
tellequeN
1
= I(N
′
1
)
etN
2
= I(N
′
2
)
.neutralité : Pour tout n÷ud
N
deA
et pour tout traitF
présent dans l'étiquette deN
, soit il n'existepasden÷udN
′
ave untrait
F
dansD
àpolaritépositiveounégativetelqueI(N
′
) = N
, soitilexistedeuxn÷uds
N
′
etN
′′
ave untrait
F
positivedansl'uneet négativedansl'autretels queI(N
′
) = N
etI(N
′′
) = N
Par exemple,lagure1.4représente leseulmodèlevalidedelades riptiond'arbresillustréeàlagure 1.3.
/Jean/
pers = 2 | 3
num = sg
gen = m
funct < - ?
cat -> np
funct -> obj
cat < - np
pers = 1 | 3
num = sg
funct -> subj
cat < - np
tense = pres
reflex = = false
pers = 1 | 3
num = sg
m ood = = ind | subj
cat < - v
aux = = void
/aim e/
tense = pres
reflex = = false
pers = 1 | 3
num = sg
neg = = false
m ood = = ind | subj
cat -> v
aux = = void
cat == v
m ood = = ind | subj
cat -> s
/M arie/
pers = 2 | 3
num = sg
gen = f
funct < - ?
cat -> np
/./
cat = = punct
typ = decl
tense = ?
m ood = = cond | ind
cat < - s
typ = decl
tense = ?
m ood = = cond | ind
cat = = s
Fig.1.3Des riptiond'arbresdel'énon éJeanaimeMarie.
/Jean/
pers = 3
num = sg
gen = m
funct < = > subj
cat < = > np
/aim e/
tense = pres
reflex = = false
pers = 3
num = sg
neg = = false
m ood = = ind
cat < = > v
aux = = void
/M arie/
pers = 2 | 3
num = sg
gen = f
funct < = > obj
cat < = > np
typ = decl
tense = ?
m ood = = ind
cat < = > s
/./
cat = = punct
typ = decl
tense = ?
m ood = = ind
cat = = s
Un algorithme de Earley pour les
grammaires d'intera tion primitives
Lesgrammairesd'intera tionetlesgrammairesd'arbresadjoints[JLT75℄onttouteslesdeux omme objets syntaxiques debase lesdes riptio ns d'arbres. C'esten partiela raisonpourlaquelle l'algorithme quenousétudionsi ireprendenpartielestravauxdeY.S habesetA.Joshiquiproposentunalgorithme deEarleypourlesgrammairesd'arbresadjoints[SJ88℄.Cependantilexisteunediéren emajeureentre lesgrammairesd'arbresadjoints etlesgrammairesd'intera tion :tandisque lespremièresreposentsur deux opérations de omposition syntaxiques (la substitution et l'adjon tion d'arbres), es dernières ne reposentquesuruneopérationplusgénérale:lasuperpositiond'arbres.
Cetalgorithmepouruneversionsimpliéedesgrammairesd'intera tionestissudutravaildeJosephLe Roux,do torantdansleprojetCalligramme.
2.1 Les grammaires d'intera tion primitives
Lesgrammairesd'intera tionprimitivesprésententdeuxdiéren esimportantesave lesgrammaires d'intera tion:
Lespolaritésnesontplusportéesparlestraitsmaisparlen÷ud.
Ilexiste deux types den÷uds, lesn÷uds étiquetéspar desnon-terminaux et lesn÷uds étiquetés pardesterminaux.Seulslesn÷udsétiquetéspardesnon-terminauxportentunepolaritéet elle- i estsoit positive,soitnégative.
Onpeut ainsi dénirune grammaired'intera tion primitive parun quadruplet
G
=< N, T, D, S >
oùN
est l'ensemble des symboles non-terminaux,T
l'ensemble des symboles terminaux(N ∩ T = ∅)
,D
l'ensembledesdes riptionsd'arbresélémentaires onstruitssurT
,etS
(S ∈ N )
lesymboleinitial. 2.1.1 Les des riptions d'arbres polarisés élémentairesUne des riptiond'arbrespolarisésélémentaireest dénie parunensemble de n÷uds
N
et d'un en-semble derelationsR
entre lesn÷uds.Lesn÷uds d'unedes riptiond'arbresélémentairesontétiquetés par les terminaux et les non-terminaux de la grammaire. A l'instar des grammaires d'intera tion, les grammairesd'intera tion primitivessontfortement lexi alisées.Ainsi, pour haque des ription élémen-taire deD
, il y a exa tement un n÷ud deN
qui appartienne àT
, e dernier étant une feuille de la des riptiond'arbres.Touslesautresn÷udsdeN
sontdesn÷udsnon-terminauxdelagrammaireetsont polariséspositivementounégativement.Lesrelationsentrelesn÷udsdesdes riptionsd'arbresdanslesgrammairesd'intera tionsontéquivalentes à ellesdesgrammaires omplètesàladiéren equ'iln'estpluspossiblede ontraindreunerelationde dominan esous-spé iée.Onlesdénit ommesuit:
N
1
> N
2
siN
2
estun onstituantimmédiat deN
1
N
1
∗
N
1
≺ N
2
siN
1
pré èdeimmédiatementN
2
dansl'ordrelinéairedesmotsdelaphraseN
1
∗
≺ N
2
siN
1
pré èdeN
2
dansl'ordrelinéairedesmotsdelaphraseS
+
SN
−
-
V
−
?
-
SN
−
-V
+
?
donne?
Fig.2.1 Des riptiond'arbresélémentaireduverbedonne
2.1.2 Constru tion de modèles de des riptions d'arbres
Le prin ipede omposition syntaxique est analogue à elui employédans lesgrammaires d'intera -tion omplètes, il s'agit de superposer des des riptions d'arbresqui présentent des n÷uds de polarités opposées.Cependant, e pro édé estunpeu plusrestri tifdans lesgrammairesd'intera tion primitives arseulslesn÷uds étiquetésparlemême non-terminalet depolaritésopposéespeuventseneutraliser. Ainsi,lesn÷uds neutralisésetlesn÷udsétiquetéspardesterminauxnepeuventpasêtrelesopérandes d'unetelle opération.
Analyserunénon é onsisteàréitérerlepro édédesuperpositionpour onstruirepasàpasune des rip-tiond'arbres omplètementspé iée.Cela orrespondàre her herunmodèleminimalet neutrede
D
. Unmodèleminimalet neutredeG
estun ouple(A, I)
oùA
est unarbreordonnéetI
estunefon tion surje tived'interprétation del'ensembledes n÷udsdeD
versl'ensembledesn÷uds deA
qui vérieles propriétéssuivantes :Si
N
1
> N
2
alorsI(N
1
)
etlepère deI(N
2
)
dansA
. SiN
1
∗
> N
2
alorsI(N
1
)
domineI(N
2
)
.Si
N
1
≺ N
2
,alorsI(N
1
)
pré èdeimmédiatementI(N
2
)
dansA
.Si
N
1
est lepère d'unn÷udN
2
dansA
,ilexiste aumoinsunerelationN
′
1
> N
2
′
dansD
tellequeN
1
= I(N
1
′
)
etN
2
= I(N
′
2
)
.Si
N
estunnon-terminal,alorsilexistedeuxn÷udsN
′
et
N
′′
appartenantà
D
depolaritésopposées etétiquetésparlemême non-terminaltelqueI(N
′
) = N
etI(N
′′
) = N
. SiN
est un terminal, alors il existe un unique n÷udN
′
dans
D
qui est étiqueté par le même non-terminalqueN
telqueI(N
′
) = N
.2.2 L'analyseur de Earley
2.2.1 Intuition
CommeunalgorithmedeEarley lassique, l'algorithme onstruitl'arbred'analysedehautenbaset degau heàdroite en partant del'axiomede lagrammaire. A haqueétape delades ente, l'analyseur neutralise un n÷ud du modèle en onstru tion ave un n÷ud ra ine des des riptions d'arbres visibles (prédi tion). A haquefois quel'analyseurren ontre le motattendude l'énon é,l'analyse avan e d'un pas(balayage).Quandunsous-arbreestanalyséave su ès,l'analyseurremontedansl'arbred'analyse
2.2.2 Les items manipulés
Lors de l'analyse, il est né essaire de gérer spé iquement les dominations larges des des riptions d'arbres.Eneet, essous-arbrespeuventêtre omposésàdiérentsétagesdel'analyse.Nousintroduisons pour elauntriplet
(S, U, D)
quivaserappelerdessous-arbresquipeuventêtre omposéset ontraindre leurratta hement.Lesitemsmanipuléssontdelaforme
< A
C
A
−→ α • B
C
B
β,
(i, j), (S, U, D) >
où:
C
A
etC
B
sont les ontextes asso iés aux n÷uds du modèle et sont notés par le terminal ou le non-terminalquil'étiquette.Les ontextessont:Pourlesterminaux,len÷udinterprété.
Pourlesnon-terminaux,un oupleden÷uds interprétés(
P
,N
) telqueP
(depolaritépositive) etN
(depolariténégative)sontétiquetéesparlemêmenon-terminal.Ces ontextespeuventêtre sous-spé iésoupartiellementsous-spé iés.Quandunn÷udn'estpasspé ié,onlenote_.A
C
A
−→ α • B
C
B
β
estunerèglepointée,lasémantiquede ette règleest lasuivante:
C
A
est omplètementspé iéetlesn÷udsquiledé riventsontdepolaritésopposéesetinterprétés parA
.Si
B
est unterminal,alorsC
B
estdé rit parunn÷udterminalquiest interprétéparB
. SiB
est un non-terminal alors tout n÷ud déni qui dé ritC
B
est un n÷ud non-terminal etest interprétépar
B
. SiC
B
est omplètementspé ié,alors lesn÷uds qui le dé riventsont de polaritésopposées.
A
estlepèredetouslesn÷udsdu orpsdelarèglepointéeetseslssontordonnésdegau heà droitedanslemodèleen onstru tion.
i
etj
représententlesindi esdelaportiondel'énon éanalysédanslarèglepointée.letriplet
(S, U, D)
représente lasituation desressour esde lagrammaireàl'étapede l'analyse, il estdénirespe tivementpar:lesdes riptionsd'arbresdé ro héesàl'étagepré édentdel'analyse(Stop) lesdes riptionsd'arbresdéjàutiliséeslorsdel'analyse(Up)
lesdes riptionsd'arbresdé ro héesauxétagespré édentsdel'algorithme quin'ontpasété uti-liséesparl'analyseurlorsdupro essusdeneutralisation(Down)
2.2.3 Règles d'inféren e
Larègle axiome
La règle axiome permet de démarrer l'analyse,
S
étant le symbole initial de la grammaire etD
l'ensembledesdes riptionsd'arbresdelagrammaire.<
⊤ −→ •S
(
_,
_)
,
(0, 0), (D, ∅, ∅) >
Larègle de prédi tion
A partird'unitem
< A
−→ α • B
(B
1
,B
2
)
β,
(i, j), (S, U, D) >
, ongénèreunnouvelitem qui ontient unerègleengendréeparlesdes riptionsd'arbresdera inesB
i
enordonnant omplètementleursls.Cet étapepeutgénérerbeau oupd'items sileslsdeB
1
etB
2
nesontpasordonnés.Comme le ontexte de la tête de la règle pointée est omplètement spé ié dans l'item produit, il est né essaire de spé ier les n÷uds
B
1
etB
2
par un n÷ud ra ine des des riptions d'arbres visibles. Un n÷udestdit visible :s'ilest l'undesls dire tsd'undesn÷udsquidé rivent
A
.s'ilestra ined'unedes riptiond'arbresélémentairesquin'apasen oreétéutiliséedanslepro essus deneutralisation.
Unefoisle ontextedelatêtedelarèglepointée omplètementspé ié,ilfautmettreàjourlasituation desressour es delagrammairenotammenten dé ro hant les lslargesnon-utilisés parlesn÷uds du
< A
−→ α • B
(B
1
,B
2
)
β,
(i, j), (S, U, D) >
< B
(B
′
1
,B
′
2
)
−→ •γ, (j, j), (S
′
, U
′
, D
′
) >
,aveB
′
i
=B
i
siB
i
est déni,sinonB
′
i
estlara ined'unedes riptiond'arbresvisible.γ
est unordrepossiblepourleslsdire tsdeB
′
1
et deB
′
2
.S
′
est l'ensemble desls largesde
B
′
1
etB
′
2
. SiB
′
1
∗
> B
′
2
(respe tivementB
′
2
∗
> B
′
1
), alorsS
′
est l'ensembledeslslargesdeB
′
1
etB
′
2
privédeB
′
2
(respe tivementB
′
1
).U
′
est l'union de
U
et des ra ines des des riptions d'arbresvisibles àla phase de prédi tion qui formentle ontextedeB
(ie,U
′
= U ∪ {N ∈ N
|N
appartientàD
età{B
′
1
, B
2
′
}} ∪ {N ∈ N
|N
appartientàS
età{B
′
1
, B
2
′
}}
).D
′
estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ontpasétéutiliséeslorsdesneutralisationspré édentes(ie,
D
′
= D \ {N ∈ N
|N
appartientà{B
′
1
, B
2
′
}} ∪ S \ {N ∈ N
|N
appartientà{B
′
1
, B
2
′
}}
). Larègle de balayageSi on analyse le terminal orrespondant au mot à lire dans l'énon é, alors on génère l'item où le terminalaétéanalyséave su ès.
< A
−→ α • w
w
β,
(i, j), (S, U, D) >
< A
−→ αw
w
• β, (i, j + 1), (S, U, D) >
,si
w
= w
j
Larègle de omplétion
Cette règle permet de remonter dans l'arbre d'analyse en onstru tion en validant un sous arbre d'analyse.
Pour validerlesous-arbred'analyse,il fautvérierqueles des riptionsd'arbresdé ro hées lorsdela phasedeprédi tionontbienétéra ro héesquelquepartdanslesous-arbred'analyse.
< A
−→ α • B
(B
1
,B
2
)
β,
(i, j), (S, U, D) >
< B
(B
′
1
,B
2
′
)
−→ γ•, (j, k), (S
′
, U
′
, D
′
) >
< A
−→ αB
(B
1
,B
2
)
• β, (i, k), (S
′′
, U
′′
, D
′′
) >
,aveB
′
i
=B
i
siB
i
est déniS
′
= ∅
S
′′
estl'ensembledesra inesdesdes riptionsd'arbresdé ro héesàl'étagepré édentquin'ontpas étéen oreutiliséesdansl'analyse(ie,
S
′′
= S \ {N ∈ N
|N
appartientàS
et àU
′
).U
′′
=U
′
\ {N ∈ N
|N
appartientàS}
D
′′
=D
′
Résultatde l'analyseUn énon é est orre t si l'analyse produit un item
<
⊤ −→ S
(
_
,
_)
•, (0, n), (∅, U, ∅) >
où
n
est la longueurdel'énon é.2.2.4 Exemple de déroulement de l'algorithme
Soit
J
=< N, T, D, S >
ave :
N
= {S, SN, V }
,lessymbolesnon-terminauxT
= {Jean, le, voit}
,lessymbolesterminauxS
,lesymbole initial
D
,l'ensembledesdes riptionsd'arbresélémentairesreprésenté àlagure2.2. EtW
l'énon ésuivant:0
J ean
1
le
2
voit
3
D
1
:
SN
11
+
D
2
:
S
21
−
D
3
:
S
31
+
Jean12
?
V
22
+
?
-
N P
+
25
-SN
32
−
-
V
33
−
?
-
SN
−
36
-le23
?
-
V
−
24
-V
34
+
?
voit35
?
Fig.2.2Ensembledesdes riptiond'arbresélémentairesdelagrammaireJ
L'analysedeEarleyde
W
ave lagrammaireJ
produitlesitemssuivants: 0<
⊤ −→ • S
(
_,
_)
,(0, 0)
,({11, 21, 31}, ∅, ∅) >
A 1< S
(31,21)
−→ • V
(22,
_)
SN
(25,
_)
SN
(
_,32)
V
(
_,33)
SN
(
_,35)
,(0, 0)
,(∅, {21, 31}, {11}) >
P0 2< S
(31,21)
−→ • V
(22,
_)
SN
(25,32)
V
(
_,33)
SN
(
_,35)
,(0, 0)
,(∅, {21, 31}, {11}) >
P0 3< S
(31,21)
−→ • SN
(
_,32)
V
(22,33)
SN
(25,35)
,(0, 0)
,(∅, {21, 31}, {11}) >
P0 4< S
(31,21)
−→ • SN
(
_,32)
V
(
_,33)
SN
(
_,35)
V
(22,
_)
SN
(25,
_)
,(0, 0)
,(∅, {21, 31}, {11}) >
P0 5< SN
(11,32)
−→ • Jean
12
,(0, 0)
,(∅, {21, 31, 11}, ∅) >
P3/4 6< SN
(11,32)
−→ Jean
12
•
,(0, 1)
,(∅, {21, 31, 11}, ∅) >
B5 7< S
(31,21)
−→ SN
(
_,32)
• V
(22,33)
SN
(25,35)
,(0, 1)
,(∅, {21, 31, 11}, ∅) >
C36 8< S
(31,21)
−→ SN
(
_,32)
• V
(
_,33)
SN
(
_,35)
V
(22,
_)
SN
(25,
_)
,(0, 1)
,(∅, {21, 31, 11}, ∅) >
C46 9< V
(22,33)
−→ • le
23
V
(
_,24)
,(1, 1)
,({34}, {21, 31, 11}, ∅) >
P7 10< V
(34,33)
−→ • voit
35
,(1, 1)
,(∅, {21, 31, 11, 34}, ∅) >
P7 11< V
(22,33)
−→ le
23
• V
(
_,24)
,(1, 2)
,({34}, {21, 31, 11}, ∅) >
B9 12< V
(24,34)
−→ • voit
35
,(2, 2)
,(∅, {21, 31, 11, 34}, ∅) >
P11 13< V
(24,34)
−→ voit
35
•
,(2, 3)
,(∅, {21, 31, 11, 34}, ∅) >
B12 14< V
(22,33)
−→ le
23
V
(
_,24)
•
,(1, 3)
,(∅, {21, 31, 11, 34}, ∅) >
C1113 15< S
(31,21)
−→ SN
(
_,32)
V
(22,33)
• SN
(25,35)
,(0, 3)
,(∅, {21, 31, 11, 34}, ∅) >
C714 16< SN
(25,35)
−→ •
,(3, 3)
,(∅, {21, 31, 11, 34}, ∅) >
P16 17< S
(31,21)
−→ SN
(
_,32)
V
(22,33)
SN
(25,35)
•
,(0, 3)
,(∅, {21, 31, 11, 34}, ∅) >
C714 18<
⊤ −→ S
(
_,
_)
•
,(0, 3)
,(∅, {21, 31, 11, 34}, ∅) >
C017Un algorithme de Earley pour les
grammaires d'intera tion
3.1 Introdu tion
L'algorithme présenté i i reprend en très grande partie l'algorithmedéveloppé pour lesgrammaires d'intera tionprimitives.Ils'agitde onstruirelesmodèlesminimauxetneutresd'unedes riptiond'arbres en partant des ra ines des sesdes riptions élémentaires et en des endant étape parétapedans l'arbre d'analyse par la neutralisation des n÷uds en ours d'analyse et la sous-analyse de tous les modèles possiblesdusous-arbre.
Sil'algorithmeresteidentiquedansleprin ipe,ildoit ependantêtreadaptépouranalyserles des rip-tionsd'arbresdesgrammairesd'intera tiondansleurversion omplète.Eneet,l'opérationde neutralisa-tionesti idiérente,ilnes'agitplusdesuperposerdeuxn÷udsétiquetésparunmêmenon-terminaletde polaritédiérentes,maisdesuperposerdesn÷udsdontl'uni ationdespolaritésdel'undestraitsqu'ils onten ommunréussit(tableau1.1)etdontleursstru turesdetraitsasso iéessont ompatibles.Ainsi, unn÷ud du modèle peut-être issu de lasuperposition de plusieurs n÷uds de lades ription d'origine, dont ertainsnepeuventavoirau untraitspolariséspositivementounégativement(n÷udsneutres). D'un point de vue omputationnel, ela signie que lors de la prédi tion, l'analyseur n'est pas guidé uniquementparlespolaritéspositivesounégativesetdoitdon étendresonespa edere her heave des n÷uds qui ne répondent pasà lanotionde besoins-ressour es, on peut qualier es derniers den÷uds optionnels.
Uneautre diéren e provientde lapossibilité desuperposerdes n÷uds portant l'information lexi al dans les grammaires d'intera tion et non dans leur version primitive. En eet, dans les grammaires d'intera tionprimitives,ondiéren iaitlesn÷udsquiportaientl'informationlexi al(ditsterminaux)des autres(dits non-terminaux), et seuls lesn÷uds non-lexi aliséspouvaient êtreles opérandes d'unetelle opération.Il faut don adapter l'algorithme an qu'ilpuisse savoirquand il ren ontre une information lexi aliséeetessayerdelefaire orrespondreave lemotattendudel'énon é.
3.2 Les items manipulés
Soit
M : (A, I)
unmodèlededes riptiond'arbres.Un ontexte{B
1
, . . . , B
n
}
estl'imageinversed'un n÷udB
deA
parI
(ie,I(B
i
) = B
pourtouslesB
i
du ontexte).Lesitemsmanipuléssontdelaforme
< A
C
A
−→ α • B
C
B
β,
(i, j), (S, U, D) >
où:
C
A
etC
B
sontles ontextesasso iés auxn÷uds dumodèle,ils sontétiquetés parlastru ture de traits issuede l'uni ation des stru tures detraits des n÷uds du ontexte.Cependant, parsou i d'espa e,nousrempla erons ettestru turedetraitsparunsymbolearbitrairequandl'informationporté par la stru ture n'est pas utile. Un ontexte est dit sous-spé ié s'il existe un trait de la stru turedetraitsquil'étiquettequinesoitpasdepolariténeutre(untraitestdepolariténeutre s'ilporteunepolarité=ou
↔
).
A
C
A
−→ α • B
C
B
β
estunerèglepointée,lasémantiquede ette règleest lasuivante:C
A
est omplètementspé ié.
A
estlepèredetouslesn÷udsdu orpsdelarèglepointéeetseslssontordonnésdegau heà droitedanslemodèleen onstru tion.
i
etj
représententlesindi esdelaportiondel'énon éanalysédanslarèglepointée.letriplet
(S, U, D)
représente lasituation desressour esde lagrammaireàl'étapede l'analyse, il estdénirespe tivementpar:lesdes riptionsd'arbresdé ro héesàl'étagepré édentdel'analyse(Stop) lesdes riptionsd'arbresdéjàutiliséeslorsdel'analyse(Up)
lesdes riptionsd'arbresdé ro héesauxétagespré édentsdel'algorithme quin'ontpasété uti-liséesparl'analyseurlorsdupro essusdeneutralisation(Down)
3.3 Les règles d'inféren es
Soit
D
l'ensemble de des riptionsd'arbres élémentaires de la grammaireetW
l'énon é à analyser. Noussupposons qu'ilexisteuntrait dansla grammairequi dénisseunn÷udinitial desmodèlesdela grammaire.3.3.1 La règle axiome
La règle axiome permet de démarrer l'analyse. Nous réons pour ela autant d'items qu'il y a de possibilitéden÷udsra inedumodèle.
<
⊤ −→ •S
N
,
(0, 0), (D, ∅, ∅) >
,pourtouteslespartitions
N
desn÷udsinitiauxdelagrammairequiformentdes ontextes omplètement spé iés.3.3.2 La règle de prédi tion
A partird'un item
< A
−→ α • B
{B
1
,...B
n
}
β,
(i, j), S, U, D >
,ongénère unnouvel item qui ontient unerègleengendréeparlesdes riptionsd'arbresdera inesB
i
enordonnant omplètementleursls.Cet étapepeutgénérerbeau oupd'items sileslsde{B
′
1
, . . . B
n+m
′
}
nesontpasordonnés.Comme le ontexte de la tête de la règle pointée est omplètement spé ié dans l'item produit, il est né essairede ompléterlesn÷uds
B
i
pardesn÷uds ra inesdesdes riptionsd'arbresvisibles.Deplus, une fois le ontextede la têtede la règlepointée omplètement spé ié,il faut mettre à jour lasituationdesressour esdelagrammairenotammentendé ro hant leslslargesnon-utilisésparles n÷udsdu ontextedelatêtedanslepro essusdeneutralisation.
< A
−→ α • B
{B
1
,...B
n
}
β,
(i, j), S, U, D >
< B
{B
′
1
,...B
′
n+m
}
−→ •γ, (j, j), (S
′
, U
′
, D
′
) >
,aveB
′
i
=B
i
sii
≤ n
,sinonB
′
i
estlara ined'unedes riptiond'arbresvisible. Au undesB
′
i
n'estunean re.
γ
est unordrepossiblepourleslsdire tsde{B
′
1
, . . . B
′
n+m
}
.S
′
estl'ensembledeslslargesde
{B
′
1
, . . . B
n+m
′
}
privédetouslesn÷udsB
j
pourlesquelsilexiste unerelationB
i
∗
> B
j
dansD
.U
′
est l'union de
U
et des ra ines des des riptions d'arbresvisibles àla phase de prédi tion qui formentle ontextedeB
(ie,U
′
= U ∪ {N ∈ N
|N
appartientàD
et à{B
′
1
, . . . B
n+m
′
}} ∪ {N ∈ N
|N
appartientàS
et à{B
′
1
, . . . B
′
n+m
}}
).
D
′
estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ont pas été utilisées lorsdes neutralisations pré édentes (ie,
D
′
= D \ {N ∈ N
|N
appartient à{B
′
1
, . . . B
n+m
′
}} ∪ S \ {N ∈ N
|N
appartientà{B
′
1
, . . . B
n+m
′
}}
). 3.3.3 La règle de balayageLes grammaires d'intera tions ne proposent pas de distin tion fran he terminaux/non-terminaux ommedans sa version primitive. Pour palier e problème, nous opérons lebalayage dans laphase de prédi tion.
Lorsde laphaseprédi tivenousrepéronsles ontextes
{B
′
1
, . . . B
′
n+m
}
qui nepossèdentqu'unan reet quin'ontpasde lslargesoustri tes.Si l'an re orrespondàl'itemlexi al attendudansl'énon é,alors nousprédisonsl'item déjàanalyséenin rémentantde1laportion del'énon é analysé.< A
−→ α • B
{B
1
,...B
n
}
β,
(i, j), S, U, D >
< B
{B
′
1
,...B
n+m
′
}
−→ •, (j, j + 1), (S
′
, U
′
, D
′
) >
,aveB
′
i
=B
i
sii
≤ n
,sinonB
′
i
estlara ined'unedes riptiond'arbresvisible. UnseuldesB
′
i
est unean re. Lesn÷udsde{B
′
1
, . . . B
′
n+m
}
n'ontpasdelsni ausensstri tni ausenslarge.S
′
= ∅
.U
′
est l'union de
U
et des ra ines des des riptions d'arbresvisibles àla phase de prédi tion qui formentle ontextedeB
(ie,U
′
= U ∪ {N ∈ N
|N
appartientàD
età{B
′
1
, . . . B
n
′
}} ∪ {N ∈ N
|N
appartientàS
età{B
′
1
, . . . B
n
′
}}
).D
′
estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ont pas été utilisées lorsdes neutralisations pré édentes (ie,
D
′
= D \ {N ∈ N
|N
appartient à{B
′
1
, . . . B
n
′
}} ∪ S \ {N ∈ N
|N
appartientà{B
′
1
, . . . B
n
′
}}
). 3.3.4 La règle de omplétionCette règle permet de remonter dans l'arbre d'analyse en onstru tion en validant un sous-arbre d'analyse.
Pour validerlesous-arbred'analyse,il fautvérierqueles des riptionsd'arbresdé ro hées lorsdela phasedeprédi tionaientbienétéra ro hées quelquepartdanslesous-arbred'analyse.
< A
−→ α • B
{B
1
,...B
n
}
β,
(i, j), (S, U, D) >
< B
{B
′
1
,...B
n+m
′
}
−→ γ•, (j, k), (S
′
, U
′
, D
′
) >
< A
−→ αB
{B
1
,...B
n+m
}
• β, (i, k), (S
′′
, U
′′
, D
′′
) >
,aveB
′
i
=B
i
siB
i
sii
≤ n
,sinonB
′
i
étaitunedes riptiond'arbresvisibleàl'étagepré édentdel'analyse.S
′
= ∅
S
′′
estl'ensembledesra inesdesdes riptionsd'arbresdé ro héesàl'étagepré édentquin'ontpas étéen oreutiliséesdansl'analyse(ie,
S
′′
= S \ {N ∈ N
|N
appartientàS
etàU
′
).U
′′
=U
′
\ {N ∈ N
|N
appartientàS}
D
′′
=D
′
Résultatde l'analyseUnénon éest orre tsil'analyseproduitunitem
<
⊤ −→ S
N
•, (0, n), (∅, U, ∅) >
oùn
estlalongueur del'énon é.3.4 Implémentation dans LEOPAR
Lesgrammairesd'intera tiontellesqu'ellessontdé ritesdansLEOPAR omportentquelques proprié-téssupplémentairesparrapportà equiaétédé riten1.2.Eneet,lesn÷udsdesdes riptionsd'arbres portentune informationd'arité sursonnombrede onstituantsimmédiats etdeux n÷udspeuvent par-tagerunemêmevaleurdetrait.
Si e dernier point est invisible pour l'analyse d'une grammaire, la ontrainte d'arité nous permet de diminuerla ombinatoirelorsqu'ongénèretouslesordrespossiblesdeslsdel'ensembledesn÷udsd'un ontexteenphaseprévisionnel.
LEOPAR, lorsdel'étiquetagesyntaxiquedel'énon é(pro édéquipourunitemlexi alséle tionneles des riptionsd'arbres élémentaires orrespondants), rée unautomate à états ni où haque transition orrespondàunedes riptiond'arbresélémentaireetoù haque hemin orrespondàunétiquetagepossible del'énon é.La versiona tuelle de l'algorithmeanalyse haque heminindépendament sansproter de lastru ture en automatede l'énon é.Un travail pro hain serad'analyser dire tement l'automate pour proterdelatabulationdetouslessous-arbresanalyses.
3.5 Exemple de déroulement de l'algorithme
Soit
D
lades riptiond'arbresreprentéeàlagure3.1.(0,0)
neg = = ?
m ood = = cond | ind | subj
cat -> aux | v
aux = = void
(0,4)
neg = = ?
m ood = = cond | ind | subj
cat < - aux | v
aux = = void
(0,5)
/il/
cat = = clit
(0,1)
m ood = = cond | ind | subj
cat = = v
cat == aux | v
(0,2)
pers = 3
num = sg
gen = m
funct < - subj
cat -> np
(0,3)
typ = decl
m ood = = cond | ind | subj
cat = = s
(1,0)
pers = 3
num = sg
funct -> subj
cat < - np
(1,2)
tense = pres
reflex = = false
pers = 3
num = sg
m ood = = ind
cat < - v
aux = = void
(1,1)
/dort/
tense = pres
reflex = = false
pers = 3
num = sg
neg = = false
m ood = = ind
cat -> v
aux = = void
cat == v
(1,3)
m ood = = ind
cat -> s
(2,0)
/./
cat = = punct
(2,1)
typ = decl
tense = ?
m ood = = cond | ind
cat < - s
(2,2)
typ = decl
tense = ?
m ood = = cond | ind
cat = = s
Fig.3.1 Des riptiond'arbresdel'énon éIldort.
Et
W
l'énon ésuivant:0
Il
1
dort
2
.
3
0
<
⊤ −→ • S
{(0,3)}
,(0, 0)
,({(1, 3), (2, 2)}, {(0, 3)}, ∅) >
A 1<
⊤ −→ • S
{(2,2)}
,(0, 0)
,({(0, 3), (1, 3)}, {(2, 2)}, ∅) >
A 2<
⊤ −→ • S
{(0,3,)(2,2)}
,(0, 0)
,({(1, 3)}, {(0, 3), (2, 2)}, ∅) >
A 3< S
{(0,3)}
−→ • N P
{(0,2)}
V
{(0,1)}
,(0, 0)
,(∅, {(0, 3)}, {(1, 3), (2, 2)}) >
P0 4< S
{(2,2)}
−→ • S
{(2,1)}
.
{(2,0)}
,(0, 0)
,(∅, {(2, 2)}, {(0, 3), (1, 3)}) >
P1 5< S
{(1,3),(2,1)}
−→ • N P
{(1,0)}
V
{(1,2)}
,(0, 0)
,(∅, {(1, 3), (2, 2)}, {(0, 3)}) >
P4 6< S
{(0,3),(1,3),(2,1)}
−→ • N P
{(0,2),(1,0)}
V
{(0,1),(1,2)}
,(0, 0)
,(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >
P4 7< N P
{(0,2),(1,0)}
−→ •
,(0, 0)
,(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >
P7 8< S
{(0,3),(1,3),(2,1)}
−→ N P
{(0,2),(1,0)}
• V
{(0,1),(1,2)}
,(0, 0)
,(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >
C68 9< V
{(0,0),(0,1),(1,2)}
−→ • il
{(0,5)}
V
{(0,4)}
,(0, 0)
,({(1, 1)}, {(0, 3), (1, 3), (2, 2)}, ∅) >
P8 10< il
{(0,5)}
−→ •
,(0, 1)
,(∅, {(0, 3), (1, 3), (2, 2)}, {1, 1}) >
B9 11< V
{(0,0),(0,1),(1,2)}
−→ il
{(0,5)}
• V
{(0,4)}
,(0, 1)
,({(1, 1)}, {(0, 3), (1, 3), (2, 2)}, ∅) >
C1011 12< dort
{(0,4),(1,1)}
−→ •
,(1, 2)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
B11 13< V
{(0,0),(0,1),(1,2)}
−→ il
{(0,5)}
dort
{(0,4),(1,1)}
•
,(0, 2)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
C1112 14< S
{(0,3),(1,3),(2,1)}
−→ N P
{(0,2),(1,0)}
V
{(0,0),(0,1),(1,2)}
•
,(0, 2)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
C713 15< S
{(2,2)}
−→S
{(0,3),(1,3),(2,1)}
• .
{(2,0)}
,(0, 2)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
C414 16< .
{(2,0)}
−→ •
,(2, 3)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
B15 17< S
{(2,2)}
−→S
{(0,3),(1,3),(2,1)}
.
{(2,0)}
•
,(0, 3)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
C1516 18<
⊤ −→ S
{(2,2)}
•
,(0, 3)
,(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >
C117 Cetteanalyse orrespondàla onstru tiondumodèleprésentéàlagure3.2.(0,0)-(0,1)-(1,2)
tense = pres
reflex = = false
pers = 3
num = sg
neg = = false
m ood = = ind
cat < = > v
aux = = void
(0,4)-(1,1)
/dort/
tense = pres
reflex = = false
pers = 3
num = sg
neg = = false
m ood = = ind
cat < = > v
aux = = void
(0,5)
/il/
cat = = clit
(0,2)-(1,0)
pers = 3
num = sg
gen = m
funct < = > subj
cat < = > np
(0,3)-(1,3)-(2,1)
typ = decl
tense = ?
m ood = = ind
cat < = > s
(2,0)
/./
cat = = punct
(2,2)
typ = decl
tense = ?
m ood = = ind
cat = = s
Résultats expérimentaux et on lusions
4.1 Premiers résultats
L'implémentation a tuelle de l'algorithme dans LEOPAR n'est pas assez robuste pour évaluer les performan esréellesdel'algorithme omparéauxstratégiesd'analysedéjàimplémentées(ilexiste a tuel-lement deux analyseurs, un analyseur de typeShift/Redu e et unautre de type CYK).Cependant de premiersrésultatsnouspermettentd'ee tuerquelquespointsde omparaison:
Ainsi,lavitessed'analysepourlesphrasespeuambiguësestsensiblementlamêmepourtoutesles stratégiesd'analyse.Cependantl'analyseurdeEarleyàtendan eàêtremoinse a elorsqueungrand nombredesra inesdesdes riptionsd'arbresélémentairesdelagrammairepeuventêtrepotentiellement in lusdansle ontextedun÷udra ined'unmodèle.Celaimpliqueune ombinatoirefortedésledébut del'analyse, etdon unelégèrebaissedeperforman es.
Deplus, ommepourl'instantl'algorithmeanalyse haqueétiquetaged'unénon éet nonun auto-mate, elui- ine tabulepasd'unétiquetage àl'autre.C'est pour elaquepourlesphrasesfortement ambiguës, nous remarquons une sensible hute de performan es omparéà son homologue tabulaire CYK. Cependant, et même si ela devra être vérié par une évaluation àplus grande é helle, nous pensons que lorsque l'algorithme tabulera sur l'automate en entrée, nous devrions avoir un gain de performan e assezimportantde sortequele temps d'analyse soit omparableautemps d'analyse de CYK.
Un autre problème est lié à l'analyse tabulaire. En eet, que e soit pour l'algorithme CYK ou Earley,ilyaassezviteuneexplosiondel'espa emémoireutiliséparl'analyseur.Deplus,de epoint devuelà,l'algorithmedeEarleyest toutdemêmeplusgourmandqueCYK.Celaestdûàla réation detropd'itemsinutiles lorsde laphasedeprédi tion.Nonseulement ette surgénérationfait baisser lesperforman esdel'analysemaiselleimpliqueaussiuneexplosiondelatailledutableau.
4.2 Pistes d'amélioration
L'algorithmedeEarleytelqu'ilaétéprésenté,bienquemoinsperformantquelesstratégiesd'analyse quiexistentdéjàpourlesgrammairesd'intera tion,proposeunealternative rédible.Eneet, ertaines pistesd'améliorationpossiblesnous laissentàpenser quel'algorithme puisse êtreaussi performantque seshomologuesexistants:
L'introdu tion d'un symbole initial dans la grammairepermettraitde sensiblement diminuerla ombinatoireendébutd'analyse,etpermettraitainsiungaindeperforman enotablepourlesphrases lespluslongues.
La tabulation, quand ellesera orre tement implémentée pourl'algorithme de Earley dans LEO-PAR, devraitthéoriquementpermettred'obtenirdesperforman es omparablesàCYK.
Enn, la grande faiblesse du Earley développéreste la surgénération d'items lorsde la phase de prédi tion.Celaentraîneunperted'e a ité entemps eten espa e.Nousproposonsdeuxpremières pistespourdiminuer ette ombinatoire:
Unepremièreidéeseraitdediminuer ette ombinatoireenessayantd'endes endreunepartieleplus bas possibledans l'analyse.Pour ela, eseraitpeut-êtreintéressantlorsde laphasedeprédi tion de nepas onstruire de ontextesave des n÷udsn'apportantau unepolarité(les n÷uds neutres) etdelesre ollerseulements'ilsdeviennentné essairespouravan erdanslesous-arbred'analyse.Ce pro édérenfor eraitl'analysedupointdevuedeladualitébesoins-ressour es.
Unedeuxièmeidéepourraitêtred'ee tueruneanalysedeEarleyguidée.Eneet,defaçonsimilaireà equeproposePierreBoulierpouruneanalysedeEarleyguidéepourlesgrammairesd'arbresadjoints ([Bou03℄),ilseraitpossiblede réerunguideàpartirdesdes riptionsd'arbresdelagrammairequi restreindraitle hoixdesitemsproduitslorsdelaprédi tion.
4.3 Con lusion
Nousavonsprésenté dans erapportunalgorithmed'analysedes endantepourlesgrammaires d'in-tera tion.Cetalgorithmeafaitl'objetd'uneimplémentationdansLEOPAR.Ce inousapermisdenous rendre ompteque etanalyseurpouvaitêtreunealternative rédibleauxstratégiesd'analysesexistantes
[BGP03℄ G. Bonfante, B. Guillaume, and G. Perrier. Analyse syntaxique éle tostatique. Traitement AutomatiquedesLangues ,44:3Évolutionsenanalysesyntaxique, 2003.
[Bou03℄ Pierre Boullier. Guided Earley parsing. InPro eedings of the 8th International Workshop on ParsingTe hnolog ies (IWPT03), pages4354,Nan y,Fran e,April2003.
[Ear70℄ JayEarley. An e ient ontext-freeparsingalgorithm. Commun.ACM ,13(2):94102,1970. [JLT75℄ AravindK.Joshi,LeonS.Levy,andM.Takahashi.Treeadjuntgrammars.JournalofComputer
andSystemS ien es,10(1):136162,February1975.
[KNT01℄ AlexanderKoller,Joa himNiehren,andRalfTreinen.Dominan e onstraints:Algorithmsand omplexity. InM.Moortgat,editor, Third International Conferen e on Logi al Aspe tsof Com-putational Linguisti s (De . 1998, Grenoble, Fran e), volume 2014of Le ture Note in Arti ial Intelligen e ,pages106125,Heidelberg,2001.Springer-Verlag.
[Per02℄ GuyPerrier.Des riptionsd'arbresave polarités:lesgrammairesd'interation.InTALN02 ,2002. [RVS92℄ J.RogersandK.Vijay-Shanker. Reasoningwithdes riptionsoftrees,1992.
[Ré00℄ Christian Rétoré. Systèmes dédu tifs et traitement des langues :un panorama des grammaires atégorielles. Traitementautomatique dulangage naturel ,20(3):301336,2000.
[SJ88℄ YvesS habesandAravindK.Joshi. AnEarley-typeparsingalgorithm fortreeadjoining gram-mars. InPro . of 26thAnnual Meetingof the Asso iation for Computational Linguisti s, pages 258269,Bualo,NY, USA,June1988.ACL.
[Vil99℄ Éri VillemontedelaClergerie.Tabulationet traitementdelalangue. ATALA,Cargèse,Corse, Fran e,July1999. Tutorielprésentéàla
6
ème
onféren eannuellesurleTraitementAutomatique desLanguesNaturelles(TALN'99).
[VS92℄ K.Vijay-Shanker. Using des riptionsof trees in atree adjoininggrammar. Comput. Linguist., 18(4):481517,1992.