Algorithme de Earley pour les grammaires d'interaction

(1)

HAL Id: inria-00114130

https://hal.inria.fr/inria-00114130

Submitted on 15 Nov 2006

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Algorithme de Earley pour les grammaires d’interaction

Jonathan Marchand

To cite this version:

Jonathan Marchand. Algorithme de Earley pour les grammaires d’interaction. [Travaux universitaires]

2006. �inria-00114130�

(2)

UFR math´

ematiques et informatique

Algorithme de Earley pour les

grammaires d’interaction

M´

EMOIRE

pr´esent´e et soutenu publiquement le 30 juin 2006

dans le cadre du

Master Informatique de l’Universit´

e Nancy 2

(sp´

ecialit´

e Traitement Automatique des Langues)

par

Jonathan Marchand

Composition du jury

Pr´

esidents :

_{Dominique M´ery}

Guy Perrier

Encadrants :

_{Bruno Guillaume}

Guy Perrier

(3)

Lesgrammairesd'intera tionsontunformalismepourfairedel'analysesyntaxiqueetsémantiquede lalanguenaturelle.Lesobjetssyntaxiquesdebasesontdesdes riptionsd'arbrespolariséesquispé ient partiellementdes arbressyntaxiques. L'originalité sesgrammairesd'intera tion résidedans l'utilisation d'unsystèmede polaritéspourgérerlanotionde ressour es onsommables.Dans e ontexte,l'analyse syntaxique est un pro édé qui onsiste à onstruire des modèles dedes riptions sousla formed'arbres syntaxiques omplètementspé iésetneutralisés.

Dans erapport,nousnousproposonsd'adapterunestratégied'analysesyntaxiquedes endante detype Earley aux grammaires d'intera tion. Ce travail est le prolongement de la dénition d'un algorithme de Earley pour une version simpliée de es grammaires par Joseph Le Roux et a fait l'objet d'une implémentationdansLEOPAR

1 .

Mots- lés:grammaired'intera tion,des riptiond'arbres,analysesyntaxique

1

(4)

Remer iements

Jetiensàremer ier:

GuyPerrier,quiapermisquelemastersedérouledanslesmeilleures onditions,poursagentillesse ettout lese oursqu'ilapum'apporteràplusieursreprises.

BrunoGuillaume poursadisponibilité dansl'en adrementdemon mémoireet sasympathie.

JosephLeRouxpourl'é outequ'ilm'a a ordéetsa ollaborationdanslemémoire.

(5)

Introdu tion 1

1 Présentation des outils théoriques 3

1.1 AlgorithmedeEarley. . . 3

1.1.1 Intuition. . . 3

1.1.2 Règlespointéeset itemsmanipulés . . . 3

1.1.3 Lesrèglesd'inféren e. . . 4

1.1.4 Uneanalysetabulaire . . . 4

1.1.5 Exemplededéroulementdel'algorithme . . . 5

1.2 Lesgrammairesd'intera tion . . . 6

1.2.1 Introdu tion . . . 6

1.2.2 Lesdes riptionsd'arbrespolarisées . . . 6

1.2.3 Unegrammairelexi alisée . . . 8

1.2.4 Constru tiondemodèlesdedes riptiond'arbres . . . 8

2 Unalgorithmede Earley pour lesgrammairesd'intera tionprimitives 11 2.1 Lesgrammairesd'intera tionprimitives . . . 11

2.1.1 Lesdes riptionsd'arbrespolarisésélémentaires . . . 11

2.1.2 Constru tiondemodèlesdedes riptionsd'arbres . . . 12

2.2 L'analyseurdeEarley . . . 12

2.2.1 Intuition. . . 12

2.2.2 Lesitemsmanipulés . . . 13

2.2.3 Règlesd'inféren e . . . 13

2.2.4 Exemplededéroulementdel'algorithme . . . 14

3 Unalgorithmede Earley pour lesgrammairesd'intera tion 16 3.1 Introdu tion. . . 16

3.2 Lesitemsmanipulés . . . 16

3.3 Lesrèglesd'inféren es . . . 17

3.3.1 Larègleaxiome. . . 17

3.3.2 Larègledeprédi tion . . . 17

3.3.3 Larègledebalayage . . . 18

(6)

3.4 ImplémentationdansLEOPAR . . . 18 3.5 Exemple dedéroulementdel'algorithme . . . 19

4 Résultatsexpérimentaux et on lusions 21 4.1 Premiersrésultats . . . 21 4.2 Pistesd'amélioration . . . 21 4.3 Con lusion . . . 22

(7)

Lesgrammairesd'intera tion ont été onçues pourmodéliserlasyntaxedes langues naturelles. Elles s'inspirent de deux traditions diérentes desgrammairesformelles : les grammaires atégorielles et les grammairesd'arbresadjoints.

Desgrammaires atégorielles,lesgrammairesd'intera tionreprennentl'idéequelessyntagmessontdes ressour es onsommableset qu'ilyaunedualitéentre elles- iquis'exprimedansleprin ipede ompo-sition.Dansunmêmetemps,lesgrammairesd'intera tion introduisentunassouplissement onsidérable dansleformalismeenayantre oursàlanotiondedes riptiond'arbres.L'intérêtd'unetelleappro heest qu'ellepermetunegrandesouplessede ompositionetuneexpressioné onomiquedelasous-spé i ation. L'analysesyntaxiquepeutalorss'exprimer ommela onstru tiond'unmodèlesdedes riptionsd'arbres parunpro essusdesuperpositiond'arbresrégiparlaneutralisationdepolaritésopposées.

Les algorithmes d'analyse syntaxique les plus onnus analysent des langages formels (souvent des langagesdeprogrammation).Cependantleslangagesnaturels, ontrairementauxlangagesformels,sont ambiguës.Leste hniqueslespluse a espouranalyserleslangagesambiguëss'appuientsurunprin ipe de tabulation an de ne pas analyser plusieurs fois les mêmes sous-arbres. C'est dans ette tradition qu'ont été développés les algorithmes de CYK et de Earley. Bien que es algorithmes soient onçus à l'originepourlesgrammaireshors- ontextes,leprin ipedetabulationsembleêtrevoieintéressantepour uneanalysee a edesgrammairesd'intera tion[Vil99℄.

Unlogi ield'analysesyntaxiquebasésurlesgrammairesd'intera tionestdéveloppéa tuellementdans l'équipe CALLIGRAMME. Ce logi iel est onçu de façon modulaire an de pouvoir tester diérentes stratégiesd'analyses.A tuellement,ilexistedeuxstratégiesd'analyseimplémentéesdansLEOPAR:une premièrestratégieutiliseunepro éduredetypeShift/Redu eet lase ondedetypeCYK.

Nousnousproposonsi id'étudieruneautrestratégied'analysebien onnueenanalysesyntaxique,ils'agit del'algorithme de Earley. L'originalité de ette algorithmepar rapport auxautres stratégies d'analyse estqu'ilfaitune re her hedes endante danslastru tured'analyse.

Lerapportseprésentedelamanièresuivante:

Nousprésentonstoutd'abordlesoutilsthéoriques manipulésenrappelantleprin ipedel'analyse syntaxiquedes endante deEarley,puisenprésentantuneformalisation desgrammaires d'intera -tion.

Dansundeuxièmetemps,nousprésentonsl'algorithmedetypeEarleyissud'untravailpréliminaire deJosephLeRoux,do torantdansl'équipedeCalligramme.Cetalgorithmes'intéresseàune ver-sionprimitivedesgrammairesd'intera tionetestàlabasedel'algorithmequenousdévelopponsi i.

Dans untroisième temps, nous présentonsunalgorithme pourles grammairesd'intera tion dans leurversion omplète. Cetravailaétéfait onjointementave Joseph LeRoux.Une longuephase d'implémentationdansLEOPARasuivi.

(8)

Enn, nous présenterons les premiers résultats de et analyseur dans LEOPAR parrapport aux stratégiesdéjà existantes et nous on luronssur lesperspe tivesenvisageables pour améliorer et algorithme.

(9)

Présentation des outils théoriques

1.1 Algorithme de Earley

L'algorithmedeEarley[Ear70℄estunalgorithmed'analysesyntaxiquepourleslangageshors- ontexte. Cetalgorithmeest unete hniqued'analyseprin ipalementdes endantquibalaieunénon édegau heà droite.

L'analysesefaitdanslepiredes as,parrapportàlalongueurdel'énon éàanalyser,entemps ubique dansle asgénéraletentempsquadratiquepourlesgrammairesnonambiguës.

1.1.1 Intuition

Nous présentons i i l'algorithme d'une manière légèrement diérente de elle que J. Earley avait présentéeen1970[Ear70℄:

Enpartantdusymboleinitial delagrammaire, l'analyseurdes enddans l'arbred'analyse enexplorant toutes les possibilités de gau he à droite (prédi tion). A haque fois que l'analyseurren ontre le mot attendu de l'énon é, l'analyse avan e d'un pas (balayage).Quand un sous-arbre d'analyse est analysé ave su ès,l'analyseurremontedansl'arbred'analyseetavan ed'unpas( omplétion).

Pourmieux omprendre esprin ipes,ilfauttoutd'abord omprendrelanotionderèglespointées.

1.1.2 Règles pointées et items manipulés

Soit

G

unegrammairehors- ontextetelle que

G

=

< N, T, S, R >

ave :

N

l'ensemble(ni etnonvide)dessymbolesnon-terminaux

T

l'ensemble(niet nonvide)dessymbolesterminaux

S

lesymboleinitial (

S

∈ N

)

R

unensemble niderèglesdeprodu tiondelaforme

Y

−→ α

où:

Y

estunnon-terminal

α

est unesuitedeterminauxetdenon-terminaux 1 Soit

w

1 . . . w

n

unénon é.

Etantdonné une règledeprodu tion

X

−→ αβ

,larègle pointée

X

−→ α • β

représentela situation où

α

adéjàétéanalyséeetoùlaséquen e

β

estattendue.

Lesitemsdesrèglesd'inféren esontdénispar:

unerèglepointéereprésentantunsituation dansl'arbrel'analyse

un ouple d'entier

i

et

j

représentant les indi es de la portion de l'énon é analysé dans la règle pointée

1

Par onvent ionnousnotero nslesterminauxpardesminus ules,lesnon-terminauxpardesmajus ulesetlessuitesde terminauxetdenon-terminauxpardeslettresgre ques.

(10)

Plusformellement,l'item

< A

−→ α • β, (i, j) >

ara tériselestroispropriétéssuivantes:

A

−→ αβ

appartientà

R

.

S

∗

⇒ w

1 . . . w

i

Aγ

où

γ

∈ (N |T )

∗

α

∗

⇒ w

i+1

. . . w

j

1.1.3 Les règles d'inféren e Larègle axiome

L'algorithmeétantdes endant,l'analyse ommen eparinitialiserlesrèglesdeprodu tiondontlatête estlesymboleinitial. L'analysesefaisantdegau heàdroite,

i

et

j

sontinitialisésà0.

< S

−→ •α, (0, 0) >

,pourtout élémentde

R

ayantpourtête

S

.

Larègle de prédi tion

Si la règle pointée d'un item

I

attend à l'indi e

i

l'analyse d'un non-terminal

B

, alors l'analyseur prédittoutesles analysespossiblesde enon-terminal enproduisant, pourtoutes lesrèglesde

R

ayant pourtête

B

,unitemattendantl'analysedu orpsdelarègle orrespondante.

< A

−→ α • Bβ, (i, j) >

< B

−→ •γ, (j, j) >

,pourtouterègle

B

→ γ

deR.

Larègle de balayage

Silarèglepointéed'unitem

I

attendàl'indi e

j

l'analysed'unterminal

w

,etque

w

estluàl'indi e

j

del'énon é,alorsl'analyseavan ed'unpasenproduisantunnouvelitemsimilaireà

I

où

w

estanalysé et

j

estin rémenté.

< A

−→ α • wβ, (i, j) >

< A

−→ αw • β, (i, j + 1) >

, si

w

= w

j

Larègle de omplétion

Silarèglepointéed'unitem

I

attendàl'indi e

j

l'analysed'unnon-terminal

B

,etque

B

estlatête delarègle d'un item omplètement analysé(le pointest tout àdroite de larègle pointée)entre

j

et

k

dansl'énon é,alorsl'analyseurproduitunitemsimilaireà

I

où

B

estanalyséetoùlaportiondel'énon é analyséeestmiseàjour.

< A

−→ α • Bβ, (i, j) > < B −→ γ•, (j, k) >

< A

−→ αB • β, (i, k) >

Résultatde l'analyse

Un énon é est orre t si l'analyse produit un item

< S

−→ α•, (0, n) >

où

n

est la longueur de l'énon é.

1.1.4 Une analyse tabulaire

Anquel'analysesoite a e,ilestné essairedenepasanalyserplusieursfoislesmêmessous-arbres. Pour ela, les items produits lors de l'analyse sont sto késdans untableau et les items à traiter sont ordonnan ésdansunagenda.L'analysesedérouledelafaçonsuivante :

1. Initialiserl'agendaave lesitemsinitiaux(produits parl'axiome). 2. Tantquel'agendan'estpasvide:

(11)

Produiretouslesitemspossiblesave etitemetlesrèglesd'inféren e(enprenantunitemdans letableaupourlarèglede omplétion).

Pour haqueitemproduit,s'iln'estpasdéjàdansletableaualorslerajouterdansl'agendaetle tableau.

1.1.5 Exemple de déroulement de l'algorithme

Nousexposonsi iunexempledel'analysed'un énon éave une grammairehors- ontexted'unpetit fragmentdufrançais.

Soit

J

=< N, T, S, R >

lagrammairehors- ontextesuivante:

N

= {S, V, SV, SN, N, Det}

,lesnon-terminaux

T

= {Jean, mange, une, pomme}

,lesterminaux

S

lesymboleinitial

et

R

l'ensembledesrèglesdeprodu tionsuivantes:

S

−→

SN SV

SV

−→

V SN

SN

−→

Det N

SN

−→

J ean

V

−→

mange

Det

−→

une

N

−→

pomme

Et

W

l'énon ésuivant:

0 J ean

1 mange

2 une

3 pomme

4

L'analysedeEarleyde

W

ave lagrammaire

J

produit lesitemssuivants:

0

< S

−→ • SN SV

,

(0, 0) >

axiome

1

< SN

−→ • Det N

,

(0, 0) >

prédi tion0

2

< SN

−→ • Jean

,

(0, 0) >

prédi tion0

3

< Det

−→ • une

,

(0, 0) >

prédi tion1

4

< SN

−→ Jean •

,

(0, 1) >

balayage2 5

< S

−→ SN • SV

,

(0, 1) >

omplétion04 6

< SV

−→ • V SN

,

(1, 1) >

prédi tion5 7

< V

−→ • mange

,

(1, 1) >

prédi tion6 8

< V

−→ mange •

,

(1, 2) >

balayage7 9

< SV

−→ V • SN

,

(1, 2) >

omplétion68 10

< SN

−→ • Det N

,

(2, 2) >

prédi tion9 11

< SN

−→ • Jean

,

(2, 2) >

prédi tion9

12

< Det

−→ • une

,

(2, 2) >

prédi tion10

13

< Det

−→ une •

,

(2, 3) >

balayage12

14

< SN

−→ Det • N

,

(2, 3) >

omplétion1013 15

< N

−→ • pomme

,

(3, 3) >

prédi tion14 16

< N

−→ pomme •

,

(3, 4) >

balayage15 17

< SN

−→ Det N •

,

(2, 4) >

omplétion1416 18

< SV

−→ V SN •

,

(1, 4) >

omplétion617 19

< S

−→ SN SV •

,

(0, 4) >

omplétion518

(12)

1.2 Les grammaires d'intera tion

1.2.1 Introdu tion

Àl'instardesgrammairesd'arbresadjoints[JLT75℄,lesgrammairesd'intera tion[Per02℄sontun for-malismegrammati als'appuyantsurlanotiondedes ription d'arbres.Cettenotionaétéintroduitepar J.RogersetK.Vijay-Shankeren1992[RVS92℄et edernierl'areprisepourreprésenterl'opération d'ad-jon tiondesgrammairesd'arbresadjoints[VS92℄.

L'intérêtestderempla erlamanipulationd'arbressyntaxiques omplètementspé iésparla manipula-tiondespé i ationspartiellesde esarbres.

Unedes riptiond'arbresestdénie parunensemble den÷uds etde relationsd'as endan e,deparenté et depré éden e entre es n÷uds. Lesn÷uds représententdes syntagmes (éventuellement vides)et les relationsexprimentlesdépendan es entre es syntagmes.Les propriétésmorpho-syntaxiquesde e syn-tagmessontdé ritespardesstru turesdetraits.

Cetteappro heestbien adaptéeàlaexibilitéetàl'ambiguïtédeslanguesnaturelles.

num = sg

gen = m

cat < - n

/le/

num = sg

gen = m

cat = = det

pers = 3

num = sg

gen = m

funct < - ?

cat -> np

Fig.1.1Des riptiond'arbresélémentairedudéterminantle

Cependant,l'analysesyntaxiquefondéesurdesdes riptionsd'arbrespeutêtretrès oûteuse[KNT01℄. Eneet,dans etteappro he,l'analysesyntaxique onsisteà her herdesmodèlesdedes riptionsd'arbres sousformed'arbressyntaxiques omplètementspé iés.Cepro essusesthautementindéterministe. Danslesformalismesréalistesfondéssurlesdes riptionsd'arbres, etindéterminismeestlimitéen ontrai-gnantlasyntaxedesdes riptionsetlemé anismede ompositionsyntaxique.

L'originalitédes grammairesd'intera tion setrouvedans le mé anismede omposition syntaxique régi parles polarités. Cette notionde polarité est liée àla dualité besoins-ressour es qui est à labase des grammaires atégorielles[Ré00℄: ertainesressour esmunies depolaritésnégativessontattenduesalors que d'autres, munies de polarités positives, sont disponibles si bien que les premières vont her her à ren ontrerlesse ondes, 'estleprin ipedeneutralisationdespolaritésopposée s.

1.2.2 Les des riptions d'arbres polarisées

Lesgrammairesd'intera tionontpourobjetssyntaxiquesdebaselesdes riptionsd'arbrespolarisées [Per02℄.

Lesdes riptionsd'arbrespolariséessont onstruitessurunesignature

(N , T )

où

N

estunensemblede n÷udssyntaxiqueset

T

unebase detraits.

T

est unensemblenide ouples

(T, D

T

)

oùpourunnom detrait

T

est asso iél'ensembleni

D

T

desvaleursatomiquesqu'ilpeutprendre.

(13)

Lesgrammairesd'intera tionpeuventêtrevues ommeunranementdesgrammaires atégoriellesen esensquelanotiondepolaritéestdes endueduniveaudessyntagmesauniveaudestraitsgrammati aux quiledé rivent.

Ainsià haquetrait, enplusd'unevaleur,est asso iéeunpolaritépourindiqueréventuellementsi 'est uneressour e onsommable ouunbesoin.Une polaritépeut êtrepositive(

→

),négative(

←

)ouneutre (=).Ilest né essairededistinguerlesn÷uds initialementneutresdesn÷uds issusd'uneneutralisation. Dans edernier asonnotelapolarité

↔

.Lapolarité

⊥

indiquel'é he del'uni ationdedeuxpolarités.

←

→

=

↔

←

⊥

↔

←

⊥

→

↔

⊥

→

⊥

=

←

→

=

↔

⊥

↔

⊥

Tab.1.1Résultatsdel'uni ationdedeuxpolarités

Si nousfaisonsréféren e àlagure1.1,nous onstatonsque lades riptiond'arbresdudéterminant le demandeunnomet unefon tionsyntaxique etfournitunsyntagmenominal.

prep = = a

cat = = prep

funct = = dat

cat = = n | np

funct -> obj

cat < - np

pers = 1 | 3

num = sg

funct -> subj

cat < - np

tense = pres

reflex = = false

pers = 1 | 3

num = sg

m ood = = ind | subj

aux = = void

cat < - v

/donne/

tense = pres

reflex = = false

pers = 1 | 3

num = sg

neg = = false

m ood = = ind | subj

aux = = void

cat -> v

cat == v

prep < - a

funct -> dat

cat < - pp

m ood = = ind | subj

cat -> s

Fig.1.2Des riptiond'arbresélémentaireduverbedonne danslaphraseqqndonne qq àqqn

Unedes riptiond'arbrespolariséesur unesignature

(N , T )

estdénie parunensemblede n÷uds

N

( ha unétiqueté parune stru turede traitspolarisésappartenantà

T

) maisaussipar unensemble de relationsentre esn÷uds.Cesrelationspeuventêtredequatretypes:

Relationsde dominan e immédiate

N

1 > N

2

signieque lesyntagme

N

2

est un onstituant im-médiatde

N

1

, e qu'on représente graphiquement parun è he de haut en bas. Dans la gure 1.2, le syntagme

s

sedé omposeenquatre onstituantsimmédiats:

subj

,

v

,

np

,

pp

.

Relations de dominan e sous-spé iée

N

1 ∗

> N

2

signie que lesyntagme

N

2

est in lus dans

N

1

àuneprofondeur indéterminée (éventuellement

N

1

s'identie à

N

2

), e qu'on représente parune è he

(14)

lapossibilitéd'appliquerdesmodieursàunsyntagme.Danslesdeux as,onpeut ontraindrelarelation quidevient

N

1 ∗

>

[f

1 = v

1 , . . . , f

n

= v

n

]M

, equi signieque tout syntagmequi est in lus dans

N

1

et qui ontient

N

2

doitavoirsa stru turede trait ompatible ave

[f

1 = v

1 , . . . , f

n

= v

n

]

. Dans l'exemple de la gure 1.2, la relation de domination sous-spé iée entre les deux n÷uds

v

signie la possibilité d'appliquerunmodieurdeverbeàdonne .

Relationsde pré éden e immédiate

N

1 ≺ N

2

signiequelesyntagme

N

1

pré èdeimmédiatement lesyntagme

N

2

dansl'ordrelinéairedesmotsdelaphrase, e qu'on représente graphiquementparune è hehorizontale.Dansl'exempledelagure1.2,lesyntagmesujetpré èdeimmédiatementlesyntagme verbal.

Relationsde pré éden e sous-spé iée

N

1 ∗

≺ N

2

signiequelesyntagme

N

1

pré ède lesyntagme

N

2

dansl'ordrelinéairedes motsdelaphrase, e qu'onreprésente graphiquementparune è hegrisée horizontale.Dansl'exempledelagure1.2,lesyntagmeverbalpré èdelesyntagmenominaletlesyntagme prépositionnel.

1.2.3 Une grammaire lexi alisée

Lesgrammairesd'intera tionsontlexi alisées.C'est-à-direque haquedes riptiond'arbresélémentaire estdistinguéeparsonn÷udan requiexprimelarelationentrelades riptionetlelexique.Ainsi, haque itemlexi alestasso ié àunensemblededes riptionsd'arbresélémentaires.

Si nous prenonsà nouveau l'exemple de la gure1.1, le n÷udan re orrespondau n÷udde atégorie déterminant.

1.2.4 Constru tion de modèles de des ription d'arbres

La ompositionsyntaxiquededeux des riptionsd'arbresest unpro essusdeneutralisation de n÷uds opposés danslequell'opérationfondamentalepeutêtrevue ommeunefusionparti ulièrededeuxn÷uds dansle asoù eux- i sontporteursdetraits opposés.Cetteneutralisationne sepassantpasseulement entrelara ined'unarbreetunefeuilled'uneautreimpliquequelesarbresnesontpasseulementa ro hés lesuns auxautresmaisqu'ilspeuventêtreaussisuperposéspartiellement.

Analyserune des riptiond'arbres onsisteàitérer l'opérationde neutralisationdestraits opposés pour spé ierprogressivementlades riptioninitiale.Cela orrespondàlare her hed'unmodèlededes ription d'arbres:

Unmodèled'unedes riptiond'arbres

D

est une oupleforméd'unarbre

A

etd'uneinterprétation

I

:

A

estunarbreordonnéetsesn÷udssontétiquetéspardesstru turesdetraits.

I

est unefon tiond'interprétationdel'ensemble

|D|

desn÷uds de

D

dansl'ensemble

|A|

desn÷uds de

A

quivérientles onditionssuivantes:

Pourtouttrait

T

d'unn÷ud

N

de

D

,

I(N )

omprenduntraitdemêmenomque

T

ave unevaleur gurantdansladisjon tiondutrait.

Si

N

1 > N

2

alors

I(N

1 )

etlepère de

I(N

2 )

dans

A

. Si

N

1 ∗

>

[f

1 = v

1 , . . . , f

n

= v

n

]N

2

alors

I(N

1 )

domine

I(N

2 )

(éventuellement

I(N

1 ) = I(N

2 )

)dans

A

et pour tout n÷ud

N

′

de

A

qui estun des endantde

I(N

1 )

et un as endant de

I(N

2 )

ausens large,lastru turedetraitsde

I(N

′

₎

ompatible ave

[f

1 = v

1 , . . . , f

n

= v

n

]

. Si

N

1 ≺ N

2

,alors

I(N

1 )

pré èdeimmédiatement

I(N

2 )

dans

A

.

Si

N

1 ∗

≺ N

2

,alors

I(N

1 )

pré ède

I(N

2 )

dans

A

.

L'analyseréussit si elle s'a hève par un arbre omplètement spé ié sans relation large où tous les traitsontéténeutralisés.Cela orrespondàunmodèlededes riptiond'arbresminimalet neutre. Un modèle minimal et neutre

A

d'une des riptiond'arbres

D

est un modèle satisfaisantles propriétés suivantes :

minimalité :Si

N

1

estlepèred'unn÷ud

N

2

dans

A

,ilexisteaumoinsunerelation

N

′

1 > N

2 ′

dans

D

telleque

N

1 = I(N

′

1 )

et

N

2 = I(N

′

2 )

.

(15)

neutralité : Pour tout n÷ud

N

de

A

et pour tout trait

F

présent dans l'étiquette de

N

, soit il n'existepasden÷ud

N

′

ave untrait

F

dans

D

àpolaritépositiveounégativetelque

I(N

′

_{) = N}

, soitilexistedeuxn÷uds

N

′

et

N

′′

ave untrait

F

positivedansl'uneet négativedansl'autretels que

I(N

′

_{) = N}

et

I(N

′′

_{) = N}

Par exemple,lagure1.4représente leseulmodèlevalidedelades riptiond'arbresillustréeàlagure 1.3.

/Jean/

pers = 2 | 3

num = sg

gen = m

funct < - ?

cat -> np

funct -> obj

cat < - np

pers = 1 | 3

num = sg

funct -> subj

cat < - np

tense = pres

reflex = = false

pers = 1 | 3

num = sg

m ood = = ind | subj

cat < - v

aux = = void

/aim e/

tense = pres

reflex = = false

pers = 1 | 3

num = sg

neg = = false

m ood = = ind | subj

cat -> v

aux = = void

cat == v

m ood = = ind | subj

cat -> s

/M arie/

pers = 2 | 3

num = sg

gen = f

funct < - ?

cat -> np

/./

cat = = punct

typ = decl

tense = ?

m ood = = cond | ind

cat < - s

typ = decl

tense = ?

m ood = = cond | ind

cat = = s

Fig.1.3Des riptiond'arbresdel'énon éJeanaimeMarie.

(16)

/Jean/

pers = 3

num = sg

gen = m

funct < = > subj

cat < = > np

/aim e/

tense = pres

reflex = = false

pers = 3

num = sg

neg = = false

m ood = = ind

cat < = > v

aux = = void

/M arie/

pers = 2 | 3

num = sg

gen = f

funct < = > obj

cat < = > np

typ = decl

tense = ?

m ood = = ind

cat < = > s

/./

cat = = punct

typ = decl

tense = ?

m ood = = ind

cat = = s

(17)

Un algorithme de Earley pour les

grammaires d'intera tion primitives

Lesgrammairesd'intera tionetlesgrammairesd'arbresadjoints[JLT75℄onttouteslesdeux omme objets syntaxiques debase lesdes riptio ns d'arbres. C'esten partiela raisonpourlaquelle l'algorithme quenousétudionsi ireprendenpartielestravauxdeY.S habesetA.Joshiquiproposentunalgorithme deEarleypourlesgrammairesd'arbresadjoints[SJ88℄.Cependantilexisteunediéren emajeureentre lesgrammairesd'arbresadjoints etlesgrammairesd'intera tion :tandisque lespremièresreposentsur deux opérations de omposition syntaxiques (la substitution et l'adjon tion d'arbres), es dernières ne reposentquesuruneopérationplusgénérale:lasuperpositiond'arbres.

Cetalgorithmepouruneversionsimpliéedesgrammairesd'intera tionestissudutravaildeJosephLe Roux,do torantdansleprojetCalligramme.

2.1 Les grammaires d'intera tion primitives

Lesgrammairesd'intera tionprimitivesprésententdeuxdiéren esimportantesave lesgrammaires d'intera tion:

Lespolaritésnesontplusportéesparlestraitsmaisparlen÷ud.

Ilexiste deux types den÷uds, lesn÷uds étiquetéspar desnon-terminaux et lesn÷uds étiquetés pardesterminaux.Seulslesn÷udsétiquetéspardesnon-terminauxportentunepolaritéet elle- i estsoit positive,soitnégative.

Onpeut ainsi dénirune grammaired'intera tion primitive parun quadruplet

G

=< N, T, D, S >

où

N

est l'ensemble des symboles non-terminaux,

T

l'ensemble des symboles terminaux

(N ∩ T = ∅)

,

D

l'ensembledesdes riptionsd'arbresélémentaires onstruitssur

T

,et

S

(S ∈ N )

lesymboleinitial. 2.1.1 Les des riptions d'arbres polarisés élémentaires

Une des riptiond'arbrespolarisésélémentaireest dénie parunensemble de n÷uds

N

et d'un en-semble derelations

R

entre lesn÷uds.Lesn÷uds d'unedes riptiond'arbresélémentairesontétiquetés par les terminaux et les non-terminaux de la grammaire. A l'instar des grammaires d'intera tion, les grammairesd'intera tion primitivessontfortement lexi alisées.Ainsi, pour haque des ription élémen-taire de

D

, il y a exa tement un n÷ud de

N

qui appartienne à

T

, e dernier étant une feuille de la des riptiond'arbres.Touslesautresn÷udsde

N

sontdesn÷udsnon-terminauxdelagrammaireetsont polariséspositivementounégativement.

Lesrelationsentrelesn÷udsdesdes riptionsd'arbresdanslesgrammairesd'intera tionsontéquivalentes à ellesdesgrammaires omplètesàladiéren equ'iln'estpluspossiblede ontraindreunerelationde dominan esous-spé iée.Onlesdénit ommesuit:

N

1 > N

2

si

N

2

estun onstituantimmédiat de

N

1 N

1 ∗

(18)

N

1 ≺ N

2

si

N

1 N

2

dansl'ordrelinéairedesmotsdelaphrase

N

1 ∗

≺ N

2

si

N

1

pré ède

N

2

dansl'ordrelinéairedesmotsdelaphrase

S

+

SN

−

-

V

−

?

-

_SN

−

-V

+

?

donne

?

Fig.2.1 Des riptiond'arbresélémentaireduverbedonne

2.1.2 Constru tion de modèles de des riptions d'arbres

Le prin ipede omposition syntaxique est analogue à elui employédans lesgrammaires d'intera -tion omplètes, il s'agit de superposer des des riptions d'arbresqui présentent des n÷uds de polarités opposées.Cependant, e pro édé estunpeu plusrestri tifdans lesgrammairesd'intera tion primitives arseulslesn÷uds étiquetésparlemême non-terminalet depolaritésopposéespeuventseneutraliser. Ainsi,lesn÷uds neutralisésetlesn÷udsétiquetéspardesterminauxnepeuventpasêtrelesopérandes d'unetelle opération.

Analyserunénon é onsisteàréitérerlepro édédesuperpositionpour onstruirepasàpasune des rip-tiond'arbres omplètementspé iée.Cela orrespondàre her herunmodèleminimalet neutrede

D

. Unmodèleminimalet neutrede

G

estun ouple

(A, I)

où

A

est unarbreordonnéet

I

estunefon tion surje tived'interprétation del'ensembledes n÷udsde

D

versl'ensembledesn÷uds de

A

qui vérieles propriétéssuivantes :

Si

N

1 > N

2

alors

I(N

1 )

etlepère de

I(N

2 )

dans

A

. Si

N

1 ∗

> N

2

alors

I(N

1 )

domine

I(N

2 )

.

Si

N

1 ≺ N

2

,alors

I(N

1 )

I(N

2 )

dans

A

.

Si

N

1

est lepère d'unn÷ud

N

2

dans

A

,ilexiste aumoinsunerelation

N

′

1 > N

2 ′

dans

D

telleque

N

1 = I(N

1 ′

)

et

N

2 = I(N

′

2 )

.

Si

N

estunnon-terminal,alorsilexistedeuxn÷uds

N

′

et

N

′′

appartenantà

D

depolaritésopposées etétiquetésparlemême non-terminaltelque

I(N

′

_{) = N}

et

I(N

′′

_{) = N}

. Si

N

est un terminal, alors il existe un unique n÷ud

N

′

dans

D

qui est étiqueté par le même non-terminalque

N

telque

I(N

′

_{) = N}

.

2.2 L'analyseur de Earley

2.2.1 Intuition

CommeunalgorithmedeEarley lassique, l'algorithme onstruitl'arbred'analysedehautenbaset degau heàdroite en partant del'axiomede lagrammaire. A haqueétape delades ente, l'analyseur neutralise un n÷ud du modèle en onstru tion ave un n÷ud ra ine des des riptions d'arbres visibles (prédi tion). A haquefois quel'analyseurren ontre le motattendude l'énon é,l'analyse avan e d'un pas(balayage).Quandunsous-arbreestanalyséave su ès,l'analyseurremontedansl'arbred'analyse

(19)

2.2.2 Les items manipulés

Lors de l'analyse, il est né essaire de gérer spé iquement les dominations larges des des riptions d'arbres.Eneet, essous-arbrespeuventêtre omposésàdiérentsétagesdel'analyse.Nousintroduisons pour elauntriplet

(S, U, D)

quivaserappelerdessous-arbresquipeuventêtre omposéset ontraindre leurratta hement.

Lesitemsmanipuléssontdelaforme

< A

C

_A

−→ α • B

C

_B

β,

(i, j), (S, U, D) >

où:

C

A

et

C

B

sont les ontextes asso iés aux n÷uds du modèle et sont notés par le terminal ou le non-terminalquil'étiquette.Les ontextessont:

Pourlesterminaux,len÷udinterprété.

Pourlesnon-terminaux,un oupleden÷uds interprétés(

P

,

N

) telque

P

(depolaritépositive) et

N

(depolariténégative)sontétiquetéesparlemêmenon-terminal.Ces ontextespeuventêtre sous-spé iésoupartiellementsous-spé iés.Quandunn÷udn'estpasspé ié,onlenote_.

A

C

_A

−→ α • B

C

_B

β

estunerèglepointée,lasémantiquede ette règleest lasuivante:

C

A

est omplètementspé iéetlesn÷udsquiledé riventsontdepolaritésopposéesetinterprétés par

A

.

Si

B

est unterminal,alors

C

B

estdé rit parunn÷udterminalquiest interprétépar

B

. Si

B

est un non-terminal alors tout n÷ud déni qui dé rit

C

B

est un n÷ud non-terminal et

est interprétépar

B

. Si

C

B

est omplètementspé ié,alors lesn÷uds qui le dé riventsont de polaritésopposées.

A

estlepèredetouslesn÷udsdu orpsdelarèglepointéeetseslssontordonnésdegau heà droitedanslemodèleen onstru tion.

i

et

j

représententlesindi esdelaportiondel'énon éanalysédanslarèglepointée.

letriplet

(S, U, D)

représente lasituation desressour esde lagrammaireàl'étapede l'analyse, il estdénirespe tivementpar:

lesdes riptionsd'arbresdé ro héesàl'étagepré édentdel'analyse(Stop) lesdes riptionsd'arbresdéjàutiliséeslorsdel'analyse(Up)

lesdes riptionsd'arbresdé ro héesauxétagespré édentsdel'algorithme quin'ontpasété uti-liséesparl'analyseurlorsdupro essusdeneutralisation(Down)

2.2.3 Règles d'inféren e

Larègle axiome

La règle axiome permet de démarrer l'analyse,

S

étant le symbole initial de la grammaire et

D

l'ensembledesdes riptionsd'arbresdelagrammaire.

<

⊤ −→ •S

(

_

,

_

)

,

(0, 0), (D, ∅, ∅) >

Larègle de prédi tion

A partird'unitem

< A

−→ α • B

(B

1 ,B

2 )

β,

(i, j), (S, U, D) >

, ongénèreunnouvelitem qui ontient unerègleengendréeparlesdes riptionsd'arbresdera ines

B

i

enordonnant omplètementleursls.Cet étapepeutgénérerbeau oupd'items sileslsde

B

1

et

B

2

nesontpasordonnés.

Comme le ontexte de la tête de la règle pointée est omplètement spé ié dans l'item produit, il est né essaire de spé ier les n÷uds

B

1

et

B

2

par un n÷ud ra ine des des riptions d'arbres visibles. Un n÷udestdit visible :

s'ilest l'undesls dire tsd'undesn÷udsquidé rivent

A

.

s'ilestra ined'unedes riptiond'arbresélémentairesquin'apasen oreétéutiliséedanslepro essus deneutralisation.

Unefoisle ontextedelatêtedelarèglepointée omplètementspé ié,ilfautmettreàjourlasituation desressour es delagrammairenotammenten dé ro hant les lslargesnon-utilisés parlesn÷uds du

(20)

< A

−→ α • B

(B

1 ,B

2 )

β,

(i, j), (S, U, D) >

< B

(B

′

1 ,B

′

2 )

−→ •γ, (j, j), (S

′

_{, U}

′

_{, D}

′

_{) >}

,ave

B

′

i

=

B

i

si

B

i

est déni,sinon

B

′

i

estlara ined'unedes riptiond'arbresvisible.

γ

est unordrepossiblepourleslsdire tsde

B

′

1

et de

B

′

2

.

S

′

est l'ensemble desls largesde

B

′

1

et

B

′

2

. Si

B

′

1 ∗

> B

′

2

(respe tivement

B

′

2 ∗

> B

′

1

), alors

S

′

est l'ensembledeslslargesde

B

′

1

et

B

′

2

privéde

B

′

2

(respe tivement

B

′

1

).

U

′

est l'union de

U

et des ra ines des des riptions d'arbresvisibles àla phase de prédi tion qui formentle ontextede

B

(ie,

U

′

_{= U ∪ {N ∈ N}

|

N

appartientà

D

età

{B

′

1 , B

2 ′

}} ∪ {N ∈ N

|

N

appartientà

S

età

{B

′

1 , B

2 ′

}}

).

D

′

estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ontpasétéutiliséeslorsdesneutralisationspré édentes(ie,

D

′

_{= D \ {N ∈ N}

|

N

appartientà

{B

′

1 , B

2 ′

}} ∪ S \ {N ∈ N

|

N

appartientà

{B

′

1 , B

2 ′

}}

). Larègle de balayage

Si on analyse le terminal orrespondant au mot à lire dans l'énon é, alors on génère l'item où le terminalaétéanalyséave su ès.

< A

−→ α • w

w

β,

(i, j), (S, U, D) >

< A

−→ αw

w

• β, (i, j + 1), (S, U, D) >

,si

w

= w

j

Larègle de omplétion

Cette règle permet de remonter dans l'arbre d'analyse en onstru tion en validant un sous arbre d'analyse.

Pour validerlesous-arbred'analyse,il fautvérierqueles des riptionsd'arbresdé ro hées lorsdela phasedeprédi tionontbienétéra ro héesquelquepartdanslesous-arbred'analyse.

< A

−→ α • B

(B

1 ,B

2 )

β,

(i, j), (S, U, D) >

< B

(B

′

1 ,B

2 ′

)

−→ γ•, (j, k), (S

′

_{, U}

′

_{, D}

′

_{) >}

< A

−→ αB

(B

1 ,B

2 )

• β, (i, k), (S

′′

_{, U}

′′

_{, D}

′′

_{) >}

,ave

B

′

i

=

B

i

si

B

i

est déni

S

′

_{= ∅}

S

′′

estl'ensembledesra inesdesdes riptionsd'arbresdé ro héesàl'étagepré édentquin'ontpas étéen oreutiliséesdansl'analyse(ie,

S

′′

_{= S \ {N ∈ N}

|

N

appartientà

S

et à

U

′

).

U

′′

=

U

′

_{\ {N ∈ N}

|

N

appartientà

S}

D

′′

=

D

′

Un énon é est orre t si l'analyse produit un item

<

⊤ −→ S

(

_

,

_

)

•, (0, n), (∅, U, ∅) >

où

n

est la longueurdel'énon é.

2.2.4 Exemple de déroulement de l'algorithme

Soit

J

=< N, T, D, S >

ave :

N

= {S, SN, V }

,lessymbolesnon-terminaux

T

= {Jean, le, voit}

,lessymbolesterminaux

S

,lesymbole initial

D

,l'ensembledesdes riptionsd'arbresélémentairesreprésenté àlagure2.2. Et

W

l'énon ésuivant:

0 J ean

1 le

2 voit

3

(21)

D

1 :

SN

11 +

D

2 :

S

21 −

D

3 :

S

31 +

Jean

12 ?

V

₂₂

+

?

-

_{N P}

+

25 -SN

₃₂

−

-

V

₃₃

−

?

-

_SN

−

36

-le

23 ?

-

_V

−

24 -V

₃₄

+

?

voit

35 ?

Fig.2.2Ensembledesdes riptiond'arbresélémentairesdelagrammaireJ

L'analysedeEarleyde

W

ave lagrammaire

J

produitlesitemssuivants: 0

<

⊤ −→ • S

(

_

,

_

)

,

(0, 0)

,

({11, 21, 31}, ∅, ∅) >

A 1

< S

(31,21)

−→ • V

(22,

_

)

SN

(25,

_

)

SN

(

_

,32)

V

(

_

,33)

SN

(

_

,35)

,

(0, 0)

,

(∅, {21, 31}, {11}) >

P0 2

< S

(31,21)

−→ • V

(22,

_

)

SN

(25,32)

V

(

_

,33)

SN

(

_

,35)

,

(0, 0)

,

(∅, {21, 31}, {11}) >

P0 3

< S

(31,21)

−→ • SN

(

_

,32)

V

(22,33)

SN

(25,35)

,

(0, 0)

,

(∅, {21, 31}, {11}) >

P0 4

< S

(31,21)

−→ • SN

(

_

,32)

V

(

_

,33)

SN

(

_

,35)

V

(22,

_

)

SN

(25,

_

)

,

(0, 0)

,

(∅, {21, 31}, {11}) >

P0 5

< SN

(11,32)

−→ • Jean

12

,

(0, 0)

,

(∅, {21, 31, 11}, ∅) >

P3/4 6

< SN

(11,32)

−→ Jean

12

•

,

(0, 1)

,

(∅, {21, 31, 11}, ∅) >

B5 7

< S

(31,21)

−→ SN

(

_

,32)

• V

(22,33)

SN

(25,35)

,

(0, 1)

,

(∅, {21, 31, 11}, ∅) >

C36 8

< S

(31,21)

−→ SN

(

_

,32)

• V

(

_

,33)

SN

(

_

,35)

V

(22,

_

)

SN

(25,

_

)

,

(0, 1)

,

(∅, {21, 31, 11}, ∅) >

C46 9

< V

(22,33)

−→ • le

23 V

(

_

,24)

,

(1, 1)

,

({34}, {21, 31, 11}, ∅) >

P7 10

< V

(34,33)

−→ • voit

35

,

(1, 1)

,

(∅, {21, 31, 11, 34}, ∅) >

P7 11

< V

(22,33)

−→ le

23 • V

(

_

,24)

,

(1, 2)

,

({34}, {21, 31, 11}, ∅) >

B9 12

< V

(24,34)

−→ • voit

35

,

(2, 2)

,

(∅, {21, 31, 11, 34}, ∅) >

P11 13

< V

(24,34)

−→ voit

35

•

,

(2, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

B12 14

< V

(22,33)

−→ le

23 V

(

_

,24)

•

,

(1, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

C1113 15

< S

(31,21)

−→ SN

(

_

,32)

V

(22,33)

• SN

(25,35)

,

(0, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

C714 16

< SN

(25,35)

−→ •

,

(3, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

P16 17

< S

(31,21)

−→ SN

(

_

,32)

V

(22,33)

SN

(25,35)

•

,

(0, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

C714 18

<

⊤ −→ S

(

_

,

_

)

•

,

(0, 3)

,

(∅, {21, 31, 11, 34}, ∅) >

C017

(22)

Un algorithme de Earley pour les

grammaires d'intera tion

3.1 Introdu tion

L'algorithme présenté i i reprend en très grande partie l'algorithmedéveloppé pour lesgrammaires d'intera tionprimitives.Ils'agitde onstruirelesmodèlesminimauxetneutresd'unedes riptiond'arbres en partant des ra ines des sesdes riptions élémentaires et en des endant étape parétapedans l'arbre d'analyse par la neutralisation des n÷uds en ours d'analyse et la sous-analyse de tous les modèles possiblesdusous-arbre.

Sil'algorithmeresteidentiquedansleprin ipe,ildoit ependantêtreadaptépouranalyserles des rip-tionsd'arbresdesgrammairesd'intera tiondansleurversion omplète.Eneet,l'opérationde neutralisa-tionesti idiérente,ilnes'agitplusdesuperposerdeuxn÷udsétiquetésparunmêmenon-terminaletde polaritédiérentes,maisdesuperposerdesn÷udsdontl'uni ationdespolaritésdel'undestraitsqu'ils onten ommunréussit(tableau1.1)etdontleursstru turesdetraitsasso iéessont ompatibles.Ainsi, unn÷ud du modèle peut-être issu de lasuperposition de plusieurs n÷uds de lades ription d'origine, dont ertainsnepeuventavoirau untraitspolariséspositivementounégativement(n÷udsneutres). D'un point de vue omputationnel, ela signie que lors de la prédi tion, l'analyseur n'est pas guidé uniquementparlespolaritéspositivesounégativesetdoitdon étendresonespa edere her heave des n÷uds qui ne répondent pasà lanotionde besoins-ressour es, on peut qualier es derniers den÷uds optionnels.

Uneautre diéren e provientde lapossibilité desuperposerdes n÷uds portant l'information lexi al dans les grammaires d'intera tion et non dans leur version primitive. En eet, dans les grammaires d'intera tionprimitives,ondiéren iaitlesn÷udsquiportaientl'informationlexi al(ditsterminaux)des autres(dits non-terminaux), et seuls lesn÷uds non-lexi aliséspouvaient êtreles opérandes d'unetelle opération.Il faut don adapter l'algorithme an qu'ilpuisse savoirquand il ren ontre une information lexi aliséeetessayerdelefaire orrespondreave lemotattendudel'énon é.

3.2 Les items manipulés

Soit

M : (A, I)

unmodèlededes riptiond'arbres.Un ontexte

{B

1 , . . . , B

n

}

estl'imageinversed'un n÷ud

B

de

A

par

I

(ie,

I(B

i

) = B

pourtousles

B

i

du ontexte).

Lesitemsmanipuléssontdelaforme

< A

C

A

−→ α • B

C

B

β,

(i, j), (S, U, D) >

où:

C

A

et

C

B

sontles ontextesasso iés auxn÷uds dumodèle,ils sontétiquetés parlastru ture de traits issuede l'uni ation des stru tures detraits des n÷uds du ontexte.Cependant, parsou i d'espa e,nousrempla erons ettestru turedetraitsparunsymbolearbitrairequandl'information

(23)

porté par la stru ture n'est pas utile. Un ontexte est dit sous-spé ié s'il existe un trait de la stru turedetraitsquil'étiquettequinesoitpasdepolariténeutre(untraitestdepolariténeutre s'ilporteunepolarité=ou

↔

).

A

C

_A

−→ α • B

C

_B

β

estunerèglepointée,lasémantiquede ette règleest lasuivante:

C

A

est omplètementspé ié.

A

estlepèredetouslesn÷udsdu orpsdelarèglepointéeetseslssontordonnésdegau heà droitedanslemodèleen onstru tion.

i

et

j

représententlesindi esdelaportiondel'énon éanalysédanslarèglepointée.

letriplet

(S, U, D)

représente lasituation desressour esde lagrammaireàl'étapede l'analyse, il estdénirespe tivementpar:

lesdes riptionsd'arbresdé ro héesàl'étagepré édentdel'analyse(Stop) lesdes riptionsd'arbresdéjàutiliséeslorsdel'analyse(Up)

lesdes riptionsd'arbresdé ro héesauxétagespré édentsdel'algorithme quin'ontpasété uti-liséesparl'analyseurlorsdupro essusdeneutralisation(Down)

3.3 Les règles d'inféren es

Soit

D

l'ensemble de des riptionsd'arbres élémentaires de la grammaireet

W

l'énon é à analyser. Noussupposons qu'ilexisteuntrait dansla grammairequi dénisseunn÷udinitial desmodèlesdela grammaire.

3.3.1 La règle axiome

La règle axiome permet de démarrer l'analyse. Nous réons pour ela autant d'items qu'il y a de possibilitéden÷udsra inedumodèle.

<

⊤ −→ •S

N

,

(0, 0), (D, ∅, ∅) >

,pour

touteslespartitions

N

desn÷udsinitiauxdelagrammairequiformentdes ontextes omplètement spé iés.

3.3.2 La règle de prédi tion

A partird'un item

< A

−→ α • B

{B

1 ,...B

n

}

β,

(i, j), S, U, D >

,ongénère unnouvel item qui ontient unerègleengendréeparlesdes riptionsd'arbresdera ines

B

i

enordonnant omplètementleursls.Cet étapepeutgénérerbeau oupd'items sileslsde

{B

′

1 , . . . B

n+m

′

}

nesontpasordonnés.

Comme le ontexte de la tête de la règle pointée est omplètement spé ié dans l'item produit, il est né essairede ompléterlesn÷uds

B

i

pardesn÷uds ra inesdesdes riptionsd'arbresvisibles.

Deplus, une fois le ontextede la têtede la règlepointée omplètement spé ié,il faut mettre à jour lasituationdesressour esdelagrammairenotammentendé ro hant leslslargesnon-utilisésparles n÷udsdu ontextedelatêtedanslepro essusdeneutralisation.

< A

−→ α • B

{B

1 ,...B

n

}

β,

(i, j), S, U, D >

< B

{B

′

1 ,...B

′

n+m

}

−→ •γ, (j, j), (S

′

_{, U}

′

_{, D}

′

_{) >}

,ave

B

′

i

=

B

i

si

i

≤ n

,sinon

B

′

i

estlara ined'unedes riptiond'arbresvisible. Au undes

B

′

i

n'estunean re.

γ

est unordrepossiblepourleslsdire tsde

{B

′

1 , . . . B

′

n+m

}

.

S

′

estl'ensembledeslslargesde

{B

′

1 , . . . B

n+m

′

}

privédetouslesn÷uds

B

j

pourlesquelsilexiste unerelation

B

i

∗

> B

j

dans

D

.

U

′

est l'union de

U

B

(ie,

U

′

_{= U ∪ {N ∈ N}

|

N

appartientà

D

et à

{B

′

1 , . . . B

n+m

′

}} ∪ {N ∈ N

|

N

appartientà

S

et à

{B

′

1 , . . . B

′

n+m

}}

).

(24)

D

′

estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ont pas été utilisées lorsdes neutralisations pré édentes (ie,

D

′

_{= D \ {N ∈ N}

|

N

appartient à

{B

′

1 , . . . B

n+m

′

}} ∪ S \ {N ∈ N

|

N

appartientà

{B

′

1 , . . . B

n+m

′

}}

). 3.3.3 La règle de balayage

Les grammaires d'intera tions ne proposent pas de distin tion fran he terminaux/non-terminaux ommedans sa version primitive. Pour palier e problème, nous opérons lebalayage dans laphase de prédi tion.

Lorsde laphaseprédi tivenousrepéronsles ontextes

{B

′

1 , . . . B

′

n+m

}

qui nepossèdentqu'unan reet quin'ontpasde lslargesoustri tes.Si l'an re orrespondàl'itemlexi al attendudansl'énon é,alors nousprédisonsl'item déjàanalyséenin rémentantde1laportion del'énon é analysé.

< A

−→ α • B

{B

1 ,...B

n

}

β,

(i, j), S, U, D >

< B

{B

′

1 ,...B

n+m

′

}

−→ •, (j, j + 1), (S

′

_{, U}

′

_{, D}

′

_{) >}

,ave

B

′

i

=

B

i

si

i

≤ n

,sinon

B

′

i

estlara ined'unedes riptiond'arbresvisible. Unseuldes

B

′

i

est unean re. Lesn÷udsde

{B

′

1 , . . . B

′

n+m

}

n'ontpasdelsni ausensstri tni ausenslarge.

S

′

_{= ∅}

.

U

′

est l'union de

U

B

(ie,

U

′

_{= U ∪ {N ∈ N}

|

N

appartientà

D

età

{B

′

1 , . . . B

n

′

}} ∪ {N ∈ N

|

N

appartientà

S

età

{B

′

1 , . . . B

n

′

}}

).

D

′

estl'ensembledesra inesdesdes riptionsd'arbresdé ro héeslorsdesphasesdeprédi tionqui n'ont pas été utilisées lorsdes neutralisations pré édentes (ie,

D

′

_{= D \ {N ∈ N}

|

N

appartient à

{B

′

1 , . . . B

n

′

}} ∪ S \ {N ∈ N

|

N

appartientà

{B

′

1 , . . . B

n

′

}}

). 3.3.4 La règle de omplétion

Cette règle permet de remonter dans l'arbre d'analyse en onstru tion en validant un sous-arbre d'analyse.

Pour validerlesous-arbred'analyse,il fautvérierqueles des riptionsd'arbresdé ro hées lorsdela phasedeprédi tionaientbienétéra ro hées quelquepartdanslesous-arbred'analyse.

< A

−→ α • B

{B

1 ,...B

n

}

β,

(i, j), (S, U, D) >

< B

{B

′

₁

,...B

_n+m

′

}

−→ γ•, (j, k), (S

′

_{, U}

′

_{, D}

′

_{) >}

< A

−→ αB

{B

1 ,...B

n+m

}

• β, (i, k), (S

′′

_{, U}

′′

_{, D}

′′

_{) >}

,ave

B

′

i

=

B

i

si

B

i

si

i

≤ n

,sinon

B

′

i

étaitunedes riptiond'arbresvisibleàl'étagepré édentdel'analyse.

S

′

_{= ∅}

S

′′

estl'ensembledesra inesdesdes riptionsd'arbresdé ro héesàl'étagepré édentquin'ontpas étéen oreutiliséesdansl'analyse(ie,

S

′′

_{= S \ {N ∈ N}

|

N

appartientà

S

età

U

′

).

U

′′

=

U

′

_{\ {N ∈ N}

|

N

appartientà

S}

D

′′

=

D

′

Unénon éest orre tsil'analyseproduitunitem

<

⊤ −→ S

N

•, (0, n), (∅, U, ∅) >

où

n

estlalongueur del'énon é.

3.4 Implémentation dans LEOPAR

(25)

Lesgrammairesd'intera tiontellesqu'ellessontdé ritesdansLEOPAR omportentquelques proprié-téssupplémentairesparrapportà equiaétédé riten1.2.Eneet,lesn÷udsdesdes riptionsd'arbres portentune informationd'arité sursonnombrede onstituantsimmédiats etdeux n÷udspeuvent par-tagerunemêmevaleurdetrait.

Si e dernier point est invisible pour l'analyse d'une grammaire, la ontrainte d'arité nous permet de diminuerla ombinatoirelorsqu'ongénèretouslesordrespossiblesdeslsdel'ensembledesn÷udsd'un ontexteenphaseprévisionnel.

LEOPAR, lorsdel'étiquetagesyntaxiquedel'énon é(pro édéquipourunitemlexi alséle tionneles des riptionsd'arbres élémentaires orrespondants), rée unautomate à états ni où haque transition orrespondàunedes riptiond'arbresélémentaireetoù haque hemin orrespondàunétiquetagepossible del'énon é.La versiona tuelle de l'algorithmeanalyse haque heminindépendament sansproter de lastru ture en automatede l'énon é.Un travail pro hain serad'analyser dire tement l'automate pour proterdelatabulationdetouslessous-arbresanalyses.

3.5 Exemple de déroulement de l'algorithme

Soit

D

lades riptiond'arbresreprentéeàlagure3.1.

(0,0)

neg = = ?

m ood = = cond | ind | subj

cat -> aux | v

aux = = void

(0,4)

neg = = ?

m ood = = cond | ind | subj

cat < - aux | v

aux = = void

(0,5)

/il/

cat = = clit

(0,1)

m ood = = cond | ind | subj

cat = = v

cat == aux | v

(0,2)

pers = 3

num = sg

gen = m

funct < - subj

cat -> np

(0,3)

typ = decl

m ood = = cond | ind | subj

cat = = s

(1,0)

pers = 3

num = sg

funct -> subj

cat < - np

(1,2)

tense = pres

reflex = = false

pers = 3

num = sg

m ood = = ind

cat < - v

aux = = void

(1,1)

/dort/

tense = pres

reflex = = false

pers = 3

num = sg

neg = = false

m ood = = ind

cat -> v

aux = = void

cat == v

(1,3)

m ood = = ind

cat -> s

(2,0)

/./

cat = = punct

(2,1)

typ = decl

tense = ?

m ood = = cond | ind

cat < - s

(2,2)

typ = decl

tense = ?

m ood = = cond | ind

cat = = s

Fig.3.1 Des riptiond'arbresdel'énon éIldort.

Et

W

l'énon ésuivant:

0 Il

1 dort

2 .

3

(26)

0

<

⊤ −→ • S

{(0,3)}

,

(0, 0)

,

({(1, 3), (2, 2)}, {(0, 3)}, ∅) >

A 1

<

⊤ −→ • S

{(2,2)}

,

(0, 0)

,

({(0, 3), (1, 3)}, {(2, 2)}, ∅) >

A 2

<

⊤ −→ • S

{(0,3,)(2,2)}

,

(0, 0)

,

({(1, 3)}, {(0, 3), (2, 2)}, ∅) >

A 3

< S

{(0,3)}

−→ • N P

{(0,2)}

V

{(0,1)}

,

(0, 0)

,

(∅, {(0, 3)}, {(1, 3), (2, 2)}) >

P0 4

< S

{(2,2)}

−→ • S

{(2,1)}

.

{(2,0)}

,

(0, 0)

,

(∅, {(2, 2)}, {(0, 3), (1, 3)}) >

P1 5

< S

{(1,3),(2,1)}

−→ • N P

{(1,0)}

V

{(1,2)}

,

(0, 0)

,

(∅, {(1, 3), (2, 2)}, {(0, 3)}) >

P4 6

< S

{(0,3),(1,3),(2,1)}

−→ • N P

{(0,2),(1,0)}

V

{(0,1),(1,2)}

,

(0, 0)

,

(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >

P4 7

< N P

{(0,2),(1,0)}

−→ •

,

(0, 0)

,

(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >

P7 8

< S

{(0,3),(1,3),(2,1)}

−→ N P

{(0,2),(1,0)}

• V

{(0,1),(1,2)}

,

(0, 0)

,

(∅, {(0, 3), (1, 3), (2, 2)}, ∅) >

C68 9

< V

{(0,0),(0,1),(1,2)}

−→ • il

{(0,5)}

V

{(0,4)}

,

(0, 0)

,

({(1, 1)}, {(0, 3), (1, 3), (2, 2)}, ∅) >

P8 10

< il

{(0,5)}

−→ •

,

(0, 1)

,

(∅, {(0, 3), (1, 3), (2, 2)}, {1, 1}) >

B9 11

< V

{(0,0),(0,1),(1,2)}

−→ il

{(0,5)}

• V

{(0,4)}

,

(0, 1)

,

({(1, 1)}, {(0, 3), (1, 3), (2, 2)}, ∅) >

C1011 12

< dort

{(0,4),(1,1)}

−→ •

,

(1, 2)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

B11 13

< V

{(0,0),(0,1),(1,2)}

−→ il

{(0,5)}

dort

{(0,4),(1,1)}

•

,

(0, 2)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

C1112 14

< S

{(0,3),(1,3),(2,1)}

−→ N P

{(0,2),(1,0)}

V

{(0,0),(0,1),(1,2)}

•

,

(0, 2)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

C713 15

< S

{(2,2)}

−→S

{(0,3),(1,3),(2,1)}

• .

{(2,0)}

,

(0, 2)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

C414 16

< .

{(2,0)}

−→ •

,

(2, 3)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

B15 17

< S

{(2,2)}

−→S

{(0,3),(1,3),(2,1)}

.

{(2,0)}

•

,

(0, 3)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

C1516 18

<

⊤ −→ S

{(2,2)}

•

,

(0, 3)

,

(∅, {(0, 3), (1, 1), (1, 3), (2, 2)}, ∅) >

C117 Cetteanalyse orrespondàla onstru tiondumodèleprésentéàlagure3.2.

(0,0)-(0,1)-(1,2)

tense = pres

reflex = = false

pers = 3

num = sg

neg = = false

m ood = = ind

cat < = > v

aux = = void

(0,4)-(1,1)

/dort/

tense = pres

reflex = = false

pers = 3

num = sg

neg = = false

m ood = = ind

cat < = > v

aux = = void

(0,5)

/il/

cat = = clit

(0,2)-(1,0)

pers = 3

num = sg

gen = m

funct < = > subj

cat < = > np

(0,3)-(1,3)-(2,1)

typ = decl

tense = ?

m ood = = ind

cat < = > s

(2,0)

/./

cat = = punct

(2,2)

typ = decl

tense = ?

m ood = = ind

cat = = s

(27)

Résultats expérimentaux et on lusions

4.1 Premiers résultats

L'implémentation a tuelle de l'algorithme dans LEOPAR n'est pas assez robuste pour évaluer les performan esréellesdel'algorithme omparéauxstratégiesd'analysedéjàimplémentées(ilexiste a tuel-lement deux analyseurs, un analyseur de typeShift/Redu e et unautre de type CYK).Cependant de premiersrésultatsnouspermettentd'ee tuerquelquespointsde omparaison:

Ainsi,lavitessed'analysepourlesphrasespeuambiguësestsensiblementlamêmepourtoutesles stratégiesd'analyse.Cependantl'analyseurdeEarleyàtendan eàêtremoinse a elorsqueungrand nombredesra inesdesdes riptionsd'arbresélémentairesdelagrammairepeuventêtrepotentiellement in lusdansle ontextedun÷udra ined'unmodèle.Celaimpliqueune ombinatoirefortedésledébut del'analyse, etdon unelégèrebaissedeperforman es.

Deplus, ommepourl'instantl'algorithmeanalyse haqueétiquetaged'unénon éet nonun auto-mate, elui- ine tabulepasd'unétiquetage àl'autre.C'est pour elaquepourlesphrasesfortement ambiguës, nous remarquons une sensible hute de performan es omparéà son homologue tabulaire CYK. Cependant, et même si ela devra être vérié par une évaluation àplus grande é helle, nous pensons que lorsque l'algorithme tabulera sur l'automate en entrée, nous devrions avoir un gain de performan e assezimportantde sortequele temps d'analyse soit omparableautemps d'analyse de CYK.

Un autre problème est lié à l'analyse tabulaire. En eet, que e soit pour l'algorithme CYK ou Earley,ilyaassezviteuneexplosiondel'espa emémoireutiliséparl'analyseur.Deplus,de epoint devuelà,l'algorithmedeEarleyest toutdemêmeplusgourmandqueCYK.Celaestdûàla réation detropd'itemsinutiles lorsde laphasedeprédi tion.Nonseulement ette surgénérationfait baisser lesperforman esdel'analysemaiselleimpliqueaussiuneexplosiondelatailledutableau.

4.2 Pistes d'amélioration

L'algorithmedeEarleytelqu'ilaétéprésenté,bienquemoinsperformantquelesstratégiesd'analyse quiexistentdéjàpourlesgrammairesd'intera tion,proposeunealternative rédible.Eneet, ertaines pistesd'améliorationpossiblesnous laissentàpenser quel'algorithme puisse êtreaussi performantque seshomologuesexistants:

L'introdu tion d'un symbole initial dans la grammairepermettraitde sensiblement diminuerla ombinatoireendébutd'analyse,etpermettraitainsiungaindeperforman enotablepourlesphrases lespluslongues.

La tabulation, quand ellesera orre tement implémentée pourl'algorithme de Earley dans LEO-PAR, devraitthéoriquementpermettred'obtenirdesperforman es omparablesàCYK.

Enn, la grande faiblesse du Earley développéreste la surgénération d'items lorsde la phase de prédi tion.Celaentraîneunperted'e a ité entemps eten espa e.Nousproposonsdeuxpremières pistespourdiminuer ette ombinatoire:

(28)

Unepremièreidéeseraitdediminuer ette ombinatoireenessayantd'endes endreunepartieleplus bas possibledans l'analyse.Pour ela, eseraitpeut-êtreintéressantlorsde laphasedeprédi tion de nepas onstruire de ontextesave des n÷udsn'apportantau unepolarité(les n÷uds neutres) etdelesre ollerseulements'ilsdeviennentné essairespouravan erdanslesous-arbred'analyse.Ce pro édérenfor eraitl'analysedupointdevuedeladualitébesoins-ressour es.

Unedeuxièmeidéepourraitêtred'ee tueruneanalysedeEarleyguidée.Eneet,defaçonsimilaireà equeproposePierreBoulierpouruneanalysedeEarleyguidéepourlesgrammairesd'arbresadjoints ([Bou03℄),ilseraitpossiblede réerunguideàpartirdesdes riptionsd'arbresdelagrammairequi restreindraitle hoixdesitemsproduitslorsdelaprédi tion.

4.3 Con lusion

Nousavonsprésenté dans erapportunalgorithmed'analysedes endantepourlesgrammaires d'in-tera tion.Cetalgorithmeafaitl'objetd'uneimplémentationdansLEOPAR.Ce inousapermisdenous rendre ompteque etanalyseurpouvaitêtreunealternative rédibleauxstratégiesd'analysesexistantes

(29)

[BGP03℄ G. Bonfante, B. Guillaume, and G. Perrier. Analyse syntaxique éle tostatique. Traitement AutomatiquedesLangues ,44:3Évolutionsenanalysesyntaxique, 2003.

[Bou03℄ Pierre Boullier. Guided Earley parsing. InPro eedings of the 8th International Workshop on ParsingTe hnolog ies (IWPT03), pages4354,Nan y,Fran e,April2003.

[Ear70℄ JayEarley. An e ient ontext-freeparsingalgorithm. Commun.ACM ,13(2):94102,1970. [JLT75℄ AravindK.Joshi,LeonS.Levy,andM.Takahashi.Treeadjuntgrammars.JournalofComputer

andSystemS ien es,10(1):136162,February1975.

[KNT01℄ AlexanderKoller,Joa himNiehren,andRalfTreinen.Dominan e onstraints:Algorithmsand omplexity. InM.Moortgat,editor, Third International Conferen e on Logi al Aspe tsof Com-putational Linguisti s (De . 1998, Grenoble, Fran e), volume 2014of Le ture Note in Arti ial Intelligen e ,pages106125,Heidelberg,2001.Springer-Verlag.

[Per02℄ GuyPerrier.Des riptionsd'arbresave polarités:lesgrammairesd'interation.InTALN02 ,2002. [RVS92℄ J.RogersandK.Vijay-Shanker. Reasoningwithdes riptionsoftrees,1992.

[Ré00℄ Christian Rétoré. Systèmes dédu tifs et traitement des langues :un panorama des grammaires atégorielles. Traitementautomatique dulangage naturel ,20(3):301336,2000.

[SJ88℄ YvesS habesandAravindK.Joshi. AnEarley-typeparsingalgorithm fortreeadjoining gram-mars. InPro . of 26thAnnual Meetingof the Asso iation for Computational Linguisti s, pages 258269,Bualo,NY, USA,June1988.ACL.

[Vil99℄ Éri VillemontedelaClergerie.Tabulationet traitementdelalangue. ATALA,Cargèse,Corse, Fran e,July1999. Tutorielprésentéàla

6

ème

onféren eannuellesurleTraitementAutomatique desLanguesNaturelles(TALN'99).

[VS92℄ K.Vijay-Shanker. Using des riptionsof trees in atree adjoininggrammar. Comput. Linguist., 18(4):481517,1992.