Gramatické závislosti vs. koordinace z pohledu redukˇcní analýzy
Markéta Lopatková, Jiˇrí Mírovský a Vladislav Kuboˇn
Univerzita Karlova v Praze, Matematicko.fyzikální fakulta, Ústav formální a aplikované lingvistiky Malostranské nám. 25, Praha 1, 118 00, ˇCeská republika
{vk,lopatkova,mirovsky}@ufal.mff.cuni.cz Abstrakt: Tento pˇríspˇevek se vˇenuje identifikaci zají-
mavých konstrukcí v syntakticky anotovaném korpusu (Pražském závislostním korpusu, PDT) metodou auto- matické redukˇcní analýzy. Rozšiˇrujeme zkoumané kon- strukce zejména o koordinaˇcní a apoziˇcní vztahy, které mají zˇretelnˇe ne-závislostní charakter a vedou tedy k zo- becnˇení používané redukˇcní metody. Pˇrinášíme klasifikaci zkoumaných konstrukcí a soustˇred’ujeme se na popis a analýzu jednotlivých jazykových jev˚u, které pˇri zpraco- vání p˚usobí problémy.
Tato studie je motivací pro formální modelování metod zpracování pˇrirozeného jazyka.
1 Motivace
Jedním ze dvou základních a obecnˇe uznávaných zp˚usob˚u reprezentace syntaktických vztah˚u ve vˇetách pˇrirozeného jazyka je závislostní strom. Tento zp˚usob reprezentace má v ˇceské lingvistice dlouhou tradici (na rozdíl od druhého rozšíˇreného typu stromu – složkového). Pˇrestože vztah zá- vislosti (neboli vztah mezi ˇrídícím a závislým vˇetným ˇcle- nem, jako je napˇr. pˇrísudek a jeho pˇredmˇet ˇci podstatné jméno a jeho pˇrívlastek) je velmi d˚uležitý, doplˇnují jej i dva další základní syntaktické vztahy, jmenovitˇe slovosled (tj. lineární poˇradí slov ve vˇetˇe) a ,zmnožení‘ dvou nebo více vˇetných ˇclen˚u.1
Zatímco v pˇredchozích studiích jsme se soustˇred’ovali na vztahy závislosti a slovosledu [2], v tomto ˇclánku zkou- máme i vztahy koordinaˇcní a apoziˇcní, vˇenujeme se tedy pˇrípad˚um, kdy je jedna syntaktická pozice ,zmnožena‘.
Ukázali jsme již, že závislostní relace lze s úspˇechem de- finovat pomocí redukˇcní analýzy [3, 4], což jsme ovˇeˇrili na vˇetách z Pražského závislostního korpusu (PDT) [5].
Na nˇe jsme aplikovali poloautomatickou proceduru dopl- nˇenou o následnou ruˇcní kontrolu. Této metody se držíme i v tomto ˇclánku. Umožˇnuje nám verifikovat náš teoretický koncept prostˇrednictvím reálných dat.
Smyslem našeho experimentu je jednak získat hlubší vhled do syntaxe pˇrirozeného jazyka, jednak prostˇrednic- tvím automatizovaného postupu identifikovat urˇcitá ne- standardní ˇci problematická místa syntaktické anotace dat, se kterými pracujeme. V otázce syntaktických vlastností jazyka náš pˇrístup umožˇnuje oddˇelit jednotlivé jevy a zkoumat je jak jednotlivˇe, tak i ve vzájemné interakci.
1Tesnière [1] jednak rozlišuje mezi lineárním a strukturním poˇradím, jednak dˇelí strukturní vztahy na ty, které dnes oznaˇcujeme jako závis- lostní (,connexion‘), a na vztahy koordinaˇcní (,junction‘).
V oblasti anotace vycházíme z jednoduchého pˇredpo- kladu (potvrzeného pˇredchozími experimenty), že pokud urˇcitá konstrukce nejde zpracovat automatickými pravidly redukˇcní analýzy, signalizuje to možnou nekonzistentní nebo nevhodnˇe zvolenou anotaci (napˇríklad dva odlišné jevy anotované shodnými znaˇckami – v takovém pˇrípadˇe obvykle automatická redukˇcní analýza nedokáže oba pˇrí- pady rozlišit).
V kontextu závislostní lingvistiky byly vztahy mezi zá- vislostí a slovosledem studovány zvláštˇe v Melˇcukovˇe teorii Smysl↔Text: jeho pˇrístup zamˇeˇrující se na urˇco- vání závislostních vztah˚u a jejich formální popis je shr- nut zejména v práci [6]. Alternativní formální popis závis- lostní syntaxe m˚užeme najít v práci [7]. Náš pˇrístup k da- nému problému naproti tomu vychází z ˇceské lingvistické tradice reprezentované zejména v knize [8].
Protože základním nástrojem, který používáme ke stu- diu výše zmínˇených jev˚u, je redukˇcní analýza, musíme ji na tomto místˇe alespoˇn struˇcnˇe pˇredstavit: zhruba ˇre- ˇceno, pokud jedno ze slov, která tvoˇrí potenciální dvojici ˇrídícího a závislého slova, m˚uže být z vˇety odstranˇeno, aniž by se zmˇenily distribuˇcní vlastnosti celého páru (tj.
jeho schopnost objevovat se ve stejném syntaktickém kon- textu), potom je toto slovo považováno za závislé (modifi- kující druhý ˇclenu páru). Takto m˚užeme postupovat u tzv.
endocentrických konstrukcí, kde lze jedno slovo reduko- vat, aniž by se zmˇenil možný syntaktický kontext (napˇr.
malý st˚ul –> st˚ul; Jdi dom˚u! –> Jdi!). Pro exocentrické konstrukce, kde žádné slovo vypustit nelze (jakoPetr po- tkal Marii., kdePetr potkal.má jiné vlastnosti) lze použít analogický princip na úrovni slovních druh˚u [8].2
D˚uvod pro využívání redukˇcní analýzy je jednoduchý – umožˇnuje rozdˇelit proces syntaktické analýzy vˇety do jed- notlivých, dobˇre definovaných a dobˇre oddˇelených krok˚u, a tím zároveˇn dovoluje zkoumat jednotlivé jevy oddˇelenˇe.
Metoda redukˇcní analýzy byla podrobnˇe popsána v ˇclán- cích [3, 4], její formální model založený na restartovacích automatech je pˇredstaven v ˇcláncích [9, 10, 11]. Jedním z cíl˚u tohoto ˇclánku je také poskytnout materiál a motivaci pro další formální modelování metod zpracování pˇriroze- ného jazyka, viz napˇr. [12].
2Zhruba ˇreˇceno, protože existují bezpˇredmˇetná slovesa, budeme ob- jekt (pˇredmˇet) považovat za závislý na slovese; protože existují bezpod- mˇetná slovesa, považujeme subjekt (podmˇet) za závislý na slovese.
2 Redukˇcní analýza
V této kapitole popíšeme základní myšlenku naší metody používané pro analýzu vˇet.Redukˇcní analýza (RA)je za- ložena na postupném zjednodušování analyzované vˇety.
Definuje možné posloupnosti redukcí vˇety – každý krok RA spoˇcívá vodstranˇeníalespoˇn jednoho slova ze vstupní vˇety (operace ‘delete’); ve specifických pˇrípadech je od- straˇnování doprovázeno pˇremístˇením slova na jinou slo- voslednou pozici (operace ‘shift’).
Uved’me nyní základní omezení, která uplatˇnujeme na redukˇcní analýzu:
(i) pˇrirozené omezení nutící zachovávat jednotlivé slovní tvary, jejich morfologické charakteristiky a jejich povrchové závislostní vztahy;
(ii) omezení vyžadující zachování správnosti (gra- maticky správná vˇeta musí z˚ustat správná i po provedeném zjednodušení);
(iii) aplikace operace pˇresunutí je omezená na pˇrípady, kdy je vynucena principem zachování správnosti RA (ii).
Povšimnˇeme si, že poˇradí redukcí odpovídá závislost- ním vztah˚um mezi jednotlivými vˇetnými ˇcleny, a tedy je- jich závislostní stromové reprezentaci tak, jak je to po- psáno v pracích [4, 11]. Zhruba ˇreˇceno, pˇri redukcích po- stupnˇe vypouštíme slova, která jasou reprezentována listy (pˇrípadnˇe podstromy) závislostního stromu.
Pokusme se ukázat základní principy RA na pˇríkladu ˇceské vˇety (1).
Pˇríklad:
(1)Petr se bojí o otce.
Ve vˇetˇe (1) lze subjektPetrpovažovat za závislý (viz prin- cip analogie), proto ho pˇri RA lze odstranit (v závislost- ním stromˇe je reprezentován listem, viz obrázek 1). Ovšem tento krok by vedl k porušení správnosti vˇety, musí tedy být doprovázen zmˇenou slovosledu Petr se bojí o otce.
→delete * se bojí o otce. →shi f t bojí se o otce.. Dále lze vypustit spojenío otce, které je ve stromˇe znázornˇeno pod- stromem (výbˇer ˇrídícího uzlu je dán technickými pravidly, viz [3]). Klitikaseje podle principu analogie považována za závislý ˇclen (nebot’ existují slovesa bez klitiky, napˇr.
odpovˇedˇet).
3 Data z Pražského závislostního korpusu
Aˇckoliv základní princip redukˇcní analýzy je jednoduchý a rodilým mluvˇcím daného jazyka obvykle neˇciní potíže vˇetu zredukovat až k jejímu ˇrídícímu slovesu, automatické modelování tohoto postupu je pomˇernˇe obtížné. Tento roz- díl je zp˚usoben tím, že ˇclovˇek pˇri redukˇcní analýze m˚uže využít (a využívá) toho, že vˇetˇe rozumí, umí oddˇelit ménˇe
Petr
bojí
otce
se o
Obrázek 1: Závislostní strom vˇety (1).
podstatné vˇetné ˇcleny a postupnˇe dojít až k úplné redukci.
Pokusíme-li se o automatickou RA, musíme porozumˇení nˇejakým zp˚usobem nahradit. Jednou možností je využití syntakticky anotovaných dat, která v sobˇe urˇcitým zp˚uso- bem obsahují porozumˇení, vložené do anotace ˇclovˇekem- anotátorem.
V našich experimentech využíváme data z Pražského závislostního korpusu 3.0 (PDT, viz [5]).3 Syntaktická struktura jednotlivých vˇet z korpusu – zachycená závis- lostními stromy (vždy právˇe jeden strom pro každou vˇetu) – poskytuje základní informace nutné pro úspˇešné prove- dení automatické RA.
PDT obsahuje velmi podrobnou anotaci témˇeˇr 49 500 ˇceských vˇet (v experimentech využíváma pouze data s anotací na všech rovinách PDT). Anotace je provedena na více úrovních, z nichž je pro naše úˇcely nejd˚uležitˇejší úroveˇn analytická. Ta popisuje (povrchovou) syntaktickou strukturu pomocí tzv. analytických funkcí. V našich ex- perimentech pracujeme pouze s trénovacími daty (43 955 vˇet) a zbylé vˇety (tzv. ‘etest’) ponecháváme stranou jako testovací množinu pro budoucí evaluaci.
Pro reprezentaci vˇetné stavby se v PDT používá koˇre- nový strom. Vztahy mezi ˇclenem ˇrídícím a závislým, vy- tváˇrejícími vˇetnou dvojici, jsou znázornˇeny jako vztahy mezi dvˇema uzly stromu, kde uzel reprezentující ˇrídící ˇclen je rodiˇcem a uzel reprezentující závislý ˇclen je potom- kem. Jejich spojnice (hrana ve stromˇe) odpovídá (prototy- picky) syntaktickému vztahu závislosti mezi rodiˇcovským uzlem a jeho potomkem.
V pˇredchozích experimentech, popsaných v ˇcláncích [2, 13], jsme se zámˇernˇe vyhýbali vˇetám, které obsahovaly koordinace a apozice, protože tyto jevy by byly pro po- ˇcáteˇcní fázi výzkumu pˇríliš komplikované. Podstatou ko- ordinace a apozice je ,zmnožování‘ jednotlivých vˇetných ˇclen˚u nebo jednotlivých klauzí. Pˇri koordinaci jde o zˇre- tˇezení více entit (otec a matka), popˇr. dˇej˚u (pˇrišel, vidˇel a zvítˇezil), pˇri apozici jde o nˇekolikeré oznaˇcování jedné a téže entity (Karel, král ˇceský), viz [14].
Protože koordinace ani apozice nepˇredstavují jevy, které by v sobˇe obsahovaly pˇrirozenou závislost, bývají v syn- taktických stromech reprezentovány r˚uzným zp˚usobem [15]. V závislostních stromech používaných v PDT jsou tyto jevy zachyceny tzv. spojovací konstrukcí (viz pˇríklad (2) a strom na obrázku 2). Koˇrenem souˇradných struktur je umˇelý ,spojovací‘ uzel; z d˚uvod˚u ˇcistˇe technických je jeho lexikální hodnotou lemma souˇradicí spojky (ˇci lemma vý- razu signalizujícího apozici). Vlastní koordinované/apo-
3http://ufal.mff.cuni.cz/pdt3.0/
nované výrazy jsou spojeny s tímto koˇrenem hranami, které mají ne-závislostní charakter. Celá spojovací kon- strukce je potom spojena s ˇrídícím uzlem celé koordinaˇcní struktury další (nezávislostní) hranou.
Pˇríklad:
(2) ˇCao býval generálním tajemníkem strany a oficiálním Tengovým následníkem.
Závislostní strom vˇety (2), tak jak je zachycen na analy- tické rovinˇe PDT, je uveden na obrázku 2. Napˇríklad hrana mezi uzlybývala ˇCaoreprezentuje závislostní vztah pre- dikátu a subjektu. Spojovacím výrazem pro koordinaci je zde uzel pro spojku a, koordinovanými ˇcleny výrazyta- jemníkemanásledníkema ˇrídícím uzlem celé konstrukce sponabýval.
a-ln94200-123-p12s1
Čao býval
generálním tajemníkem
Co strany
a
oficiálním Tengovým následníkem
Co .
Sb Pred
Atr Pnom_
Atr Coord
Atr Atr
Pnom_
AuxK
Obrázek 2: Závislostní strom vˇety (2) podle pravidel PDT (dále již pro jednoduchost neuvádíme technický koˇren stromu (obsahující ID dané vˇety) a koncovou interpunkci).
4 Automatická redukˇcní analýza na datech PDT
Návrh automatické redukˇcní analýzy vyžaduje peˇclivý ná- vrh redukˇcních pravidel tak, aby byl v každém kroku ana- lýzy zajištˇen požadavek na zachování správnosti reduko- vaných vˇet. Postupuje se ,zdola nahoru‘ – postupným re- dukováním list˚u závislostního stromu z PDT (který nahra- zuje porozumˇení dané vˇetˇe), pˇriˇcemž nejprve se vždy re- dukují uzly bezprostˇrednˇe sousedící se svým ˇrídícím uz- lem; následuje redukce uzl˚u spojených s ˇrídícím uzlem projektivní hranou.
Pˇritom je zachovávána d˚uležitá podmínka na zachování neprojektivity – nelze redukovat uzel tak, aby z vˇety ,zmi- zela‘ neprojektivní konstrukce.
4.1 Pravidla pro RA bez koordinace a apozice V pˇredchozí etapˇe projektu jsme pˇredstavili soubor pra- videl pro automatickou RA [13, 2] – ukázalo se, že pro
vˇety bez koordinaˇcní ˇci apoziˇcní struktury automatická RA dobˇre koresponduje s lingvistickou analýzou zachy- cenou v PDT. Intuitivní RA musela být zjemnˇena tak, aby byly správnˇe zpracovány zejména následující jevy, které pˇresahují ˇcistˇe závislostní vztahy – typicky tam, kde je nutné pro zachování správnosti redukované vˇety brát v úvahu slovosled:
klitiky: klitiky (zejm.se/si,by, krátké tvary zájmen (mu, ji apod.)) vyžadují urˇcité postavení ve vˇetˇe, typicky za první pˇrízvuˇcnou pozicí; toto pravidlo je nutno pˇri RA zohlednit;
srovnání: srovnávací konstrukce (typicky uvozené vý- razy jako, než, dálecoby,jakoby, jakožto) vyžadují zvláštní zpracování, nebot’ jde ˇcasto o eliptické kon- strukce (Petr má vˇetší auto než Pavel. = Petr má vˇetší auto [než je auto, které má] Pavel.) a jako takové se vyznaˇcují složitou analýzou (která je závislá na pod- kladové lingvistické teorii);
neprojektivity: pˇri automatické analýze jsme se omezili na zpracování projektivních konstrukcí, nebot’ nepro- jektivity odhalují interakci slovosledu a závislostních vztah˚u, která je dále studována, viz zejm. [13];
pˇredložky, pomocná slovesa apod.: v RA se redukují v jednom kroku vždy celé vˇetné ˇcleny (napˇr. pˇred- ložka+podstatné jméno v redukciPˇrišli do školy. –>
Pˇrišli.); protože v PDT každému slovu, vˇcetnˇe tˇechto ,pomocných‘ slov, odpovídá jeden uzel, musí se re- dukovat nˇekolik uzl˚u stromu najednou;
slova pˇrekraˇcující závislostní vztahy: RA byla oboha- cena o pravidla pro zpracování zd˚urazˇnujících slov (napˇr. zejména,také,iapod.) a o technická pravidla pro zpracování interpunkce, grafických symbol˚u (zá- vorky, uvozovky atd.) apod.
4.2 Pravidla pro RA se zpracováním koordinace a apozice
Další krok pˇri zobecˇnování RA spoˇcívá v zamˇeˇrení se na paradigmaticky odlišné konstrukce, a to konstrukce koor- dinaˇcní (a apoziˇcní), které jsou charakterizovány zmnože- ním pˇríslušné syntaktické pozice.
Pravidla pro automatickou RA obohacenou o zpraco- vání koordinace a apozice:
0. Ve vstupní vˇetˇe jsou zpracovány jevy nevstupující do (dané) koordinaˇcní ˇci apoziˇcní struktury (vˇcetnˇe spo- leˇcného rozvití koordinovaných vˇetných ˇclen˚u), které lze zpracovat podle pravidel shrnutých výše.
Tento krok se provádí jako mezikrok po každém úspˇešném zpracování koordinaˇcní ˇci apoziˇcní struktury.
1. Pˇri zpracování koordinaˇcních a apoziˇcních struktur se vždy redukuje spojovací výraz (typicky koordinaˇcní spojka ˇci interpunkce) spolu s koordinovanými (ˇci apono- vanými) výrazy.
2. Všechny koordinované (ˇci aponované) ˇcleny se re- dukují v jediném kroku analýzy. Teoreticky nelze ome- zit poˇcet koordinovaných ˇclen˚u; pˇrestože v datech PDT se obvykle koordinuje 2-5 ˇclen˚u, v jednom pˇrípadˇe se koor- dinuje 57 ˇclen˚u (televizní program syntakticky strukturo- vaný do vˇety), u apozic jde až o 15 ˇclen˚u.
3. Zd˚urazˇnovací syntaktické ˇcástice a všechna pomocná slova, interpunkce, grafické symboly apod. se redukují zá- roveˇn v jednom kroku RA (podle dˇríve stanovených pravi- del).
4. Koordinace a apozice dovolují zanoˇrování. Opˇet jde teoreticky o neomezený poˇcet zanoˇrení, viz [16]; v datech PDT se vyskytlo 6 úrovní zanoˇrení koordinací a apozic (pˇrehled sportovních výsledk˚u).
I v této fázi se soustˇred’ujeme pouze na automatické zpra- cování projektivních konstrukcí; neprojektivní konstrukce jsou analyzovány ruˇcnˇe.
Kroky 1-3 redukˇcní analýzy ilustrujeme na následujícím pˇríkladu (3).
Pˇríklad:
(3)Dˇeti ˇcesaly zralé meruˇnky, modré blumy a také zelená jablka.
(Kde pˇrídavné jménozralé je analyzováno jako spoleˇcné rozvití slovmeruˇnky,blumyajablka, viz obr. 3.)
a česaly
jablka zralé
Děti
blumy
zelená meruňky , také
modré
Obrázek 3: Závislostní strom vˇety (3) (podle pravidel PDT, bez technického koˇrene a koncové interpunkce).
Krok 0: Redukují se všechna slova, která nevstupují do koordinace (získáme tím ,kostru koordinace‘ se spoleˇcným rozvitím:
–> ˇcesaly zralé meruˇnky, blumy a také jablka.
Dále se redukuje spoleˇcné rozvití koordinace:
–> ˇcesaly meruˇnky, blumy a také jablka.
Krok 1 a 2:
- redukuji se všechny ˇcleny koordinacemeruˇnky, blumy, jablka
- redukuje se spojovací uzel, tedy koordinaˇcní spojkaa Krok 3: Zároveˇn se v témže kroku RA zpracovávají zd˚u- razˇnovací slova a interpunkce:
- redukuje se zd˚urazˇnovacítaké - redukuje se interpunkˇcní ˇcárka
- redukuje se koncová interpunkˇcní teˇcka –> ˇcesaly
Manuální analýza automatických redukcí získaných z PDT vedla k dalším zpˇresnˇením pravidel, která se týkala zejména následujících jev˚u.
Další pravidla pro automatickou RA obohacenou o zpracování koordinace a apozice:
5. Zpracovávají se vˇety s koordinaˇcní spojkou, kde se však ,koordinuje‘ jediná klauze (ˇci vˇetný ˇclen) a kde tedy koordinaˇcní spojka plní funkci odkazu k pˇredcházejícímu kontextu. Napˇr.
Nemáme proto potížese získáváním trhu pro své výrobní odpady.
–> Nemáme proto potíže
(Dále se neredukuje kv˚uli neprojektivitˇe.)
6. Víceslovné spojky a syntaktické ˇcástice vztahující se k celé koordinované klauzi (typicky v PDT zachycované jako potomek spojovacího výrazu) se redukují v jednom kroku se spojovacím výrazem. Napˇr.:
Jsoubud’ nedostupná, nebo nedostaˇcující.
–> Jsou
(Redukce probíhá v jediném kroku: spojovacím uzlem je podle pravidel PDT koordinaˇcní spojka nebo, druhá ˇcást spojovacího výrazu bud’ musí být redukována zároveˇn (pravidlo 6); koordinované ˇcleny nedostupná a nedosta- ˇcujícíse redukují podle kroku 1, interpunkˇcní ˇcárka podle kroku 3.)
Další pravidla se již se netýkají specificky koordinací:
7. Adekvátnˇeji se redukují konstrukce s modálním slove- sem (napˇr.mˇely tvoˇrit) a s verbonominálním predikátem (napˇr.Je uˇcitelem, viz též vˇetu (2)): vnitˇrní struktura tˇechto konstrukcí je zjednodušována až na závˇer RA.
8. Emocionální a rytmizující ˇcásticemi,vám,si,to,ono apod. jsou redukovány kdykoli v pr˚ubˇehu redukce, i pokud jde o klitiky.
5 Lingvistická analýza zajímavých pˇríklad˚u
Podívejme se nyní podrobnˇeji na jevy, u kterých bud’ (po- vrchová) redukˇcní analýza nedává uspokojivé výsledky, nebo odhaluje zajímavé syntaktické konstrukce.
Pozice klitiky v koordinované klauzi. Podle Encyklope- dického slovníku ˇceštiny [17] je pˇríklonka (klitika) slovo (zpravidla krátké), které nemá vlastní pˇrízvuk, tvoˇrí pˇrí- zvuˇcný celek (takt) se slovem pˇredcházejícím. Klitiky mají v ˇceštinˇe pevné slovosledné postavení (zpravidla) za prv- ním pˇrízvuˇcným celkem (první pozicí) ve vˇetˇe (tzv. Wac- kernagelova pozice). Syntaktický popis první pozice je po- mˇernˇe komplexní [18], pro naše úˇcely staˇcí konstatování, že klitika nesmí stát na prvním místˇe ve vˇetˇe.
Ponˇekud nejasná situace nastává v pˇrípadˇe klitiky ve druhé (a další) koordinované klauzi. Souˇradicí spojky stojí podle ˇceských gramatik mimo koordinované klauze, proto by po nich mˇel následovat pˇrízvuˇcný celek a teprve potom pozice pro klitiky. To platí napˇr. pro nˇekteré spojky sluˇco- vací (a,i) a odporovací (ale):
Cesta sice nˇeco stojí, ale zákazníci se o kvalitˇe produkce pˇresvˇedˇcí na vlastní oˇci.
–> cesta sice stojí, alezákaznícise pˇresvˇedˇcí
–> * cesta sice stojí, alesepˇresvˇedˇcí
Diskuse by se pˇrenesla [...], azcelaby vyboˇcila z hranic ekonomie.
–> * Diskuse by se pˇrenesla [...], abyvyboˇcila z hranic ekonomie.
Oproti tomu u ˇrady dalších souˇradicích spojek (napˇr.
sluˇcovací/vyluˇcovací nebo, pˇríˇcinné nebot’, d˚usledkové (a) proto, vysvˇetlovacívždyt’) m˚uže tato spojka sama tvo- ˇrit první pˇrízvuˇcný celek, klitika tedy m˚uže (ale nemusí) následovat bezprostˇrednˇe po ní:
Film m˚užeme považovat za plnˇe autorský, nebot’Chabrol si k nˇemu napsal i scénáˇr [...].
–> m˚užeme, nebot’ si k nˇemu napsal i scénáˇr
Podrobnˇejší lingvistický rozbor slovosledných omezení ve vztahu ke klitikám lze nalézt v knihách [19, 20].
Nejsme si však vˇedomi, že by problematika koordinaˇcní spojky a postavení klitiky byla pro ˇceštinu v lingvistické literatuˇre popsána.
Koordinace s elidovanými vˇetnými ˇcleny. Podobnˇe jako u srovnávacích konstrukcí též u koordinaˇcních spojení ˇcasto dochází k elipse ˇcásti syntaktické struktury (tzv.
aktuální elipsa). V (povrchových) závislostních stromech PDT se elipsa nerekonstruuje, vˇetné ˇcleny syntakticky zá- vislé na ˇclenu vypuštˇeném se zavˇešují tam, kde by visel ˇclen vypuštˇený (a oznaˇcují se speciální analytickou funkcí ExD).
Takové pˇrípady ovšem zp˚usobují pˇri automatické RA problémy, nebot’ pˇri redukci m˚uže docházet k porušení plynulosti (ˇci alespoˇn stylistické souvislosti) redukova- ných vˇet (i když z hlediska ˇcistˇe formální syntaxe jsou správnˇe):
[...], Flintstoneovi sice nepˇrinášejí zábavunároˇcnou, ale ani nevkusnˇe prostoduchou. (= prostoduchou zábavu) –> ??[...], Flintstoneovi sice nepˇrinášejí zábavu, ale ani nevkusnˇe prostoduchou.
[...] jsou a zdaleka ne tak ˇcasté jako ˇredˇení zmrzlin. (=
jako je ˇcasté ˇredˇení zmrzlin)
–> ?? [...] jsou a zdaleka ne ˇcasté jako ˇredˇení zmrzlin.
Možným ˇrešením je zcela vylouˇcit eliptické konstruk- ce související s koordinací z automatického zpracování (vzhledem k takto vzniklým nepravidelnostem obvykle nelze vˇety tohoto typu úspˇešnˇe automaticky redukovat až na základní predikativní strukturu).
Konstrukce s nejasnou závislostí – typdo konce roku.
U jistých konstrukcí, pˇredevším u nˇekterých ˇcasových ur- ˇcení (napˇr.tˇesnˇe pˇred Vánocemi,185 minut týdnˇe) a míst- ních urˇcení (dva kilometry od ˇreky), bývá nˇekdy tˇežké roz- hodnout, zda jsou na sobˇe nezávislá, ˇci zda jedno rozvíjí druhé.
PDT v tˇechto pˇrípadech vychází z ponˇekud technických pravidel anotaˇcního manuálu [21]. Metoda RA zde nedává spolehlivé výsledky, viz napˇr.
V Bratislavˇe by mˇelo vzniknoutdo konce roku, stejnˇe jako
v New Yorku a Bruselu.
–>?? V Bratislavˇe by mˇelo vzniknout do konce, stejnˇe jako v New Yorku a Bruselu.
–>?? V Bratislavˇe by mˇelo vzniknout do roku, stejnˇe jako v New Yorku a Bruselu.
Není povinen sekaždý mˇesíchlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.
–> * Není povinen se mˇesíc hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.
–> * Není povinen se každý hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.
Vzhledem k ponˇekud nejasné syntaktické struktuˇre tˇechto jev˚u pˇri vyhodnocování automatické RA od pˇrípad- ných takto vzniklých nekorektností odhlížíme.
Víceslovné výrazy a ,pojmenované entity‘. V datech PDT nejsou v (povrchových) stromech zachyceny tzv. po- jmenované entity, což jsou napˇr. názvy osob (Petr Novák, ˇCao C’jang), zvíˇrat (Alík), lokací (Hradec Králové), in- stitucí (ˇCeská národní banka,Koh-i-Noor) apod., a více- slovné výrazy (napˇr. státní zástupce, šelma koˇckovitá) – jejich anotace podléhá stejným pravidl˚um jako anotace obecných jmen. (Adekvátní anotace je zachycena až na tektogramatické rovinˇe.)
Automatická RA tedy v tˇechto pˇrípadech nezíská z dat dostateˇcné informace a oba tyto typy výraz˚u jsou zpraco- vávány jako obecné konstrukce, což s sebou nese ponˇekud problematické redukce výraz˚u, které by mˇely být zpraco- vávány v jednom kroku, napˇr.:
Kupˇríkladu sedmdesátiletý ˇCchiao Š’ ˇci pˇetasedmdesáti- letý ˇCao C’jang.
–> Kupˇríkladu sedmdesátiletý Š’ ˇci pˇetasedmdesátiletý ˇCao C’jang.
[. . .]
–>Š’ˇci pˇetasedmdesátiletý ˇCao C’jang.
–>Š’ˇci pˇetasedmdesátiletý ˇCao jang.
–>Š’ˇci pˇetasedmdesátiletýjang.
Vzhledem k tomu, že tyto jevy se primárnˇe netýkají syn- taxe, ale dostupné slovníkové informace, pˇri návrhu auto- matické RA od chyb ve zpracování pojmenovaných entit a víceslovných výraz˚u odhlížíme.
Redukce valenˇcních doplnˇení. Pˇri návrhu (povrchové) redukˇcní analýzy vycházíme z povrchovˇe syntaktické struktury vˇet (uchovávané na tzv. analytické rovinˇe PDT), která nepracuje s informací o valenˇcní charakteristice jed- notlivých plnovýznamových slov a o tzv. vypustitelnosti jejich valenˇcních doplnˇení (tato informace je doplˇnována až na tektogramatické rovinˇe, která je už ovšem od povr- chové syntaxe pomˇernˇe vzdálena). Proto ani RA nem˚uže pracovat s valenˇcní informací.
Tato skuteˇcnost má zásadní dopad na (povrchovou) au- tomatickou RA: protože RA nemá k dispozici valenˇcní slovník, redukuje postupnˇe všechna objektová a adverbi- ální doplnˇení sloves a atributivní doplnˇení substantiv, bez
ohledu na jejich (ne)valenˇcní charakter a vypustitelnost.
Aˇckoli typicky jsou závislé ˇcleny vypustitelné, v ˇradˇe pˇrí- pad˚u dochází k zásadnímu posunutí významu ˇci k poru- šení plynulosti (ˇci dokonce správnosti) redukovaných vˇet.
Následující pˇríklady ilustrují posun významu (jít o nˇeco –> jít) a neúplnou strukturu (redukce adjektivního objektu v postpozici).
Jdeo ˇcinorodosta právˇe ona [...] dˇelá ze všech protago- nist˚u Genu [...] elitu.
–> Jde a právˇe ona [...] dˇelá ze všech protagonist˚u Genu [...] elitu.
[...] odrážejí tendenci vývoje oproštˇeného od vliv˚u i od hodnot.
–> * [...] odrážejí tendenci vývoje oproštˇeného.
Další problém spojený s valenˇcní charakteristikou jed- notlivých slov spoˇcívá v poˇradí vypouštˇení bˇehem RA.
Pravidla pro vypouštˇení napˇr. slovesných doplnˇení nejsou v ˇceských gramatikách (alespoˇn podle nám dostupných in- formací) formálnˇe zpracována, pˇresto je zˇrejmé, že zde platí nˇejaká omezení; napˇr. vypouštˇení dativních doplnˇení ˇci doplnˇení realizovaných pˇredložkovou skupinou by ty- picky mˇelo pˇredcházet vypouštˇení akuzativního doplnˇení (a to i v pˇrípadˇe aktuální elipsy), viz následující pˇríklady:
[...] poskytujíslužby a ˇcinnost bud’ pˇrímo nebo prostˇred- nictvím specializovaných institucí.
–> ?? [...] poskytují bud’ pˇrímo nebo prostˇrednictvím spe- cializovaných institucí.
–> [...] poskytují služby a ˇcinnost.
Obˇcanésimohouvyšetˇreníobjednat v hygienických stani- cích.
–> ?? Obˇcané si mohou objednat v hygienických stanicích.
–> Obˇcané mohou vyšetˇrení objednat v hygienických sta- nicích.
Vzhledem k nevyjasnˇeným pravidl˚um a omezením na poˇradí vypouštˇení jednotlivých doplnˇení4pˇri automatické RA od stylistických pochybení ˇci nekorektností zp˚usobe- ných nesprávným poˇradím vypouštˇení valenˇcních dopl- nˇení odhlížíme.
6 Závˇereˇcné shrnutí
Hlavním smyslem našich experiment˚u bylo ovˇeˇrit použi- telnost automatické redukˇcní analýzy na složitˇejší jazy- kové jevy (koordinace, apozice) a vytipovat urˇcité proble- matické konstrukce, které v budoucnu poslouží jako ma- teriál jak pro další lingvistický výzkum, tak i pro další zjemnˇení ˇci modifikaci samotné metody redukˇcní analýzy a pro formální popis vlastností pˇrirozených jazyk˚u. Ex- perimenty ukázaly, že i koordinace a apozice se ve vˇet- šinˇe pˇrípad˚u dají redukovat automaticky. Zároveˇn se po- daˇrilo objevit nˇekolik problematických konstrukcí, z nichž
4Podle [22] hrají roli nejen povrchové formy doplnˇení, ale i typ va- lenˇcního vztahu a obligatornost doplnˇení, tedy informace náležející do valenˇcního slovníku, a tedy na tektogramatickou rovinu (nikoli na rovinu povrchové syntaxe).
zejména spojení koordinace a postavení klitik ˇci poˇradí vy- pouštˇení slovesných doplnˇení pˇredstavují problémy, které zatím nebyly uspokojivˇe lingvisticky zpracovány.
Grantová podpora
Práce na tomto tématu je podpoˇrena z grantu GA ˇCR ˇcíslo P202/10/1333. Tento ˇclánek využívá jazyková data vyvi- nutá a/nebo distribuovaná v rámci projektu MŠMT ˇCR LINDAT/CLARIN (projekt LM2010013).
Reference
[1] Tesnière, L.: Eléments de syntaxe structurale. Librairie C.
Klincksieck, Paris (1959)
[2] Kuboˇn, V., Lopatková, M., Mírovský, J.: A Case Study of a Free Word Order. In: Proceedings of PACLIC 2013. (2013) [3] Lopatková, M., Plátek, M., Kuboˇn, V.: Modeling Syntax of Free Word-Order Languages: Dependency Analysis by Reduction. In: Proceedings of TSD 2005. Volume 3658 of LNAI., Berlin Heidelberg, Springer-Verlag (2005) 140–147 [4] Lopatková, M., Plátek, M., Sgall, P.: Towards a Formal Model for Functional Generative Description: Analysis by Reduction and Restarting Automata. The Prague Bulletin of Mathematical Linguistics87(2007) 7–26
[5] Hajiˇc, J., Panevová, J., Hajiˇcová, E., Sgall, P., Pajas, P., Štˇepánek, J., Havelka, J., Mikulová, M., Žabokrtský, Z., Ševˇcíková-Razímová, M.: Prague Dependency Treebank 2.0. LDC, Philadelphia, PA, USA (2006)
[6] Mel’ˇcuk, I.A.: Dependency in language. In: Proceedings of DepLing 2011, Barcelona (2011) 1–16
[7] Gerdes, K., Kahane, S.: Defining dependencies (and con- stituents). In: Proceedings of DepLing 2011, Barcelona (2011) 17–27
[8] Sgall, P., Hajiˇcová, E., Panevová, J.: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Reidel, Dordrecht (1986)
[9] Janˇcar, P., Mráz, F., Plátek, M., Vogel, J.: On monotonic automata with a restart operation. Journal of Automata, Languages and Combinatorics4(1999) 287–311
[10] Otto, F.: Restarting Automata. In: Recent Advances in Formal Languages and Applications, Studies in Compu- tational Intelligence. Volume 25., Berlin, Springer-Verlag (2006) 269–303
[11] Plátek, M., Mráz, F., Lopatková, M.: (In)Dependencies in Functional Generative Description by Restarting Auto- mata. In: Proceedings of NCMA 2010. Volume 263 of books@ocg.at., Wien, Austria, Österreichische Computer Gesellschaft (2010) 155–170
[12] Martin Plátek and Dana Pardubská and Markéta Lopat- ková: On Minimalism of Analysis by Reduction by Re- starting Automata. In Morrill, G., Muskens, R., Osswald, R., Richter, F., eds.: Formal Grammar 2014. Volume 8612 of LNCS., Berlin Heidelberg, Springer-Verlag (2014) 155–
170
[13] Kuboˇn, V., Lopatková, M., Mírovský, J.: Automatic Pro- cessing of Linguistic Data as a Feedback for Linguistic Theory. In Castro, F., Gelbukh, A., González, M., eds.:
Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013). Volume 8265 of LNCS., Berlin Heidelberg, Springer-Verlag (2013) 252–
264 volume 1.
[14] Šmilauer, V.: Novoˇceská skladba. SPN, Praha (1966) [15] Štˇepánek, J.: Závislostní zachycení vˇetné struktury v ano-
tovaném syntaktickém korpusu (nástroje pro zajištˇení kon- zistence dat). PhD thesis, MFF UK, Prague (2006) [16] Oliva, K.: Linguistics behind the Mirror. In Lopatková,
M., ed.: Information Technologies – Applications and The- ory, Košice, Slovakia, Univerzita Pavla Jozefa Šafárika v Košiciach (2011) 1–6
[17] Karlík, P., Nekula, M., Pleskalová, J., eds.: Encyklope- dický slovník ˇceštiny. Nakladatelství Lidové noviny, Praha (2002)
[18] Hana, J.: Czech Clitics in Higher Order Grammar. PhD thesis, The Ohio State University (2007)
[19] Bˇeliˇcová, H., Uhlíˇrová, L.: Slovanská vˇeta. Euroslavica, Praha (1996)
[20] Bˇeliˇcová, H., Sedláˇcek, J.: Slovanské souvˇetí. Academia, Praha (1990)
[21] Hajiˇc, J., Panevová, J., Buráˇnová, E., Urešová, Z., Bémová, A., Štˇepánek, J., Pajas, P., Kárník, J.: Anotace na analytické rovinˇe. návod pro anotátory. Technical Report TR-2004-23, UFAL MFF UK (2004)
[22] Lopatková, M.: O homonymii pˇredložkových skupin. (Co umí poˇcítaˇc?). Karolinum, Praha (2003)