• Aucun résultat trouvé

Gramatické závislosti vs. koordinace z pohledu redukční analýzy

N/A
N/A
Protected

Academic year: 2022

Partager "Gramatické závislosti vs. koordinace z pohledu redukční analýzy"

Copied!
7
0
0

Texte intégral

(1)

Gramatické závislosti vs. koordinace z pohledu redukˇcní analýzy

Markéta Lopatková, Jiˇrí Mírovský a Vladislav Kuboˇn

Univerzita Karlova v Praze, Matematicko.fyzikální fakulta, Ústav formální a aplikované lingvistiky Malostranské nám. 25, Praha 1, 118 00, ˇCeská republika

{vk,lopatkova,mirovsky}@ufal.mff.cuni.cz Abstrakt: Tento pˇríspˇevek se vˇenuje identifikaci zají-

mavých konstrukcí v syntakticky anotovaném korpusu (Pražském závislostním korpusu, PDT) metodou auto- matické redukˇcní analýzy. Rozšiˇrujeme zkoumané kon- strukce zejména o koordinaˇcní a apoziˇcní vztahy, které mají zˇretelnˇe ne-závislostní charakter a vedou tedy k zo- becnˇení používané redukˇcní metody. Pˇrinášíme klasifikaci zkoumaných konstrukcí a soustˇred’ujeme se na popis a analýzu jednotlivých jazykových jev˚u, které pˇri zpraco- vání p˚usobí problémy.

Tato studie je motivací pro formální modelování metod zpracování pˇrirozeného jazyka.

1 Motivace

Jedním ze dvou základních a obecnˇe uznávaných zp˚usob˚u reprezentace syntaktických vztah˚u ve vˇetách pˇrirozeného jazyka je závislostní strom. Tento zp˚usob reprezentace má v ˇceské lingvistice dlouhou tradici (na rozdíl od druhého rozšíˇreného typu stromu – složkového). Pˇrestože vztah zá- vislosti (neboli vztah mezi ˇrídícím a závislým vˇetným ˇcle- nem, jako je napˇr. pˇrísudek a jeho pˇredmˇet ˇci podstatné jméno a jeho pˇrívlastek) je velmi d˚uležitý, doplˇnují jej i dva další základní syntaktické vztahy, jmenovitˇe slovosled (tj. lineární poˇradí slov ve vˇetˇe) a ,zmnožení‘ dvou nebo více vˇetných ˇclen˚u.1

Zatímco v pˇredchozích studiích jsme se soustˇred’ovali na vztahy závislosti a slovosledu [2], v tomto ˇclánku zkou- máme i vztahy koordinaˇcní a apoziˇcní, vˇenujeme se tedy pˇrípad˚um, kdy je jedna syntaktická pozice ,zmnožena‘.

Ukázali jsme již, že závislostní relace lze s úspˇechem de- finovat pomocí redukˇcní analýzy [3, 4], což jsme ovˇeˇrili na vˇetách z Pražského závislostního korpusu (PDT) [5].

Na nˇe jsme aplikovali poloautomatickou proceduru dopl- nˇenou o následnou ruˇcní kontrolu. Této metody se držíme i v tomto ˇclánku. Umožˇnuje nám verifikovat náš teoretický koncept prostˇrednictvím reálných dat.

Smyslem našeho experimentu je jednak získat hlubší vhled do syntaxe pˇrirozeného jazyka, jednak prostˇrednic- tvím automatizovaného postupu identifikovat urˇcitá ne- standardní ˇci problematická místa syntaktické anotace dat, se kterými pracujeme. V otázce syntaktických vlastností jazyka náš pˇrístup umožˇnuje oddˇelit jednotlivé jevy a zkoumat je jak jednotlivˇe, tak i ve vzájemné interakci.

1Tesnière [1] jednak rozlišuje mezi lineárním a strukturním poˇradím, jednak dˇelí strukturní vztahy na ty, které dnes oznaˇcujeme jako závis- lostní (,connexion‘), a na vztahy koordinaˇcní (,junction‘).

V oblasti anotace vycházíme z jednoduchého pˇredpo- kladu (potvrzeného pˇredchozími experimenty), že pokud urˇcitá konstrukce nejde zpracovat automatickými pravidly redukˇcní analýzy, signalizuje to možnou nekonzistentní nebo nevhodnˇe zvolenou anotaci (napˇríklad dva odlišné jevy anotované shodnými znaˇckami – v takovém pˇrípadˇe obvykle automatická redukˇcní analýza nedokáže oba pˇrí- pady rozlišit).

V kontextu závislostní lingvistiky byly vztahy mezi zá- vislostí a slovosledem studovány zvláštˇe v Melˇcukovˇe teorii Smysl↔Text: jeho pˇrístup zamˇeˇrující se na urˇco- vání závislostních vztah˚u a jejich formální popis je shr- nut zejména v práci [6]. Alternativní formální popis závis- lostní syntaxe m˚užeme najít v práci [7]. Náš pˇrístup k da- nému problému naproti tomu vychází z ˇceské lingvistické tradice reprezentované zejména v knize [8].

Protože základním nástrojem, který používáme ke stu- diu výše zmínˇených jev˚u, je redukˇcní analýza, musíme ji na tomto místˇe alespoˇn struˇcnˇe pˇredstavit: zhruba ˇre- ˇceno, pokud jedno ze slov, která tvoˇrí potenciální dvojici ˇrídícího a závislého slova, m˚uže být z vˇety odstranˇeno, aniž by se zmˇenily distribuˇcní vlastnosti celého páru (tj.

jeho schopnost objevovat se ve stejném syntaktickém kon- textu), potom je toto slovo považováno za závislé (modifi- kující druhý ˇclenu páru). Takto m˚užeme postupovat u tzv.

endocentrických konstrukcí, kde lze jedno slovo reduko- vat, aniž by se zmˇenil možný syntaktický kontext (napˇr.

malý st˚ul –> st˚ul; Jdi dom˚u! –> Jdi!). Pro exocentrické konstrukce, kde žádné slovo vypustit nelze (jakoPetr po- tkal Marii., kdePetr potkal.má jiné vlastnosti) lze použít analogický princip na úrovni slovních druh˚u [8].2

D˚uvod pro využívání redukˇcní analýzy je jednoduchý – umožˇnuje rozdˇelit proces syntaktické analýzy vˇety do jed- notlivých, dobˇre definovaných a dobˇre oddˇelených krok˚u, a tím zároveˇn dovoluje zkoumat jednotlivé jevy oddˇelenˇe.

Metoda redukˇcní analýzy byla podrobnˇe popsána v ˇclán- cích [3, 4], její formální model založený na restartovacích automatech je pˇredstaven v ˇcláncích [9, 10, 11]. Jedním z cíl˚u tohoto ˇclánku je také poskytnout materiál a motivaci pro další formální modelování metod zpracování pˇriroze- ného jazyka, viz napˇr. [12].

2Zhruba ˇreˇceno, protože existují bezpˇredmˇetná slovesa, budeme ob- jekt (pˇredmˇet) považovat za závislý na slovese; protože existují bezpod- mˇetná slovesa, považujeme subjekt (podmˇet) za závislý na slovese.

(2)

2 Redukˇcní analýza

V této kapitole popíšeme základní myšlenku naší metody používané pro analýzu vˇet.Redukˇcní analýza (RA)je za- ložena na postupném zjednodušování analyzované vˇety.

Definuje možné posloupnosti redukcí vˇety – každý krok RA spoˇcívá vodstranˇeníalespoˇn jednoho slova ze vstupní vˇety (operace ‘delete’); ve specifických pˇrípadech je od- straˇnování doprovázeno pˇremístˇením slova na jinou slo- voslednou pozici (operace ‘shift’).

Uved’me nyní základní omezení, která uplatˇnujeme na redukˇcní analýzu:

(i) pˇrirozené omezení nutící zachovávat jednotlivé slovní tvary, jejich morfologické charakteristiky a jejich povrchové závislostní vztahy;

(ii) omezení vyžadující zachování správnosti (gra- maticky správná vˇeta musí z˚ustat správná i po provedeném zjednodušení);

(iii) aplikace operace pˇresunutí je omezená na pˇrípady, kdy je vynucena principem zachování správnosti RA (ii).

Povšimnˇeme si, že poˇradí redukcí odpovídá závislost- ním vztah˚um mezi jednotlivými vˇetnými ˇcleny, a tedy je- jich závislostní stromové reprezentaci tak, jak je to po- psáno v pracích [4, 11]. Zhruba ˇreˇceno, pˇri redukcích po- stupnˇe vypouštíme slova, která jasou reprezentována listy (pˇrípadnˇe podstromy) závislostního stromu.

Pokusme se ukázat základní principy RA na pˇríkladu ˇceské vˇety (1).

Pˇríklad:

(1)Petr se bojí o otce.

Ve vˇetˇe (1) lze subjektPetrpovažovat za závislý (viz prin- cip analogie), proto ho pˇri RA lze odstranit (v závislost- ním stromˇe je reprezentován listem, viz obrázek 1). Ovšem tento krok by vedl k porušení správnosti vˇety, musí tedy být doprovázen zmˇenou slovosledu Petr se bojí o otce.

delete * se bojí o otce. →shi f t bojí se o otce.. Dále lze vypustit spojenío otce, které je ve stromˇe znázornˇeno pod- stromem (výbˇer ˇrídícího uzlu je dán technickými pravidly, viz [3]). Klitikaseje podle principu analogie považována za závislý ˇclen (nebot’ existují slovesa bez klitiky, napˇr.

odpovˇedˇet).

3 Data z Pražského závislostního korpusu

Aˇckoliv základní princip redukˇcní analýzy je jednoduchý a rodilým mluvˇcím daného jazyka obvykle neˇciní potíže vˇetu zredukovat až k jejímu ˇrídícímu slovesu, automatické modelování tohoto postupu je pomˇernˇe obtížné. Tento roz- díl je zp˚usoben tím, že ˇclovˇek pˇri redukˇcní analýze m˚uže využít (a využívá) toho, že vˇetˇe rozumí, umí oddˇelit ménˇe

Petr

bojí

otce

se o

Obrázek 1: Závislostní strom vˇety (1).

podstatné vˇetné ˇcleny a postupnˇe dojít až k úplné redukci.

Pokusíme-li se o automatickou RA, musíme porozumˇení nˇejakým zp˚usobem nahradit. Jednou možností je využití syntakticky anotovaných dat, která v sobˇe urˇcitým zp˚uso- bem obsahují porozumˇení, vložené do anotace ˇclovˇekem- anotátorem.

V našich experimentech využíváme data z Pražského závislostního korpusu 3.0 (PDT, viz [5]).3 Syntaktická struktura jednotlivých vˇet z korpusu – zachycená závis- lostními stromy (vždy právˇe jeden strom pro každou vˇetu) – poskytuje základní informace nutné pro úspˇešné prove- dení automatické RA.

PDT obsahuje velmi podrobnou anotaci témˇeˇr 49 500 ˇceských vˇet (v experimentech využíváma pouze data s anotací na všech rovinách PDT). Anotace je provedena na více úrovních, z nichž je pro naše úˇcely nejd˚uležitˇejší úroveˇn analytická. Ta popisuje (povrchovou) syntaktickou strukturu pomocí tzv. analytických funkcí. V našich ex- perimentech pracujeme pouze s trénovacími daty (43 955 vˇet) a zbylé vˇety (tzv. ‘etest’) ponecháváme stranou jako testovací množinu pro budoucí evaluaci.

Pro reprezentaci vˇetné stavby se v PDT používá koˇre- nový strom. Vztahy mezi ˇclenem ˇrídícím a závislým, vy- tváˇrejícími vˇetnou dvojici, jsou znázornˇeny jako vztahy mezi dvˇema uzly stromu, kde uzel reprezentující ˇrídící ˇclen je rodiˇcem a uzel reprezentující závislý ˇclen je potom- kem. Jejich spojnice (hrana ve stromˇe) odpovídá (prototy- picky) syntaktickému vztahu závislosti mezi rodiˇcovským uzlem a jeho potomkem.

V pˇredchozích experimentech, popsaných v ˇcláncích [2, 13], jsme se zámˇernˇe vyhýbali vˇetám, které obsahovaly koordinace a apozice, protože tyto jevy by byly pro po- ˇcáteˇcní fázi výzkumu pˇríliš komplikované. Podstatou ko- ordinace a apozice je ,zmnožování‘ jednotlivých vˇetných ˇclen˚u nebo jednotlivých klauzí. Pˇri koordinaci jde o zˇre- tˇezení více entit (otec a matka), popˇr. dˇej˚u (pˇrišel, vidˇel a zvítˇezil), pˇri apozici jde o nˇekolikeré oznaˇcování jedné a téže entity (Karel, král ˇceský), viz [14].

Protože koordinace ani apozice nepˇredstavují jevy, které by v sobˇe obsahovaly pˇrirozenou závislost, bývají v syn- taktických stromech reprezentovány r˚uzným zp˚usobem [15]. V závislostních stromech používaných v PDT jsou tyto jevy zachyceny tzv. spojovací konstrukcí (viz pˇríklad (2) a strom na obrázku 2). Koˇrenem souˇradných struktur je umˇelý ,spojovací‘ uzel; z d˚uvod˚u ˇcistˇe technických je jeho lexikální hodnotou lemma souˇradicí spojky (ˇci lemma vý- razu signalizujícího apozici). Vlastní koordinované/apo-

3http://ufal.mff.cuni.cz/pdt3.0/

(3)

nované výrazy jsou spojeny s tímto koˇrenem hranami, které mají ne-závislostní charakter. Celá spojovací kon- strukce je potom spojena s ˇrídícím uzlem celé koordinaˇcní struktury další (nezávislostní) hranou.

Pˇríklad:

(2) ˇCao býval generálním tajemníkem strany a oficiálním Tengovým následníkem.

Závislostní strom vˇety (2), tak jak je zachycen na analy- tické rovinˇe PDT, je uveden na obrázku 2. Napˇríklad hrana mezi uzlybývala ˇCaoreprezentuje závislostní vztah pre- dikátu a subjektu. Spojovacím výrazem pro koordinaci je zde uzel pro spojku a, koordinovanými ˇcleny výrazyta- jemníkemanásledníkema ˇrídícím uzlem celé konstrukce sponabýval.

a-ln94200-123-p12s1

Čao býval

generálním tajemníkem

Co strany

a

oficiálním Tengovým následníkem

Co .

Sb Pred

Atr Pnom_

Atr Coord

Atr Atr

Pnom_

AuxK

Obrázek 2: Závislostní strom vˇety (2) podle pravidel PDT (dále již pro jednoduchost neuvádíme technický koˇren stromu (obsahující ID dané vˇety) a koncovou interpunkci).

4 Automatická redukˇcní analýza na datech PDT

Návrh automatické redukˇcní analýzy vyžaduje peˇclivý ná- vrh redukˇcních pravidel tak, aby byl v každém kroku ana- lýzy zajištˇen požadavek na zachování správnosti reduko- vaných vˇet. Postupuje se ,zdola nahoru‘ – postupným re- dukováním list˚u závislostního stromu z PDT (který nahra- zuje porozumˇení dané vˇetˇe), pˇriˇcemž nejprve se vždy re- dukují uzly bezprostˇrednˇe sousedící se svým ˇrídícím uz- lem; následuje redukce uzl˚u spojených s ˇrídícím uzlem projektivní hranou.

Pˇritom je zachovávána d˚uležitá podmínka na zachování neprojektivity – nelze redukovat uzel tak, aby z vˇety ,zmi- zela‘ neprojektivní konstrukce.

4.1 Pravidla pro RA bez koordinace a apozice V pˇredchozí etapˇe projektu jsme pˇredstavili soubor pra- videl pro automatickou RA [13, 2] – ukázalo se, že pro

vˇety bez koordinaˇcní ˇci apoziˇcní struktury automatická RA dobˇre koresponduje s lingvistickou analýzou zachy- cenou v PDT. Intuitivní RA musela být zjemnˇena tak, aby byly správnˇe zpracovány zejména následující jevy, které pˇresahují ˇcistˇe závislostní vztahy – typicky tam, kde je nutné pro zachování správnosti redukované vˇety brát v úvahu slovosled:

klitiky: klitiky (zejm.se/si,by, krátké tvary zájmen (mu, ji apod.)) vyžadují urˇcité postavení ve vˇetˇe, typicky za první pˇrízvuˇcnou pozicí; toto pravidlo je nutno pˇri RA zohlednit;

srovnání: srovnávací konstrukce (typicky uvozené vý- razy jako, než, dálecoby,jakoby, jakožto) vyžadují zvláštní zpracování, nebot’ jde ˇcasto o eliptické kon- strukce (Petr má vˇetší auto než Pavel. = Petr má vˇetší auto [než je auto, které má] Pavel.) a jako takové se vyznaˇcují složitou analýzou (která je závislá na pod- kladové lingvistické teorii);

neprojektivity: pˇri automatické analýze jsme se omezili na zpracování projektivních konstrukcí, nebot’ nepro- jektivity odhalují interakci slovosledu a závislostních vztah˚u, která je dále studována, viz zejm. [13];

pˇredložky, pomocná slovesa apod.: v RA se redukují v jednom kroku vždy celé vˇetné ˇcleny (napˇr. pˇred- ložka+podstatné jméno v redukciPˇrišli do školy. –>

Pˇrišli.); protože v PDT každému slovu, vˇcetnˇe tˇechto ,pomocných‘ slov, odpovídá jeden uzel, musí se re- dukovat nˇekolik uzl˚u stromu najednou;

slova pˇrekraˇcující závislostní vztahy: RA byla oboha- cena o pravidla pro zpracování zd˚urazˇnujících slov (napˇr. zejména,také,iapod.) a o technická pravidla pro zpracování interpunkce, grafických symbol˚u (zá- vorky, uvozovky atd.) apod.

4.2 Pravidla pro RA se zpracováním koordinace a apozice

Další krok pˇri zobecˇnování RA spoˇcívá v zamˇeˇrení se na paradigmaticky odlišné konstrukce, a to konstrukce koor- dinaˇcní (a apoziˇcní), které jsou charakterizovány zmnože- ním pˇríslušné syntaktické pozice.

Pravidla pro automatickou RA obohacenou o zpraco- vání koordinace a apozice:

0. Ve vstupní vˇetˇe jsou zpracovány jevy nevstupující do (dané) koordinaˇcní ˇci apoziˇcní struktury (vˇcetnˇe spo- leˇcného rozvití koordinovaných vˇetných ˇclen˚u), které lze zpracovat podle pravidel shrnutých výše.

Tento krok se provádí jako mezikrok po každém úspˇešném zpracování koordinaˇcní ˇci apoziˇcní struktury.

1. Pˇri zpracování koordinaˇcních a apoziˇcních struktur se vždy redukuje spojovací výraz (typicky koordinaˇcní spojka ˇci interpunkce) spolu s koordinovanými (ˇci apono- vanými) výrazy.

(4)

2. Všechny koordinované (ˇci aponované) ˇcleny se re- dukují v jediném kroku analýzy. Teoreticky nelze ome- zit poˇcet koordinovaných ˇclen˚u; pˇrestože v datech PDT se obvykle koordinuje 2-5 ˇclen˚u, v jednom pˇrípadˇe se koor- dinuje 57 ˇclen˚u (televizní program syntakticky strukturo- vaný do vˇety), u apozic jde až o 15 ˇclen˚u.

3. Zd˚urazˇnovací syntaktické ˇcástice a všechna pomocná slova, interpunkce, grafické symboly apod. se redukují zá- roveˇn v jednom kroku RA (podle dˇríve stanovených pravi- del).

4. Koordinace a apozice dovolují zanoˇrování. Opˇet jde teoreticky o neomezený poˇcet zanoˇrení, viz [16]; v datech PDT se vyskytlo 6 úrovní zanoˇrení koordinací a apozic (pˇrehled sportovních výsledk˚u).

I v této fázi se soustˇred’ujeme pouze na automatické zpra- cování projektivních konstrukcí; neprojektivní konstrukce jsou analyzovány ruˇcnˇe.

Kroky 1-3 redukˇcní analýzy ilustrujeme na následujícím pˇríkladu (3).

Pˇríklad:

(3)Dˇeti ˇcesaly zralé meruˇnky, modré blumy a také zelená jablka.

(Kde pˇrídavné jménozralé je analyzováno jako spoleˇcné rozvití slovmeruˇnky,blumyajablka, viz obr. 3.)

a česaly

jablka zralé

Děti

blumy

zelená meruňky , také

modré

Obrázek 3: Závislostní strom vˇety (3) (podle pravidel PDT, bez technického koˇrene a koncové interpunkce).

Krok 0: Redukují se všechna slova, která nevstupují do koordinace (získáme tím ,kostru koordinace‘ se spoleˇcným rozvitím:

–> ˇcesaly zralé meruˇnky, blumy a také jablka.

Dále se redukuje spoleˇcné rozvití koordinace:

–> ˇcesaly meruˇnky, blumy a také jablka.

Krok 1 a 2:

- redukuji se všechny ˇcleny koordinacemeruˇnky, blumy, jablka

- redukuje se spojovací uzel, tedy koordinaˇcní spojkaa Krok 3: Zároveˇn se v témže kroku RA zpracovávají zd˚u- razˇnovací slova a interpunkce:

- redukuje se zd˚urazˇnovacítaké - redukuje se interpunkˇcní ˇcárka

- redukuje se koncová interpunkˇcní teˇcka –> ˇcesaly

Manuální analýza automatických redukcí získaných z PDT vedla k dalším zpˇresnˇením pravidel, která se týkala zejména následujících jev˚u.

Další pravidla pro automatickou RA obohacenou o zpracování koordinace a apozice:

5. Zpracovávají se vˇety s koordinaˇcní spojkou, kde se však ,koordinuje‘ jediná klauze (ˇci vˇetný ˇclen) a kde tedy koordinaˇcní spojka plní funkci odkazu k pˇredcházejícímu kontextu. Napˇr.

Nemáme proto potížese získáváním trhu pro své výrobní odpady.

–> Nemáme proto potíže

(Dále se neredukuje kv˚uli neprojektivitˇe.)

6. Víceslovné spojky a syntaktické ˇcástice vztahující se k celé koordinované klauzi (typicky v PDT zachycované jako potomek spojovacího výrazu) se redukují v jednom kroku se spojovacím výrazem. Napˇr.:

Jsoubud’ nedostupná, nebo nedostaˇcující.

–> Jsou

(Redukce probíhá v jediném kroku: spojovacím uzlem je podle pravidel PDT koordinaˇcní spojka nebo, druhá ˇcást spojovacího výrazu bud’ musí být redukována zároveˇn (pravidlo 6); koordinované ˇcleny nedostupná a nedosta- ˇcujícíse redukují podle kroku 1, interpunkˇcní ˇcárka podle kroku 3.)

Další pravidla se již se netýkají specificky koordinací:

7. Adekvátnˇeji se redukují konstrukce s modálním slove- sem (napˇr.mˇely tvoˇrit) a s verbonominálním predikátem (napˇr.Je uˇcitelem, viz též vˇetu (2)): vnitˇrní struktura tˇechto konstrukcí je zjednodušována až na závˇer RA.

8. Emocionální a rytmizující ˇcásticemi,vám,si,to,ono apod. jsou redukovány kdykoli v pr˚ubˇehu redukce, i pokud jde o klitiky.

5 Lingvistická analýza zajímavých pˇríklad˚u

Podívejme se nyní podrobnˇeji na jevy, u kterých bud’ (po- vrchová) redukˇcní analýza nedává uspokojivé výsledky, nebo odhaluje zajímavé syntaktické konstrukce.

Pozice klitiky v koordinované klauzi. Podle Encyklope- dického slovníku ˇceštiny [17] je pˇríklonka (klitika) slovo (zpravidla krátké), které nemá vlastní pˇrízvuk, tvoˇrí pˇrí- zvuˇcný celek (takt) se slovem pˇredcházejícím. Klitiky mají v ˇceštinˇe pevné slovosledné postavení (zpravidla) za prv- ním pˇrízvuˇcným celkem (první pozicí) ve vˇetˇe (tzv. Wac- kernagelova pozice). Syntaktický popis první pozice je po- mˇernˇe komplexní [18], pro naše úˇcely staˇcí konstatování, že klitika nesmí stát na prvním místˇe ve vˇetˇe.

Ponˇekud nejasná situace nastává v pˇrípadˇe klitiky ve druhé (a další) koordinované klauzi. Souˇradicí spojky stojí podle ˇceských gramatik mimo koordinované klauze, proto by po nich mˇel následovat pˇrízvuˇcný celek a teprve potom pozice pro klitiky. To platí napˇr. pro nˇekteré spojky sluˇco- vací (a,i) a odporovací (ale):

Cesta sice nˇeco stojí, ale zákazníci se o kvalitˇe produkce pˇresvˇedˇcí na vlastní oˇci.

–> cesta sice stojí, alezákaznícise pˇresvˇedˇcí

(5)

–> * cesta sice stojí, alesepˇresvˇedˇcí

Diskuse by se pˇrenesla [...], azcelaby vyboˇcila z hranic ekonomie.

–> * Diskuse by se pˇrenesla [...], abyvyboˇcila z hranic ekonomie.

Oproti tomu u ˇrady dalších souˇradicích spojek (napˇr.

sluˇcovací/vyluˇcovací nebo, pˇríˇcinné nebot’, d˚usledkové (a) proto, vysvˇetlovacívždyt’) m˚uže tato spojka sama tvo- ˇrit první pˇrízvuˇcný celek, klitika tedy m˚uže (ale nemusí) následovat bezprostˇrednˇe po ní:

Film m˚užeme považovat za plnˇe autorský, nebot’Chabrol si k nˇemu napsal i scénáˇr [...].

–> m˚užeme, nebot’ si k nˇemu napsal i scénáˇr

Podrobnˇejší lingvistický rozbor slovosledných omezení ve vztahu ke klitikám lze nalézt v knihách [19, 20].

Nejsme si však vˇedomi, že by problematika koordinaˇcní spojky a postavení klitiky byla pro ˇceštinu v lingvistické literatuˇre popsána.

Koordinace s elidovanými vˇetnými ˇcleny. Podobnˇe jako u srovnávacích konstrukcí též u koordinaˇcních spojení ˇcasto dochází k elipse ˇcásti syntaktické struktury (tzv.

aktuální elipsa). V (povrchových) závislostních stromech PDT se elipsa nerekonstruuje, vˇetné ˇcleny syntakticky zá- vislé na ˇclenu vypuštˇeném se zavˇešují tam, kde by visel ˇclen vypuštˇený (a oznaˇcují se speciální analytickou funkcí ExD).

Takové pˇrípady ovšem zp˚usobují pˇri automatické RA problémy, nebot’ pˇri redukci m˚uže docházet k porušení plynulosti (ˇci alespoˇn stylistické souvislosti) redukova- ných vˇet (i když z hlediska ˇcistˇe formální syntaxe jsou správnˇe):

[...], Flintstoneovi sice nepˇrinášejí zábavunároˇcnou, ale ani nevkusnˇe prostoduchou. (= prostoduchou zábavu) –> ??[...], Flintstoneovi sice nepˇrinášejí zábavu, ale ani nevkusnˇe prostoduchou.

[...] jsou a zdaleka ne tak ˇcasté jako ˇredˇení zmrzlin. (=

jako je ˇcasté ˇredˇení zmrzlin)

–> ?? [...] jsou a zdaleka ne ˇcasté jako ˇredˇení zmrzlin.

Možným ˇrešením je zcela vylouˇcit eliptické konstruk- ce související s koordinací z automatického zpracování (vzhledem k takto vzniklým nepravidelnostem obvykle nelze vˇety tohoto typu úspˇešnˇe automaticky redukovat až na základní predikativní strukturu).

Konstrukce s nejasnou závislostí – typdo konce roku.

U jistých konstrukcí, pˇredevším u nˇekterých ˇcasových ur- ˇcení (napˇr.tˇesnˇe pˇred Vánocemi,185 minut týdnˇe) a míst- ních urˇcení (dva kilometry od ˇreky), bývá nˇekdy tˇežké roz- hodnout, zda jsou na sobˇe nezávislá, ˇci zda jedno rozvíjí druhé.

PDT v tˇechto pˇrípadech vychází z ponˇekud technických pravidel anotaˇcního manuálu [21]. Metoda RA zde nedává spolehlivé výsledky, viz napˇr.

V Bratislavˇe by mˇelo vzniknoutdo konce roku, stejnˇe jako

v New Yorku a Bruselu.

–>?? V Bratislavˇe by mˇelo vzniknout do konce, stejnˇe jako v New Yorku a Bruselu.

–>?? V Bratislavˇe by mˇelo vzniknout do roku, stejnˇe jako v New Yorku a Bruselu.

Není povinen sekaždý mˇesíchlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

–> * Není povinen se mˇesíc hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

–> * Není povinen se každý hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

Vzhledem k ponˇekud nejasné syntaktické struktuˇre tˇechto jev˚u pˇri vyhodnocování automatické RA od pˇrípad- ných takto vzniklých nekorektností odhlížíme.

Víceslovné výrazy a ,pojmenované entity‘. V datech PDT nejsou v (povrchových) stromech zachyceny tzv. po- jmenované entity, což jsou napˇr. názvy osob (Petr Novák, ˇCao C’jang), zvíˇrat (Alík), lokací (Hradec Králové), in- stitucí (ˇCeská národní banka,Koh-i-Noor) apod., a více- slovné výrazy (napˇr. státní zástupce, šelma koˇckovitá) – jejich anotace podléhá stejným pravidl˚um jako anotace obecných jmen. (Adekvátní anotace je zachycena až na tektogramatické rovinˇe.)

Automatická RA tedy v tˇechto pˇrípadech nezíská z dat dostateˇcné informace a oba tyto typy výraz˚u jsou zpraco- vávány jako obecné konstrukce, což s sebou nese ponˇekud problematické redukce výraz˚u, které by mˇely být zpraco- vávány v jednom kroku, napˇr.:

Kupˇríkladu sedmdesátiletý ˇCchiao Š’ ˇci pˇetasedmdesáti- letý ˇCao C’jang.

–> Kupˇríkladu sedmdesátiletý Š’ ˇci pˇetasedmdesátiletý ˇCao C’jang.

[. . .]

–>Š’ˇci pˇetasedmdesátiletý ˇCao C’jang.

–>Š’ˇci pˇetasedmdesátiletý ˇCao jang.

–>Š’ˇci pˇetasedmdesátiletýjang.

Vzhledem k tomu, že tyto jevy se primárnˇe netýkají syn- taxe, ale dostupné slovníkové informace, pˇri návrhu auto- matické RA od chyb ve zpracování pojmenovaných entit a víceslovných výraz˚u odhlížíme.

Redukce valenˇcních doplnˇení. Pˇri návrhu (povrchové) redukˇcní analýzy vycházíme z povrchovˇe syntaktické struktury vˇet (uchovávané na tzv. analytické rovinˇe PDT), která nepracuje s informací o valenˇcní charakteristice jed- notlivých plnovýznamových slov a o tzv. vypustitelnosti jejich valenˇcních doplnˇení (tato informace je doplˇnována až na tektogramatické rovinˇe, která je už ovšem od povr- chové syntaxe pomˇernˇe vzdálena). Proto ani RA nem˚uže pracovat s valenˇcní informací.

Tato skuteˇcnost má zásadní dopad na (povrchovou) au- tomatickou RA: protože RA nemá k dispozici valenˇcní slovník, redukuje postupnˇe všechna objektová a adverbi- ální doplnˇení sloves a atributivní doplnˇení substantiv, bez

(6)

ohledu na jejich (ne)valenˇcní charakter a vypustitelnost.

Aˇckoli typicky jsou závislé ˇcleny vypustitelné, v ˇradˇe pˇrí- pad˚u dochází k zásadnímu posunutí významu ˇci k poru- šení plynulosti (ˇci dokonce správnosti) redukovaných vˇet.

Následující pˇríklady ilustrují posun významu (jít o nˇeco –> jít) a neúplnou strukturu (redukce adjektivního objektu v postpozici).

Jdeo ˇcinorodosta právˇe ona [...] dˇelá ze všech protago- nist˚u Genu [...] elitu.

–> Jde a právˇe ona [...] dˇelá ze všech protagonist˚u Genu [...] elitu.

[...] odrážejí tendenci vývoje oproštˇeného od vliv˚u i od hodnot.

–> * [...] odrážejí tendenci vývoje oproštˇeného.

Další problém spojený s valenˇcní charakteristikou jed- notlivých slov spoˇcívá v poˇradí vypouštˇení bˇehem RA.

Pravidla pro vypouštˇení napˇr. slovesných doplnˇení nejsou v ˇceských gramatikách (alespoˇn podle nám dostupných in- formací) formálnˇe zpracována, pˇresto je zˇrejmé, že zde platí nˇejaká omezení; napˇr. vypouštˇení dativních doplnˇení ˇci doplnˇení realizovaných pˇredložkovou skupinou by ty- picky mˇelo pˇredcházet vypouštˇení akuzativního doplnˇení (a to i v pˇrípadˇe aktuální elipsy), viz následující pˇríklady:

[...] poskytujíslužby a ˇcinnost bud’ pˇrímo nebo prostˇred- nictvím specializovaných institucí.

–> ?? [...] poskytují bud’ pˇrímo nebo prostˇrednictvím spe- cializovaných institucí.

–> [...] poskytují služby a ˇcinnost.

Obˇcanésimohouvyšetˇreníobjednat v hygienických stani- cích.

–> ?? Obˇcané si mohou objednat v hygienických stanicích.

–> Obˇcané mohou vyšetˇrení objednat v hygienických sta- nicích.

Vzhledem k nevyjasnˇeným pravidl˚um a omezením na poˇradí vypouštˇení jednotlivých doplnˇení4pˇri automatické RA od stylistických pochybení ˇci nekorektností zp˚usobe- ných nesprávným poˇradím vypouštˇení valenˇcních dopl- nˇení odhlížíme.

6 Závˇereˇcné shrnutí

Hlavním smyslem našich experiment˚u bylo ovˇeˇrit použi- telnost automatické redukˇcní analýzy na složitˇejší jazy- kové jevy (koordinace, apozice) a vytipovat urˇcité proble- matické konstrukce, které v budoucnu poslouží jako ma- teriál jak pro další lingvistický výzkum, tak i pro další zjemnˇení ˇci modifikaci samotné metody redukˇcní analýzy a pro formální popis vlastností pˇrirozených jazyk˚u. Ex- perimenty ukázaly, že i koordinace a apozice se ve vˇet- šinˇe pˇrípad˚u dají redukovat automaticky. Zároveˇn se po- daˇrilo objevit nˇekolik problematických konstrukcí, z nichž

4Podle [22] hrají roli nejen povrchové formy doplnˇení, ale i typ va- lenˇcního vztahu a obligatornost doplnˇení, tedy informace náležející do valenˇcního slovníku, a tedy na tektogramatickou rovinu (nikoli na rovinu povrchové syntaxe).

zejména spojení koordinace a postavení klitik ˇci poˇradí vy- pouštˇení slovesných doplnˇení pˇredstavují problémy, které zatím nebyly uspokojivˇe lingvisticky zpracovány.

Grantová podpora

Práce na tomto tématu je podpoˇrena z grantu GA ˇCR ˇcíslo P202/10/1333. Tento ˇclánek využívá jazyková data vyvi- nutá a/nebo distribuovaná v rámci projektu MŠMT ˇCR LINDAT/CLARIN (projekt LM2010013).

Reference

[1] Tesnière, L.: Eléments de syntaxe structurale. Librairie C.

Klincksieck, Paris (1959)

[2] Kuboˇn, V., Lopatková, M., Mírovský, J.: A Case Study of a Free Word Order. In: Proceedings of PACLIC 2013. (2013) [3] Lopatková, M., Plátek, M., Kuboˇn, V.: Modeling Syntax of Free Word-Order Languages: Dependency Analysis by Reduction. In: Proceedings of TSD 2005. Volume 3658 of LNAI., Berlin Heidelberg, Springer-Verlag (2005) 140–147 [4] Lopatková, M., Plátek, M., Sgall, P.: Towards a Formal Model for Functional Generative Description: Analysis by Reduction and Restarting Automata. The Prague Bulletin of Mathematical Linguistics87(2007) 7–26

[5] Hajiˇc, J., Panevová, J., Hajiˇcová, E., Sgall, P., Pajas, P., Štˇepánek, J., Havelka, J., Mikulová, M., Žabokrtský, Z., Ševˇcíková-Razímová, M.: Prague Dependency Treebank 2.0. LDC, Philadelphia, PA, USA (2006)

[6] Mel’ˇcuk, I.A.: Dependency in language. In: Proceedings of DepLing 2011, Barcelona (2011) 1–16

[7] Gerdes, K., Kahane, S.: Defining dependencies (and con- stituents). In: Proceedings of DepLing 2011, Barcelona (2011) 17–27

[8] Sgall, P., Hajiˇcová, E., Panevová, J.: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Reidel, Dordrecht (1986)

[9] Janˇcar, P., Mráz, F., Plátek, M., Vogel, J.: On monotonic automata with a restart operation. Journal of Automata, Languages and Combinatorics4(1999) 287–311

[10] Otto, F.: Restarting Automata. In: Recent Advances in Formal Languages and Applications, Studies in Compu- tational Intelligence. Volume 25., Berlin, Springer-Verlag (2006) 269–303

[11] Plátek, M., Mráz, F., Lopatková, M.: (In)Dependencies in Functional Generative Description by Restarting Auto- mata. In: Proceedings of NCMA 2010. Volume 263 of books@ocg.at., Wien, Austria, Österreichische Computer Gesellschaft (2010) 155–170

[12] Martin Plátek and Dana Pardubská and Markéta Lopat- ková: On Minimalism of Analysis by Reduction by Re- starting Automata. In Morrill, G., Muskens, R., Osswald, R., Richter, F., eds.: Formal Grammar 2014. Volume 8612 of LNCS., Berlin Heidelberg, Springer-Verlag (2014) 155–

170

[13] Kuboˇn, V., Lopatková, M., Mírovský, J.: Automatic Pro- cessing of Linguistic Data as a Feedback for Linguistic Theory. In Castro, F., Gelbukh, A., González, M., eds.:

(7)

Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013). Volume 8265 of LNCS., Berlin Heidelberg, Springer-Verlag (2013) 252–

264 volume 1.

[14] Šmilauer, V.: Novoˇceská skladba. SPN, Praha (1966) [15] Štˇepánek, J.: Závislostní zachycení vˇetné struktury v ano-

tovaném syntaktickém korpusu (nástroje pro zajištˇení kon- zistence dat). PhD thesis, MFF UK, Prague (2006) [16] Oliva, K.: Linguistics behind the Mirror. In Lopatková,

M., ed.: Information Technologies – Applications and The- ory, Košice, Slovakia, Univerzita Pavla Jozefa Šafárika v Košiciach (2011) 1–6

[17] Karlík, P., Nekula, M., Pleskalová, J., eds.: Encyklope- dický slovník ˇceštiny. Nakladatelství Lidové noviny, Praha (2002)

[18] Hana, J.: Czech Clitics in Higher Order Grammar. PhD thesis, The Ohio State University (2007)

[19] Bˇeliˇcová, H., Uhlíˇrová, L.: Slovanská vˇeta. Euroslavica, Praha (1996)

[20] Bˇeliˇcová, H., Sedláˇcek, J.: Slovanské souvˇetí. Academia, Praha (1990)

[21] Hajiˇc, J., Panevová, J., Buráˇnová, E., Urešová, Z., Bémová, A., Štˇepánek, J., Pajas, P., Kárník, J.: Anotace na analytické rovinˇe. návod pro anotátory. Technical Report TR-2004-23, UFAL MFF UK (2004)

[22] Lopatková, M.: O homonymii pˇredložkových skupin. (Co umí poˇcítaˇc?). Karolinum, Praha (2003)

Références

Documents relatifs

És a dir, Szondi té clar que hi ha teatre més enllà de la forma absoluta del drama modern a través d’uns altres mecanismes i fa seua també la línia que arranca de Lessing,

T h e y obtained, essentially, the result pre- sented here for the variational inequality derived from the Dirichlet Integral.. The system of equations is found

Contra el que defensa una part de la historiografia espanyola sobre els nacionalismes, sosté que ja des d’ales- h o res el nacionalisme espanyol connec- tava amb les

• Pour décrire une portion réduite de la surface de la Terre (en négligeant le fait que la Terre est sphérique), on peut repérer la position au sol par

• Dans le cas particulier de deux vecteurs à trois coordonnées, on constate que le tenseur antisymétrique ainsi associé n'a que trois coordonnées

☞ remarque : de façon générale, la dérivée d'un vecteur unitaire par rapport à un angle de rotation est le produit vectoriel du vecteur unitaire de l'axe de

[r]

On suppose maintenant que U suit la loi uniforme sur [ − 1, 1] ; justifier le fait que X = 1/U est d´efinie presque