• Aucun résultat trouvé

Gramatické závislosti vs. koordinace z pohledu redukční analýzy

N/A
N/A
Protected

Academic year: 2022

Partager "Gramatické závislosti vs. koordinace z pohledu redukční analýzy"

Copied!
7
0
0

Texte intégral

(1)

Gramatické závislosti vs. koordinace z pohledu redukˇcní analýzy

Markéta Lopatková, Jiˇrí Mírovský a Vladislav Kuboˇn

Univerzita Karlova v Praze, Matematicko.fyzikální fakulta, Ústav formální a aplikované lingvistiky Malostranské nám. 25, Praha 1, 118 00, ˇCeská republika

{vk,lopatkova,mirovsky}@ufal.mff.cuni.cz Abstrakt: Tento pˇríspˇevek se vˇenuje identifikaci zají-

mavých konstrukcí v syntakticky anotovaném korpusu (Pražském závislostním korpusu, PDT) metodou auto- matické redukˇcní analýzy. Rozšiˇrujeme zkoumané kon- strukce zejména o koordinaˇcní a apoziˇcní vztahy, které mají zˇretelnˇe ne-závislostní charakter a vedou tedy k zo- becnˇení používané redukˇcní metody. Pˇrinášíme klasifikaci zkoumaných konstrukcí a soustˇred’ujeme se na popis a analýzu jednotlivých jazykových jev˚u, které pˇri zpraco- vání p˚usobí problémy.

Tato studie je motivací pro formální modelování metod zpracování pˇrirozeného jazyka.

1 Motivace

Jedním ze dvou základních a obecnˇe uznávaných zp˚usob˚u reprezentace syntaktických vztah˚u ve vˇetách pˇrirozeného jazyka je závislostní strom. Tento zp˚usob reprezentace má v ˇceské lingvistice dlouhou tradici (na rozdíl od druhého rozšíˇreného typu stromu – složkového). Pˇrestože vztah zá- vislosti (neboli vztah mezi ˇrídícím a závislým vˇetným ˇcle- nem, jako je napˇr. pˇrísudek a jeho pˇredmˇet ˇci podstatné jméno a jeho pˇrívlastek) je velmi d˚uležitý, doplˇnují jej i dva další základní syntaktické vztahy, jmenovitˇe slovosled (tj. lineární poˇradí slov ve vˇetˇe) a ,zmnožení‘ dvou nebo více vˇetných ˇclen˚u.1

Zatímco v pˇredchozích studiích jsme se soustˇred’ovali na vztahy závislosti a slovosledu [2], v tomto ˇclánku zkou- máme i vztahy koordinaˇcní a apoziˇcní, vˇenujeme se tedy pˇrípad˚um, kdy je jedna syntaktická pozice ,zmnožena‘.

Ukázali jsme již, že závislostní relace lze s úspˇechem de- finovat pomocí redukˇcní analýzy [3, 4], což jsme ovˇeˇrili na vˇetách z Pražského závislostního korpusu (PDT) [5].

Na nˇe jsme aplikovali poloautomatickou proceduru dopl- nˇenou o následnou ruˇcní kontrolu. Této metody se držíme i v tomto ˇclánku. Umožˇnuje nám verifikovat náš teoretický koncept prostˇrednictvím reálných dat.

Smyslem našeho experimentu je jednak získat hlubší vhled do syntaxe pˇrirozeného jazyka, jednak prostˇrednic- tvím automatizovaného postupu identifikovat urˇcitá ne- standardní ˇci problematická místa syntaktické anotace dat, se kterými pracujeme. V otázce syntaktických vlastností jazyka náš pˇrístup umožˇnuje oddˇelit jednotlivé jevy a zkoumat je jak jednotlivˇe, tak i ve vzájemné interakci.

1Tesnière [1] jednak rozlišuje mezi lineárním a strukturním poˇradím, jednak dˇelí strukturní vztahy na ty, které dnes oznaˇcujeme jako závis- lostní (,connexion‘), a na vztahy koordinaˇcní (,junction‘).

V oblasti anotace vycházíme z jednoduchého pˇredpo- kladu (potvrzeného pˇredchozími experimenty), že pokud urˇcitá konstrukce nejde zpracovat automatickými pravidly redukˇcní analýzy, signalizuje to možnou nekonzistentní nebo nevhodnˇe zvolenou anotaci (napˇríklad dva odlišné jevy anotované shodnými znaˇckami – v takovém pˇrípadˇe obvykle automatická redukˇcní analýza nedokáže oba pˇrí- pady rozlišit).

V kontextu závislostní lingvistiky byly vztahy mezi zá- vislostí a slovosledem studovány zvláštˇe v Melˇcukovˇe teorii Smysl↔Text: jeho pˇrístup zamˇeˇrující se na urˇco- vání závislostních vztah˚u a jejich formální popis je shr- nut zejména v práci [6]. Alternativní formální popis závis- lostní syntaxe m˚užeme najít v práci [7]. Náš pˇrístup k da- nému problému naproti tomu vychází z ˇceské lingvistické tradice reprezentované zejména v knize [8].

Protože základním nástrojem, který používáme ke stu- diu výše zmínˇených jev˚u, je redukˇcní analýza, musíme ji na tomto místˇe alespoˇn struˇcnˇe pˇredstavit: zhruba ˇre- ˇceno, pokud jedno ze slov, která tvoˇrí potenciální dvojici ˇrídícího a závislého slova, m˚uže být z vˇety odstranˇeno, aniž by se zmˇenily distribuˇcní vlastnosti celého páru (tj.

jeho schopnost objevovat se ve stejném syntaktickém kon- textu), potom je toto slovo považováno za závislé (modifi- kující druhý ˇclenu páru). Takto m˚užeme postupovat u tzv.

endocentrických konstrukcí, kde lze jedno slovo reduko- vat, aniž by se zmˇenil možný syntaktický kontext (napˇr.

malý st˚ul –> st˚ul; Jdi dom˚u! –> Jdi!). Pro exocentrické konstrukce, kde žádné slovo vypustit nelze (jakoPetr po- tkal Marii., kdePetr potkal.má jiné vlastnosti) lze použít analogický princip na úrovni slovních druh˚u [8].2

D˚uvod pro využívání redukˇcní analýzy je jednoduchý – umožˇnuje rozdˇelit proces syntaktické analýzy vˇety do jed- notlivých, dobˇre definovaných a dobˇre oddˇelených krok˚u, a tím zároveˇn dovoluje zkoumat jednotlivé jevy oddˇelenˇe.

Metoda redukˇcní analýzy byla podrobnˇe popsána v ˇclán- cích [3, 4], její formální model založený na restartovacích automatech je pˇredstaven v ˇcláncích [9, 10, 11]. Jedním z cíl˚u tohoto ˇclánku je také poskytnout materiál a motivaci pro další formální modelování metod zpracování pˇriroze- ného jazyka, viz napˇr. [12].

2Zhruba ˇreˇceno, protože existují bezpˇredmˇetná slovesa, budeme ob- jekt (pˇredmˇet) považovat za závislý na slovese; protože existují bezpod- mˇetná slovesa, považujeme subjekt (podmˇet) za závislý na slovese.

(2)

2 Redukˇcní analýza

V této kapitole popíšeme základní myšlenku naší metody používané pro analýzu vˇet.Redukˇcní analýza (RA)je za- ložena na postupném zjednodušování analyzované vˇety.

Definuje možné posloupnosti redukcí vˇety – každý krok RA spoˇcívá vodstranˇeníalespoˇn jednoho slova ze vstupní vˇety (operace ‘delete’); ve specifických pˇrípadech je od- straˇnování doprovázeno pˇremístˇením slova na jinou slo- voslednou pozici (operace ‘shift’).

Uved’me nyní základní omezení, která uplatˇnujeme na redukˇcní analýzu:

(i) pˇrirozené omezení nutící zachovávat jednotlivé slovní tvary, jejich morfologické charakteristiky a jejich povrchové závislostní vztahy;

(ii) omezení vyžadující zachování správnosti (gra- maticky správná vˇeta musí z˚ustat správná i po provedeném zjednodušení);

(iii) aplikace operace pˇresunutí je omezená na pˇrípady, kdy je vynucena principem zachování správnosti RA (ii).

Povšimnˇeme si, že poˇradí redukcí odpovídá závislost- ním vztah˚um mezi jednotlivými vˇetnými ˇcleny, a tedy je- jich závislostní stromové reprezentaci tak, jak je to po- psáno v pracích [4, 11]. Zhruba ˇreˇceno, pˇri redukcích po- stupnˇe vypouštíme slova, která jasou reprezentována listy (pˇrípadnˇe podstromy) závislostního stromu.

Pokusme se ukázat základní principy RA na pˇríkladu ˇceské vˇety (1).

Pˇríklad:

(1)Petr se bojí o otce.

Ve vˇetˇe (1) lze subjektPetrpovažovat za závislý (viz prin- cip analogie), proto ho pˇri RA lze odstranit (v závislost- ním stromˇe je reprezentován listem, viz obrázek 1). Ovšem tento krok by vedl k porušení správnosti vˇety, musí tedy být doprovázen zmˇenou slovosledu Petr se bojí o otce.

delete * se bojí o otce. →shi f t bojí se o otce.. Dále lze vypustit spojenío otce, které je ve stromˇe znázornˇeno pod- stromem (výbˇer ˇrídícího uzlu je dán technickými pravidly, viz [3]). Klitikaseje podle principu analogie považována za závislý ˇclen (nebot’ existují slovesa bez klitiky, napˇr.

odpovˇedˇet).

3 Data z Pražského závislostního korpusu

Aˇckoliv základní princip redukˇcní analýzy je jednoduchý a rodilým mluvˇcím daného jazyka obvykle neˇciní potíže vˇetu zredukovat až k jejímu ˇrídícímu slovesu, automatické modelování tohoto postupu je pomˇernˇe obtížné. Tento roz- díl je zp˚usoben tím, že ˇclovˇek pˇri redukˇcní analýze m˚uže využít (a využívá) toho, že vˇetˇe rozumí, umí oddˇelit ménˇe

Petr

bojí

otce

se o

Obrázek 1: Závislostní strom vˇety (1).

podstatné vˇetné ˇcleny a postupnˇe dojít až k úplné redukci.

Pokusíme-li se o automatickou RA, musíme porozumˇení nˇejakým zp˚usobem nahradit. Jednou možností je využití syntakticky anotovaných dat, která v sobˇe urˇcitým zp˚uso- bem obsahují porozumˇení, vložené do anotace ˇclovˇekem- anotátorem.

V našich experimentech využíváme data z Pražského závislostního korpusu 3.0 (PDT, viz [5]).3 Syntaktická struktura jednotlivých vˇet z korpusu – zachycená závis- lostními stromy (vždy právˇe jeden strom pro každou vˇetu) – poskytuje základní informace nutné pro úspˇešné prove- dení automatické RA.

PDT obsahuje velmi podrobnou anotaci témˇeˇr 49 500 ˇceských vˇet (v experimentech využíváma pouze data s anotací na všech rovinách PDT). Anotace je provedena na více úrovních, z nichž je pro naše úˇcely nejd˚uležitˇejší úroveˇn analytická. Ta popisuje (povrchovou) syntaktickou strukturu pomocí tzv. analytických funkcí. V našich ex- perimentech pracujeme pouze s trénovacími daty (43 955 vˇet) a zbylé vˇety (tzv. ‘etest’) ponecháváme stranou jako testovací množinu pro budoucí evaluaci.

Pro reprezentaci vˇetné stavby se v PDT používá koˇre- nový strom. Vztahy mezi ˇclenem ˇrídícím a závislým, vy- tváˇrejícími vˇetnou dvojici, jsou znázornˇeny jako vztahy mezi dvˇema uzly stromu, kde uzel reprezentující ˇrídící ˇclen je rodiˇcem a uzel reprezentující závislý ˇclen je potom- kem. Jejich spojnice (hrana ve stromˇe) odpovídá (prototy- picky) syntaktickému vztahu závislosti mezi rodiˇcovským uzlem a jeho potomkem.

V pˇredchozích experimentech, popsaných v ˇcláncích [2, 13], jsme se zámˇernˇe vyhýbali vˇetám, které obsahovaly koordinace a apozice, protože tyto jevy by byly pro po- ˇcáteˇcní fázi výzkumu pˇríliš komplikované. Podstatou ko- ordinace a apozice je ,zmnožování‘ jednotlivých vˇetných ˇclen˚u nebo jednotlivých klauzí. Pˇri koordinaci jde o zˇre- tˇezení více entit (otec a matka), popˇr. dˇej˚u (pˇrišel, vidˇel a zvítˇezil), pˇri apozici jde o nˇekolikeré oznaˇcování jedné a téže entity (Karel, král ˇceský), viz [14].

Protože koordinace ani apozice nepˇredstavují jevy, které by v sobˇe obsahovaly pˇrirozenou závislost, bývají v syn- taktických stromech reprezentovány r˚uzným zp˚usobem [15]. V závislostních stromech používaných v PDT jsou tyto jevy zachyceny tzv. spojovací konstrukcí (viz pˇríklad (2) a strom na obrázku 2). Koˇrenem souˇradných struktur je umˇelý ,spojovací‘ uzel; z d˚uvod˚u ˇcistˇe technických je jeho lexikální hodnotou lemma souˇradicí spojky (ˇci lemma vý- razu signalizujícího apozici). Vlastní koordinované/apo-

3http://ufal.mff.cuni.cz/pdt3.0/

(3)

nované výrazy jsou spojeny s tímto koˇrenem hranami, které mají ne-závislostní charakter. Celá spojovací kon- strukce je potom spojena s ˇrídícím uzlem celé koordinaˇcní struktury další (nezávislostní) hranou.

Pˇríklad:

(2) ˇCao býval generálním tajemníkem strany a oficiálním Tengovým následníkem.

Závislostní strom vˇety (2), tak jak je zachycen na analy- tické rovinˇe PDT, je uveden na obrázku 2. Napˇríklad hrana mezi uzlybývala ˇCaoreprezentuje závislostní vztah pre- dikátu a subjektu. Spojovacím výrazem pro koordinaci je zde uzel pro spojku a, koordinovanými ˇcleny výrazyta- jemníkemanásledníkema ˇrídícím uzlem celé konstrukce sponabýval.

a-ln94200-123-p12s1

Čao býval

generálním tajemníkem

Co strany

a

oficiálním Tengovým následníkem

Co .

Sb Pred

Atr Pnom_

Atr Coord

Atr Atr

Pnom_

AuxK

Obrázek 2: Závislostní strom vˇety (2) podle pravidel PDT (dále již pro jednoduchost neuvádíme technický koˇren stromu (obsahující ID dané vˇety) a koncovou interpunkci).

4 Automatická redukˇcní analýza na datech PDT

Návrh automatické redukˇcní analýzy vyžaduje peˇclivý ná- vrh redukˇcních pravidel tak, aby byl v každém kroku ana- lýzy zajištˇen požadavek na zachování správnosti reduko- vaných vˇet. Postupuje se ,zdola nahoru‘ – postupným re- dukováním list˚u závislostního stromu z PDT (který nahra- zuje porozumˇení dané vˇetˇe), pˇriˇcemž nejprve se vždy re- dukují uzly bezprostˇrednˇe sousedící se svým ˇrídícím uz- lem; následuje redukce uzl˚u spojených s ˇrídícím uzlem projektivní hranou.

Pˇritom je zachovávána d˚uležitá podmínka na zachování neprojektivity – nelze redukovat uzel tak, aby z vˇety ,zmi- zela‘ neprojektivní konstrukce.

4.1 Pravidla pro RA bez koordinace a apozice V pˇredchozí etapˇe projektu jsme pˇredstavili soubor pra- videl pro automatickou RA [13, 2] – ukázalo se, že pro

vˇety bez koordinaˇcní ˇci apoziˇcní struktury automatická RA dobˇre koresponduje s lingvistickou analýzou zachy- cenou v PDT. Intuitivní RA musela být zjemnˇena tak, aby byly správnˇe zpracovány zejména následující jevy, které pˇresahují ˇcistˇe závislostní vztahy – typicky tam, kde je nutné pro zachování správnosti redukované vˇety brát v úvahu slovosled:

klitiky: klitiky (zejm.se/si,by, krátké tvary zájmen (mu, ji apod.)) vyžadují urˇcité postavení ve vˇetˇe, typicky za první pˇrízvuˇcnou pozicí; toto pravidlo je nutno pˇri RA zohlednit;

srovnání: srovnávací konstrukce (typicky uvozené vý- razy jako, než, dálecoby,jakoby, jakožto) vyžadují zvláštní zpracování, nebot’ jde ˇcasto o eliptické kon- strukce (Petr má vˇetší auto než Pavel. = Petr má vˇetší auto [než je auto, které má] Pavel.) a jako takové se vyznaˇcují složitou analýzou (která je závislá na pod- kladové lingvistické teorii);

neprojektivity: pˇri automatické analýze jsme se omezili na zpracování projektivních konstrukcí, nebot’ nepro- jektivity odhalují interakci slovosledu a závislostních vztah˚u, která je dále studována, viz zejm. [13];

pˇredložky, pomocná slovesa apod.: v RA se redukují v jednom kroku vždy celé vˇetné ˇcleny (napˇr. pˇred- ložka+podstatné jméno v redukciPˇrišli do školy. –>

Pˇrišli.); protože v PDT každému slovu, vˇcetnˇe tˇechto ,pomocných‘ slov, odpovídá jeden uzel, musí se re- dukovat nˇekolik uzl˚u stromu najednou;

slova pˇrekraˇcující závislostní vztahy: RA byla oboha- cena o pravidla pro zpracování zd˚urazˇnujících slov (napˇr. zejména,také,iapod.) a o technická pravidla pro zpracování interpunkce, grafických symbol˚u (zá- vorky, uvozovky atd.) apod.

4.2 Pravidla pro RA se zpracováním koordinace a apozice

Další krok pˇri zobecˇnování RA spoˇcívá v zamˇeˇrení se na paradigmaticky odlišné konstrukce, a to konstrukce koor- dinaˇcní (a apoziˇcní), které jsou charakterizovány zmnože- ním pˇríslušné syntaktické pozice.

Pravidla pro automatickou RA obohacenou o zpraco- vání koordinace a apozice:

0. Ve vstupní vˇetˇe jsou zpracovány jevy nevstupující do (dané) koordinaˇcní ˇci apoziˇcní struktury (vˇcetnˇe spo- leˇcného rozvití koordinovaných vˇetných ˇclen˚u), které lze zpracovat podle pravidel shrnutých výše.

Tento krok se provádí jako mezikrok po každém úspˇešném zpracování koordinaˇcní ˇci apoziˇcní struktury.

1. Pˇri zpracování koordinaˇcních a apoziˇcních struktur se vždy redukuje spojovací výraz (typicky koordinaˇcní spojka ˇci interpunkce) spolu s koordinovanými (ˇci apono- vanými) výrazy.

(4)

2. Všechny koordinované (ˇci aponované) ˇcleny se re- dukují v jediném kroku analýzy. Teoreticky nelze ome- zit poˇcet koordinovaných ˇclen˚u; pˇrestože v datech PDT se obvykle koordinuje 2-5 ˇclen˚u, v jednom pˇrípadˇe se koor- dinuje 57 ˇclen˚u (televizní program syntakticky strukturo- vaný do vˇety), u apozic jde až o 15 ˇclen˚u.

3. Zd˚urazˇnovací syntaktické ˇcástice a všechna pomocná slova, interpunkce, grafické symboly apod. se redukují zá- roveˇn v jednom kroku RA (podle dˇríve stanovených pravi- del).

4. Koordinace a apozice dovolují zanoˇrování. Opˇet jde teoreticky o neomezený poˇcet zanoˇrení, viz [16]; v datech PDT se vyskytlo 6 úrovní zanoˇrení koordinací a apozic (pˇrehled sportovních výsledk˚u).

I v této fázi se soustˇred’ujeme pouze na automatické zpra- cování projektivních konstrukcí; neprojektivní konstrukce jsou analyzovány ruˇcnˇe.

Kroky 1-3 redukˇcní analýzy ilustrujeme na následujícím pˇríkladu (3).

Pˇríklad:

(3)Dˇeti ˇcesaly zralé meruˇnky, modré blumy a také zelená jablka.

(Kde pˇrídavné jménozralé je analyzováno jako spoleˇcné rozvití slovmeruˇnky,blumyajablka, viz obr. 3.)

a česaly

jablka zralé

Děti

blumy

zelená meruňky , také

modré

Obrázek 3: Závislostní strom vˇety (3) (podle pravidel PDT, bez technického koˇrene a koncové interpunkce).

Krok 0: Redukují se všechna slova, která nevstupují do koordinace (získáme tím ,kostru koordinace‘ se spoleˇcným rozvitím:

–> ˇcesaly zralé meruˇnky, blumy a také jablka.

Dále se redukuje spoleˇcné rozvití koordinace:

–> ˇcesaly meruˇnky, blumy a také jablka.

Krok 1 a 2:

- redukuji se všechny ˇcleny koordinacemeruˇnky, blumy, jablka

- redukuje se spojovací uzel, tedy koordinaˇcní spojkaa Krok 3: Zároveˇn se v témže kroku RA zpracovávají zd˚u- razˇnovací slova a interpunkce:

- redukuje se zd˚urazˇnovacítaké - redukuje se interpunkˇcní ˇcárka

- redukuje se koncová interpunkˇcní teˇcka –> ˇcesaly

Manuální analýza automatických redukcí získaných z PDT vedla k dalším zpˇresnˇením pravidel, která se týkala zejména následujících jev˚u.

Další pravidla pro automatickou RA obohacenou o zpracování koordinace a apozice:

5. Zpracovávají se vˇety s koordinaˇcní spojkou, kde se však ,koordinuje‘ jediná klauze (ˇci vˇetný ˇclen) a kde tedy koordinaˇcní spojka plní funkci odkazu k pˇredcházejícímu kontextu. Napˇr.

Nemáme proto potížese získáváním trhu pro své výrobní odpady.

–> Nemáme proto potíže

(Dále se neredukuje kv˚uli neprojektivitˇe.)

6. Víceslovné spojky a syntaktické ˇcástice vztahující se k celé koordinované klauzi (typicky v PDT zachycované jako potomek spojovacího výrazu) se redukují v jednom kroku se spojovacím výrazem. Napˇr.:

Jsoubud’ nedostupná, nebo nedostaˇcující.

–> Jsou

(Redukce probíhá v jediném kroku: spojovacím uzlem je podle pravidel PDT koordinaˇcní spojka nebo, druhá ˇcást spojovacího výrazu bud’ musí být redukována zároveˇn (pravidlo 6); koordinované ˇcleny nedostupná a nedosta- ˇcujícíse redukují podle kroku 1, interpunkˇcní ˇcárka podle kroku 3.)

Další pravidla se již se netýkají specificky koordinací:

7. Adekvátnˇeji se redukují konstrukce s modálním slove- sem (napˇr.mˇely tvoˇrit) a s verbonominálním predikátem (napˇr.Je uˇcitelem, viz též vˇetu (2)): vnitˇrní struktura tˇechto konstrukcí je zjednodušována až na závˇer RA.

8. Emocionální a rytmizující ˇcásticemi,vám,si,to,ono apod. jsou redukovány kdykoli v pr˚ubˇehu redukce, i pokud jde o klitiky.

5 Lingvistická analýza zajímavých pˇríklad˚u

Podívejme se nyní podrobnˇeji na jevy, u kterých bud’ (po- vrchová) redukˇcní analýza nedává uspokojivé výsledky, nebo odhaluje zajímavé syntaktické konstrukce.

Pozice klitiky v koordinované klauzi. Podle Encyklope- dického slovníku ˇceštiny [17] je pˇríklonka (klitika) slovo (zpravidla krátké), které nemá vlastní pˇrízvuk, tvoˇrí pˇrí- zvuˇcný celek (takt) se slovem pˇredcházejícím. Klitiky mají v ˇceštinˇe pevné slovosledné postavení (zpravidla) za prv- ním pˇrízvuˇcným celkem (první pozicí) ve vˇetˇe (tzv. Wac- kernagelova pozice). Syntaktický popis první pozice je po- mˇernˇe komplexní [18], pro naše úˇcely staˇcí konstatování, že klitika nesmí stát na prvním místˇe ve vˇetˇe.

Ponˇekud nejasná situace nastává v pˇrípadˇe klitiky ve druhé (a další) koordinované klauzi. Souˇradicí spojky stojí podle ˇceských gramatik mimo koordinované klauze, proto by po nich mˇel následovat pˇrízvuˇcný celek a teprve potom pozice pro klitiky. To platí napˇr. pro nˇekteré spojky sluˇco- vací (a,i) a odporovací (ale):

Cesta sice nˇeco stojí, ale zákazníci se o kvalitˇe produkce pˇresvˇedˇcí na vlastní oˇci.

–> cesta sice stojí, alezákaznícise pˇresvˇedˇcí

(5)

–> * cesta sice stojí, alesepˇresvˇedˇcí

Diskuse by se pˇrenesla [...], azcelaby vyboˇcila z hranic ekonomie.

–> * Diskuse by se pˇrenesla [...], abyvyboˇcila z hranic ekonomie.

Oproti tomu u ˇrady dalších souˇradicích spojek (napˇr.

sluˇcovací/vyluˇcovací nebo, pˇríˇcinné nebot’, d˚usledkové (a) proto, vysvˇetlovacívždyt’) m˚uže tato spojka sama tvo- ˇrit první pˇrízvuˇcný celek, klitika tedy m˚uže (ale nemusí) následovat bezprostˇrednˇe po ní:

Film m˚užeme považovat za plnˇe autorský, nebot’Chabrol si k nˇemu napsal i scénáˇr [...].

–> m˚užeme, nebot’ si k nˇemu napsal i scénáˇr

Podrobnˇejší lingvistický rozbor slovosledných omezení ve vztahu ke klitikám lze nalézt v knihách [19, 20].

Nejsme si však vˇedomi, že by problematika koordinaˇcní spojky a postavení klitiky byla pro ˇceštinu v lingvistické literatuˇre popsána.

Koordinace s elidovanými vˇetnými ˇcleny. Podobnˇe jako u srovnávacích konstrukcí též u koordinaˇcních spojení ˇcasto dochází k elipse ˇcásti syntaktické struktury (tzv.

aktuální elipsa). V (povrchových) závislostních stromech PDT se elipsa nerekonstruuje, vˇetné ˇcleny syntakticky zá- vislé na ˇclenu vypuštˇeném se zavˇešují tam, kde by visel ˇclen vypuštˇený (a oznaˇcují se speciální analytickou funkcí ExD).

Takové pˇrípady ovšem zp˚usobují pˇri automatické RA problémy, nebot’ pˇri redukci m˚uže docházet k porušení plynulosti (ˇci alespoˇn stylistické souvislosti) redukova- ných vˇet (i když z hlediska ˇcistˇe formální syntaxe jsou správnˇe):

[...], Flintstoneovi sice nepˇrinášejí zábavunároˇcnou, ale ani nevkusnˇe prostoduchou. (= prostoduchou zábavu) –> ??[...], Flintstoneovi sice nepˇrinášejí zábavu, ale ani nevkusnˇe prostoduchou.

[...] jsou a zdaleka ne tak ˇcasté jako ˇredˇení zmrzlin. (=

jako je ˇcasté ˇredˇení zmrzlin)

–> ?? [...] jsou a zdaleka ne ˇcasté jako ˇredˇení zmrzlin.

Možným ˇrešením je zcela vylouˇcit eliptické konstruk- ce související s koordinací z automatického zpracování (vzhledem k takto vzniklým nepravidelnostem obvykle nelze vˇety tohoto typu úspˇešnˇe automaticky redukovat až na základní predikativní strukturu).

Konstrukce s nejasnou závislostí – typdo konce roku.

U jistých konstrukcí, pˇredevším u nˇekterých ˇcasových ur- ˇcení (napˇr.tˇesnˇe pˇred Vánocemi,185 minut týdnˇe) a míst- ních urˇcení (dva kilometry od ˇreky), bývá nˇekdy tˇežké roz- hodnout, zda jsou na sobˇe nezávislá, ˇci zda jedno rozvíjí druhé.

PDT v tˇechto pˇrípadech vychází z ponˇekud technických pravidel anotaˇcního manuálu [21]. Metoda RA zde nedává spolehlivé výsledky, viz napˇr.

V Bratislavˇe by mˇelo vzniknoutdo konce roku, stejnˇe jako

v New Yorku a Bruselu.

–>?? V Bratislavˇe by mˇelo vzniknout do konce, stejnˇe jako v New Yorku a Bruselu.

–>?? V Bratislavˇe by mˇelo vzniknout do roku, stejnˇe jako v New Yorku a Bruselu.

Není povinen sekaždý mˇesíchlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

–> * Není povinen se mˇesíc hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

–> * Není povinen se každý hlásit ve zprostˇredkovatelnˇe práce, a proto je vyˇrazen ze statistiky.

Vzhledem k ponˇekud nejasné syntaktické struktuˇre tˇechto jev˚u pˇri vyhodnocování automatické RA od pˇrípad- ných takto vzniklých nekorektností odhlížíme.

Víceslovné výrazy a ,pojmenované entity‘. V datech PDT nejsou v (povrchových) stromech zachyceny tzv. po- jmenované entity, což jsou napˇr. názvy osob (Petr Novák, ˇCao C’jang), zvíˇrat (Alík), lokací (Hradec Králové), in- stitucí (ˇCeská národní banka,Koh-i-Noor) apod., a více- slovné výrazy (napˇr. státní zástupce, šelma koˇckovitá) – jejich anotace podléhá stejným pravidl˚um jako anotace obecných jmen. (Adekvátní anotace je zachycena až na tektogramatické rovinˇe.)

Automatická RA tedy v tˇechto pˇrípadech nezíská z dat dostateˇcné informace a oba tyto typy výraz˚u jsou zpraco- vávány jako obecné konstrukce, což s sebou nese ponˇekud problematické redukce výraz˚u, které by mˇely být zpraco- vávány v jednom kroku, napˇr.:

Kupˇríkladu sedmdesátiletý ˇCchiao Š’ ˇci pˇetasedmdesáti- letý ˇCao C’jang.

–> Kupˇríkladu sedmdesátiletý Š’ ˇci pˇetasedmdesátiletý ˇCao C’jang.

[. . .]

–>Š’ˇci pˇetasedmdesátiletý ˇCao C’jang.

–>Š’ˇci pˇetasedmdesátiletý ˇCao jang.

–>Š’ˇci pˇetasedmdesátiletýjang.

Vzhledem k tomu, že tyto jevy se primárnˇe netýkají syn- taxe, ale dostupné slovníkové informace, pˇri návrhu auto- matické RA od chyb ve zpracování pojmenovaných entit a víceslovných výraz˚u odhlížíme.

Redukce valenˇcních doplnˇení. Pˇri návrhu (povrchové) redukˇcní analýzy vycházíme z povrchovˇe syntaktické struktury vˇet (uchovávané na tzv. analytické rovinˇe PDT), která nepracuje s informací o valenˇcní charakteristice jed- notlivých plnovýznamových slov a o tzv. vypustitelnosti jejich valenˇcních doplnˇení (tato informace je doplˇnována až na tektogramatické rovinˇe, která je už ovšem od povr- chové syntaxe pomˇernˇe vzdálena). Proto ani RA nem˚uže pracovat s valenˇcní informací.

Tato skuteˇcnost má zásadní dopad na (povrchovou) au- tomatickou RA: protože RA nemá k dispozici valenˇcní slovník, redukuje postupnˇe všechna objektová a adverbi- ální doplnˇení sloves a atributivní doplnˇení substantiv, bez

(6)

ohledu na jejich (ne)valenˇcní charakter a vypustitelnost.

Aˇckoli typicky jsou závislé ˇcleny vypustitelné, v ˇradˇe pˇrí- pad˚u dochází k zásadnímu posunutí významu ˇci k poru- šení plynulosti (ˇci dokonce správnosti) redukovaných vˇet.

Následující pˇríklady ilustrují posun významu (jít o nˇeco –> jít) a neúplnou strukturu (redukce adjektivního objektu v postpozici).

Jdeo ˇcinorodosta právˇe ona [...] dˇelá ze všech protago- nist˚u Genu [...] elitu.

–> Jde a právˇe ona [...] dˇelá ze všech protagonist˚u Genu [...] elitu.

[...] odrážejí tendenci vývoje oproštˇeného od vliv˚u i od hodnot.

–> * [...] odrážejí tendenci vývoje oproštˇeného.

Další problém spojený s valenˇcní charakteristikou jed- notlivých slov spoˇcívá v poˇradí vypouštˇení bˇehem RA.

Pravidla pro vypouštˇení napˇr. slovesných doplnˇení nejsou v ˇceských gramatikách (alespoˇn podle nám dostupných in- formací) formálnˇe zpracována, pˇresto je zˇrejmé, že zde platí nˇejaká omezení; napˇr. vypouštˇení dativních doplnˇení ˇci doplnˇení realizovaných pˇredložkovou skupinou by ty- picky mˇelo pˇredcházet vypouštˇení akuzativního doplnˇení (a to i v pˇrípadˇe aktuální elipsy), viz následující pˇríklady:

[...] poskytujíslužby a ˇcinnost bud’ pˇrímo nebo prostˇred- nictvím specializovaných institucí.

–> ?? [...] poskytují bud’ pˇrímo nebo prostˇrednictvím spe- cializovaných institucí.

–> [...] poskytují služby a ˇcinnost.

Obˇcanésimohouvyšetˇreníobjednat v hygienických stani- cích.

–> ?? Obˇcané si mohou objednat v hygienických stanicích.

–> Obˇcané mohou vyšetˇrení objednat v hygienických sta- nicích.

Vzhledem k nevyjasnˇeným pravidl˚um a omezením na poˇradí vypouštˇení jednotlivých doplnˇení4pˇri automatické RA od stylistických pochybení ˇci nekorektností zp˚usobe- ných nesprávným poˇradím vypouštˇení valenˇcních dopl- nˇení odhlížíme.

6 Závˇereˇcné shrnutí

Hlavním smyslem našich experiment˚u bylo ovˇeˇrit použi- telnost automatické redukˇcní analýzy na složitˇejší jazy- kové jevy (koordinace, apozice) a vytipovat urˇcité proble- matické konstrukce, které v budoucnu poslouží jako ma- teriál jak pro další lingvistický výzkum, tak i pro další zjemnˇení ˇci modifikaci samotné metody redukˇcní analýzy a pro formální popis vlastností pˇrirozených jazyk˚u. Ex- perimenty ukázaly, že i koordinace a apozice se ve vˇet- šinˇe pˇrípad˚u dají redukovat automaticky. Zároveˇn se po- daˇrilo objevit nˇekolik problematických konstrukcí, z nichž

4Podle [22] hrají roli nejen povrchové formy doplnˇení, ale i typ va- lenˇcního vztahu a obligatornost doplnˇení, tedy informace náležející do valenˇcního slovníku, a tedy na tektogramatickou rovinu (nikoli na rovinu povrchové syntaxe).

zejména spojení koordinace a postavení klitik ˇci poˇradí vy- pouštˇení slovesných doplnˇení pˇredstavují problémy, které zatím nebyly uspokojivˇe lingvisticky zpracovány.

Grantová podpora

Práce na tomto tématu je podpoˇrena z grantu GA ˇCR ˇcíslo P202/10/1333. Tento ˇclánek využívá jazyková data vyvi- nutá a/nebo distribuovaná v rámci projektu MŠMT ˇCR LINDAT/CLARIN (projekt LM2010013).

Reference

[1] Tesnière, L.: Eléments de syntaxe structurale. Librairie C.

Klincksieck, Paris (1959)

[2] Kuboˇn, V., Lopatková, M., Mírovský, J.: A Case Study of a Free Word Order. In: Proceedings of PACLIC 2013. (2013) [3] Lopatková, M., Plátek, M., Kuboˇn, V.: Modeling Syntax of Free Word-Order Languages: Dependency Analysis by Reduction. In: Proceedings of TSD 2005. Volume 3658 of LNAI., Berlin Heidelberg, Springer-Verlag (2005) 140–147 [4] Lopatková, M., Plátek, M., Sgall, P.: Towards a Formal Model for Functional Generative Description: Analysis by Reduction and Restarting Automata. The Prague Bulletin of Mathematical Linguistics87(2007) 7–26

[5] Hajiˇc, J., Panevová, J., Hajiˇcová, E., Sgall, P., Pajas, P., Štˇepánek, J., Havelka, J., Mikulová, M., Žabokrtský, Z., Ševˇcíková-Razímová, M.: Prague Dependency Treebank 2.0. LDC, Philadelphia, PA, USA (2006)

[6] Mel’ˇcuk, I.A.: Dependency in language. In: Proceedings of DepLing 2011, Barcelona (2011) 1–16

[7] Gerdes, K., Kahane, S.: Defining dependencies (and con- stituents). In: Proceedings of DepLing 2011, Barcelona (2011) 17–27

[8] Sgall, P., Hajiˇcová, E., Panevová, J.: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Reidel, Dordrecht (1986)

[9] Janˇcar, P., Mráz, F., Plátek, M., Vogel, J.: On monotonic automata with a restart operation. Journal of Automata, Languages and Combinatorics4(1999) 287–311

[10] Otto, F.: Restarting Automata. In: Recent Advances in Formal Languages and Applications, Studies in Compu- tational Intelligence. Volume 25., Berlin, Springer-Verlag (2006) 269–303

[11] Plátek, M., Mráz, F., Lopatková, M.: (In)Dependencies in Functional Generative Description by Restarting Auto- mata. In: Proceedings of NCMA 2010. Volume 263 of books@ocg.at., Wien, Austria, Österreichische Computer Gesellschaft (2010) 155–170

[12] Martin Plátek and Dana Pardubská and Markéta Lopat- ková: On Minimalism of Analysis by Reduction by Re- starting Automata. In Morrill, G., Muskens, R., Osswald, R., Richter, F., eds.: Formal Grammar 2014. Volume 8612 of LNCS., Berlin Heidelberg, Springer-Verlag (2014) 155–

170

[13] Kuboˇn, V., Lopatková, M., Mírovský, J.: Automatic Pro- cessing of Linguistic Data as a Feedback for Linguistic Theory. In Castro, F., Gelbukh, A., González, M., eds.:

(7)

Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013). Volume 8265 of LNCS., Berlin Heidelberg, Springer-Verlag (2013) 252–

264 volume 1.

[14] Šmilauer, V.: Novoˇceská skladba. SPN, Praha (1966) [15] Štˇepánek, J.: Závislostní zachycení vˇetné struktury v ano-

tovaném syntaktickém korpusu (nástroje pro zajištˇení kon- zistence dat). PhD thesis, MFF UK, Prague (2006) [16] Oliva, K.: Linguistics behind the Mirror. In Lopatková,

M., ed.: Information Technologies – Applications and The- ory, Košice, Slovakia, Univerzita Pavla Jozefa Šafárika v Košiciach (2011) 1–6

[17] Karlík, P., Nekula, M., Pleskalová, J., eds.: Encyklope- dický slovník ˇceštiny. Nakladatelství Lidové noviny, Praha (2002)

[18] Hana, J.: Czech Clitics in Higher Order Grammar. PhD thesis, The Ohio State University (2007)

[19] Bˇeliˇcová, H., Uhlíˇrová, L.: Slovanská vˇeta. Euroslavica, Praha (1996)

[20] Bˇeliˇcová, H., Sedláˇcek, J.: Slovanské souvˇetí. Academia, Praha (1990)

[21] Hajiˇc, J., Panevová, J., Buráˇnová, E., Urešová, Z., Bémová, A., Štˇepánek, J., Pajas, P., Kárník, J.: Anotace na analytické rovinˇe. návod pro anotátory. Technical Report TR-2004-23, UFAL MFF UK (2004)

[22] Lopatková, M.: O homonymii pˇredložkových skupin. (Co umí poˇcítaˇc?). Karolinum, Praha (2003)

Références

Documents relatifs

Contra el que defensa una part de la historiografia espanyola sobre els nacionalismes, sosté que ja des d’ales- h o res el nacionalisme espanyol connec- tava amb les

• Pour décrire une portion réduite de la surface de la Terre (en négligeant le fait que la Terre est sphérique), on peut repérer la position au sol par

• Dans le cas particulier de deux vecteurs à trois coordonnées, on constate que le tenseur antisymétrique ainsi associé n'a que trois coordonnées

☞ remarque : de façon générale, la dérivée d'un vecteur unitaire par rapport à un angle de rotation est le produit vectoriel du vecteur unitaire de l'axe de

[r]

On suppose maintenant que U suit la loi uniforme sur [ − 1, 1] ; justifier le fait que X = 1/U est d´efinie presque

És a dir, Szondi té clar que hi ha teatre més enllà de la forma absoluta del drama modern a través d’uns altres mecanismes i fa seua també la línia que arranca de Lessing,

T h e y obtained, essentially, the result pre- sented here for the variational inequality derived from the Dirichlet Integral.. The system of equations is found