Neprojektivity v PDT

Závislost mezi dvěma slovy R a Z (řídící a závislý uzel) považujeme za neprojektivní, jestliže mezi těmito slovy ve větě leží nejméně jedno další slovo, které nezávisí na R ani zprostředkovaně (tranzitivně - tj. neleží v podstromu, jehož kořenem je R). Neprojektivitu lze definovat i jinými způsoby, například pomocí děr (Kuboň, Plátek, Holan). Pokud jde o sám fakt existence neprojektivity ve větě, jsou různé definice ekvivalentní; pokud však chceme uvádět statistiky o neprojektivitách, potřebujeme vědět, co přesně počítáme. Přestože jsme neprojektivitu definovali bez pojmu díry, bude se nám alespoň jeho vágní zavedení hodit: že leží v díře, říkáme o slovech, která způsobují neprojektivitu nějaké závislosti, tj. nacházejí se ve větě mezi řídícím a závislým uzlem, aniž by strukturálně náležela do jejich podstromu.

V roce 1998 jsem spočítal neprojektivní závislosti (hrany) v tehdejší verzi Pražského závislostního korpusu, v PDT 0.5. Bylo jich přibližně 1,8 %.

Tady jsou novější a o něco rozpracovanější statistiky zjištěné z PDT 1.0, přesněji z jeho části určené pro učení statistických parserů na analytické rovině. Tato část obsahuje 73088 neprázdných vět (z 81614 vět celkem) a 1255590 slov.

Celková statistika

Počet neprojektivně zavěšených slov (tj. neprojektivních závislostí)
23691, tj. 1,9 %
Počet vět, obsahujících alespoň jednu neprojektivní závislost
16920, tj. 23,2 %

Velmi hrubé třídění

Pohledem do souboru s neprojektivními stromy lze rychle odhalit některé typické konstrukce. Některé z těch nejtypičtějších by pravděpodobně lingvista za neprojektivity nepovažoval, ale kvůli pravidlům zvoleným pro anotaci analytické roviny PDT tyto konstrukce naplnily výše uvedenou matematickou definici neprojektivity.

Následuje přehled typů, které jsem zatím objevil.

Modální slovesa
Neprojektivní závislost je řízena slovesem v infinitivu. V díře leží sloveso, na němž tento infinitiv závisí. Typicky je to modální sloveso, resp. sloveso, které se jako modální chová. Příklad: "přesto se i potom může stát, že..." (neprojektivní je závislost stát-se). Neprojektivních závislostí tohoto druhu jsem objevil 4856 ve 4061 větách, tvoří tedy necelou pětinu všech neprojektivit. Z technických důvodů jsem nezapočítal případy, kdy na místě infinitivu ležela koordinace infinitivů, apozice infinitivů nebo infinitiv slovesa být. Těchto případů však dohromady nebude mnoho.
Modifikované předložkové fráze
V díře je právě jedno slovo, a to předložka. Neprojektivní závislost tvoří podstatné jméno řízené touto předložkou a jeho rozvití zleva. Příklad: "až k nečitelnosti". Neprojektviních závislostí tohoto druhu jsem objevil 3269.
sice, však, proto...
V díře je jedno ze slov: sice, však, proto. Neprojektivní závislost může vypadat libovolně. Takových pro neprojektivitu typických slov bude asi delší seznam, ale zatím jsem si všiml výše uvedených. Následují počty výskytů jednotlivých slov v děrách neprojektivit: však 2897 v 2017 větách, sice 434 v 298 větách, proto 370 v 240 větách.
bude-li
V díře je částice li. Vzhledem k pravidlu pro anotaci vět s touto částicí v PDT je téměř jisté, že bude vždy způsobovat alespoň jednu neprojektivitu (často však několik najednou). Příklad: "pohlédnem-li pak na celou problematiku z tohoto úhlu" (neprojektivní jsou závislosti pohlédnem-pak, pohlédnem-na a pohlédnem-z). Neprojektivit tohoto typu jsem objevil 1199 v 615 větách.
více než
Řídící uzel neprojektivní závislosti je přídavné jméno nebo příslovce v komparativu, závislý uzel je slovo než. V díře může být cokoliv. Příklad: "doba přenosu více závisí na stavu telefonní linky než na rychlosti přístroje" (neprojektivní je více-než, fráze "na stavu telefonní linky" závisí na slovu závisí, a tvoří tedy díru. Neprojektivně zavěšených slov než jsem objevil 350 ve 349 větách.
Přísudek jmenný se sponou
V díře je tvar slovesa být, řídící uzel neprojektivní hrany je jmenný přísudek a závisí na něm. Na neprojektivně zavěšený uzel žádná omezení nekladu, ale typicky asi půjde o vztažné zájmeno. Příklad: "rychlost, jaké je přístroj schopen" (neprojektivní je závislost schopen-jaké).
Neprojektivní závislost na předmětu slovesa
V díře je sloveso (jiné než být), řídící uzel neprojektivity není infinitiv ani jmenný přísudek, ale závisí na onom slovesu. Příklad: "se také používá papír" (neprojektivní je závislost papír-také; já bych sice také pověsil pod používá, ale v treebanku je to takhle.)
Doplněk?
Podmínku pro určení této kategorie zatím neumím formulovat, že by to byl doplněk? Příklad: "firmy, které faxy samy dodávají" (neprojektivní je závislost které-samy).
Ostatní
Narazil jsem i na jiné neprojektivity, u nichž mě zatím žádné dobré zobecnění nenapadlo. Šly by roztřídit přinejmenším na dvě skupiny: ty, kde v díře leží přímý nadřízený řídícího uzlu neprojektivní závislosti (např. "necelých dvacet haléřů"), a ty, kde přímý nadřízený leží mimo neprojektivní oblast, ale do díry spadne nějaká jiná větev na něm pověšená (např. "běžně je jich k dispozici 10"; neprojektivní je "10-jich", přímý nadřízený 10 i k je je). Poznámka: v úvahu by přicházel ještě případ, kdy přímý nadřízený leží mimo díru a v díře leží nepřímý nadřízený, ale takový případ jsem nezaznamenal.

Doklady z PDT

Pokud si tuto stránku čtete z počítačů CKL, můžete si rovnou stáhnout doklady neprojektivních stromů ve formátu vhodném pro zobrazování v Tredu. Počítačům ze zbytku světa bude přístup přes www odmítnut. Máte-li však v síti CKL svůj účet, můžete se k souborům dostat "spodem" pomocí ssh.

Pokud v Tredu otevřete soubor ve formátu FS, zkontrolujte v menu "View / Customize attributes", jestli máte zapnuto zobrazování "#{red}${A}". Tím se vám pod každým neprojektivně zavěšeným uzlem zobrazí červená značka "Nprj" a pod každým slovem ležícím v díře nějaké neprojektivity červená značka "Dira".

Všechny datové soubory jsou zkomprimované gzipem.

Můžete si také stáhnout můj perlový skript na hledání neprojektivit, ale není nijak zdokumentovaný.


Doklady 18.2.2004

Upozornění: Filtry, které rozpoznávají jednotlivé druhy neprojektivit, jsou primitivní a rozhodně nelze zaručit, že výsledná množina stromů přesně odpovídá dané kategorii tak, jak jsme ji vymezili pro účely článku na Coling. Může se také stát, že neprojektivita splňuje současně podmínku několika filtrů a objeví se v několika kategoriích současně.


Daniel Zeman, 2003-2004