Neprojektivity v PDT
Závislost mezi dvěma slovy R a Z (řídící a závislý uzel) považujeme
za neprojektivní, jestliže mezi těmito slovy ve větě leží
nejméně jedno další slovo, které nezávisí na R ani zprostředkovaně
(tranzitivně - tj. neleží v podstromu, jehož kořenem je
R). Neprojektivitu lze definovat i jinými způsoby, například pomocí
děr (Kuboň, Plátek, Holan). Pokud jde o sám fakt existence
neprojektivity ve větě, jsou různé definice ekvivalentní; pokud však
chceme uvádět statistiky o neprojektivitách, potřebujeme vědět, co
přesně počítáme. Přestože jsme neprojektivitu definovali bez pojmu
díry, bude se nám alespoň jeho vágní zavedení hodit: že leží
v díře, říkáme o slovech, která způsobují neprojektivitu nějaké
závislosti, tj. nacházejí se ve větě mezi řídícím a závislým uzlem,
aniž by strukturálně náležela do jejich podstromu.
V roce 1998 jsem spočítal neprojektivní závislosti (hrany)
v tehdejší verzi Pražského závislostního korpusu, v PDT
0.5. Bylo jich přibližně 1,8 %.
Tady jsou novější a o něco rozpracovanější statistiky zjištěné
z PDT 1.0, přesněji z jeho části určené pro učení
statistických parserů na analytické rovině. Tato část obsahuje 73088
neprázdných vět (z 81614 vět celkem) a 1255590 slov.
Celková statistika
- Počet neprojektivně zavěšených slov (tj. neprojektivních
závislostí)
- 23691, tj. 1,9 %
- Počet vět, obsahujících alespoň jednu neprojektivní
závislost
- 16920, tj. 23,2 %
Velmi hrubé třídění
Pohledem do souboru s neprojektivními stromy lze rychle
odhalit některé typické konstrukce. Některé z těch
nejtypičtějších by pravděpodobně lingvista za neprojektivity
nepovažoval, ale kvůli pravidlům zvoleným pro anotaci analytické
roviny PDT tyto konstrukce naplnily výše uvedenou matematickou
definici neprojektivity.
Následuje přehled typů, které jsem zatím objevil.
- Modální slovesa
- Neprojektivní závislost je řízena slovesem
v infinitivu. V díře leží sloveso, na němž tento
infinitiv závisí. Typicky je to modální sloveso, resp. sloveso,
které se jako modální chová. Příklad: "přesto se i potom může
stát, že..." (neprojektivní je závislost stát-se).
Neprojektivních závislostí tohoto
druhu jsem objevil 4856 ve 4061 větách, tvoří tedy necelou pětinu
všech neprojektivit. Z technických důvodů jsem nezapočítal
případy, kdy na místě infinitivu ležela koordinace infinitivů,
apozice infinitivů nebo infinitiv slovesa být. Těchto
případů však dohromady nebude mnoho.
- Modifikované předložkové fráze
- V díře je právě jedno slovo, a to
předložka. Neprojektivní závislost tvoří podstatné jméno řízené
touto předložkou a jeho rozvití zleva. Příklad: "až
k nečitelnosti". Neprojektviních závislostí tohoto druhu jsem
objevil 3269.
- sice, však, proto...
- V díře je jedno ze slov:
sice, však, proto.
Neprojektivní závislost může vypadat libovolně. Takových pro
neprojektivitu typických slov bude asi delší seznam, ale zatím
jsem si všiml výše uvedených. Následují počty výskytů jednotlivých
slov v děrách neprojektivit:
však 2897 v 2017 větách,
sice 434 v 298 větách,
proto 370 v 240 větách.
- bude-li
- V díře je částice li. Vzhledem k pravidlu pro
anotaci vět s touto částicí v PDT je téměř jisté, že
bude vždy
způsobovat alespoň
jednu
neprojektivitu
(často však
několik
najednou).
Příklad:
"pohlédnem-li pak
na celou
problematiku
z tohoto
úhlu"
(neprojektivní
jsou závislosti
pohlédnem-pak,
pohlédnem-na a
pohlédnem-z).
Neprojektivit
tohoto typu jsem
objevil
1199
v 615
větách.
- více než
- Řídící uzel neprojektivní závislosti je přídavné jméno nebo
příslovce v komparativu, závislý uzel je slovo
než. V díře může být cokoliv. Příklad: "doba přenosu
více závisí na stavu telefonní linky než na rychlosti přístroje"
(neprojektivní je více-než, fráze "na stavu telefonní linky"
závisí na slovu závisí, a tvoří tedy díru. Neprojektivně
zavěšených slov než jsem objevil 350 ve 349
větách.
- Přísudek jmenný se sponou
- V díře je tvar slovesa být, řídící uzel
neprojektivní hrany je jmenný přísudek a závisí na něm. Na
neprojektivně zavěšený uzel žádná omezení nekladu, ale typicky asi
půjde o vztažné zájmeno. Příklad: "rychlost, jaké je přístroj
schopen" (neprojektivní je závislost schopen-jaké).
- Neprojektivní závislost na předmětu slovesa
- V díře je sloveso (jiné než být), řídící uzel
neprojektivity není infinitiv ani jmenný přísudek, ale závisí na
onom slovesu. Příklad: "se také používá papír" (neprojektivní je
závislost papír-také; já bych sice také pověsil pod
používá,
ale
v treebanku
je to
takhle.)
- Doplněk?
- Podmínku pro určení této kategorie zatím neumím formulovat, že
by to byl doplněk? Příklad: "firmy, které faxy samy dodávají"
(neprojektivní je
závislost
které-samy).
- Ostatní
- Narazil jsem i na jiné neprojektivity, u nichž mě zatím žádné
dobré zobecnění nenapadlo. Šly by roztřídit přinejmenším na dvě
skupiny: ty, kde v díře leží přímý nadřízený řídícího uzlu
neprojektivní závislosti (např. "necelých dvacet haléřů"), a ty,
kde přímý nadřízený leží mimo neprojektivní oblast, ale do díry
spadne nějaká jiná větev na něm pověšená (např. "běžně je jich
k dispozici 10"; neprojektivní je "10-jich", přímý nadřízený
10 i k je je). Poznámka:
v úvahu by přicházel ještě případ, kdy přímý nadřízený leží
mimo díru a v díře leží nepřímý nadřízený, ale takový případ
jsem nezaznamenal.
Doklady z PDT
Pokud si tuto stránku čtete z počítačů CKL, můžete si rovnou
stáhnout doklady neprojektivních stromů ve formátu vhodném pro
zobrazování v Tredu. Počítačům ze zbytku světa bude přístup přes
www odmítnut. Máte-li však v síti CKL svůj účet, můžete se
k souborům dostat "spodem" pomocí ssh.
Pokud v Tredu otevřete soubor ve formátu FS, zkontrolujte
v menu "View / Customize attributes", jestli máte zapnuto
zobrazování "#{red}${A}". Tím se vám pod každým neprojektivně
zavěšeným uzlem zobrazí červená značka "Nprj" a pod každým slovem
ležícím v díře nějaké neprojektivity červená značka "Dira".
Všechny datové soubory jsou zkomprimované gzipem.
Můžete si také stáhnout můj perlový skript na
hledání neprojektivit, ale není nijak zdokumentovaný.
Doklady 18.2.2004
Upozornění: Filtry, které rozpoznávají jednotlivé druhy
neprojektivit, jsou primitivní a rozhodně nelze zaručit, že výsledná
množina stromů přesně odpovídá dané kategorii tak, jak jsme ji
vymezili pro účely článku na Coling. Může se také stát, že
neprojektivita splňuje současně podmínku několika filtrů a objeví se
v několika kategoriích současně.
- Všechny neprojektivní stromy v dávkách
po 200 stromech na soubor, všechny soubory zazipované. 3 MB,
23691 neprojektivit, 16920 stromů.
- A1 - předložky. Mnohé předložkové
neprojektivity mi zatím proklouznou, ale to opravím. Momentálně soubor
obsahuje neprojektivity, kde v díře leží předložka a délka
neprojektivní hrany je 2 slova. 748 KB, 3273 neprojektivit, 3145
stromů.
- B4 - přívlastky. Neprojektivně zavěšený uzel
má afun Atr. 223 KB, 963 neprojektivit, 922 stromů.
- B5 - infinitivy. Neprojektivní hranu řídí
infinitiv slovesa. 1 MB, 5696 neprojektivit, 4708 stromů.
- B7 - komparativy. Neprojektivní hranu řídí
komparativ (přídavného jména nebo příslovce). 95 KB, 379
neprojektivit, 369 stromů.
- Zbytek. Všechny neprojektivity, které se
nevešly do výše zmíněných skupin. 2 MB, 13451 neprojektivit,
10090 stromů.
- A1a - předložky průchod 2. Tentokrát se do
této kategorie zařazují neprojektivity, jejichž řídící uzel přímo
závisí na předložce v díře. Aby byly hranice kategorie A1
dodrženy úplně přesně, muselo by se kontrolovat, že předložka je navíc
v díře sama. Jinak totiž nejde o technickou neprojektivitu
(neprojektivitu třídy A), protože neprojektivita nezmizí sama od sebe
pouhým přechodem na tektogramatickou rovinu a stažením předložky
k jejímu podstatnému jménu, ke kterému při přechodu
dochází. Naopak aktuální filtr stále ještě propustí frázi "i na našem
trhu", kde je neprojektivní hrana "i-našem", ale předložka není
rodičem uzlu "našem", nýbrž "trhu". 1,3 MB, 5894 neprojektivit,
5388 stromů.
- Opravený zbytek obsahuje 10938
neprojektivit a 8045 stromů.