Úvod

Tato příručka popisuje reprezentaci věty v Pražském závislostním korpusu (PDT) na tzv. tektogramatické rovině. Je určena zejména uživatelům PDT, a to jak těm, kteří se chtějí orientovat v námi použité reprezentaci z lingvistického hlediska, tak pro ty, kteří budou PDT dále automaticky zpracovávat, například statistickými nebo jinými metodami pro účely automatické syntaktické analýzy nebo syntézy.

Předchozí, nižší úrovně PDT se zabývaly:

Tektogramatická anotace je anotací strukturní, závislostní, zachycuje tzv. hloubkovou, významovou strukturu věty. Na tektogramatické rovině má každá (správně tvořená) věta alespoň jeden zápis, který jednoznačně charakterizuje význam této věty, popřípadě jeden z jejích významů (je-li věta i z hlediska jejího širšího kontextu výjimečně víceznačná). Zápis na tektogramatické rovině obsahuje veškerou informaci, kterou stavba věty a její lexikální obsazení dává a která je nutná pro převod tohoto tektogramatického zápisu na zápis nižších rovin i pro její interpretaci ve smyslu intenzionální sémantiky.

Tektogramatický zápis věty tedy obsahuje kromě zachycení vlastní hloubkové struktury věty a funkcí jednotlivých členů této struktury i řadu dalších údajů, jako jsou různé druhy tzv. gramatémů, informace o gramatické a textové koreferenci a o aktuálním členění (včetně hloubkového slovosledu, tj. stupně výpovědní dynamičnosti).

Tektogramatická rovina vychází do značné míry z roviny analytické. Vzhledem k tomu, že se anotovala tatáž data, nebylo nutné ruční anotaci reprezentace věty na tektogramatické rovině vytvářet od začátku, nýbrž bylo možné z roviny analytické řadu věcí převzít, například téměř úplnou strukturu věty (alespoň pokud jde o autosémantické slovní jednotky) - analytická a tektogramatická rovina jsou založeny na stejné koncepci závislosti. Řadu dalších věcí bylo možné připravit automaticky ještě předtím, než byla ruční anotace zahájena, řada věcí byla naopak automaticky zpracována poté, co anotátoři svou práci dokončili. Pro tuto práci byly navrženy a implementovány různé automatické procedury. Tyto procedury však samy o sobě nedefinují výslednou reprezentaci, i když některé konstrukce jsou schopny do tektogramatické reprezentace převést velmi přesně. Rozhodující je definice tektogramatické roviny popsaná v tomto manuálu; výsledky automatických procedur jsou proto upravovány ručně anotátory. (Popisem fungování automatických procedur se tento manuál nezabývá.)

Anotovaná data PDT 2.0 neodráží vždy přesně (poslední) stav pravidel anotace na tektogramatické rovině. Proto má tato příručka dvojí účel: jednak shrnuje naši dosavadní představu o pravidlech pro anotaci českých vět na tektogramatické rovině (tj. jak by se měly nadále české texty anotovat) a jednak se snaží o co nejpřesnější popis anotovaných dat v korpusu PDT 2.0. Rozdíl mezi zde popsanými anotačními pravidly a skutečným stavem anotace je způsoben zejména tím, že právě až anotace prověřila adekvátnost na počátku daných pravidel, až anotace ukázala, které pravidlo bylo třeba zpřesnit, či nahradit jiným. Anotace též ukázala na problematické syntaktické konstrukce, které bylo třeba v jejím průběhu popsat a pro které bylo nutné vytvořit další pravidla. Nová pravidla anotace tak vznikala po celou dobu anotování a i v samotném závěru anotace docházelo k novým modifikacím pravidel. Zpětnou kontrolu dat podle výsledné závěrečné verze pravidel nebylo možné (z časových důvodů) provést ve všech oblastech anotace. Kontrolovala a opravovala se jen anotace jednotlivých dílčích jevů, byť těch podstatných a často se vyskytujících. V příručce vždy na případný rozdíl mezi popsanými pravidly a skutečným stavem anotací upozorňujeme.

Kapitoly v manuálu jsou rozčleněny analogicky podle způsobu reprezentace věty na tektogramatické rovině. Základní principy reprezentace věty na tektogramatické rovině jsou popsány v první kapitole 1 - "Základní principy reprezentace věty na tektogramatické rovině", zde jsou také vysvětleny důležité termíny, které dále v příručce používáme. Následující kapitola 2 - "Typy uzlů" třídí uzly tektogramatického stromu do různých typů. Atributy blíže specifikující lexikální jednotku (reprezentovanou uzlem) popisují další dvě kapitoly 3 - "Tektogramatické lema (t-lema)" a 4 - "Komplexní uzly a gramatémy". Následuje popis struktury věty, zejména popis zachycení vztahu závislosti mezi lexikálními jednotkami (5 - "Struktura reprezentace věty"). Anotace specifických syntaktických struktur je popsána v 7 - "Specifické syntaktické konstrukce". Zvláštní kapitola je věnována funktorům a subfunktorům (6 - "Funktory a subfunktory"). Po jedné kapitole je věnováno také koreferenci (8 - "Koreference") a aktuálnímu členění (9 - "Aktuální členění"). Poslední kapitola (10 - "Formát dat") obsahuje některé informace o formátu anotovaných dat, které jsou z hlediska ruční anotace relevantní.