Kapitola 3. Pravidla anotace

Obsah

3.1. Úvod
3.2. Seznam analytických funkcí
3.3. Jednoduchá věta (klause) obsahující sloveso; větné členy v závislostním vztahu
3.3.1. Přísudek (predikát) Pred, Pnom, AuxV
3.3.2. Podmět (subjekt) Sb
3.3.3. Přívlastek (atribut) Atr, AtrAdv, AdvAtr, AtrAtr, AtrObj, ObjAtr
3.3.4. Předmět (objekt) Obj, ObjAtr, AtrObj
3.3.5. Příslovečné určení (adverbiale) Adv, AdvAtr, AtrAdv
3.3.6. Doplněk (atribut verbální) Atv, AtvV
3.3.7. Pomocné větné členy AuxC, AuxP, AuxZ, AuxO, AuxT, AuxR, AuxY
3.3.8. Grafické symboly (interpunkce); kořen stromu AuxS, AuxK, AuxX, AuxG
3.4. Elipsy; jednočlenné věty bez slovesa
3.4.1. Elipsa ExD, Exd-Co
3.4.2. Jednočlenné věty bez slovesa ExD, Exd-Co
3.5. Vztahy mezi větami a větnými členy (nezávislostní)
3.5.1. Koordinace (větná i větněčlenská) Coord, afun_Co
3.5.2. Aposice Apos, afun-Ap
3.6. Parentese
3.6.1. Obecná pravidla
3.6.2. Ustálená (pokleslá) parentese AuxY-Pa
3.6.3. Větná forma (nezávislá, obsahující predikát) Pred-Pa
3.6.4. Větný člen (závislý, syntakticky začleněný) afun-Pa
3.6.5. Větný člen, větná forma (syntakticky nezačleněno; elipsa); samostatný větný člen; vokativ; citoslovce Exd-Pa
3.7. Komplexní jevy
3.7.1. Přímá řeč
3.7.2. Adresy a jména osob a institucí
3.7.3. Výrazy s číslovkami, číslice v různých funkcích
3.7.4. Odkazovací slova
3.7.5. Hranice dativu volného a vazebného
3.7.6. Sousloví, fraseologismy
3.7.7. Doprovod
3.7.8. Reflexivní se, si
3.7.9. Srovnávací obraty se spojkami jako a než
3.7.10. Cizojazyčné složky rozebíraného textu
3.7.11. Bibliografické údaje
3.7.12. Složená česká jména
3.7.13. Volně připojené větné členy

3.1. Úvod

V následujícím textu se pojmem označení nebo funkce myslí vždy hodnota atributu afun. Formulace "pověsit uzel x na uzel y", příp. "uzel x (zá)visí na uzlu y" znamená, že uzel x je závislý na uzlu y, neboli y je pro uzel x uzlem řídícím. V grafické reprezentaci je řídící uzel vždy výše než uzel závislý. (Definice grafu representace věty viz kap. 1.2.2.) Pravidla pro anotaci na analytické úrovni se zabývají pouze strukturou věty (tj. určením, které slovo závisí na kterém slově), a typy závislostí (analytickými funkcemi). Struktura věty se zachycuje přímo v grafu věty, analytická funkce se zapisuje jako hodnota atributu afun. Ostatní atributy slouží pouze pro informaci anotátora - jejich hondoty jsou buď již fixní, nebo budou určeny jinak. Anotátoři smějí zapisovat kromě hodnot atributu afun pouze poznámky do hodnot dohodnutých atributů (origap pro celou větu, mstag pro jednotlivé uzly). Z technických důvodů jsou v grafu representace i takové hrany, které neodpovídají tradičnímu pojmu gramatické závislosti (např. koordinace, aposice, "vzdálená" závislost, je-li ve větě elipsa, složené (nevlastní) předložky a spojky atd.). Pro jednoduchost budeme i pro takové hrany používat pojmů "(zá)visí, je závislý, atd.". V případě nejasností explicitně uvádíme, kdy jde o gramatickou a kdy o "technickou" závislost.

Pro ruční anotaci jsou vstupní data předzpracována programy (projekty 28xx), které větě anotované na morfologické úrovni (nebo alespoň větě předzpracované morfologickým programem) přiřadí iniciální strukturu a konvertují ji do formátu vyžadovaného programem pro ruční anotaci (program GRAPH). Iniciální struktura je triviální - každé slovo je považováno za závislé na slově bezprostředně předcházejícím. Výjimku tvoří pouze interpunkce na konci věty, která je zavěšena na kořen stromu. Při této inicialisaci jsou předběžně přiřazeny i ty funkce, u kterých je vysoká pravděpodobnost, že budou automaticky přiřazeny správně. Atributu afun u ostatních uzlů je přiřazena hodnota ???, aby při práci s programem GRAPH bylo na první pohled možno identifikovat dosud nezpracované uzly.

Při anotaci postupujeme následovně: 

  1. Vrcholem stromu je přidaný uzel se znakem # (viz kap. 3.3.8.1).

  2. Na tomto uzlu je při nepříznakové stavbě věty zavěšen predikát hlavní věty a koncová interpunkce. Nemá-li věta přísudek, bývají zde vedle sebe zavěšeny "zbylé" větné členy (viz bod 4). Případně zde může viset hlavní uzel pro koordinaci (viz bod 5), jde-li např. o souvětí souřadné.

  3. Řídíme se zásadami pro závislostní rozbor:

    • vyhledáme přísudek věty (ten bude zavěšen podle bodu 2, viz kap. 3.3.1),

    • najdeme podmět věty (v našem pojetí je závislý na přísudku, viz kap. 3.3.2),

    • najdeme všechna ostatní slovesná doplnění (3.3.4, 3.3.5, příp. 3.3.6),

    • stanovíme rozvíjející členy slovesných doplnění (3.3.3, 3.3.4, 3.3.5, 3.3.6). Svoji závislost (někdy jen čistě technickou) však musí mít i všechny ostatní (zbývající) uzly (3.3.7 a 3.3.8).

  4. Dojde-li k elipse a chybí-li k nějakému členu řídící uzel, používáme speciální označení ExD (3.4.1). Jako elipsu v podstatě chápeme i jednočlennou neslovesnou větu (3.4.2).

  5. Problém koordinace a aposice (3.5.1 a 3.5.2) řešíme technicky tak, že zvolíme tzv. hlavní uzel (spojka, čárka a podobně), který je zavěšen závislostně, a jednotlivé členy koordinace či aposice visí na tomto uzlu (technicky).

  6. Parentetické části vět označujeme zvláštní příponou (3.6).

Podrobně jsou všechny pravidla a funkce popsány v kapitolách jim určených. Kromě toho manuál obsahuje ještě kapitolu 3.7, ve které jsou popsána řešení některých složitějších jevů, které nemohly být zařazeny do výše zmíněných kapitol. Pravidla byla stanovována a formlována tak, aby pokryla co největší jazykový prostor. Díky povaze přirozených jazyků však není možné, aby zachytila zcela všechno. Proto se v korpusu budou vyskytovat i struktury pro věty, které nejsou v našich pravidlech popsány. V těchto výjimečných případech byla rozhodnutí ponechána na jazykovém citu anotátorů, kteří pak rozhodovali jednotlivě.

Pravidla pro anotaci na analytické úrovni (neboli popis representace věty na analytické úrovni a jeho vztah k úrovni morfologické) vycházejí především z anotačních zásad (kap. 2 - "Zásady anotace"), z požadavků na konsistenci, z potřeby explicitně zachytit vztahy mezi všemi výskyty slovních tvarů ve větě a berou ohled i na předpokládanou representaci věty na tektogramatické úrovni. Kde je to možné, přidržují se tradičních pojmů české mluvnice, jak je popsána zejména v "Současné mluvnici českého jazyka" V. Šmilauera. Je nutno poznamenat, že k odchylkám dochází poměrně často vzhledem k "nepočítačové" orientaci zmíněné příručky, ve které není řada i častých jevů explicitně, systematicky a někdy ani konsistentně popsána. Odchylkou je i to, že subjekt chápeme jako závislý na predikátu (viz část 3.3.1.3 v kap. 3.3.1 a část 3.3.2.1 v kap. 3.3.2). Na příklad problém přísudku je složitý, neboť jej často tvoří více slov a my musíme zachytit každé zvlášť. Proto kromě funkce Pred pro hlavní uzel přísudku byly zavedeny ještě AuxV pro pomocné sloveso být (viz část 3.3.1.4 v kap. 3.3.1) a Pnom pro jmennou část přísudku (viz část 3.3.1.7.1 v kap. 3.3.1). U přísudku složeného zase používáme pro infinitiv funkci Obj, která označuje klasický předmět (viz část 3.3.1.6.1 v kap. 3.3.1). Také použití funkce Atr je širší. Nepoužíváme ji jen pro klasický přívlastek, ale i pro složky adres a jmen (viz kap. 3.7.2), pro složky cizojazyčného textu (viz kap. 3.7.10) a pro složky číselných výrazů, které je vůbec složité zachytit (vznikají tam rozličné další problémy, viz celou kapitolu 3.7.3). Navíc zavádíme i tzv. kombinované funkce (viz část 3.3.3.2 v kapitole 3.3.3). Oproti Šmilauerovu pojetí vymezujeme trochu jinak i vzájemné hranice jednotlivých větných členů, zvláště pak předmětu (viz 3.3.4, část 3.3.4.1), příslovečného určení (viz 3.3.5, část 3.3.5.1) a doplňku (viz 3.3.6, část 3.3.6.1). U některých příkladů k jednotlivým pravidlům je použito grafů representace částí vět zhruba v tom tvaru, ve kterém jsou při anotaci zobrazována anotačním programem GRAPH. Zobrazují se hodnoty atributů form (horní text u uzlu) a afun (text dolní, pod hodnotou atributu form). Tyto grafy se v podobě obrázků skrývají za ikonkami, které mají následující podobu:

image

V příkladu pod touto ikonou je pro uzly označené (Peče/Pred) i (./AuxK) řídícím uzlem uzel (#1/AuxS) (tento uzel je i řídícím uzlem celé věty). Hodnoty "#1", "peče", a "." jsou hodnotami atributu form. Hodnoty AuxS, Pred a AuxK jsou hodnotami atributu afun. Je-li v příkladech uvedena hodnota ??? atributu afun, znamená to, že tato hodnota není v daném příkladu podstatná.