Atributy vrcholu v souborech typu .fs

Formát souboru typu .fs je definován obecně, aby mohl zachytit prakticky libovolnou stromovou strukturu s vrcholy ohodnocenými sadou atributů. Každý .fs soubor může mít vlastní definici atributů vrcholu. Nicméně, datové soubory českého tree-banku, pro které je formát .fs především určen, by měly mít sadu atributů vždy stejnou. Tento požadavek není zcela splněn, protože i formát tree-banku se vyvíjel a v oběhu jsou soubory odpovídající různým verzím formátu.

Za předpokladu, že všechny .fs soubory odpovídají aktuální verzi tree-banku, lze říci, že existuje jisté zúžení .fs formátu se společnou definicí sady atributů, které je vlastně aplikací .fs formátu. Vztah mezi tree-bankovým zúžením .fs a obecným .fs je analogií vztahu mezi jazykem SGML a konkrétním druhem SGML dokumentu, definovaným jistým DTD (takovou aplikací SGML je například formát CSTS, který rovněž slouží k ukládání tree-banku).

Definice atributů, tak jak je uvedena v záhlaví každého .fs souboru, nese pouze informaci potřebnou pro toho, kdo bude soubor číst do paměti. Neříká nic o významu jednotlivých atributů a říká jen málo o tvaru, který musí mít jejich hodnoty. Právě takové informace se snažím shrnout na této stránce. Zdrojem mi byla zejména příručka Anotace na analytické rovině: Návod pro anotátory.

Některé atributy mají zvláštní význam v kořeni stromu, který nenese informaci o konkrétním slovu, ale o celé větě. Příslušné poznámky jsou uvedeny u jednotlivých atributů.

Definice sady atributů v souborech .fs

Takto vypadá současná definice atributů vrcholu. O syntaxi, v jaké je definice zapsána, se lze dočíst v popisu obecného formátu .fs souborů.

@P lemma
@O lemma
@P tag
@O tag
@P form
@O form
@P afun
@O afun
@L1 afun|---|Pred|Pnom|AuxV|Sb|Obj|Atr|Adv|AtrAdv|AdvAtr|Coord|AtrObj|ObjAtr|AtrAtr|AuxT|AuxR|AuxP|Apos|ExD|AuxC|Atv|AtvV|AuxO|AuxZ|AuxY|AuxG|AuxK|AuxX|AuxS|Pred_Co|Pnom_Co|AuxV_Co|Sb_Co|Obj_Co|Atr_Co|Adv_Co|AtrAdv_Co|AdvAtr_Co|Coord_Co|AtrObj_Co|ObjAtr_Co|AtrAtr_Co|AuxT_Co|AuxR_Co|AuxP_Co|Apos_Co|ExD_Co|AuxC_Co|Atv_Co|AtvV_Co|AuxO_Co|AuxZ_Co|AuxY_Co|AuxG_Co|AuxK_Co|AuxX_Co|Pred_Ap|Pnom_Ap|AuxV_Ap|Sb_Ap|Obj_Ap|Atr_Ap|Adv_Ap|AtrAdv_Ap|AdvAtr_Ap|Coord_Ap|AtrObj_Ap|ObjAtr_Ap|AtrAtr_Ap|AuxT_Ap|AuxR_Ap|AuxP_Ap|Apos_Ap|ExD_Ap|AuxC_Ap|Atv_Ap|AtvV_Ap|AuxO_Ap|AuxZ_Ap|AuxY_Ap|AuxG_Ap|AuxK_Ap|AuxX_Ap|Pred_Pa|Pnom_Pa|AuxV_Pa|Sb_Pa|Obj_Pa|Atr_Pa|Adv_Pa|AtrAdv_Pa|AdvAtr_Pa|Coord_Pa|AtrObj_Pa|ObjAtr_Pa|AtrAtr_Pa|AuxT_Pa|AuxR_Pa|AuxP_Pa|Apos_Pa|ExD_Pa|AuxC_Pa|Atv_Pa|AtvV_Pa|AuxO_Pa|AuxZ_Pa|AuxY_Pa|AuxG_Pa|AuxK_Pa|AuxX_Pa|Generated|NA|???
@P ID1
@P ID2
@VA origf
@P origf
@P afunprev
@P semPOS
@P tagauto
@P lemauto
@N ord
@P dord
@W sentord
@P govTR
@P nospace
@P root
@P ending
@P punct
@P alltags
@P wt
@P origfkind
@P formtype
@P gappost
@P gappre
@P cstslang
@P cstssource
@P cstsmarkup
@P chap
@P doc
@P docid
@P docmarkup
@P docprolog
@P1 warning
@P3 err1
@P3 err2
@P reserve1
@P reserve2
@P reserve3
@P reserve4
@P reserve5
@P wMDt_a
@P wMDl_a
@P wMDt_b
@P wMDl_b
@P tagMD_a
@P lemmaMD_a
@P tagMD_b
@P lemmaMD_b

Lemma (atribut lemma, CSTS prvky <l>, <MMl> nebo <MDl>)

Lemma jednoznačně identifikuje slovo jako lexikální jednotku. Je reprezentováno řetězcem písmen a znaků, který ve většině případů odpovídá tzv. slovníkovému tvaru slova, neboli tvaru slova, pod kterým je dané slovo obvykle uváděno ve slovnících. Jde o tyto tvary slov:

Slovní druh	Tvar, ve kterém je uvedeno lemma
podstatné jméno	jednotné číslo, 1. pád, kladný tvar (pokud existuje a negace nemění význam); pomnožná slova v množném čísle, jinak stejně
přídavné jméno	rod mužský životný, jednotné číslo, 1. pád, kladný tvar, 1. stupeň
zájmeno	rod mužský životný, jednotné číslo, 1. pád, kladný tvar (pokud příslušné kategorie existují); např.: osobní zájmena jsou pouze `já`, `ty`, `on`
číslovka	rod mužský životný, jednotné číslo, 1. pád (pokud příslušné kategorie existují)
sloveso	infinitiv
příslovce	kladný tvar, 1. stupeň
předložka	bez vokalizace
ostatní	původní tvar slova

Pravopisné varianty jsou sjednoceny, pokud jde opravdu jen o pravopisné varianty a nikoli např. o posun ve významu.

Takto získaný identifikační řetězec může být doplněn rozlišovací identifikací, složenou z pomlčky a jedné nebo více desítkových číslic (např. -2). Nula se přitom samostatně nepoužívá. Tato identifikace slouží k rozlišení jinak nerozlišitelných lexikálních jednotek (např. podstatné jméno hnát-2 proti slovesu hnát-1). Výjimečně se tohoto rozlišení používá i pro rozlišení významu (např. strana-4 v knize, politická strana-2 atd.).

Velká a malá písmena hrají při rozlišování roli a používají se pro rozlišení obecných a vlastních jmen jinak identických (např. křen proti Křen). K původní velikosti písmen v textu se nepřihlíží. Bylo-li tedy slovo psáno s velkým písmenem jen proto, že se nachází na začátku věty nebo nadpisu, v atributu lemma je uvedeno celé malými písmeny.

Kořen stromu má lemma #.

Morfologická značka (atribut tag, CSTS prvky <t>, <MMt> nebo <MDt>)

Morfologická značka je tvořena posloupností velkých písmen anglické abecedy a číslic. První znak v zásadě identifikuje slovní druh slova a buď samostatně, nebo dohromady s dalšími několika znaky určuje možné kombinace morfologických kategorií, jejichž hodnoty určují bezprostředně následující znaky. Výjimkami jsou speciální značky NOMORPH a ATTR.

Obdobně jako u atributu lemma může být na konci rozlišení pomlčkou a číslem, avšak zde je použito jako rozlišení formální (např. pro odlišení variant, obecných koncovek apod.), nikoli významové.

Sada značek u uzlu, který obsahuje více alternativních lemmat, musí obsahovat jednu nebo více speciální značkek "--", které oddělují sadu značek pro lemma i od sady značek pro lemma i+1.

Kořen stromu má značku ZSB.

Tvar slova (atribut form, CSTS prvky <f> a <d>)

Slovní tvar je ve většině případů identický s původním slovním tvarem tak, jak byl uveden v původním textu, včetně zápisu malých a velkých písmen. Liší se jen v těch případech, kdy původní slovní tvar byl

číslo s desetinnou čárkou: převede se na číslo s desetinnou tečkou
tvar slova aby nebo kdyby: převede se na dva uzly, z nichž jeden bude mít v atributu form skutečně tvar slova aby, resp. kdyby, a druhý bude podmiňovací tvar slovesa být v příslušném tvaru (např. by, bychom)
spojený tvar předložky a zájmena (např. naň, oč): převede se na dva uzly, z nichž jeden bude mít v atributu form předložku (např. na, o) a druhý bude zájmeno v příslušném dlouhém tvaru (např. něj, co)
slovo s příponou -s jako indikací 2. osoby jednotného čísla slovesa být (např. tys, ses, udělals): převede se na dva uzly, z nichž jeden bude mít v atributu form slovo bez -s, druhý bude jsi
slovo s příponou -ť jako indikací příčiny (archaické - např. bylť): převede se na dva uzly, z nichž jeden bude mít v atributu form slovo bez -ť, druhý bude neboť
překlep: převede se na správný tvar; překlep u stažených tvarů se navíc rozdělí na dva, jak je uvedeno v předchozích bodech

Kořen stromu má form = "#" <číslo věty v rámci souboru, uvedeného v atributu mstag>.

Analytická funkce (atribut afun, CSTS prvky <A> nebo <MDA>)

Typ vztahu k řídícímu uzlu. Jsou zde zahrnuty větné členy (podmět, přísudek, předmět, přívlastek, příslovečné určení), ale nejen ony.

Kořen stromu má analytickou funkci AuxS.

Bližší určení lemmatu (atribut lemid)

Bližší identifikace lemmatu, zejména pro víceslovná lemmata. (Poznámka: zatím jsem se nesetkal s tím, že by tento atribut byl naplněn jinde než v kořeni stromu.)

Kořen stromu zde má uvedenu identifikaci věty v rámci Českého národního korpusu.

Morfologicko-syntaktická značka (atribut mstag)

Místo pro poznámku anotátora ke konkrétnímu uzlu? (Poznámka: zatím jsem se nesetkal s tím, že by tento atribut byl naplněn jinde než v kořeni stromu.)

Kořen stromu zde má uvedenou identifikaci souboru pro ruční anotaci na analytické úrovni.

Původní tvar slova (atribut origf, CSTS prvek <w>)

Tvar slova, jak byl skutečně uveden v textu. Tedy, narozdíl od atributu form, zde jsou uvedeny i překlepy a další tvary, které se ve form normalizují.

Kořen stromu má origf = "#" <číslo věty v rámci souboru, uvedeného v atributu mstag>.

Pořadí slova ve větě (atribut ord, CSTS prvek <r>)

Pořadí slovního tvaru form ve větě. Tímto atributem je i ve stromové struktuře zachován slovosled.

Kořen stromu má pořadí 0.