Za předpokladu, že všechny .fs soubory odpovídají aktuální verzi tree-banku, lze říci, že existuje jisté zúžení .fs formátu se společnou definicí sady atributů, které je vlastně aplikací .fs formátu. Vztah mezi tree-bankovým zúžením .fs a obecným .fs je analogií vztahu mezi jazykem SGML a konkrétním druhem SGML dokumentu, definovaným jistým DTD (takovou aplikací SGML je například formát CSTS, který rovněž slouží k ukládání tree-banku).
Definice atributů, tak jak je uvedena v záhlaví každého .fs souboru, nese pouze informaci potřebnou pro toho, kdo bude soubor číst do paměti. Neříká nic o významu jednotlivých atributů a říká jen málo o tvaru, který musí mít jejich hodnoty. Právě takové informace se snažím shrnout na této stránce. Zdrojem mi byla zejména příručka Anotace na analytické rovině: Návod pro anotátory.
Některé atributy mají zvláštní význam v kořeni stromu, který nenese informaci o konkrétním slovu, ale o celé větě. Příslušné poznámky jsou uvedeny u jednotlivých atributů.
Takto vypadá současná definice atributů vrcholu. O syntaxi, v jaké je definice zapsána, se lze dočíst v popisu obecného formátu .fs souborů.
@P lemma @O lemma @P tag @O tag @P form @O form @P afun @O afun @L1 afun|---|Pred|Pnom|AuxV|Sb|Obj|Atr|Adv|AtrAdv|AdvAtr|Coord|AtrObj|ObjAtr|AtrAtr|AuxT|AuxR|AuxP|Apos|ExD|AuxC|Atv|AtvV|AuxO|AuxZ|AuxY|AuxG|AuxK|AuxX|AuxS|Pred_Co|Pnom_Co|AuxV_Co|Sb_Co|Obj_Co|Atr_Co|Adv_Co|AtrAdv_Co|AdvAtr_Co|Coord_Co|AtrObj_Co|ObjAtr_Co|AtrAtr_Co|AuxT_Co|AuxR_Co|AuxP_Co|Apos_Co|ExD_Co|AuxC_Co|Atv_Co|AtvV_Co|AuxO_Co|AuxZ_Co|AuxY_Co|AuxG_Co|AuxK_Co|AuxX_Co|Pred_Ap|Pnom_Ap|AuxV_Ap|Sb_Ap|Obj_Ap|Atr_Ap|Adv_Ap|AtrAdv_Ap|AdvAtr_Ap|Coord_Ap|AtrObj_Ap|ObjAtr_Ap|AtrAtr_Ap|AuxT_Ap|AuxR_Ap|AuxP_Ap|Apos_Ap|ExD_Ap|AuxC_Ap|Atv_Ap|AtvV_Ap|AuxO_Ap|AuxZ_Ap|AuxY_Ap|AuxG_Ap|AuxK_Ap|AuxX_Ap|Pred_Pa|Pnom_Pa|AuxV_Pa|Sb_Pa|Obj_Pa|Atr_Pa|Adv_Pa|AtrAdv_Pa|AdvAtr_Pa|Coord_Pa|AtrObj_Pa|ObjAtr_Pa|AtrAtr_Pa|AuxT_Pa|AuxR_Pa|AuxP_Pa|Apos_Pa|ExD_Pa|AuxC_Pa|Atv_Pa|AtvV_Pa|AuxO_Pa|AuxZ_Pa|AuxY_Pa|AuxG_Pa|AuxK_Pa|AuxX_Pa|Generated|NA|??? @P ID1 @P ID2 @VA origf @P origf @P afunprev @P semPOS @P tagauto @P lemauto @N ord @P dord @W sentord @P govTR @P nospace @P root @P ending @P punct @P alltags @P wt @P origfkind @P formtype @P gappost @P gappre @P cstslang @P cstssource @P cstsmarkup @P chap @P doc @P docid @P docmarkup @P docprolog @P1 warning @P3 err1 @P3 err2 @P reserve1 @P reserve2 @P reserve3 @P reserve4 @P reserve5 @P wMDt_a @P wMDl_a @P wMDt_b @P wMDl_b @P tagMD_a @P lemmaMD_a @P tagMD_b @P lemmaMD_b
Slovní druh |
Tvar, ve kterém je uvedeno lemma |
podstatné jméno | jednotné číslo, 1. pád, kladný tvar (pokud existuje a negace nemění význam); pomnožná slova v množném čísle, jinak stejně |
přídavné jméno | rod mužský životný, jednotné číslo, 1. pád, kladný tvar, 1. stupeň |
zájmeno | rod mužský životný, jednotné číslo, 1. pád, kladný tvar (pokud příslušné kategorie existují); např.: osobní zájmena jsou pouze já, ty, on |
číslovka | rod mužský životný, jednotné číslo, 1. pád (pokud příslušné kategorie existují) |
sloveso | infinitiv |
příslovce | kladný tvar, 1. stupeň |
předložka | bez vokalizace |
ostatní | původní tvar slova |
Takto získaný identifikační řetězec může být doplněn rozlišovací identifikací, složenou z pomlčky a jedné nebo více desítkových číslic (např. -2). Nula se přitom samostatně nepoužívá. Tato identifikace slouží k rozlišení jinak nerozlišitelných lexikálních jednotek (např. podstatné jméno hnát-2 proti slovesu hnát-1). Výjimečně se tohoto rozlišení používá i pro rozlišení významu (např. strana-4 v knize, politická strana-2 atd.).
Velká a malá písmena hrají při rozlišování roli a používají se pro rozlišení obecných a vlastních jmen jinak identických (např. křen proti Křen). K původní velikosti písmen v textu se nepřihlíží. Bylo-li tedy slovo psáno s velkým písmenem jen proto, že se nachází na začátku věty nebo nadpisu, v atributu lemma je uvedeno celé malými písmeny.
Kořen stromu má lemma #.
Obdobně jako u atributu lemma může být na konci rozlišení pomlčkou a číslem, avšak zde je použito jako rozlišení formální (např. pro odlišení variant, obecných koncovek apod.), nikoli významové.
Sada značek u uzlu, který obsahuje více alternativních lemmat, musí obsahovat jednu nebo více speciální značkek "--", které oddělují sadu značek pro lemma i od sady značek pro lemma i+1.
Kořen stromu má značku ZSB.
Kořen stromu má analytickou funkci AuxS.
Kořen stromu zde má uvedenu identifikaci věty v rámci Českého národního korpusu.
Kořen stromu zde má uvedenou identifikaci souboru pro ruční anotaci na analytické úrovni.
Kořen stromu má origf = "#" <číslo věty v rámci souboru, uvedeného v atributu mstag>.
Kořen stromu má pořadí 0.