2.1 Organisační začlenění a financování.
Ruční anotace českých vět se provádí v rámci experimentálního ověřování definice formální representace analysy českých vět (projekt GAČR 405/96/0198, Formální representace jazykových struktur). Takto získaný materiál (data) bude využitelný v mnoha oblastech výzkumu v počítačové lingvistice, především jako výchozí (trénovací) data v projektech jazykového modelování, které jsou řešeny především v rámci Laboratoře pro zpracování jazykových dat (projekt MŠMT VS96151). Tato data budou využita i jako ověřovací materiál pro různé subprojekty v rámci komplexního programu GAČR 405/96/K214 (Čeština ve věku počítačů). Z těchto dvou dalších zdrojů je ruční anotování dodatečně podporováno i finančně zejména proto, aby byl k disposici objem dat dostatečný i pro statistické experimenty.
Projekt
anotování českého textu má tři úrovně: morfologickou, analytickou
a tektogramatickou.
Pro anotování
na všech úrovních se vychází z českého textu ve formátu csts,
který je základním formátem Českého národního korpusu (ČNK). Většina textů
byla rovněž převzata přímo z ČNK. V tomto formátu jsou již české texty
rozděleny na slova (slovní tvary), věty a odstavce. Je rovněž explicitně
označena interpunkce a tam, kde to bylo možné, je zachována i grafická
informace z původního textu. Čísla psaná číslicemi jsou rovněž označena
a desetinná čísla jsou normalizována.
K anotaci na
všech úrovních se používá identických textů, zvolených náhodně (v blocích)
z textů ČNK a z materiálů poskytnutých FI MU Brno.
Na morfologické úrovni je anotování
(tagging) lineární. Ke každému původnímu slovnímu
tvaru (jméno atributu: origf, SGML
atribut <w>)
v textu se přiřadí tři atributy, obsahující slovní tvar, lemma a tag.
Anotuje se
ručně pomocí celoobrazovkového programu sgd,
který pracuje v prostředí Linuxu, ale který lze provozovat vzdáleně i např.
z DOSu. Program sgd
vyžaduje, aby původní text byl morfologicky předpracován, tj. aby ke každému
slovnímu tvaru půvoního textu byl připojen seznam možných lemmat a jejich
(možných) morfologických kategorií. Toto přiřazení se provádí automaticky
na základě elektronického slovníku pro aplikace ve zpracování přirozeného
jazyka, který v současné době pokrývá asi 98-99% běžného
novinového nebo časopiseckého textu (včetně jmen). Zbylé tvary se doplňují
při ruční anotaci. Překlepy se v textu ponechávají v atributu origf,
ale jsou (ručně) opraveny a zpracovány v atributu form.
Morfologickou anotaci pomocí programu sgd
lze provádět před anotováním textu na analytické úrovni i po něm.
Vstupní i výstupní data pro program sgd
jsou v SGML formátu podle DTD csts.
Objemovým cílem
je ve spolupráci s FI MU Brno dosáhnout 1 milionu anotovaných slovních
tvarů.
2.2.1.1 Slovní tvar (atribut form, SGML atribut <f>).
Slovní tvar je ve většině případů identický s původním slovním tvarem tak, jak byl uveden v původním textu, včetně zápisu malých a velkých písmen. Liší se jen v těch případech, kdy původní slovní tvar byl
V těchto případech je slovní
tvar (form)
odvozen z původního slovního tvaru (origf)
takto:
origf | počet atr. form | 1. nebo jediný form | 2. form |
číslice s des. čárkou | 1 | číslice s des. tečkou | |
tvar slova aby/kdyby | 2 | aby/kdyby | podmiň. tvar by v přísl. tvaru (např. bychom) |
předl. + zájmeno | 2 | předložka | zájmeno v přísl. (dlouhém) tvaru (např. naň -> na + něj) |
slovo s připojeným -s | 2 | slovo bez -s | jsi |
slovo s připojeným -ť | 2 | slovo bez -ť | neboť |
překlep | 1 | opravený tvar | |
překlep u stažených tv. | 2 | viz ř. 2-4, opravený | viz ř. 2-4, opravený tvar |
2.2.1.2 Lemma (lemma, SGML atribut <l>).
Lemma
jednoznačně identifikuje slovo jako lexikální jednotku. Je representováno
řetězcem písmen a znaků, který ve většině případů odpovídá tzv. slovníkovému
tvaru slova, neboli tvaru slova, pod kterým je dané slovo obvykle uváděno
ve slovnících.
slovní druh | morfologické kategorie slovního tvaru v atributu lemma |
podstatné jm. | 1. pád, jednotné číslo, bez negace (pokud kladný tvar existuje a negace nemění význam); pluralia tantum: totéž, ale množné číslo |
přídavné jméno | rod mužský životný, 1. pád, jednotné číslo, bez negace, 1. stupeň |
zájmeno | pokud přísl. kategorie existují: 1. pád, jednotné číslo, rod muž. živ., bez negace (tedy spec.: osobní zájmena pouze já, ty, on) |
číslovka | pokud přísl. kategorie existují: 1. pád, jednotné číslo, rod muž. živ., bez negace |
sloveso | infinitiv |
příslovce | 1. stupeň, bez negace |
předložka | bez vokalisace |
ostatní | původní tvar |
2.2.1.3 Morfologická značka (atribut tag, SGML atribut <t>).
Morfologická
značka je tvořena posloupností velkých písmen anglické abecedy a číslic.
První znak v zásadě identifikuje slovní druh slova, a buď samostatně nebo
dohromady s dalšími několika znaky určuje možné kombinace morfologických
kategorií, které následují bezprostředně za tímto znakem nebo znaky. Na
konci tagu
může být rozlišení podobné rozlišení u atributu lemma,
avšak zde je použito jako rozlišení formální (např. pro odlišení variant,
obecných koncovek apod.), nikoli významové.
Rozlišení slovního druhu podle prvního
znaku tagu:
první znak tagu | slovní druh |
N | podstatné jméno |
A | přídavné jméno |
P | zájmeno |
C | číslovka |
V | sloveso |
D | příslovce |
R | předložka |
J | spojka |
I | citoslovce |
T | částice |
Z | interpunkce, čísla psaná číslicemi, kořen stromu |
X | (neznámý/neurčený) |
***n2 zde bude popis tagů; nejprve anglický popis (kopie notes), později česky. ***
Analytická
úroveň je v této době hlavní úroveň pro strukturní anotaci. Opouští se
zde lineární anotace, kdy je každé slovo bráno samostatně bez ohledu na
kontext, a do anotace textu zavádí se větná struktura (nikoli však ještě
struktura textu). Všechna původní slova textu zůstávají zachována a dostávají
ve výsledné struktuře svou funkci.
Strukturou
se rozumí strom (orientovaný acyklický graf s jedním kořenem), jehož uzly
jsou ohodnoceny atributy (pozn.: slovo atribut zde používáme v matematickém
smyslu, nikoli lingvistickém ve smyslu přívlastek - viz kap. 4.1
Seznam analytických funkcí). Každý uzel
má nyní 12 atributů. Hrany stromu representují vztahy závislosti mezi
lexikálními jednotkami, příp. vztahy jiného typu (podle hodnot atributů).
Základním cílem anotace je správná struktura věty a označení typu závislosti.
Typ závislosti je jedním z atributů každého uzlu a je z pochopitelných
důvodů orientován nahoru, tj. směrem ke
svému řídícímu uzlu.
Podrobný
popis analytické úrovně je uveden v kapitolách 3
Zásady anotace a 4 Pravidla anotace.
Objemový
cíl je stejný jako na morfologické úrovni, tj. 1 milión slov při použití
stejných textů.
Tektogramatická
úroveň je nejvyšší anotační úroveň. Odpovídá tzv. tektogramatické rovině
popisu jazyka, jak je definována v řadě publikací. Struktura representace
zůstává stejná jako na analytické úrovni, avšak některé uzly se vypouští,
některé se přidávají, a struktura věty může být obecně jiná, než na analytické
úrovni. Z technického hlediska bude specifikována později a práce na ručním
anotování budou probíhat v roce 1998.
Objemový
cíl se zde neklade. Předpokládáme vytvoření podstatného vzorku v rozsahu
cca 1000 vět.
Zásadami se rozumí základní východiska pro anotaci na analytické rovině.
Representace struktury věty je zachycena spojitým acyklickým orientovaným grafem, ve kterém do žádného uzlu nevede více než jedna hrana (stromem), a jehož uzly jsou ohodnoceny komplexními symboly (množinou atributů). Hrany ohodnoceny nejsou (v technickém smyslu - viz poznámka u atributu afun v kap. 3.2 Atributy uzlu).
Atributů
uzlu je v současné době dvanáct.
Název atributu | Popis |
lemma | lemma (viz kap. 2.2.1.2 Lemma (lemma, SGML atribut <l>)) |
tag | morfologické kategorie, tag (viz kap. 2.2.1.3 Morfologická značka (atribut tag, SGML atribut <t>)) |
form | tvar slova po příp. úpravách (viz kap. 2.2.1.1 Slovní tvar (atribut form, SGML atribut <f>)) |
afun | analytická funkce, neboli typ vztahu k nadřízenému (řídícímu) uzlu |
lemid | bližší identifikace lemmatu (zejména pro víceslovná lemata) |
mstag | morfologicko-syntaktický tag |
origf | původní tvar slova (viz kap. 2.2.1.1 Slovní tvar (atribut form, SGML atribut <f>)) |
origap | formátovací informace předcházející původní tvar slova |
gap1 | formátovací informace předcházející tvar slova, část 1 |
gap2 | formátovací informace předcházející tvar slova, část 2 |
gap3 | formátovací informace předcházející tvar slova, část 3 |
ord | pořadové číslo slovního tvaru (form) ve větě |
3.3 Vztah k morfologické úrovni.
Strom
věty obsahuje všechny slovní tvary věty včetně interpunkčních symbolů.
Navíc obsahuje pouze kořen, jehož atributy obsahují následující hodnoty.
Název atributu | Hodnota |
lemma | # |
tag | ZSB |
form | #<číslo věty v rámci souboru uvedeného v mstag> |
afun | AuxS |
lemid | <identifikace věty v rámci ČNK> |
mstag | <identifikace souboru pro ruční anotaci na analytické úrovni> |
origf | #<číslo věty v rámci souboru uvedeného v mstag> |
origap | místo pro poznámku anotátora |
gap1 | |
gap2 | |
gap3 | |
ord | 0 |
V následujícím
textu se pojmem označení nebo funkce myslí vždy hodnota atributu afun.
Formulace pověsit uzel x na uzel y, příp. uzel x (zá)visí na uzlu y
znamená, že uzel x je závislý na uzlu y, neboli y je pro uzel x uzlem řídícím.
V grafické reprezentaci je řídící uzel vždy výše než uzel závislý.
(Definice grafu representace věty viz kap.
2.2.2 Analytická úroveň.)
Pravidla
pro anotaci na analytické úrovni se zabývají pouze strukturou věty (tj.
určením, které slovo závisí na kterém slově), a typy závislostí (analytickými
funkcemi). Struktura věty se zachycuje přímo v grafu věty, analytická funkce
se zapisuje jako hodnota atributu afun.
Ostatní atributy slouží pouze pro informaci anotátora - jejich hondoty
jsou buď již fixní, nebo budou určeny jinak. Anotátoři smějí zapisovat
kromě hodnot atributu afun
pouze poznámky do hodnot dohodnutých atributů (origap
pro celou větu, mstag
pro jednotlivé uzly). Z technických důvodů jsou v grafu representace i
takové hrany, které neodpovídají tradičnímu pojmu gramatické závislosti
(např. koordinace, aposice, vzdálená závislost, je-li ve větě elipsa,
složené (nevlastní) předložky a spojky atd.). Pro jednoduchost budeme i
pro takové hrany používat pojmů (zá)visí, je závislý, atd.. V případě
nejasností explicitně uvádíme, kdy jde o gramatickou a kdy o technickou
závislost.
Pro ruční anotaci jsou vstupní data předzpracována programy (projekty 28xx), které větě anotované na morfologické úrovni (nebo alespoň větě předzpracované morfologickým programem) přiřadí iniciální strukturu a konvertují ji do formátu vyžadovaného programem pro ruční anotaci (program GRAPH). Iniciální struktura je triviální - každé slovo je považováno za závislé na slově bezprostředně předcházejícím. Výjimku tvoří pouze interpunkce na konci věty, která je zavěšena na kořen stromu. Při této inicialisaci jsou předběžně přiřazeny i ty funkce, u kterých je vysoká pravděpodobnost, že budou automaticky přiřazeny správně. Atributu afun u ostatních uzlů je přiřazena hodnota ???, aby při práci s programem GRAPH bylo na první pohled možno identifikovat dosud nezpracované uzly.
Při anotaci postupujeme následovně:
1. Vrcholem stromu je přidaný uzel
se znakem # (viz kap. 4.2.8.1
AuxS).
2. Na tomto uzlu je při nepříznakové
stavbě věty zavěšen predikát hlavní věty a koncová interpunkce. Nemá-li
věta přísudek, bývají zde vedle sebe zavěšeny "zbylé" větné členy (viz
bod 4). Případně zde může viset hlavní uzel pro koordinaci (viz bod 5),
jde-li např. o souvětí souřadné.
3. Řídíme se zásadami pro závislostní
rozbor:
- vyhledáme přísudek věty (ten bude zavěšen podle bodu
2, viz kap. 4.2.1
Přísudek (predikát) Pred, Pnom, AuxV),
- najdeme podmět věty (v našem pojetí je závislý na přísudku,
viz kap. 4.2.2 Podmět (subjekt)
Sb),
- najdeme všechna ostatní slovesná doplnění (4.2.4
Obj, 4.2.5
Adv, příp. 4.2.6
Atv, AtvV),
- stanovíme rozvíjející členy slovesných doplnění (4.2.3
Atr, 4.2.4
Obj, 4.2.5
Adv, 4.2.6
Atv, AtvV).
Svoji závislost (někdy jen čistě technickou) však musí
mít i všechny ostatní (zbývající) uzly (4.2.7
Pomocné větné členy AuxC, AuxP, AuxZ, AuxO, AuxT, AuxR, AuxY a 4.2.8
Grafické symboly (interpunkce) AuxK, AuxX, AuxG.).
4. Dojde-li k elipse a chybí-li k
nějakému členu řídící uzel, používáme speciální označení ExD
(4.3.1 ExD). Jako elipsu
v podstatě chápeme i jednočlennou neslovesnou větu (4.3.2
ExD).
5. Problém koordinace a aposice (4.4.1
Coord, <afun>_Co a 4.4.2
Apos, <afun>_Ap) řešíme technicky tak, že zvolíme tzv. hlavní uzel
(spojka, čárka a podobně), který je zavěšen závislostně, a jednotlivé členy
koordinace či aposice visí na tomto uzlu (technicky).
6. Parentetické části vět označujeme
zvláštní příponou (4.5 Parentese).
Podrobně jsou všechny pravidla a funkce
popsány v kapitolách jim určených. Kromě toho manuál obsahuje ještě kapitolu
4.6 Komplexní jevy, ve které
jsou popsána řešení některých složitějších jevů, které nemohly být zařazeny
do výše zmíněných kapitol.
Pravidla byla stanovována a formlována
tak, aby pokryla co největší jazykový prostor. Díky povaze přirozených
jazyků však není možné, aby zachytila zcela všechno. Proto se v korpusu
budou vyskytovat i struktury pro věty, které nejsou v našich pravidlech
popsány. V těchto výjimečných případech byla rozhodnutí ponechána na jazykovém
citu anotátorů, kteří pak rozhodovali jednotlivě.
Pravidla
pro anotaci na analytické úrovni (neboli popis representace věty na analytické
úrovni a jeho vztah k úrovni morfologické) vycházejí především z anotačních
zásad (kap. 3 Zásady anotace),
z požadavků na konsistenci, z potřeby explicitně zachytit vztahy mezi všemi
výskyty slovních tvarů ve větě a berou ohled i na předpokládanou representaci
věty na tektogramatické úrovni. Kde je to možné, přidržují se tradičních
pojmů české mluvnice, jak je popsána zejména v Současné mluvnici českého
jazyka V. Šmilauera. Je nutno poznamenat, že k odchylkám dochází poměrně
často vzhledem k nepočítačové orientaci zmíněné příručky, ve které
není řada i častých jevů explicitně, systematicky a někdy ani konsistentně
popsána. Odchylkou je i to, že subjekt chápeme jako závislý na predikátu
(viz část predrozv
v kap. 4.2.1
Přísudek a část sbvymeze
v kap. 4.2.2 Podmět).
Na příklad
problém přísudku je složitý, neboť jej často tvoří více slov a my musíme
zachytit každé zvlášť. Proto kromě funkce Pred
pro hlavní uzel přísudku byly zavedeny ještě AuxV
pro pomocné sloveso být (viz část predsloz
v kap. 4.2.1
Přísudek) a Pnom
pro jmennou část přísudku (viz část prsljmst
v kap. 4.2.1
Přísudek). U přísudku složeného zase používáme
pro infinitiv funkci Obj,
která označuje klasický předmět (viz část prslslst
v kap. 4.2.1
Přísudek). Také použití funkce Atr
je širší. Nepoužíváme ji jen pro klasický přívlastek, ale i pro složky
adres a jmen (viz kap. 4.6.2
Adresy a jména osob a institucí), pro
složky cizojazyčného textu (viz kap. 4.6.10
Cizojazyčné složky rozebíraného textu)
a pro složky číselných výrazů, které je vůbec složité zachytit (vznikají
tam rozličné další problémy, viz celou kapitolu 4.6.3
Výrazy s číslovkami, číslice v různých funkcích).
Navíc zavádíme i tzv. kombinované funkce (viz část atrkombi
v kapitole 4.2.3
Atr).
Oproti
Šmilauerovu pojetí vymezujeme trochu jinak i vzájemné hranice jednotlivých
větných členů, zvláště pak předmětu (viz 4.2.4
Obj, část objvymez),
příslovečného určení (viz 4.2.5
Adv, část advvymez)
a doplňku (viz 4.2.6
Atv, AtvV, část atvvymez).
U některých
příkladů k jednotlivým pravidlům je použito grafů representace částí vět
zhruba v tom tvaru, ve kterém jsou při anotaci zobrazována anotačním programem
GRAPH. Zobrazují se hodnoty atributů form
(horní text u uzlu) a afun (text dolní,
pod hodnotou atributu form). Tyto grafy
se v podobě obrázků skrývají za ikonkami, které mají následující podobu:
V příkladu pod touto ikonou je pro uzly označené (Peče/Pred) i (./AuxK) řídícím uzlem uzel (#1/AuxS) (tento uzel je i řídícím uzlem celé věty). Hodnoty "#1", "peče", " a "." jsou hodnotami atributu form. Hodnoty AuxS, Pred a AuxK jsou hodnotami atributu afun. Je-li v příkladech uvedena hodnota ??? atributu afun, znamená to, že tato hodnota není v daném příkladu podstatná.
4.1 Seznam analytických funkcí.
V následující tabulce jsou uvedeny
všechny přípustné hodnoty atributu afun.
Ve druhém, třetím a čtvrtém sloupci tabulky je křížkem označeno, které
hodnoty mohou být uvedeny s příponou _Co
(tj. být součástí koordinace), resp. _Ap
(tj. být součástí aposice), resp. _Pa
(tj. být řídícím uzlem vsuvky (parentese)).
afun. | _Co | _Ap | _Pa | Popis. |
Pred | x | x | x | Predikát, resp. uzel, který nezávisí na jiném uzlu; věší se na #. |
Sb | x | x | x | Subjekt (podmět). |
Obj | x | x | x | Objekt (předmět). |
Adv | x | x | x | Adverbiale (příslovečné určení, bez dalšího rozlišení). |
Atv | x | x | x | Doplněk (jen tzv. určující), technicky zavěšen na neslovesném členu. |
AtvV | x | x | x | Doplněk (jen tzv. určující), visící na slovese (chybí druhý řídící člen). |
Atr | x | x | x | Atribut (přívlastek). |
Pnom | x | x | x | Predikát nominální, resp. jmenná část přísudku se sponou být. |
AuxV | x | x | x | Pomocné sloveso být (Auxiliary Verb). |
Coord | x | x | x | Koordinační uzel (souřadné spojení). |
Apos | x | x | x | Aposice (hlavní uzel). |
AuxT | x | x | x | Zvratné se, neoddělitelné se - reflexivní tantum. |
AuxR | x | x | x | Zvratné se, které není Obj ani AuxT (tvoří pasivum reflexivní). |
AuxP | x | x | x | Předložka primární, části předložky sekundární. |
AuxC | x | x | x | Spojka (podřadicí). |
AuxO | x | x | x | Nadbytečný (odkazovací, emotivní) element. |
AuxZ | x | x | x | Zdůrazňovací slovo. |
AuxX | x | x | x | Čárka (ne však nositel koordinace). |
AuxG | x | x | x | Jiné grafické symboly, které neukončují větu. |
AuxY | x | x | x | Příslovce a částice, které nelze zařadit jinam. |
AuxS | x | x | x | Kořen stromu (#). |
AuxK | x | x | x | Koncová interpunkce věty. |
ExD | x | x | x | Náhradní funkce pro technické hrany vedoucí místo od elidovaného členu k "pseudořídícímu" slovu nebo pro hlavní člen věty bez predikátu (Ex-Dependent). |
AtrAtr | x | x | x | Řídícím slovem atributu může být díky strukturní víceznačnosti kterékoli z bezprostředně předcházejících (syntaktických) substantiv. |
AtrAdv | x | x | x | Strukturní víceznačnost mezi závislostí adverbální (příslovečnou) a adnominální (zavěšení na jméno) bez sémantických důsledků. |
AdvAtr | x | x | x | Dtto, s opačnou preferencí. |
AtrObj | x | x | x | Strukturní víceznačnost mezi závislostí objektovou a adnominální (zavěšení na substantivum) bez sémantických důsledků. |
ObjAtr | x | x | x | Dtto, s opačnou preferencí. |
Odkazy
do knihy Vl. Šmilauera Novočeská skladba na části týkající se problémů
této kapitoly:
Odd 1 jednočlenné věty 3
I. G.,
Odd 1 jednočlenné věty
3 II. (kompletní),
Odd 2 dvojčlenné věty 4
(kompletní),
Odd 3 určování 5-86 (kompletní).