PRŮVODCE ČESKÝM AKADEMICKÝM KORPUSEM 1.0

1. Předmluva

Průvodce Českým akademickým korpusem verze 1.0 je průvodce CD-ROMem. Hmatatelně se stříbrného kotouče dotýkat můžeme, avšak samotného obsahu nosiče nikoli, jak vyplývá ze samotné podstaty digitalizace. Ale to naštěstí neznamená, že si obsah nemůžeme prohlédnout, ba dokonce s ním experimentovat, případně ho upravit.

Objektem prohlídky jsou české texty o celkovém objemu cca 600 tisíc slov a nástroje pro jejich prohlížení a úpravu. U každého slova je uveden jeho slovní druh a hodnoty morfologických kategorií pro daný slovní druh relevantních. Jinými slovy, obsahem CD je morfologicky ručně anotovaný korpus češtiny, který nese jméno Český akademický korpus. Všechny nabízené nástroje zpracovávají texty z pohledu tvarosloví neboli morfologie.

Vzhledem k různorodé povaze obsahu CD očekáváme, že i uživatelé budou z CD čerpat informace selektivně. Uživatele-teoretika bude převážně zajímat korpus, zatímco uživatele-praktika nástroje. Proto oběma skupinám nabízíme doporučený průchod průvodcem, tedy jakéhosi průvodce průvodcem. Průvodce je tvořen třemi tematickými celky.

První celek, kapitola 2, je klíčový pro všechny uživatele. Podává základní charakteristiku Českého akademického korpusu jako projektu, který má za sebou již více než dvacetiletou historii. Pro uživatele je zdokumentován vývoj korpusu. Také je zde nastíněna motivace pro aktuální verzi Českého akademického korpusu a vysvětlen zdánlivý paradox, proč je tato verze označována jako první. Vše je doplněno kvantitativními údaji o korpusu.

Druhý celek, kapitola 3, je povahy techničtější, protože je zaměřen na samotnou strukturu CD, na korpus jako na datový soubor s vnitřní reprezentací (oddíl 3.2) a na nástroje (oddíl 3.3). Celek je spíše určen pro uživatele-praktiky. Nicméně se domníváme, že i uživatele-teoretiky jím neodradíme. Pro jistotu ovšem okamžitě dodáváme, že uživatelé-teoretici jej mohou bez výčitek svědomí přeskočit, až na jednu výjimku. A tou je část 3.3.1 věnovaná nástroji Bonito pro uživatelsky pohodlné vyhledávání v korpusu.

Třetí celek, kapitoly 58 spolu se čtyřmi přílohami (A, B, C, D), je opět společný pro všechny uživatele. Kapitola 5 provází uživatele instalací CD. Kapitoly 6 a 7 předkládají výčet badatelů, kteří se na vzniku ČAK 1.0 podíleli, a výčet projektů a pracovišť, které finančně projekt podporovaly nebo stále podporují. Bonusová kapitola 4 představuje školní pomůcku pro procvičování větného rozboru. Pro pohodlnou orientaci v morfologických anotacích předkládáme přílohu D (tabulku), v tištěné verzi vloženou do průvodce ve formě zataveného listu. Rovněž i příloha C s popisem struktury lemmat by měla orientaci v anotacích usnadnit. Příloha A předkládá výčet zdrojů, z kterých byly čerpány texty do korpusu. Příloha B je přehledem internetových odkazů, které průvodce doplňují.

Vydání Českého akademického korpusu 1.0 by rozhodně nebylo realizováno bez výsledků projektu Pražského závislostního korpusu. Tímto bychom rádi vyjádřili obrovský dík všem, kteří to tak „zařídili“. Snad nám všichni ostatní prominou, když jmenovitě uvedeme pouze čtyři z nich (v abecedním pořadí) – Jana Hajiče, Evu Hajičovou, Jarmilu Panevovou a Petra Sgalla. Bez nich by totiž nebyl ani Pražský závislostní korpus.

Český akademický korpus je vedle Pražského závislostního korpusu dalším anotovaným korpusem češtiny. Publikací první verze Českého akademického korpusu je výrazná pozice české komputační lingvistiky v národním i mezinárodním ohledu dále posílena. CD je vydáváno v rámci projektu „Data a nástroje pro informační systémy“, id. č. 1ET101120413, financovaného Grantovou agenturou Akademie věd České republiky.