PRŮVODCE ČESKÝM AKADEMICKÝM KORPUSEM 2.0

1. Předmluva

Rodina pražských anotovaných korpusů se rozrůstá o dalšího člena, a to o Český akademický korpus verze 2.0 (ČAK 2.0), morfologicky a syntakticky ručně anotovaný korpus češtiny. Výstižné by bylo označení staronový člen, protože druhé verzi předcházela verze první, která obsahovala „pouze“ s morfologické anotace; první verze byla publikována před dvěma lety, a dá se proto v jistém slova smyslu chápat jako stará. To nové, co přináší ČAK 2.0, jsou syntaktické anotace - v této souvislosti by bylo možné akademický korpus charakterizovat dalším přívlastkem příznačným pro pražské korpusy, a sice přívlastkem závislostní.

Průvodce ČAK 2.0 je, podobně jako v případě ČAK 1.0, průvodce CD-ROM. Obsah průvodce je koncipován tak, že čtenář nemusí být předem seznámen s průvodcem ČAK 1.0, a přesto se  o projektu dozví vše potřebné. Pokud ho budou zajímat podrobnosti historie projektu Českého akademického korpusu a podrobnosti přípravy první verze, může si samozřejmě průvodce ČAK 1.0 otevřít. Čtenář, který je s průvodcem ČAK 1.0 seznámen, se bude v předkládaném průvodci orientovat velmi snadno, protože jsme se v něm přidrželi stejného členění kapitol do třech tematických celků.

První celek, kapitola 2, podává základní charakteristiku Českého akademického korpusu 2.0, popisuje strukturu anotací v něm obsažených a dokumentuje dílčí kroky spojené se syntaktickými anotacemi.

Druhý celek, kapitoly 36, se věnuje samotnému CD-ROM, tj. jeho datové komponentě, nástrojům, bonusům a tutoriálům. V oddíle 3.2 je korpus představen jako datový soubor s vnitřní reprezentací. Přiměřená pozornost je věnována nástrojům pro prohlížení korpusu – Bonito (oddíl 3.3.1) a Netgraph (oddíl 3.3.4), pro editaci anotací – LAW (oddíl 3.3.2) a TrEd (oddíl 3.3.3) a nástrojům pro morfologicko-syntaktické zpracování českých textů (oddíl 3.3.5). Kapitola 4 je mašličkou dvou dárků – bonusů, a to elektronické cvičebnice češtiny STYX (oddíl 4.1) a modulu TrEdVoice pro hlasové ovládání TrEd (oddíl 4.2). Ke všem předloženým nástrojům s grafickým rozhraním jsou nabídnuty tutoriály ve formě demosnímků – jejich přehled je uveden v kapitole 5. V kapitole 6 jsou vyjmenovány instrukce pro instalaci jednotlivých komponent CD-ROM. Údaje týkající se distribuce CD-ROM jsou shrnuty v kapitole 7.

Kapitoly 8 a 9 jakožto třetí celek věnují pozornost personálnímu a finančnímu zabezpečení projektu. Zařazeno je pět příloh: příloha A předkládá výčet zdrojů, z kterých byly čerpány texty do korpusu; pro pohodlnou orientaci v morfologických anotacích je přiložena příloha B s popisem struktury lemmat a příloha C s popisem struktury morfologických značek; příloha D napomáhá k orientaci v syntaktických anotacích; příloha E je přehledem internetových odkazů, které průvodce doplňují.

CD-ROM je vydáváno v závěrečném roce řešení projektu „Data a nástroje pro informační systémy“, č. 1ET101120413, financovaného Grantovou agenturou Akademie věd České republiky. Kolektivu projektu se tak podařilo uceleně prezentovat výsledky dosažené během pěti let řešení.