REST - Dokumentace projektu

Hlavní výstupy projektu

Hlavní výstupy projektu jsou prezentovány ve formě CD-ROM, a sice CD-ROM ČAK 1.0 a ČAK 2.0. CD-ROM jsou navržena tak, aby se počítačově zdatní i méně zdatní uživatelé snadno a rychle zorientovali v jejich obsahu. Myslíme jak na linuxové, tak i na windowsí uživatele. Rovněž myslíme na česky a anglicky mluvící uživatele.

V posledním roce řešení projektu byl otevřen portál jazykových her www.lgame.cz. Portál byl spuštěn Shannonovou hrou. Data z her jsou k dispozici na vyžádání - pište na adresu lgame@ufal.mff.cuni.cz.

Data

Data vydaná na CD ČAK 1.0 jsou ve formátu PML shodném s formátem dat pro PDT 2.0 (w a m rovina).

Na CD ČAK 2.0 jsou data ve formátu PML shodném s PDT 2.0 (w, m, a rovina) a rovněž ve starém formátu CSTS, pro lepší čitelnost a také proto, že některé z nástrojů tool-chainu (řetězec nástrojů pro analýzu textu až na a-rovinu, který je součástí CD) uměly pracovat jen s CSTS. Obsah vydaných CD je k nalezení v projektových adresářích:

ČAK 1.0: /net/projects/REST/data/CAC/cac10
ČAK 2.0: /net/projects/REST/data/CAC/cac20

V projektovém adresáři /net/projects/REST/data/CAC/work_CAC20/data/08_finished jsou data ČAK 2.0 s ponechanými původními anotacemi na morfologické a analytické rovině, popsána ve schématech mdata_schema_cac.xml a adata_schema_cac.xml (v témže adresáři). Všechna schémata jsou k nalezení rovněž v adresáři /net/projects/REST/data/CAC/work_CAC20/data/_schemas

Ze souborů, které jsou přepisy mluvené řeči, jsme na analytickou rovinu anotovali jen několik (konkrétně 5), v publikovaných datech však nejsou. Nacházejí se rovněž v adresáři: /net/projects/REST/data/CAC/work_CAC20/data/08_finished a poznají se podle toho, že na čtvrté pozici v názvu mají s a jsou to analytické soubory.

Nástroje

tool_chain Linuxový 'nadskript' pro spuštění aplikací ***tokenizace, morfologická analýza, tagger, parser*** na texty ve formátech ***PML, CSTS***. Na prvním CD je tool_chain bez parseru

/opt/bin

/opt/bin/tool_chain -h

Morfologický analyzátor a generátor.
Reimplementace pomocí konečných automatů. Šlo o pokračování studentského projektu, programoval to David Kolovratník. Musel předělat skoro všecky původní kódy, protože to bylo strašně velké (4GB, jestli si to dobře pamatuju). Analyzátor je zapuštěn do tool-chain a je k dispozici pro zpracování českých textů po tokenizaci.
Zprovoznili jsme také slovníkový editor SLED na přidávání a opravy nových hesel do morfologického slovníku. Autorem editoru je Leoš Přikryl, který s námi ale už nespolupracuje. Údržbu po něm převzal opět David Kolovratník.
Dalším nástrojem je bonito Pavla Rychlého z Brna. Přidělal k němu možnost spouštět morfologickou analýzu i generování, přímo z klienta bonito. Spolupráce s Pavlem Rychlým byla tradičně poměrně obtížná, pomalá. Výsledek se ale nakonec dostavil.

Tutoriály

Pro nástroje s grafickým rozhraním jsme připravili dema v české a anglické mutaci.

Publikace

Hlavní
- Průvodce ČAK 1.0 (html, cz_pdf, en_pdf)
  - Technologie sázení - viz Průvodce ČAK 2.0
  - Zkušenosti s vydavatelem - viz závěrečný povzdech - s kým se komunikovalo blbě
  - Překlady a korektury
    Průvodce ČAK 1.0 byl sepsán zcela záměrně v češtině. Podílo se na něm více autorů, což přirozeně přináší do textu různorodost stylu. Jakkoli měl editaci průvodců na starosti jeden člověk (BVH), volba češtiny jako primárního jazyka se ukázala vhodnou. Předposlední verze české mutace prošla jazykovou korekturou Magdy Ševčíkové. Následně proběhl překlad do angličtiny. Průvodce překládala na doporučení Silvie Cinkové Linda Cinková. Protože na překladu spolupracoval i americký přítel Lindy, nebyla provedena ještě další jazyková korektura anglické mutace.
- Průvodce ČAK 2.0 (html, cz_pdf, en_pdf)
  - Technologie sázení
    Publikace byla vytvářena jako XML soubory pro DocBook. Z xml se průběžně vytvářel jak pdf, tak html výstup (pomocí xsltproc). Příslušné skripty jsou umístěny v adresáři /net/projects/rest/data/CAC/_dokumentace_projektu/cac-guide-proc/ ). Výsledné HTML bylo při zobrazování projeto skriptem parse.php, jednotlivé stránky pak byly ve finále uloženy jako statické html. Pro posteditaci PDF byl využit formát FO, který jsem převedl v programu XMLMind (pod Windows) do rtf (vyzkoušel jsem několik různých nástrojů, u tohoto dopadl převod relativně nejlépe), ručně poeditoval (zejména rozložení tabulek) a převedl do pdf.
  - Zkušenosti s vydavatelem - viz závěrečný povzdech - s kým se komunikovalo blbě
  - Překlady a korektury
    Průvodce ČAK 2.0 byl sepsán zcela záměrně v češtině. Podílo se na něm více autorů, což přirozeně přináší do textu různorodost stylu. Jakkoli měl editaci průvodců na starosti jeden člověk (BVH), volba češtiny jako primárního jazyka se ukázala vhodnou. Předposlední verze české mutace prošla jazykovou korekturou Magdy Ševčíkové. Následně proběhl překlad do angličtiny. Průvodce překládála Alena Chrastová (roz. Boehmová) a jazykové korektury provedla Sezin Rajandran.
- ČAK 1.0 CD-ROM vydáno v roce 2007 v nakladatelství Karolinum pod názvem Český akademický korpus 1.0 (Czech Academic Corpus 1.0), spolu s dvojjazyčným knižním průvodcem Průvodce Českým akademickým korpusem 1.0, ISBN: 978-80-246-1315-4. Bez knižního průvodce by CD nemohlo dostat ISBN.
  
  Citujte prosím takto: Vidová Hladká, Barbora; Hana, Jiří; Hajič, Jan; Hlaváčová, Jaroslava; Mírovský, Jiří; Votrubec, Jan: Czech Academic Corpus 1.0. CD-ROM, ISBN: 978-80-246-1315-4. Karolinum, Prague, Czech Republic, 2007.
- ČAK 2.0 CD-ROM vydáno v LDC 2008 pod názvem Czech Academic Corpus 2.0, katalogové číslo: LDC2008T22, ISBN: 1-58563-491-3. Na potisku CD zapomněli vytisknout verzi "2.0".
  Citujte prosím takto: Vidová Hladká, Barbora; Hajič, Jan; Hana, Jiří; Hlaváčová, Jaroslava; Mírovský, Jiří; Raab, Jan: Czech Academic Corpus 2.0. CD-ROM, ISBN: 1-58563-491-3. Linguistic Data Consortium, cat. num.: LDC2008T22, Philadelphia, Pennsylvania, USA, 2008.
- Pro distribuci spřáteleným pracovištím v ČR jsme nechali vypálit a potisknout 100 ks CD u http://a.digi.cz/ (o spolupráci s nimi viz závěrečný povzdech - s kým se komunikovalo špatně).
- Bémová Alla, Urešová Zdeňka. Konverze syntaktických anotací Českého akademického korpusu - Jaké to bylo? Prosinec 2008. Available: doc, pdf ##Souhrnné shrnutí syntaktické anotace ze všech možných úhlů pohledu. Tyto pracovní poznámky se stanou podkladem pro článek do SaS, který bude navazovat na článek (Hladká, Králík, 2006.)
- Hladká Barbora, Králík Jan. Proměna Českého akademického korpusu. Slovo a slovesnost 67, pp. 179-194. 2006. Available: pdf
- Ribarov Kiril, Bémová Alla, Hladká Barbora. When a statistically oriented parser was more efficient than a linguist: A case of treebank conversion. Prague Bulletin of Mathematical Linguistics 86, pp. 21-38, 2006. Available: pdf

Podpůrné
- Pokyny pro anotaci 23/6/2007 ## shrnutí všech podstatných informací
- Valenční slovník z PDT, manuál k používání pro analytickou anotaci
- Postřehy Ally Bémové z kontroly dvojité anotace textů
- Přehled maker kontextu PML_CAC_A_Edit editoru TrEd
- Slajdy ze snídaně 18/6/2007 ## trochu více povídánío s. anotaci ČAK
- Slajdy ze snídaně 25/6/2007 ## informační schůzka se zájemci o anotování

Resources and Tools for Information Systems (REST) - interní dokumentace projektu

Hlavní výstupy projektu

Resources and Tools for Information Systems (REST)
- interní dokumentace projektu