English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5

V této sekci popíšeme všechny možnosti, jak pracovat s DVD PCEDT 2.0. Můžete ho používat přímo bez dalšího zdržování, můžete z něho přímo kopírovat data (a jiné součásti) nebo se můžete svěřit do péče instalačního programu. DVD můžete používat jak na Windows, tak na Linuxu. Na počítačích Macintosh by mělo fungovat také. Ale nejdříve se podívejme na jeho obsah:

  • Data – samovysvětlující.
  • TrEd – Tree Editor (Editor stromů), software pro práci s daty
  • Dokumentace – Všechny užitečné informace o PCEDT 2.0 převážně v HTML nebo PDF
  • Prohlížeč dat – Ve svém internetovém prohlížeči se můžete okamžitě prohlížet veškerá data
  • Schémata – Schémata v jazyce PML popisující formát dat
  • Valenční slovníky – Valenční slovníky češtiny a angličtiny, na které se odkazují data

Požadavky

Pro práci s PCEDT 2.0 neexistují žádné speciální požadavky. Všechno, co je potřeba, už by mělo být ve vašem počítači. Pro otevření dokumentace potřebujete program pro čtení PDF a internetový prohlížeč. Na Linuxu potřebujete Perl, abyste mohli používat TrEd.

Pokud používáte Mac, tak se na vás vztahuje téměř vše, co bude řečeno o Linuxu. Jediný problém může nastat při instalaci TrEdu. Nainstalovat TrEd pod Mac OS X je možné, ale občas se mohou vyskytnout komplikace. V takovém případě nás prosím kontaktujte.

Instalátory

V kořenovém adresáři DVD PCEDT 2.0 jsou dva instalační programy. Pokud používáte Windows, spusťte setup_windows.exe. Program vám nabídne zkopírování dat, dokumentace a prohlížeče dat do vašeho počítače a instalaci programu TrEd.

Pokud na svém počítači máte Linux, spusťte setup_unix.sh. Tento instalační skript nabízí v podstatě stejné možnosti jako instalační program pro Windows.

Data

Data jsou uložena v adresáři data a rozdělena do 25 sekcí – podadresářů 0024. Každá sekce obsahuje až 100 souborů. Všechny soubory jsou zkomprimovány programem gzip. Dekomprimace je ovšem zbytečná, protože TrEd umí pracovat i s komprimovanými soubory, a to dokonce rychleji než s nezkomprimovanými textovými soubory.

Se všemi soubory můžete pracovat přímo z DVD nebo si je zkopírovat do počítače. Na Windows i na Linuxu můžete pro zkopírování dat využít instalační programy.

TrEd

Pokud máte v plánu pracovat s daty důkladněji, s největší pravděpodobností budete pracovat s programem TrEd (Tree Editor - editor stromů). Jde o program, ve kterém jsme anotovali data. Používáme ho již mnoho let a stále ho vyvíjíme, aby vyhovoval našim měnícím se potřebám. Mělo by tedy jít o nejlepší možný software, jaký jen můžete mít. Je napsaný v Perlu, takže pro jeho spuštění musíte mít nainstalovaný Perl. Pokud používáte Windows, tak vám ho instalační program TrEdu nainstaluje. V případě Linuxu je velmi nepravděpodobné, že Perl ještě nainstalovaný nemáte. V opačném případě prosím nainstalujte Perl pomocí balíčkovacího systému své distribuce.

TrEd je vysoce modulární systém. Jeho funkcionalitu je možné rozšířit pomocí velkého množství rozšíření. Některá z nich budete potřebovat pro práci s daty PCEDT 2.0. Potřebná rozšíření se ovšem nenainstalují, pokud použijete standardní instalační program TrEdu, a vy tak nebudete moci korektně otevírat data, dokud rozšíření sami nenainstalujete. Na DVD PCEDT 2.0 poskytujeme fungující řešení pro uživatele Windows i Linuxu.

Pro Windows jsme připravili přenositelný TrEd, který funguje přímo z DVD bez instalace – zkrátka spusťte tred.bat z kořenového adresáře. Všechna nezbytná rozšíření jsou již do něj zabudována. Samotný TrEd je umístěn v adresáři tred. Můžete si ho zkopírovat kamkoliv do svého počítače. V takovém případě pak TrEd spouštějte souborem tred\tred_portable\tred.bat.

Pokud pracujete na Linuxu a použijete k instalaci TrEdu náš instalační program, nainstaluje vám i všechna nezbytná rozšíření.

Jestliže z jakýchkoliv důvodů musíte použít obvyklé distribuce Perlu (Strawberry Perl pro Windows) a TrEdu, budete muset všechno ostatní doinstalovat ručně. V případě Perl budete potřebovat modul Treex::Core (distribuován přes CPAN – společně s ním se pravděpodobně nainstaluje velké množství závislostí). Dále budete instalovat tato rozšíření TrEdu: Prague Dependency Treebank 2.0 Annotation (ptd20), Prague English Treebank Annotation (pedt) and PDT-ValLex Editor (pdt_vallex). Instalovat rozšíření je snadné, protože TrEd má vlastního správce rozšíření (v aplikačním menu hledejte Setup → Manage Extensions...). Po nainstalování všech součástí budete muset TrEd spouštět příkazem ttred, který je součástí modulu Treex::Core. Tyto instrukce platí jak pro Windows, tak pro Linux.

Dokumentace

Dokumentace PCEDT 2.0 je shromážděna na webu PCEDT 2.0 (který právě teď čtete). Obsahuje množství PDF dokumentů a odkazuje na několik dalších webů. Funguje jako rozcestník, který by vám měl ukázat cestu ke všem dostupným informacím. Kompletní kopie tohoto webu je uložena na DVD PCEDT 2.0 – pro spuštění použijte soubor index.html z kořenového adresáře. Celý web si můžete zkopírovat, kam budete chtít (instalační programy to umí taky), vezměte ale prosím na vědomí, že web kromě dokumentace obsahuje i prohlížeč dat, který zabírá hodně místa.

Prohlížeč dat

Všechna data PCEDT 2.0 jsme převedli do SVG, abyste si je mohli prohlédnout ve svém internetovém prohlížeči. Stromy vypadají úplně stejně jako v TrEdu. Velmi snadno se jimi můžete probírat v našem prohlížeči, který jsme celý vytvořili pouze za použití standardních webových technologií. Vše, co k tomu potřebujete, je novější internetový prohlížeč (v případě Internet Exploreru novější znamená alespoň verzi 9.0). Pokud se potřebujete pouze rychle a bez zdržování podívat na data, je tohle nejlepší způsob.

Celý prohlížeč také můžete zkopírovat do svého počítače (adresář doc z kořenového adresáře). Vemte ale na vědomí, že prohlížeč dat sestává ze skoro 50 000 souborů a zabere více než 3 GiB diskového prostoru.

Schémata

Schémata v jazyce PML popisují formát dat a jsou uložena v adresáři schemata. Jsou zde pouze pro vaši potřebu. Nemusíte je nikam kopírovat, protože jsou zabudována do rozšíření TrEdu.

Valenční slovníky

PCEDT 2.0 používá dva valenční slovníky. PDT-Vallex pro česká a Engvallex pro anglická data. Engvallex je propojen s Propbankem a Verbnetem. Slovníky jsou uloženy v adresáři valency_lexicons. Prohlížet si je můžete v TrEdu. Není nutné je kamkoliv instalovat nebo kopírovat. Stejně jako schémata jsou již zabudovány do rozšíření TrEdu.

Potíže?

Neváhejte a napište nám, pokud potřebujete s něčím poradit nebo když něco nefunguje.