Průvodce PDT 2.0

Jan Hajič

Eva Hajičová

Jaroslava Hlaváčová

Václav Klimeš

Jiří Mírovský

Petr Pajas

Jan Štěpánek

Barbora Vidová Hladká

Zdeněk Žabokrtský


Obsah

1. Úvod
1.1. Co je PDT 2.0
1.2. Historické pozadí projektu
1.3. Vývoj projektu
1.4. O češtině
1.5. Adresářová struktura
2. Roviny anotace
2.1. Morfologická rovina
2.1.1. Logická struktura
2.1.2. Fyzická realizace
2.1.3. Proces anotace
2.2. Analytická rovina
2.2.1. Logická struktura
2.2.2. Fyzická realizace
2.2.3. Proces anotace
2.3. Tektogramatická rovina
2.3.1. Logická struktura
2.3.2. Fyzická realizace
2.3.3. Proces anotace
2.4. Ukázka anotace na třech rovinách
3. Data
3.1. Zdroje textů
3.2. Rozdělení dat podle pokrytí anotacemi na jednotlivých rovinách
3.3. Rozdělení dat na trénovací a testovací
3.4. Formáty dat
3.4.1. PML
3.4.2. Perl Storable Format
3.4.3. FS
3.4.4. CSTS
3.5. Konvence pojmenování souborů
3.6. Plná data
3.7. Ukázková data
3.8. PDT-VALLEX
3.9. Aktualizace PDT 1.0
4. Nástroje
4.1. Vyhledávání v korpusu: Netgraph
4.2. Prohlížení stromů: TrEd
4.3. Automatické zpracování stromů: btred/ntred
4.4. Konverze mezi různými formáty dat
4.4.1. Konverze mezi formáty PDT
4.4.2. Konverze z formátů jiných korpusů
4.5. Parsing češtiny: od prostého textu k závislostním stromům typu PDT
4.6. Vytvoření dat pro vývoj parseru
4.7. Makra pro detekce chyb
5. Dokumentace
6. Publikace
6.1. Teoretické pozadí PDT
6.2. PDT 2.0
6.2.1. Obecné informace
6.2.2. Morfologická rovina
6.2.3. Analytická rovina
6.2.4. Tektogramatická rovina
6.3. Nástroje
6.3.1. Netgraph
6.3.2. Morfologická analýza a tagging
6.3.3. Parsing
6.3.4. Automatické přiřazování funktorů
7. Distribuce a licence
7.1. Licenční ujednání
8. Instalace
9. Zásluhy
10. Poděkování

Seznam obrázků

2.1. Propojení rovin
2.2. Schéma průběhu prací na datech a anotacích
2.3. Analytický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.
2.4. Tektogramatický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější. (podrobné zobrazení)
3.1. Počet slovních jednotek (slov, čísel, interpunkce) z jednotlivých zdrojů
3.2. Rozdělení dat do rovin
3.3. Rozdělení dat na trénovací a testovací množiny
3.4. Ukázka položky PDT-VALLEXu ve formátu pro zobrazení
3.5. PDT-VALLEX v editoru TrEd
4.1. Vytváření dotazu v Netgraphu
4.2. Nalezený strom v Netgraphu
4.3. Tektogramatický strom v TrEdu

Seznam tabulek

2.1. Ukázková věta
2.2. Morfologická analýza ukázkové věty
3.1. Data anotovaná na všech vrstvách (tamw).
3.2. Data anotovaná pouze na m-rovině a a-rovině (amw).
3.3. Data anotovaná pouze na m-rovině (mw).
3.4. Alternativní rozdělení: Všechny dokumenty anotované na m-rovině (sjednocení tamw, amw a mw).
3.5. Alternativní rozdělení: Všechna data anotovaná na a-rovině (sjednocení tamw a amw).