Projekty
- mdmake (vícerozměrný make)
- Morseus, an unsupervised tool for morphemic segmentation of an unknown language
- Stránka o českém parsingu
- DZ Parser (16.8.2004, verze 2.0 25.10.2009)
- Neprojektivity v PDT
(27.1.2003)
- Prague Markup Language čili pracovní skupina pro XMLizaci formátu našich korpusů (zejména PDT) je nyní součástí projektu JAZZ (= jazykové zdroje)
- Detris -
šablona Microsoft Word s makry, která kreslí ve Wordu
závislostní stromečky na základě jejich reprezentace v CSTS
formátu.
- Porovnání dvou syntaktických
analýz, např. výstupu parseru se vzorovou ruční anotací.
- Porovnání výstupu parserů.
Perlový skript, který projde dva nebo více souborů CSTS, obsahujících
syntaktickou analýzu téhož textu: například různé analýzy vytvořené
různými analyzátory (parsery). První soubor se považuje za ruční analýzu,
která je správná; ostatní analýzy se porovnávají s ní. Po projití
analýz skript vypíše na výstup počet závislostí určených správně všemi
parsery, počet určený jen některými nebo jen jedním z nich, až po
počet závislostí určených všemi parsery špatně.
- Výběr vět s rozdílnými
analýzami. Projde CSTS, který obsahuje více syntaktických
analýz od různých parserů (odlišených atributem src ve značce
) i ruční analýzu (značka ). Na výstup vypíše podmnožinu
tohoto souboru, která obsahuje právě ty věty, v nichž je
alespoň jedna závislost, kterou určil správně parser A a špatně
parser B. Identifikátory (hodnoty atributu src) parserů A a B se
předávají jako argumenty.
Typické použití: srovnání dvou výstupů, které pocházejí od téhož
parseru, ale jeden před a druhý po zavedení nového vylepšení
parseru. Prohlédnutím rozdílových souborů v prohlížeči stromů
(např. Tred) se pak snadno najdou chyby, které nové vylepšení do
analýzy vneslo, což může usnadnit jejich odstranění.
- Převod treebanku mezi formáty CSTS
a FS. Účel: zejména kvůli možnosti zobrazovat stromy programy
Tred a Graph. Graph vůbec nesnáší formát CSTS. Tred sice umí
formáty převádět, ale je příliš přísný na syntaxi CSTS a vynechává
některé údaje. Programu cstsfs.pl nevadí, pokud chybí záhlaví
CSTS, a pokud tam je, ignoruje všechny značky nad úrovní věty.
Ve FS vytvoří atributy: slovo (<f>; funguje současně jako
origf), mml (<MMl>; slije všechny do jednoho atributu), mmt
(<MMt>; slije všechny do jednoho atributu), heslo
(<l>), mznacka (<t>), mdlx (<MDl src="x"> pro
každé x, nalezené v prvním slově první věty), mdtx (<MDt
src="x">) a poradi (<r>). Strukturu stromu postaví podle
značek <g> (ruční strukturální anotace). Podle výstupu
parserů (<MDg src="x">) vytvoří atributy mdgx, ale vyplní je
pouze u uzlů, u nichž se parser liší od ruční anotace. Dále
vytvoří atributy podle všech dalších SGML značek, které najde u
prvního slova první věty, včetně takových, které nejsou definovány
v CSTS DTD.
- Ve vzorovém FS souboru se
na konci můžete podívat, co je třeba připojit na konec FS souboru,
aby v tredu bylo vidět více struktur jedné věty
zároveň. Tento příklad předpokládá, že FS soubor obsahuje atributy
g a MDgdz, z nichž první je odkaz na rodiče odpovídající
struktuře FS stromu, druhý pak je odkaz na rodiče
v alternativní analýze. V tredu se pak do stromu
přikreslí červené spojovací čáry mezi uzly, které na sobě
v hlavní analýze nezávisí, ale ve vedlejší ano.
- Automatická extrakce slovesných rámců
z Pražské
závislostní stromové banky. K dispozici je
seznam automaticky
získaných rámců a
seznam související
literatury.
- Program
prepis
.