Jiří Mírovský: Searching in the Prague Dependency Treebank

Jiří Mírovský: Searching in the Prague Dependency Treebank

MÍROVSKÝ, JIŘÍ (2009). Searching in the Prague Dependency Treebank. ISBN 978-80-904175-6-4. 158 pp.

Preview BibTeX Buy

Abstrakt:

V knize studujeme anotaci Pražského závislostního korpusu 2.0 a vytváříme seznam požadavků kladených na dotazovací jazyk, který by umožnil vyhledávání a studium všech lingvistických jevů anotovaných v tomto korpusu. Navrhujeme rozšíření dotazovacího jazyka existujícího nástroje Netgraph 1.0 a ukazujeme, že takto rozšířený dotazovací jazyk splňuje definovaný seznam požadavků. Ukazujeme rovněž, jak je pomocí tohoto jazyka možno vyhledávat všechny zásadní lingvistické jevy v korpusu anotované. Navržený dotazovací jazyk byl rovněž implementován – představujeme vyhledávací nástroj a pojednáváme o jeho datovém formátu. Dotazovací jazyk je porovnán s několika dalšími dotazovacími jazyky. Ukazujeme rovněž, do jaké míry jsou vlastnosti tohoto jazyka využívány skutečnými uživateli a co tito uživatelé vyhledávají. Řada dalších informací je k dispozici v přílohách.

Summary

In the book, we study the annotation of the Prague Dependency Treebank 2.0 and assemble a list of requirements on a query language that would allow searching for and studying all linguistic phenomena annotated in the treebank. We propose an extension to the query language of the existing search tool Netgraph 1.0 and show that the extended query language satisfies the list of requirements. We also show how all principal linguistic phenomena annotated in the treebank can be searched for with the query language. The proposed query language has also been implemented – we present the search tool as well and talk about the data format for the tool. The query language is compared to several other query languages. We also show to what extent the features of the query language are put to use by the users and what the users really do search for. Much additional information can be found in Appendixes.