Zeman Daniel: The world of tokens, tags and trees

Zeman Daniel: The world of tokens, tags and trees

ZEMAN DANIEL (2018). The world of tokens, tags and trees. ISBN 978-80-88132-09-7. 158 pp.

Preview BibTeX Buy

Abstrakt:

Tato monografie představuje srovnávací studii anotačních přístupů k morfologii a syntaxi přirozených jazyků, s důrazem na využití pro mnoho různých jazyků. Anotací se rozumí přidávání gramatických kategorií a vztahů do elektronicky čitelného textu v přirozeném jazyce. Výsledkem je anotovaný korpus; protože syntaktické vztahy jsou obvykle reprezentovány ve formě závislostních stromů, korpusy studované v této monografii jsou závislostní korpusy („treebanky“). Existuje řada závislostních korpusů pro různé jazyky. Jednotlivé korpusy se však velmi liší stylem a způsobem zápisu anotace, což snižuje jejich užitečnost pro jazykovědce a odborníky na jazykové technologie. V knize podáváme přehled několika harmonizačních projektů, které si kladly za cíl najít anotační schéma použitelné pro všechny přirozené jazyky; přehled zahrnuje i nejnovější a zatím nejrozsáhlejší iniciativu tohoto druhu, Universal Dependencies („univerzální závislosti“, UD). Zkoumáme popis jazyka na třech úrovních: 1. tokenizace a segmentace na slova, 2. morfologie a 3. povrchová závislostní syntax. Pro každý jazykový jev podáváme srovnání jeho analýzy a anotace v různých existujících korpusech, přičemž rozebíráme výhody a nevýhody jednotlivých přístupů. Na morfologické rovině se navíc neomezujeme na existující korpusy a probíráme i rysy, které budou potřeba, až dojde na zpracování některých méně známých jazyků. V závěru konstatujeme, že žádné anotační schéma není ideální pro všechny účely, ale dobré anotační schéma musí být schopno uchovat veškeré relevantní informace, aby bylo v případě potřeby možné anotaci převést do jiného formátu.

V odborné literatuře najdeme popisy gramatik, lingvistické typologické studie, jakož i anotační příručky pro korpusy konkrétních jazyků. Není však mnoho studií, které z pohledu korpusové anotace zkoumají velké množství jazyků najednou. Tuto mezeru na trhu se tato kniha snaží zaplnit.

Summary

This monograph presents a comparative study of annotation approaches to morphology and syntax of natural languages, with emphasis on applicability in a multilingual environment. Annotation is understood as adding linguistic categories and relations to digitally encoded natural language text, resulting in annotated corpus; as syntactic relations are often represented in the form of dependency trees, the annotated corpora covered by the monograph are dependency treebanks. Many treebanks exist and their annotation styles vary significantly, which hampers their usefulness for linguists and language engineers. We survey several harmonization efforts that tried to come up with cross-linguistically applicable annotation guidelines, including the most recent and broadest effort to date, Universal Dependencies. We examine language description on three levels: 1. tokenization and word segmentation, 2. morphology, and 3. surface dependency syntax. For each language phenomenon we provide a comparison of its analysis and annotation in various existing treebanks (or other corpora, for tokenization and morphology), pointing out advantages and disadvantages of the competing approaches. On the morphological layer, we go even beyond the currently available corpora and provide a typological survey of features that will be needed when less-resourced languages are covered by an annotation project. We conclude that no single approach is suitable for all purposes, but a good approach must not lose information, so that annotation can be converted to another style when necessary.

There are grammar descriptions, there are linguistic typological works, and there are annotation manuals for corpora in individual languages. However, there are not many studies that take the corpus-annotation perspective and compare a large number of languages. There is a gap on the market, and this book can fill it.