Principal investigator (ÚFAL): 
Provider: 
Grant id: 
15-10472S
ÚFAL budget: 
3385000 Kč
Duration: 
2015–2017

Manyla

Morphologically and Syntactically Annotated Corpora of Many Languages

Annotated corpora represent an important resource for a range of tasks in computational linguistics and computational processing of natural language. Such corpora are nowadays available for many languages, even though for some languages their size is rather limited. Unfortunately the corpora were developed by many different teams under varying conditions, and possibly with varying objectives. Mutually incompatible decisions taken during the design of the annotation guidelines make any cross-language comparison and multilingual processing difficult, if not impossible. This project focuses on 1. research of phenomena captured in existing treebanks of 30 different languages; 2. looking for a universally valid annotation for capturing these phenomena and 3. evaluation of suitability of alternative dependency structures for natural language processing, especially for dependency parsing. The results of the research will be summarized in a monograph.

Anotované korpusy představují důležitý zdroj dat pro řadu úloh počítačové lingvistiky i počítačového zpracování přirozeného jazyka. Dnes už jsou k dispozici pro celou řadu jazyků, byť pro některé jazyky jen v malém množství. Bohužel tyto korpusy byly vyvíjeny mnoha různými týmy za rozdílných podmínek, případně i s odlišnými cíli. Vzájemně neslučitelná rozhodnutí učiněná při návrhu anotačních schémat velmi komplikují až znemožňují jakákoli mezijazyková srovnání nebo zpracování vícejazyčných dat. Tento projekt se zaměřuje na 1. zkoumání jevů zachycených v existujících syntaktických korpusech pro 30 různých jazyků; 2. hledání univerzálně použitelné anotace pro jednotné zachycení všech těchto jevů a 3. posouzení vhodnosti alternativních závislostních struktur pro počítačové zpracování přirozených jazyků, zejména pro syntaktickou analýzu (parsing). Výsledky výzkumu budou shrnuty v monografii.

See the full project proposal here (PDF).

Research team:

This grant is factually related to several working projects that have their own websites: