[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type oral presentation *
Status published
Language English
Author(s) Zeman, Daniel
Title Universality in space and time – Modern treebanking for ancient languages
Czech title Univerzálnost v prostoru a čase – Moderní závislostní korpusy pro starobylé jazyky
Institution Universität Leipzig
Publisher's city and country Leipzig, Germany
Venue Universität Leipzig
Month July
How published online
URL http://www.dh.uni-leipzig.de/wo/laphw/
Supported by 2017-2021 PROGRES Q48 (Informatika)
Czech abstract Představujeme Universal Dependencies (UD), komunitní projekt zaměřený na mezijazykově použitelné anotační schéma pro morfologii a syntaxi přirozených jazyků. Klíčovou myšlenkou UD je, že podobné gramatické konstrukce mají být analyzovány a anotovány podobně; strukturní reprezentace paralelních vět ve dvou jazycích mají být maximálně paralelní. Komunita UD je velmi rozmanitá, stejně jako předpokládané možnosti využití, které se UD snaží podporovat: modely pro počítačové zpracování přirozeného jazyka (zvláště morfologické značkování a syntaktická analýza); jazykovědné bádání a dotazy na korpus; studie z jazykové typologie. Kromě návrhu anotačních pravidel se projekt UD zabývá také sběrem samotných korpusů, jejich převodem do jednotné anotace a jejich zpřístupněním pro výzkum. Vzhledem k tomu, že UD je omezeno dostupností dat, má pochopitelně výrazně větší zastoupení velkých eurasijských jazyků bohatých na digitální zdroje; nicméně, přibývají i vzorky z menšinových jazyků a několika klasických jazyků. První část přednášky představí obecné principy UD. Ve druhé části se podíváme zblízka na treebanky klasických jazyků a probereme obtíže s harmonizací tradiční terminologie ze synchronního i diachronního hlediska. Předvedeme také nástroje, které lze využít k databázovým dotazům nad korpusy.
English abstract We present Universal Dependencies (UD), a community-driven project aimed at defining a cross-linguistically applicable annotation scheme for morphology and syntax of natural languages. The key idea of UD is that comparable constructions should be analyzed and annotated in comparable ways; structural representations of parallel sentences in two languages should be as parallel as possible. The community behind UD is very diverse and so are the use cases that UD tries to support: models for natural language processing (especially tagging and parsing); linguistic research and corpus queries; language-typological studies. Besides defining annotation guidelines, UD also collects actual corpora, converts them to the unified annotation and makes them freely available for research. Being driven by data availability, UD is obviously biased towards resource-rich Eurasian languages; however, there are also samples from minority languages, and several ancient languages, too. The first part of the talk will describe the main principles of UD and present the project in general. In the second part, we will look more closely at the treebanks of classical languages, and discuss some challenges of harmonizing traditional terminology both synchronically and diachronically. We will also demonstrate query tools that can be used to study the data.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Event LAPHW 2017
Presentation type invited talk at conference/workshop
Open access yes
Creator: Common Account
Created: 6/26/17 10:14 PM
Modifier: Common Account
Modified: 7/20/17 6:40 PM
***

Slidespublic2017-07-07-laphw-leipzig.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sat Sep 23 21:47:58 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant