[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings without ISBN
Status published
Language English
Author(s) Bejček, Eduard Hajič, Jan Straňák, Pavel Urešová, Zdeňka
Title Extracting Verbal Multiword Data from Rich Treebank Annotation
Czech title Extrakce slovesných víceslovných výrazů z bohatě anotovaného syntaktického korpusu
Proceedings 2017: Bloomington, IN, USA: TLT 15 (2017): Proceedings of the 15th International Workshop on Treebanks and Linguistic Theories (TLT 15)
Pages range 13-24
How published online
URL http://ceur-ws.org/Vol-1779/02bejeck.pdf
Supported by 2014-2017 LD14117 (PARSEME: Parsing a víceslovné výrazy – k jazykovědné přesnosti a výpočetní efektivitě ve zpracování přirozeného jazyka) 2013-2017 IC1207 (PARSEME -- Parsing and multi-word expressions. Towards linguistic precision and computational efficiency in natural language processing (COST Action)) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2017-2021 PROGRES Q48 (Informatika) 2017-2021 PROGRES Q18 (Společenské vědy: od víceoborovosti k mezioborovosti)
Czech abstract Soutěž PARSEME Shared Task v identifikaci slovesných víceslovných výrazů požaduje po účastnících vyhledávání výrazů v běžném textu.
V tomto článku ukazujeme, jak je možné česká trénovací data získat nikoli manuální anotací, nýbrž převodem informací z předchozích anotací uložených v Pražském závislostním korpusu na různých úrovních a různým způsobem. Prvním krokem je porovnání anotačních instrukcí a srovnání typologie.
English abstract The PARSEME Shared Task on automatic identification of verbal multiword expressions aims at identifying such expressions in running texts. Typology of verbal multiword expressions, very detailed annotation guidelines and gold-standard data for as many languages as possible will be provided. Since the Prague Dependency Treebank includes Czech multiword expression annotation, it was natural to make an attempt to automatically convert the data into the Shared Task format. However, since the Czech treebank predates the Shared Task annotation guidelines, a prior examination was necessary to determine to which extent the conversion can be fully automatic and how much manual work remains.
In this paper, we show that information contained in the Prague Dependency Treebank is sufficient to extract all of the Shared Task categories of verbal multiword expressions relevant for Czech, even if these categories are originally annotated differently; nevertheless, some manual checking and annotation would still be necessary, e.g. for distinguishing borderline cases.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Address* Bloomington, IN, USA
Month* January
Institution* Indiana University, Bloomington
Creator: Common Account
Created: 12/8/16 7:57 AM
Modifier: Common Account
Modified: 6/30/17 7:22 PM
***

paperpublicTLT_2017.pdfapplication/pdf
slidespublicTLT_2017_slides.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Thu Nov 23 08:33:52 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant