[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Urešová, Zdeňka Bejček, Eduard Hajič, Jan
Date 11.8.2016
Title Inherently Pronominal Verbs in Czech: Description and Conversion Based on Treebank Annotation
Czech title Inherentně zájmenná slovesa v češtině: Popis a konverze pomocí korpusové anotace
Proceedings 2016: Stroudsburg, PA, USA: MWE workshop (ACL 2016) : Proceedings of the 12th Workshop on Multiword Expressions (ACL 2016)
Pages range 78-83
How published online
URL http://anthology.aclweb.org/W16-1812
Supported by 2013-2015 GP13-03351P (Srovnání české a anglické valence sloves na základě korpusového materiálu (teorie a praxe)) 2014-2017 LD14117 (PARSEME: Parsing a víceslovné výrazy – k jazykovědné přesnosti a výpočetní efektivitě ve zpracování přirozeného jazyka) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract PARSEME Shared Task (PST) se zabývá automatickou identifikací víceslovných výrazů (VV) v textu. Jeho organizátoři připravili základní anotační pokyny se čtyřmi základními skupinami slovesných VV. Jedním z dvaceti vybraných jazyků je i čeština. Článek popisuje konversi dat Pražského závislostního korpusu (PDT), prozatím výhradně inherentně zájmenných sloves (IPronV) -- současnou anotaci v PDT, porovnává ji s anotačními pokyny PST. Závěrem je, že PDT a přidružený slovník obsahuje pro konversi dostatek údajů (ačkoli specifické jevy budou muset být kontrolovány ručně). Vedlejším efektem je, že jsme odhalili některé drobné chyby v anotaci PDT, které teď mohou být opraveny.
English abstract This paper describes results of a study related to the PARSEME Shared Task on automatic detection of verbal Multi-Word Expressions (MWEs) which focuses on their identification in running texts in many languages. The Shared Task’s organizers have provided basic annotation guidelines where four basic types of verbal MWEs are defined including some specific subtypes. Czech is among the twenty languages selected for the task. We will contribute to the Shared Task dataset, a multilingual open resource, by converting data from the Prague Dependency Treebank (PDT) to the Shared Task format. The question to answer is to which extent this can be done automatically. In this paper, we concentrate on one of the relevant MWE categories, namely on the quasi-universal category called “Inherently Pronominal Verbs” (IPronV) and describe its annotation in the Prague Dependency Treebank. After comparing it to the Shared Task guidelines, we can conclude that the PDT and the associated valency lexicon, PDT-Vallex, contain sufficient information for the conversion, even if some specific instances will have to be checked. As a side effect, we have identified certain errors in PDT annotation which can now be automatically corrected.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISBN* 978-1-945626-06-7
Address* Stroudsburg, PA, USA
Month* August
Publisher* Association for Computational Linguistics (ACL)
Institution* Association for Computational Linguistics (ACL)
Creator: Common Account
Created: 7/29/16 3:13 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

paperpublicMWE_WS_2016.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Sep 25 22:25:21 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant