[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Rosén, Victoria De Smedt, Koenraad Losnegaard, Gyri Smørdal Bejček, Eduard Savary, Agata Osenova, Petya
Date květen 2016
Title MWEs in Treebanks: From Survey to Guidelines
Czech title Víceslovné výrazy v syntakticky anotovaných korpusech: Od přehledu ke směrnicím
Proceedings 2016: Paris, France: LREC 2016: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)
Pages range 2323-2330
How published online
Supported by 2013-2017 IC1207 (PARSEME -- Parsing and multi-word expressions. Towards linguistic precision and computational efficiency in natural language processing (COST Action)) 2014-2017 LD14117 (PARSEME: Parsing a víceslovné výrazy – k jazykovědné přesnosti a výpočetní efektivitě ve zpracování přirozeného jazyka)
Czech abstract Provedli jsme přehled VV v existujících treebancích pomocí online průzkumu. Výsledky ukazují významné odlišnosti. Srovnání se zaměřuje na anotaci analytických predikátů a slovesných idiomů. Na základě průzkumu navrhujeme všeobecné směrnice pro anotaci VV v treebancích. Doporučení se týkají následujících potřeb: rozlišovat VV od podobných, avšak kompozicionálních konstrukcí; vyhledávat rozličné druhy VV v treebanku; rozlišení doslovného a přeneseného významu a normalizace reprezentace VV. Průzkum vedený napříč jazyky a teoriemi je míněn jako pomůcka pro zpracování a další práci s anotovanými treebanky.
English abstract By means of an online survey, we have investigated ways in which various types of multiword expressions are annotated in existing treebanks. The results indicate that there is considerable variation in treatments across treebanks and thereby also, to some extent, across languages and across theoretical frameworks. The comparison is focused on the annotation of light verb constructions and verbal idioms. The survey shows that the light verb constructions either get special annotations as such, or are treated as ordinary verbs, while VP idioms are handled through different strategies. Based on insights from our investigation, we propose some general guidelines for annotating multiword expressions in treebanks. The recommendations address the following application-based needs: distinguishing MWEs from similar but compositional constructions; searching distinct types of MWEs in treebanks; awareness of literal and nonliteral meanings; and normalization of the MWE representation. The cross-lingually and cross-theoretically focused survey is intended as an aid to accessing treebanks and an aid for further work in treebank annotation.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Marko Grobelnik; Bente Maegaard; Joseph Mariani; Asunción Moreno; Jan Odijk; Stelios Piperidis
ISBN* 978-2-9517408-9-1
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 4/12/16 10:41 AM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

paperpublicLREC_2016_Parseme.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sat Sep 23 20:17:57 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant