[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2014
Type article
Status published
Language English
Author(s) Zeman, Daniel Dušek, Ondřej Mareček, David Popel, Martin Ramasamy, Loganathan Štěpánek, Jan Žabokrtský, Zdeněk Hajič, Jan
Title HamleDT: Harmonized Multi-Language Dependency Treebank
Czech title HamleDT: Harmonizovaný vícejazyčný závislostní korpus
Journal Language Resources and Evaluation
Publisher's city and country Dordrecht, Netherlands
Volume 48
Number 4
Pages range 601-637
Month December
Note Published online-first in August, paginated and included in paper issue in December.
How published online
URL http://link.springer.com/article/10.1007/s10579-014-9275-2
Supported by 2011-2013 GAP406/11/1499 (Čeština ve věku strojového překladu) 2014-2016 GP14-06548P (Odvození větné struktury bez anotovaných korpusů) 2013-2016 FP7-ICT-2013-10-610516 (QTLeap) 2012-2016 PRVOUK P46 (Informatika) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract Představujeme HamleDT – Harmonizovaný vícejazyčný závislostní korpus (HArmonized Multi-LanguagE Dependency Treebank). HamleDT je sbírka existujících závislostních korpusů (nebo jiných korpusů převedených do závislostní syntaxe), transformovaných tak, aby všechny odpovídaly jednotnému anotačnímu stylu. V tomto článku představujeme podrobný rozbor řady jevů, které jsou v různých jazycích srovnatelné, jejich zachycení v korpusech se však často liší. Tvrdíme, že je možné navrhnout takové transformační procedury, které většinu zmíněných jevů automaticky rozpoznají a převedou do jednotného stylu. Tato normalizace je důležitá jak pro komparativní lingvistiku, tak pro strojové učení syntaktické analýzy.
English abstract We present HamleDT – a HArmonized Multi-LanguagE Dependency Treebank. HamleDT is a compilation of existing dependency treebanks (or dependency conversions of other treebanks), transformed so that they all conform to the same annotation style. In the present article, we provide a thorough investigation and discussion of a number of phenomena that are comparable across languages, though their annotation in treebanks often differs. We claim that transformation procedures can be designed to automatically identify most such phenomena and convert them to a unified annotation style. This unification is beneficial both to comparative corpus linguistics and to machine learning of syntactic parsing.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
WOS Code 000345703000004
DOI 10.1007/s10579-014-9275-2
ISSN* 1574-020X
Publisher* Springer Netherlands
Creator: Common Account
Created: 2/11/14 9:09 PM
Modifier: Almighty Admin
Modified: 2/27/16 11:04 PM
***

Submitted manuscript final version 2014-07-04publicSUBMITTED.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sat Sep 22 10:12:10 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant