[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Zeman, Daniel Mareček, David Yu, Zhiwei Žabokrtský, Zdeněk
Title Planting Trees in the Desert: Delexicalized Tagging and Parsing Combined
Czech title Pěstování stromů v poušti: kombinace delexikalizovaného značkování a parsingu
Proceedings 2016: Seoul, Korea: PACLIC 30: Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation
Pages range 199-207
Note On-line proceedings (see the URL field) are maintained during the conference only. The organizers have promised that the conference will be indexed in Scopus. It seems that they will publish the papers in a journal.
How published online
URL https://aclweb.org/anthology/Y/Y16/Y16-2018.pdf
Supported by 2015-2017 GA15-10472S (Morfologicky a syntakticky anotované korpusy mnoha jazyků) 2014-2016 GP14-06548P (Odvození větné struktury bez anotovaných korpusů) 2015-2018 H2020-ICT-2014-1-644402 (Himl (Health in my Language)) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Pro morfologické značkování a syntaktickou analýzu neznámých jazyků byla navržena řada metod. My zkoumáme delexikalizovaný parsing, navržený Zemanem a Resnikem (2008), a delexikalizované značkování, navržené Yu et al. (2016). V obou případech předkládáme podrobné vyhodnocení na datech z Universal Dependencies (Nivre et al., 2016), de-facto standardu pro vícejazyčné morfosyntaktické zpracování (předchozí práce pracovaly s jinými daty). Naše výsledky potvrzují, že každá z uvedených delexikalizovaných metod samostatně má určitý omezený potenciál v případech, kdy není k dispozici žádná ruční anotace cílového jazyka. Nicméně, pokud obě metody zkombinujeme, jejich chyby se vzájemně zmnožují nad přijatelnou mez. Ukazujeme, že i sebemenší střípek expertní anotace cílového jazyka může významně zvýšit úspěšnost a měl by být použit, jestliže ho lze získat.
English abstract Various unsupervised and semi-supervised methods have been proposed to tag and parse an unseen language. We explore delexicalized parsing, proposed by (Zeman and Resnik, 2008), and delexicalized tagging, proposed by (Yu et al., 2016). For both approaches we provide a detailed evaluation on Universal Dependencies data (Nivre et al., 2016), a de-facto standard for multi-lingual morphosyntactic processing (while the previous work used other datasets). Our results confirm that in separation, each of the two delexicalized techniques has some limited potential when no annotation of the target language is available. However, if used in combination, their errors multiply beyond acceptable limits. We demonstrate that even the tiniest bit of expert annotation in the target language may contain significant potential and should be used if available.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Article no. 78
ISBN* 978-89-6817-428-5
Address* Seoul, Korea
Month* October
Venue* Kyung Hee University
Institution* Kyung Hee University
Creator: Common Account
Created: 6/12/16 7:04 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Presentationpublic2016-10-29-PACLIC-delex.pdfapplication/pdf
Final versionpublicCAMERA-READY-PACLIC-30_paper_78.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Jul 18 04:43:45 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant