[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2018
Type in proceedings
Status published
Language English
Author(s) Kondratyuk, Daniel Gavenčiak, Tomáš Straka, Milan Hajič, Jan
Title LemmaTag: Jointly Tagging and Lemmatizing for Morphologically Rich Languages with BRNNs
Czech title LemmaTag: Společné značkování a lemmatizace morfologicky bohatých jazyků pomocí BRNN
Proceedings 2018: Stroudsburg, PA, USA: EMNLP 2018: Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP 2018
Pages range 4921-4928
How published online
URL http://aclweb.org/anthology/D18-1532
Supported by 2017-2018 CZ.07.1.02/0.0/0.0/16 023/0000108 (OP PPR Ověření proveditelnosti a komerčního potenciálu výsledků výzkumu Univerzity Karlovy) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract Představujeme LemmaTag, architekturu neuronové sítě, která společně generuje morfologické značky a lemmata pomocí obousměrných rekurentních neuronových sítí pomocí slovních a znakových embeddingů. Demonstrujeme, že oběma úkolům pomáhá sdílet enkodér, předvídat podtypy značek a používat předpovězené značky na vstup lemmatizátoru. Vyhodnocujeme náš model na několika jazycích se složitou morfologií, a překonáváme nejlepší známé výsledky jak morfologického značkování tak lemmatizace v češtině, němčině a arabštině.
English abstract We present LemmaTag, a featureless neural network architecture that jointly generates part-of-speech tags and lemmas for sentences by using bidirectional RNNs with character-level and word-level embeddings. We demonstrate that both tasks benefit from sharing the encoding part of the network, predicting tag subcategories, and using the tagger output as an input to the lemmatizer. We evaluate our model across several languages with complex morphology, which surpasses state-of-the-art accuracy in both part-of-speech tagging and lemmatization in Czech, German, and Arabic.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
ISBN* 978-1-948087-84-1
Address* Stroudsburg, PA, USA
Month* November
Venue* SQUARE Brussels Meeting Centre
Publisher* Association for Computational Linguistics
Institution* ACL's special interest group on linguistic data and corpus-based approaches to NLP
Creator: Common Account
Created: 10/19/18 9:28 AM
Modifier: Common Account
Modified: 11/5/18 5:05 PM
***

Paperpubliclemmatag.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:50:22 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant