[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status published
Language English
Author(s) Variš, Dušan Bojar, Ondřej
Title CUNI System for WMT17 Automatic Post-Editing Task
Czech title Systém UK pro úlohu automatické posteditace strojového překladu WTM17
Proceedings 2017: Stroudsburg, PA, USA: WMT 2017: Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers
Pages range 661-666
How published print
Supported by 2017 SVV 260 453 (Teoretické základy informatiky a výpočetní lingvistiky) 2015-2018 H2020-ICT-2014-1-644402 (Himl (Health in my Language)) 2015-2018 H2020-ICT-2014-1-645452 (QT21: Quality Translation 21) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract V návaznosti na loňský systém pro automatickou post-editaci strojového překladu Karlovy Univerzity se soustředíme na využití potenciálu sequence-to-sequence neuronových modelů pro danou úlohu. V článku nejprve porovnáváme několik architektur typu enkodér-dekodér na modelech menšího měřítka a představujeme systém, který byl vybrán na základě těchto předběžných výsledků a odeslán na WMT 2017 Automatic Post-Editing shared task. V článku také ukazujeme jak jednoduchá inkluze umělých dat dokáže vylepšit úspěšnost modelu na základě automatických evaluačních metrik. V závěru uvádíme několik příkladů výstupů vygenerových našim post-editačním systémem.
English abstract Following upon the last year's CUNI system for automatic post-editing of machine translation output, we focus on exploiting the potential of sequence-to-sequence neural models for this task. In this system description paper, we compare several encoder-decoder architectures on a smaller-scale models and present the system we submitted to WMT 2017 Automatic Post-Editing shared task based on this preliminary comparison. We also show how simple inclusion of synthetic data can improve the overall performance as measured by an automatic evaluation metric. Lastly, we list few example outputs generated by our post-editing system.
Specialization computer science ("informatika")
Confidentiality default – not confidential
Open access yes
Editor(s)* Ondřej Bojar; et al .
ISBN* 978-1-945626-96-8
Address* Stroudsburg, PA, USA
Month* September
Venue* Øksnehallen
Publisher* Association for Computational Linguistics
Institution* Association for Computational Linguistics
Creator: Common Account
Created: 7/14/17 5:53 PM
Modifier: Common Account
Modified: 9/18/17 2:15 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Sep 26 02:01:03 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant