[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status published
Language English
Author(s) Rosa, Rudolf
Date 23.9.2017
Title MonoTrans: Statistical Machine Translation from Monolingual Data
Czech title MonoTrans: Statistický strojový překlad z jednojazyčných dat
Proceedings 2017: Praha, Czechia: SloNLP 2017: Proceedings of the 17th conference ITAT 2017: Slovenskočeský NLP workshop (SloNLP 2017)
Pages range 201-208
Note A croSSSynt paper
How published print
URL http://ceur-ws.org/Vol-1885/201.pdf
Supported by 2016-2019 DG16P02B048 (NAKI II - Systém pro trvalé uchování dokumentace a prezentaci historichých pramenů z období totalitních režimů, s ZCU a USTR) 2017-2019 CZ.02.1.01/0.0/0.0/16_013/0001781 (OP VVV VI LINDAT) 2017 SVV 260 453 (Teoretické základy informatiky a výpočetní lingvistiky)
Czech abstract Představujeme MonoTrans, systém statistického strojového překladu, který používá pouze jednojazyčná data ve zdrojovém a cílovém jazyce, bez použití paralelních korpů nebo pravidel specifických pro konkrétní jazyk. Systém překládá každé zdrojové slovo cílovém slovem, které je mu nejpodobnější na základě kombinace míry řetězcové podobnosti a podobnosti četností slov. Systém je určen pro překlad mezí blízkými jazyky v situaci kdy není k dispozici dostatek paralelních dat. Přestože MonoTrans dosahuje nízkých skóre, významně překonává baseline.
English abstract We present MonoTrans, a statistical machine translation system which only uses monolingual source language and target language data, without using any parallel corpora or language-specific rules. It translates each source word by the most similar target word, according to a combination of a string similarity measure and a word frequency similarity measure. It is designed for translation between very close languages, such as Czech and Slovak or Danish and Norwegian. It provides a low-quality translation in resource-poor scenarios where parallel data, required for training a high-quality translation system, may be scarce or unavailable. This is useful e.g. for cross-lingual NLP, where a trained model may be transferred from a resource-rich source language to a resource-poor target language via machine translation. We evaluate MonoTrans both intrinsically, using BLEU, and extrinsically, applying it to cross-lingual tagger and parser transfer. Although it achieves low scores, it does surpass the baselines by respectable margins.
Specialization computer science ("informatika")
Confidentiality default – not confidential
Open access yes
Editor(s)* Jaroslava Hlaváčová
ISBN* 978-1974274741
ISSN* 1613-0073
Address* Praha, Czechia
Month* September
Venue* Martinské hole***
Publisher* CreateSpace Independent Publishing Platform
Institution* ÚFAL MFF UK
Creator: Common Account
Created: 7/20/17 10:04 AM
Modifier: Common Account
Modified: 9/18/17 6:28 PM
***

posterpublicposter.pdfapplication/pdf
poster boaster slidespublicslajdy.pdfapplication/pdf
paperpublic201.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Nov 20 03:16:10 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant