[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2011
Type article
Status published
Language English
Author(s) Jawaid, Bushra Zeman, Daniel
Title Word-Order Issues in English-to-Urdu Statistical Machine Translation
Czech title Problematika slovosledu při statistickém strojovém překladu z angličtiny do urdštiny
Journal The Prague Bulletin of Mathematical Linguistics
Publisher's city and country Praha, Czechia
Number 95
Pages range 87-106
Month April
URL http://versita.metapress.com/content/617738k35641234q/?p=c455d349949a43c69a10c41f0768f5ae&pi=6
Supported by 2005-2010 MSM 0021620838 (Moderní metody, struktury a systémy informatiky) 2011-2013 GAP406/11/1499 (Čeština ve věku strojového překladu) 2010 SVV 261 314 (Specifický vysokoškolský výzkum)
Czech abstract Zkoumáme frázový statistický strojový překlad mezi angličtinou a urdštinou, dvěma indoevropskými jazyky s výrazně odlišnými preferencemi slovosledu. Přeskládání slov a frází je tudíž nezbytnou součástí překladové procedury. Zatímco lokální přeskládání lze ve frázových systémech modelovat elegantně, přesuny na velkou vzdálenost jsou problematické. Provádíme pokusy s překladovým systémem Moses a probíráme přeskládávací modely, kterými Moses disponuje. Potom předkládáme náš nový, urdštiny znalý, avšak zobecnitelný přístup založený na přeskládávání frází v syntaktickém stromu zdrojové anglické věty. Naše metoda významně zlepšuje kvalitu anglicko-urdského překladu s Mosesem, měřeno jak automatickým BLEU skórem, tak subjektivním lidským hodnocením.
English abstract We investigate phrase-based statistical machine translation between English and Urdu, two Indo-European languages that differ significantly in their word-order preferences. Reordering of words and phrases is thus a necessary part of the translation process. While local reordering is modeled nicely by phrase-based systems, long-distance reordering is known to be a hard problem. We perform experiments using the Moses SMT system and discuss reordering models available in Moses. We then present our novel, Urdu-aware, yet generalizable approach based on reordering phrases in syntactic parse tree of the source English sentence. Our technique significantly improves quality of English-Urdu translation with Moses, both in terms of BLEU score and of subjective human judgments.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
DOI 10.2478/v10108-011-0007-0
ISSN* 0032-6585
Institution* Univerzita Karlova v Praze
Creator: Common Account
Created: 1/16/11 1:40 PM
Modifier: Common Account
Modified: 6/13/12 4:28 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Oct 22 06:57:04 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant