[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2010
Type in proceedings
Status published
Language English
Author(s) Bojar, Ondřej Straňák, Pavel Zeman, Daniel
Title Data Issues in English-to-Hindi Machine Translation
Czech title Problémy s daty při strojovém překladu z angličtiny do hindštiny
Proceedings 2010: Valletta, Malta: LREC 2010: Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC 2010)
Pages range 1771-1777
How published online
Supported by 2009-2012 FP7-ICT-2007-3-231720 (EuroMatrix Plus) 2005-2010 MSM 0021620838 (Moderní metody, struktury a systémy informatiky)
Czech abstract Statistický strojový překlad do morfologicky bohatších jazyků je obtížná úloha, a to tím více, jestliže se zdrojový a cílový jazyk liší pořádkem slov. Nejlepší současné systémy proto neprodukují optimální výsledky. Mnohdy pomůže přidat paralelní data; pokud to nepomůže, může to být způsobeno různými problémy jako rozdílné domény, špatné párování slov nebo šum v nových datech. V tomto článku vyhodnocujeme úlohu strojového překladu z angličtiny do hindštiny z této datové perspektivy. Probíráme několik existujících zdrojů paralelních dat a poskytujeme výsledky křížových testů nad kombinacemi korpusů s použitím dvou volně dostupných statistických překladových systémů. Spolu s analýzou chyb také prezentujeme nový nástroj pro prohlížení spárovaných korpusů, díky čemuž je snadnější objevit problematické či obtížné pasáže v textech i pro vývojáře, který neovládá cílový jazyk překladu.
English abstract Statistical machine translation to morphologically richer languages is a challenging task and more so if the source and target languages differ in word order. Current state-of-the-art MT systems thus deliver mediocre results. Adding more parallel data often helps improve the results; if it doesn't, it may be caused by various problems such as different domains, bad alignment or noise in the new data. In this paper we evaluate the English-to-Hindi MT task from this data perspective. We discuss several available parallel data sources and provide cross-evaluation results on their combinations using two freely available statistical MT systems. Together with the error analysis, we also present a new tool for viewing aligned corpora, which makes it easier to detect difficult parts in the data even for a developer not speaking the target language.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
WOS Code 000356879506091
Scopus EID Code 2-s2.0-84905693313
ISBN* 2-9517408-6-7
Address* Valletta, Malta
Month* May
Venue* Mediterranean Conference Centre
Publisher* European Language Resources Association
Creator: Common Account
Created: 3/25/10 10:28 PM
Modifier: Almighty Admin
Modified: 3/8/18 12:16 PM
***

Final paperpublicCAMERA_READY.pdfapplication/pdf
Poster Open Officepublicposter-valletta.odpapplication/vnd.oasis.opendocument.presentation
Poster PDFpublicposter-valletta.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:47:01 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant