[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2009
Type in proceedings
Status published
Language English
Author(s) Bojar, Ondřej Straňák, Pavel Zeman, Daniel Jain, Gaurav Hrušecký, Michal Richter, Michal Hajič, Jan
Date 7.8.2009
Title English-Hindi Translation – Obtaining Mediocre Results with Bad Data and Fancy Models
Czech title Překlad z angličtiny do hindštiny – získávání průměrných výsledků s mizernými daty a propracovanými modely
Proceedings 2009: Hyderabad, India: ICON 2009: Proceedings of ICON 2009: 7th International Conference on Natural Language Processing
Pages range 316-321
Supported by 2005-2009 1ET201120505 (Od jazyka ke znalostem a sémantickému webu) 2005-2010 MSM 0021620838 (Moderní metody, struktury a systémy informatiky) 2009-2012 FP7-ICT-2007-3-231720 (EuroMatrix Plus) 2009-2011 GAUK 1307/2009 (Anotace víceslovných lexémů a pojmenovaných entit v PDT)
Czech abstract Popisujeme naši snahu zlepšit dřívější výsledky strojového překladu z angličtiny do hindštiny. Využíváme dva frázové open-source systémy: Moses a Joshua. Testujeme několik přístupů k morfologickému značkování: od automatických slovních tříd přes segmentaci na kmen a sufix až k POS taggeru. Experimentujeme také s faktorizovanými jazykovými modely. Vyhodnocujeme různé kombinace trénovacích dat a dalších existujících anglicko-hindských jazykových zdrojů. Pokud je nám známo, BLEU skóre, kterého jsme dosáhli, je v současnosti nejlepší publikovaný výsledek na testovacích datech IIIT-TIDES.
English abstract We describe our attempt to improve on previous English to Hindi machine translation results, using two open-source phrase-based MT systems: Moses and Joshua. We use several approaches to morphological tagging: from automatic word classes, through stem-suffix segmentation, to a POS tagger. We also experiment with factored language models. We evaluate various combinations of training data sets and other existing English-Hindi resources. To our knowledge, the BLEU score we obtained is currently the best published result for the IIIT-TIDES dataset.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Article no. 36
Editor(s)* Dipti Misra Sharma; Vasudeva Varma; Rajeev Sangal
ISBN* 978-023-032-845-7
Address* Hyderabad, India
Month* December
Publisher* Macmillan Publishers, India
Institution* International Institute of Information Technologies, Hyderabad
Organization* NLP Association of India
Creator: Common Account
Created: 8/15/09 10:45 PM
Modifier: Almighty Admin
Modified: 2/17/10 9:04 AM
***

Camera ready versionpublicCAMERA_READY.pdfapplication/pdf
Posterpublicposter.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Fri Nov 16 11:47:48 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant