[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2011
Type in proceedings
Status published
Language English
Author(s) Hálek, Ondřej Rosa, Rudolf Tamchyna, Aleš Bojar, Ondřej
Title Named Entities from Wikipedia for Machine Translation
Czech title Pojmenované entity z Wikipedie ve strojovém překladu
Proceedings 2011: Košice, Slovakia: ITAT 2011 - CEUR: Information Technologies – Applications and Theory
Pages range 23-30
Note in print
Supported by 2009-2012 FP7-ICT-2007-3-231720 (EuroMatrix Plus) 2009-2012 7E09003 (EuroMatrixPlus – Bringing Machine Translation for European Languages to the User) 2011-2013 GAP406/11/1499 (Čeština ve věku strojového překladu) 2005-2010 MSM 0021620838 (Moderní metody, struktury a systémy informatiky)
Czech abstract V článku představujeme pokus o zlepšení strojového překladu pojmenovaných entit s využitím Wikipedie. Pojmenované entity rozpoznáváme na základě kategorií anglických článků Wikipedie, následně extrahujeme jejich potenciální překlady z odpovídajících českých článků a přidáváme je jako nové možnosti překladu do statistického systému pro strojový překlad. Automatická metrika kvality překladu značí její zhoršení, avšak podle ruční anotace se naše překlady jeví jako lepší. Docházíme k závěru, že tento přístup vede v řadě chyb v překladu a měl by být proto vždy kombinován se standardním statistickým překladovým modelem. Měla by mu také být přiřazena přiměřená váha.
English abstract In this paper we present our attempt to improve machine translation of named entities by using Wikipedia. We recognize named entities based on categories of English Wikipedia articles, extract their potential translations from corresponding Czech articles and incorporate them into a statistical machine translation system as translation options. Our results show a decrease of translation quality in terms of automatic metrics but positive results from human annotators. We conclude that this approach can lead to many errors in translation and therefore should always be combined with the standard statistical translation model and weighted appropriately.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Markéta Lopatková
ISBN* 978-80-89557-02-8
ISSN* 1613-0073
Address* Košice, Slovakia
Month* September
Institution* Univerzita Pavla Jozefa Šafárika v Košiciach
Creator: Common Account
Created: 8/31/11 6:34 PM
Modifier: Almighty Admin
Modified: 3/5/12 4:19 PM
***

presentation (English)publicMToNEwthoW_english.pdfapplication/pdf
Prezentace českypublicMToNEwthoW_czech.pdfapplication/pdf
paper -- camera-readypublicCAMERA-READY.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Jul 16 18:40:56 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant