Depfix:
Automatic Post-editing of Phrase-based Machine Translation Outputs
Master thesis of Rudolf Rosa, containing the most detailed and complete description of the Depfix system
Available resources:
- print version (in English, PDF, 1.2 MB)
- online version (in English, HTML+images, 1.4 MB)
- defence slides (in Czech, PDF, 1.1 MB)
- ÚFAL Monday seminar slides (in English, PDF, 1.7 MB)
English Abstract
We present Depfix, a system for automatic post-editing of phrase-based English-to-Czech machine translation outputs, based on linguistic knowledge. First, we analyzed the types of errors that a typical machine translation system makes. Then, we created a set of rules and a statistical component that correct errors that are common or serious and can have a potential to be corrected by our approach. We use a range of natural language processing tools to provide us with analyses of the input sentences. Moreover, we reimplemented the dependency parser and adapted it in several ways to parsing of statistical machine translation outputs. We performed both automatic and manual evaluations which confirmed that our system improves the quality of the translations.
Český abstrakt
Představujeme Depfix, systém pro samočinnou post-edititaci výstupů frázových strojových překladů z angličtiny do češtiny, založený na jazykovědných znalostech. Nejprve jsme rozebrali druhy chyb, kterých se dopouští typický strojový překladač. Poté jsme vytvořili sadu pravidel a statistickou komponentu, které opravují takové chyby, které jsou běžné nebo závažné a může přicházet v úvahu jejich oprava pomocí našeho přístupu. Používáme řadu nástrojů pro zpracování přirozeného jazyka, které nám poskytují rozbor vstupních vět. Navíc jsme reimplementovali závislostní analyzátor a několika způsoby jej upravili pro provádění rozboru výstupů statistických strojových překladačů. Provedli jsme automatická i ruční vyhodnocení, která potvrdila, že kvalita překladů se zpracováním v našem systému zlepšuje.
Information
- Official title:
- Automatic post-editing of phrase-based machine translation outputs
- Official title in Czech:
- Automatická post-editace výstupů frázového strojového překladu
- Keywords:
- automatic post-editing, machine translation, dependency parsing, Treex
- Supervisor:
- RNDr. David Mareček, Ph.D.
- Opponent:
- doc. Ing. Zdeněk Žabokrtský, Ph.D.
- School:
- Charles University in Prague
- Faculty:
- Faculty of Mathematics and Physics
- Department:
- Institute of Formal and Applied Linguistics
- Study programme:
- Informatics
- Specialization:
- Mathematical Linguistics
- Submitted:
- 12th April 2013 in Prague
- Defended:
- 20th May 2013
- Grade:
- excellent (výborně)
- Official web page in Student Information System:
- http://is.cuni.cz/studium/eng/dipl_st/index.php?do=main&doo=detail&did=129237