Semantic Databases to Support and Check Machine Translation

Gudelines

Sémantické databáze jako Wikipedie a její formalizované nebo jinak odvozené varianty jako DBpedie nebo Babelnet obsahují cenné informace o konceptech, entitách i vztazích mezi nimi, často v relativně málo strukturované formě. Zdá se, že tyto informace by mělo být možné využít v celé řadě aplikací zpracování přirozeného jazyka, například ve strojovém překladu.

Úkolem disertační práce je studovat strukturu a možnosti formalizace a vytěžení sémantických databází pro některé podúlohy strojového překladu, například:

- na straně zdrojového jazyka může být užitečné automaticky vstupním slovům přiřadit formalizované významy z dané databáze (word-sense disambiguation a entity linking),
- lidskému překladateli je v rámci nástrojů po podporu překladu možné nabídnout relevantní informace z databáze nebo předem sestavit glosář připravený na míru vstupnímu textu a znalostem překladatele,
- vícejazyčné databáze mohou samy nabízet vhodné překladové ekvivalenty,
- na cílové straně je možné kontrolovat, zda výrazy, které strojový překladač použil, spolu ladí, tj. je možné zhruba prověřovat, zda cílová věta "dává smysl",
- srovnáním zdrojové a cílové strany překladu a propojením se sémantickou databází je možné kontrolovat míru zachování významu.

Pro vybrané úlohy budou navrženy plně nebo částečně automatické metody, budou implementovány a empiricky vyhodnoceny.

References

Navigli, Roberto. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR) 41.2 (2009): 10.

Moro, Andrea, Alessandro Raganato, and Roberto Navigli. Entity linking meets word sense disambiguation: a unified approach. Transactions of the Association for Computational Linguistics 2 (2014): 231-244.

Wong, Billy Tak-Ming. Semantic Evaluation of Machine Translation. LREC. 2010.

Carpuat, Marine, and Dekai Wu. Improving Statistical Machine Translation Using Word Sense Disambiguation. EMNLP-CoNLL. Vol. 7. 2007.

Bharath Dandala, Rada Mihalcea and Razvan Bunescu. Multilingual Word Sense Disambiguation Using Wikipedia. In Proc. of IJCNLP, pages 498-506. 2013.

Rao, Delip, Paul McNamee, and Mark Dredze. Entity linking: Finding extracted entities in a knowledge base. Multi-source, Multilingual Information Extraction and Summarization. Springer Berlin Heidelberg, 2013. 93-115.

Navigli, Roberto, and Simone Paolo Ponzetto. BabelNet: Building a very large multilingual semantic network. Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010.

Auer, Sören, et al. Dbpedia: A nucleus for a web of open data. Springer Berlin Heidelberg, 2007.

Miller, George A. WordNet: a lexical database for English. Communications of the ACM 38.11 (1995): 39-41.

Mihalcea, Rada, and Andras Csomai. Wikify!: linking documents to encyclopedic knowledge. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007.