The performance of neural natural language generation (NLG) systems is dependent on the amount of available
in-domain training data. Current solutions for domain adaptation are limited – they require very similar
domains or complex input representations and use a rather crude technique of delexicalization. This project
will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in-
domain training data. The model will use domain-independent semantic representations learned from large
amounts of unannotated data to improve implicit language understanding and selecting data matching the
domain for efficient fine-tuning. Outcomes from the project will improve usability of neural NLG systems in
practice and help current understanding of domain-independent semantic representations. The project will
also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG
research.
Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na
množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou
omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku
delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový model pro
generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje
dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích
vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat s jazykem nezávisle na
doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z
projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených na neuronových
sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také
bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného
jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti.