[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type data/software
Status published
Language English
Author(s) Dušek, Ondřej Jurčíček, Filip
Title Alex Context NLG Dataset
Czech title Kontextová datová sada pro generování jazyka
Publisher Lindat / Clarin
Institution ÚFAL MFF UK
Publisher's city and country Prague, Czechia
Month April
How published online
URL http://hdl.handle.net/11234/1-1675
Supported by 2014-2016 GAUK 20582/2014 (Adaptivní generátor přirozeného jazyka) 2012-2016 LK11221 (Vývoj metod pro návrh statistických mluvených dialogových systémů) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Datová sada pro plně trénovatelné generátory jazyka v hlasových dialogových systémech, která pokrývá doménu anglických informací o veřejné dopravě. Spolu s každou datovou položkou (pár zdrojové reprezentace významu a věty v přirozeném jazyce jako cíl generování) obsahuje i předcházející kontext (uživatelův dotaz, který má systém egnerovanou větou zodpovědět). Zohlednění formy předchozího dotazu pro generování umožní generátorům natrénovaným na této datové sadě adaptovat se na předchozí dotazy, tj. používat stejné shodné výrazy a syntaktické konstrukce jako uživatel dialogového systému. Předpokládáme, vygenerované věty tak budou vnímány jako přirozenější, což může vést i k úspěšnějším dialogům. Pro získání přirozených uživatelských dotazů i odpovědí systému byla použita metoda crowdsourcingu.
English abstract A dataset intended for fully trainable natural language generation (NLG) systems in task-oriented spoken dialogue systems (SDS), covering the English public transport information domain. It includes preceding context (user utterance) along with each data instance (pair of source meaning representation and target natural language paraphrase to be generated). Taking the form of the previous user utterance into account for generating the system response allows NLG systems trained on this dataset to entrain (adapt) to the preceding utterance, i.e., reuse wording and syntactic structure. This should presumably improve the perceived naturalness of the output, and may even lead to a higher task success rate. Crowdsourcing has been used to obtain natural context user utterances as well as natural system responses to be generated.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Category data
Economic parameters 40000 Kč
Open access no
License approval required never
Fee required never
Identifier 11234/1-1675
Creator: Common Account
Created: 4/6/16 5:59 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Dec 12 00:08:58 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant