[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings without ISBN
Status published
Language English
Author(s) Dušek, Ondřej Jurčíček, Filip
Date 28.5.2016
Title A Context-aware Natural Language Generation Dataset for Dialogue Systems
Czech title Kontextová datová sada pro generování jazyka v dialogových systémech
Proceedings 2016: Paris, France: LREC 2016 workshop: Workshop on Collecting and Generating Resources for Chatbots and Conversational Agents - Development and Evaluation
Pages range 6-9
How published online
URL http://workshop.colips.org/re-wochat/documents/02_Paper_6.pdf
Supported by 2014-2016 GAUK 20582/2014 (Adaptivní generátor přirozeného jazyka) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 LK11221 (Vývoj metod pro návrh statistických mluvených dialogových systémů) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Představujeme novou datovou sadu pro generování jazyka v hlasových dialogových systémech, která spolu s každou odpovědí systému k vygenerování (pár zdrojová sémantická reprezentace – cílová věta v přirozeném jazyce) uvádí i předcházející kontext (uživatelský dotaz). Očekáváme, že tento kontext dovolí generátorům jazyka adaptovat se na způsob vyjadřování uživatele a tím docílit přirozenějších a potenciálně úspěšnějších odpovědí. Datová sada byla vytvořena za pomoci crowdsourcingu v několika fázích, aby bylo možno získat přirozené uživatelské dotazy a odpovídající přirozené, relevantní a kontextově zapojené odpovědi systému. Datová sada je dostupná online pod otevřenou licencí Creative Commons 4.0 BY-SA.
English abstract We present a novel dataset for natural language generation (NLG) in spoken dialogue systems which includes preceding context (user utterance) along with each system response to be generated, i.e., each pair of source meaning representation and target natural language paraphrase. We expect this to allow an NLG system to adapt (entrain) to the user’s way of speaking, thus creating more natural and potentially more successful responses. The dataset has been collected using crowdsourcing, with several stages to obtain natural user utterances and corresponding relevant, natural, and contextually bound system responses. The dataset is available for download under the Creative Commons 4.0 BY-SA license.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Institution* European Language Resources Association
Creator: Common Account
Created: 4/6/16 6:09 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Camera-ready paperpublic02_Paper_6.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Jul 18 04:53:16 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant