[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2018
Type in proceedings
Status published
Language English
Author(s) Straka, Milan Mediankin, Nikita Kocmi, Tom Žabokrtský, Zdeněk Hudeček, Vojtěch Hajič, Jan
Title SumeCzech: Large Czech News-Based Summarization Dataset
Czech title SumeCzech: Velký český summarizace dataset na základě zpráv
Proceedings 2018: Paris, France: LREC 2018: Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018)
Pages range 3488-3495
How published online
URL http://www.lrec-conf.org/proceedings/lrec2018/summaries/825.html
Supported by 2017-2019 GAUK 1114217/2017 (Reprezentace hloubkové syntaxe napříč jazyky)
Czech abstract Shrnutí dokumentu je dobře studovaným NLP úkolem. Se vznikem modelů umělé neuronové sítě se zvyšuje souhrnná výkonnost, stejně jako požadavky na výcvikové údaje. Pro Čechy je však k dispozici pouze několik datových souborů, z nichž žádný není zvlášť velký. Kromě toho bylo shrnutí vyhodnoceno převážně na angličtině, přičemž běžně používaná metrika ROUGE je specifická pro angličtinu. V tomto příspěvku se snažíme řešit obě otázky. Představujeme SumeCzech, český datový soubor pro sumarizaci zpráv. Obsahuje více než milion dokumentů, z nichž každá obsahuje nadpis, několik věty dlouhý abstrakt a úplný text. Sadu dat lze stáhnout pomocí dodaných skriptů, které jsou k dispozici na adrese http://hdl.handle.net/11234/1-2615. Vyhodnocujeme několik souhrnných základních dat na množině dat, včetně silného abstrakčního přístupu založeného na architektuře neuronových sítí Transformeru. Hodnocení se provádí jazykově-agnostickou variantou ROUGE.
English abstract Document summarization is a well-studied NLP task. With the emergence of artificial neural network models, the summarization performance is increasing, as are the requirements on training data. However, only a few datasets are available for Czech, none of them particularly large. Additionally, summarization has been evaluated predominantly on English, with the commonly used ROUGE metric being English-specific. In this paper, we try to address both issues. We present SumeCzech, a Czech news-based summarization dataset. It contains more than a million documents, each consisting of a headline, a several sentences long abstract and a full text. The dataset can be downloaded using the provided scripts available at http://hdl.handle.net/11234/1-2615. We evaluate several summarization baselines on the dataset, including a strong abstractive approach based on Transformer neural network architecture. The evaluation is performed using a language-agnostic variant of ROUGE.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Article no. 825
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Bente Maegaard; Joseph Mariani; Hélène Mazo; Asunción Moreno; Jan Odijk; Stelios Piperidis
ISBN* 979-10-95546-00-9
Address* Paris, France
Month* May
Venue* Phoenix Seagaia Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 9/28/18 5:08 PM
Modifier: Common Account
Modified: 10/18/18 11:46 AM
***

Paperpublicsumeczech.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:52:07 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant