[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Straková, Jana Straka, Milan Hajič, Jan
Date 13.9.2016
Title Neural Networks for Featureless Named Entity Recognition in Czech
Czech title Umělé neuronové sítě pro rozpoznávání pojmenovaných entit v češtině
Proceedings 2016: Cham / Heidelberg / New York / Dordrecht / London: TSD 2016: Text, Speech, and Dialogue: 19th International Conference, TSD 2016
Pages range 173-181
How published print
URL https://link.springer.com/chapter/10.1007/978-3-319-45510-5_20
Supported by 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Předkládáme systém pro rozpoznávání pojmenovaných entit, který je jazykově nezávislý a nepotřebuje klasifikační rysy pro strojové učení. Systém využívá současných výsledků v oblasti umělých neuronových sítí, jako jsou parametric rectified linear units (PReLU), embeddingy slov a embeddingy charakterů ve slovech založené na gated linear units (GRU). Systém nepotřebuje vyhledávání vhodné sady klasifikačních rysů (feature engineering) a pouze s využitích povrchových forem, lemmat a slovních druhů na vstupu dosahuje vynikajících výsledků v rozpoznávání pojmenovaných entit v češtině a překonává stávající výsledky dříve publikovaných prací, které využívají ručně vytvořené klasifikační rysy založené na ortografické podobnosti slov. Navíc tato síť podává robustní výkon i v případě, kdy jsou na vstupu pouze povrchové formy. Síť dovede využít navíc i kombinaci ručně vytvořených klasifikačních rysů a v tom případě překonává stávající výsledky s markantním rozdílem.
English abstract We present a completely featureless, language agnostic named entity recognition system. Following recent advances in artificial neural network research, the recognizer employs parametric rectified linear units (PReLU), word embeddings and character-level embeddings based on gated linear units (GRU). Without any feature engineering, only with surface forms, lemmas and tags as input, the network achieves excellent results in Czech NER and surpasses the current state of the art of previously published Czech NER systems, which use manually designed rule-based orthographic classification features. Furthermore, the neural network achieves robust results even when only surface forms are available as input. In addition, the proposed neural network can use the manually designed rule-based orthographic classification features and in such combination, it exceeds the current state of the art by a wide margin.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
DOI 10.1007/978-3-319-45510-5_20
Editor(s)* Petr Sojka; Aleš Horák; Ivan Kopeček; Karel Pala
ISBN* 978-3-319-45509-9
ISSN* 0302-9743
Address* Cham / Heidelberg / New York / Dordrecht / London
Month* September
Venue* Hotel Continental
Publisher* Springer International Publishing
Institution* Masaryk University
Journal* Lecture Notes in Computer Science
Creator: Common Account
Created: 10/23/16 4:37 PM
Modifier: Common Account
Modified: 7/28/17 7:42 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Sep 20 18:34:37 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant