[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type PhD dissertation
Status published
Language English
Author(s) Straková, Jana
Title Neural Network Based Named Entity Recognition
Czech title Rozpoznávání pojmenovaných entit pomocí neuronových sítí
School Charles University
Publisher's city and country Prague, Czech Republic
Total book pages 120
Month June
How published print
URL http://ufal.mff.cuni.cz/~strakova/doctoral_thesis.pdf
Supported by 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2013 SVV 267 314 (Teoretické základy informatiky a výpočetní lingvistiky) 2005-2010 MSM 0021620838 (Moderní metody, struktury a systémy informatiky) 2005-2009 1ET101120503 (Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů) 2005-2009 LC536 (Centrum komputační lingvistiky)
Czech abstract Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol automaticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu pojmenovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, zejména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které představují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Doktorská práce je zakončena popisem rozpoznávače založeném na rekurentních neuronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpoznávač nevyžaduje tvorbu klasifikačních rysů a dosahuje v současné době nejlepších známých výsledků v oblasti rozpoznávání pojmenovaných entit v češtině.
English abstract Czech named entity recognition (the task of automatic identification and classification of proper names in text, such as names of people, locations and organizations) has become a well-established field since the publication of the Czech Named Entity Corpus (CNEC). This doctoral thesis presents the author's research of named entity recognition, mainly in the Czech language. It presents work and research carried out during CNEC publication and its evaluation. It further envelops the author's research results, which improved Czech state-of-the-art results in named entity recognition in recent years, with special focus on artificial neural network based solutions. Starting with a simple feed-forward neural network with softmax output layer, with a standard set of classification features for the task, the thesis presents methodology and results, which were later used in open-source software solution for named entity recognition, NameTag. The thesis finalizes with a recurrent neural network based recognizer with word embeddings and character-level word embeddings, based on recent advances in neural network research, which requires no classification features engineering and achieves excellent state-of-the-art results in Czech named entity recognition.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
Creator: Common Account
Created: 6/27/17 9:23 AM
Modifier: Common Account
Modified: 6/27/17 9:24 AM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Sep 25 22:34:37 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant