[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2013
Type in proceedings
Status published
Language English
Author(s) Straková, Jana Straka, Milan Hajič, Jan
Title A New State-of-The-Art Czech Named Entity Recognizer
Czech title Nový state-of-the-art rozpoznávač pojmenovaných entit pro češtinu
Proceedings 2013: Berlin / Heidelberg: TSD 2013: Text, Speech and Dialogue: 16th International Conference, TSD 2013. Proceedings
Pages range 68-75
How published print
URL https://link.springer.com/chapter/10.1007/978-3-642-40585-3_10
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2013 SVV 267 314 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Představujeme nový rozpoznávač pojmenovaných entit pro český jazyk, který dosahuje 82.82 F-measure na korpusu Czech Named Entity Corpus 1.0 a statisticky významně překonává dříve publikované české rozpoznávače pojmenovaných entit. Na anglické úloze CoNLL-2003 shared task dosahuje 89.16 F-measure. Tento výsledek je srovnatelný s anglickými současnými výsledky. Rozpoznávač je založen na maximum entropy markovském modelu a optimální sekvence pojmenovaných entit je dosaženo globálním dekódováním Viterbiho algoritmem pomocí pravděpodobností odhadnutých maximum entropy klasifikátorem. Klasifikátor využívá morfologickou analýzu, dvojúrovňovou predikci, clusterizaci slov a gazetteers.
English abstract We present a new named entity recognizer for the Czech language. It reaches 82.82 F-measure on the Czech Named Entity Corpus 1.0 and significantly outperforms previously published Czech named entity recognizers. On the English CoNLL-2003 shared task, we achieved 89.16 F-measure, reaching comparable results to the English state of the art. The recognizer is based on Maximum Entropy Markov Model and a Viterbi algorithm decodes an optimal sequence labeling using probabilities estimated by a maximum entropy classifier. The classification features utilize morphological analysis, two-stage prediction, word clustering and gazetteers.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
DOI 10.1007/978-3-642-40585-3_10
Editor(s)* Ivan Habernal; Václav Matoušek
ISBN* 978-3-642-40584-6
ISSN* 0302-9743
Address* Berlin / Heidelberg
Month* September
Venue* Plzeň, hotel Angelo
Publisher* Springer Verlag
Institution* Západočeská univerzita v Plzni
Journal* Lecture Notes in Computer Science
Creator: Common Account
Created: 9/5/13 12:42 PM
Modifier: Common Account
Modified: 7/28/17 7:41 PM
***

Paperpublic2013-tsd_ner.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:47:11 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant