[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2014
Type in proceedings
Status published
Language English
Author(s) Straková, Jana Straka, Milan Hajič, Jan
Title Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition
Czech title Open-source nástroje pro morfologii, lematizaci, rozpoznávání slovních druhů a pojmenovaných entit
Proceedings 2014: Stroudsburg, PA, USA: ACL 2014: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations
Pages range 13-18
How published print
URL http://www.aclweb.org/anthology/P/P14/P14-5003.pdf
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2014 SVV 260 104 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract V této práci představujeme dva nedávno vydané open-source nástroje: NameTag je volně šiřitelný software pro rozpoznávání pojmenovaných entit, který dosahuje nejlepších známých výsledků na češtině; MorphoDiTa provádí morfologickou analýzu (s lematizací), morfologické generování, značkování a tokenizaci s nejlepšími známými výsledky pro češtinu a rychlostí zpracování kolem 10-200 tisíc slov za sekundu. Nástroje mohou být natrénovány pro libovolný jazyk, pro který jsou k dispozici anotovaná data, jsou však zvlášť navrženy tak, aby byly efektivní pro flexivní jazyky. Oba nástroje jsou volně šiřitelné pod licencí LGPL a jsou distribuovány spolu z předtrénovanými lingvistickými modely, které jsou zdarma pro nekomerční využití podle licence CC BY-NC-SA. Vydání zahrnují samostatné nástroje, knihovny v C++ s vazbami pro Javu, Python a Perl, a konečně webové služby.
English abstract We present two recently released open-source taggers: NameTag is a free software for named entity recognition (NER) which achieves state-of-the-art performance on Czech; MorphoDiTa (Morphological Dictionary and Tagger) performs morphological analysis (with lemmatization), morphological generation, tagging and tokenization with state-of-the-art results for Czech and a throughput around 10-200K words per second. The taggers can be trained for any language for which annotated data exist, but they are specifically designed to be efficient for inflective languages. Both tools are free software under LGPL license and are distributed along with trained linguistic models which are free for non-commercial use under the CC BY-NC-SA license. The releases include standalone tools, C++ libraries with Java, Python and Perl bindings and web services.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISBN* 978-1-941643-00-6
Address* Stroudsburg, PA, USA
Month* June
Publisher* Association for Computational Linguistics
Institution* Johns Hopkins University, Baltimore, MD, USA
Creator: Common Account
Created: 10/14/14 10:13 PM
Modifier: Common Account
Modified: 11/9/15 5:31 PM
***

Published paperpublicP14-5003.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:39:56 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant