[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status published
Language English
Author(s) Straka, Milan Straková, Jana
Date 3.8.2017
Title Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe
Czech title Tokenizace, tagging, lemmatizace a syntaktická analýza UD 2.0 pomocí UDPipe
Proceedings 2017: Stroudsburg, PA, USA: CoNLL 2017: Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies
Pages range 88-99
How published online
URL http://www.aclweb.org/anthology/K/K17/K17-3009.pdf
Supported by 2016-2019 LM2015071 (Jazyková výzkumná infrastruktura v České republice) 2017-2018 SVV 260 453 (Teoretické základy informatiky a výpočetní lingvistiky) 2017-2019 EF16_013/0001781 (LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity) 2017-2022 EF16_018/0002373 (Modernizace oboru Matematická lingvistika)
Czech abstract Představujeme novou verzi UDPipe 1.0, což je trénovatelný nástroj provádějící větnou segmentaci, tokenizaci, morfologické značkování, lemmatizaci a syntaktickou analýzu. Poskytujeme modely pro všech 50 jazyků UD 2.0, a navíc lze jednoduše UDPipe natrénovat pomocí vlastních dat v CoNLL-U formátu.
Pro potřeby CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, upravená verze UDPipe 1.1 byla použita jako základový systém a umístila se na 13. místě z 33 účastníků. Nejnovější verze UDPipe 1.2, která se také účastnila, dosáhla na 8. místo, přičemž potřebuje jen malý čas na běh a středné velké modely.
Nástroj je k dispozici pod open-source licencí MPL a poskytuje rozhraní pro C++, Python (pomocí ufal.udpipe balíčku PyPI), Perl (pomocí UFAL::UDPipe balíčku CPAN), Javu a C#.
English abstract We present an update to UDPipe 1.0, a trainable pipeline which performs sentence segmentation, tokenization, POS tagging, lemmatization and dependency parsing. We provide models for all 50 languages of UD 2.0, and furthermore, the pipeline can be trained easily using data in CoNLL-U format.
For the purpose of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, the updated UDPipe 1.1 was used as one of the baseline systems, finishing as the 13th system of 33 participants. A further improved UDPipe 1.2 participated in the shared task, placing as the 8th best system, while achieving low running times and moderately sized models.
The tool is available under open-source Mozilla Public Licence (MPL) and provides bindings for C++, Python (through ufal.udpipe PyPI package), Perl (through UFAL::UDPipe CPAN package), Java and C#.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISBN* 978-1-945626-70-8
Address* Stroudsburg, PA, USA
Month* August
Venue* The Westin Bayshore Hotel
Publisher* Association for Computational Linguistics
Institution* Charles University
Creator: Common Account
Created: 8/11/17 8:24 PM
Modifier: Almighty Admin
Modified: 2/27/18 10:15 PM
***

Paperpublic2017-conll_udpipe.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2019. Page generated: Sun Mar 24 08:50:40 CET 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant