[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status published
Language English
Author(s) Straka, Milan Straková, Jana Hajič, Jan
Date 21.9.2017
Title Prague at EPE 2017: The UDPipe System
Czech title Praha na EPE 2017: Systém UDPipe
Proceedings 2017: Stroudsburg, PA, USA: EPE 2017: Proceedings of the 2017 Shared Task on Extrinsic Parser Evaluation at the Fourth International Conference on Dependency Linguistics and the 15th International Conference on Parsing Technologies
Pages range 65-74
How published print
URL http://svn.nlpl.eu/epe/2017/public/proceedings.pdf
Supported by 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2017-2019 EF16_013/0001781 (LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity) 2017-2022 EF16_018/0002373 (Modernizace oboru Matematická lingvistika) 2017-2018 SVV 260 453 (Teoretické základy informatiky a výpočetní lingvistiky) 2017-2021 PROGRES Q18 (Společenské vědy: od víceoborovosti k mezioborovosti) 2017-2021 PROGRES Q48 (Informatika)
Czech abstract Představujeme náš příspěvek do First Shared Task on Extrinsic Parser Evaluation (EPE 2017). Náš systém, UDPipe, je trénovatelný nástroj provádějící tokenizaci, morfologickou analýzu, morfologické značkování, lemmatizaci a syntaktickou analýzu. Je nezávislý na jazyku a k dispozici jsou modely pro všech 50 jazyků UD 2.0. Použitím relativně omezeného množství trénovacích dat (200 tisíc tokenů z anglického korpusu UD) a bez nastavení specifického pro angličtinu získal systém celkové hodnocení 56.05 a umístil se mezi soutěžícími systémy jako 7.
English abstract We present our contribution to The First Shared Task on Extrinsic Parser Evaluation (EPE 2017). Our participant system, the UDPipe, is an open-source pipeline performing tokenization, morphological analysis, part-of-speech tagging, lemmatization and dependency parsing. It is trained in a language agnostic manner for 50 languages of the UD version 2. With a relatively limited amount of training data (200k tokens of English UD) and without any English specific tuning, the system achieves overall score 56.05, placing as the 7th participant system.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
Editor(s)* Stephan Oepen; Lilja Øvrelid
ISBN* 978-1-945626-74-6
Address* Stroudsburg, PA, USA
Month* September
Publisher* Association for Computational Linguistics (ACL)
Institution* Università di Pisa
Creator: Common Account
Created: 9/25/17 9:33 PM
Modifier: Almighty Admin
Modified: 2/27/18 10:15 PM
***

Paperpublic2017-epe_udpipe.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:44:43 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant