[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Straka, Milan Hajič, Jan Straková, Jana
Title UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing
Czech title UDPipe: Trénovatelný nástroj pro zpracování souborů typu CoNLL-U, který provádí tokenizaci, morfologickou analýzu, určování slovních druhů a parsing
Proceedings 2016: Paris, France: LREC 2016: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)
Pages range 4290-4297
How published online
URL http://www.lrec-conf.org/proceedings/lrec2016/pdf/873_Paper.pdf
Supported by 2016-2019 LM2015071 (Jazyková výzkumná infrastruktura v České republice) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Při automatickém zpracování rozsáhlých textů v přirozeném jazyce se často opakují podobné úkoly v několika jazycích: i při zpracování obtížných úloh jsou texty vždy zpracovávány obvyklými základními kroky od tokenizace k parsingu. Představujeme mimořádně jednoduchý a použitelný nástroj pro základní zpracování přirozeného jazyka, který sestává pouze z jednoho programu a jednoho modelu (pro každý jazyk). Tento nástroj provádí tyto úkoly pro mnoho jazyků, aniž by vyžadoval dodatečná data. UDPipe je tedy nástroj, který zpracovává soubory ve formátu CoNLL-U a provádí tokenizaci, morfologickou analýzu, rozpoznávání slovních druhů, lematizaci a závislostní parsing pro téměř všechny jazyky korpusu Universtal Dependencies 1.2 (konkrétně je nástroj dostupný pro 32 jazyků). Navíc je celý nástroj snadno trénovatelný při použití vlastních trénovacích dat v CoNLL-U formátu a vyžaduje minimální znalost lingvistiky. Kód pro trénovaní nástroje je také dostupný.
English abstract Automatic natural language processing of large texts often presents recurring challenges in multiple languages: even for most advanced tasks, the texts are first processed by basic processing steps – from tokenization to parsing. We present an extremely simple-to-use tool consisting of one binary and one model (per language), which performs these tasks for multiple languages without the need for any other external data. UDPipe, a pipeline processing CoNLL-U-formatted files, performs tokenization, morphological analysis, part-of-speech tagging, lemmatization and dependency parsing for nearly all treebanks of Universal Dependencies 1.2 (namely, the whole pipeline is currently available for 32 out of 37 treebanks). In addition, the pipeline is easily trainable with training data in CoNLL-U format (and in some cases also with additional raw corpora) and requires minimal linguistic knowledge on the users’ part. The training code is also released.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Marko Grobelnik; Bente Maegaard; Joseph Mariani; Asunción Moreno; Jan Odijk; Stelios Piperidis
ISBN* 978-2-9517408-9-1
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 10/23/16 4:24 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Paperpublic2016-lrec_udpipe.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2019. Page generated: Sun Mar 24 09:00:23 CET 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant