[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2018
Type in proceedings
Status published
Language English
Author(s) Straka, Milan
Title UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task
Czech title Prototype UDPipe 2.0 v CoNLL 2018 UD Shared Task
Proceedings 2018: Stroudsburg, PA, USA: CoNLL 2018: Main Conference: Proceedings of CoNLL 2018: The SIGNLL Conference on Computational Natural Language Learning
Pages range 197-207
How published online
URL http://universaldependencies.org/conll18/proceedings/pdf/K18-2020.pdf
Supported by 2017-2018 CZ.07.1.02/0.0/0.0/16 023/0000108 (OP PPR Ověření proveditelnosti a komerčního potenciálu výsledků výzkumu Univerzity Karlovy) 2018-2020 GAUK 578218/2018 (Automatická korekce jazyka pomocí neuronových sítí) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract UDPipe je trénovatelný nástroj, který provádí segmentaci vět, tokenizaci, morfologické značkování, lemmatizaci a syntaktickou analýzu. Představujeme prototyp UDPipe 2.0 a jeho vyhodnocení v Soutěži CoNLL 2018 UD: Multilingual Parsing from Raw Text to Universal Dependencies, která využívá tři míry pro hodnocení. Z 26 účastníků obsadil prototyp první místo dle míry MLAS, třetí dle míry LAS a třetí dle míry BLEX. V extrinsic hodnocení EPE 2018 se systém umístil na prvním místě v celkovém hodnocení.
Prototyp je založen na neuronovou síťi s jediným společným modelem pro současné morfologické značkování, lemmatizaci a syntaktickou analýzu a je trénován pouze pomocí trénovacích dat CoNLL-U a předtrénovaných slovních embeddingů, na rozdíl od obou systémů, které překonaly tento prototyp v LAS a BLEX mírách.
Open-source zdrojový kód prototypu je k dispozici na adrese http://github.com/CoNLL-UD-2018/UDPipe-Future.
Po soutěží CoNLL 2018 jsme mírně vylepšili modelovou architekturu, což vedlo k lepšímu výkonu jak v intrinsic hodnocení (odpovídající prvnímu, druhému a druhému místu dle metrik MLAS, LAS a BLEX), tak i v extrinsic hodnocení. Vylepšené modely budou brzy k dispozici v UDPipe na adrese http://ufal.mff.cuni.cz/udpipe.
English abstract UDPipe is a trainable pipeline which performs sentence segmentation, tokenization, POS tagging, lemmatization and dependency parsing. We present a prototype for UDPipe 2.0 and evaluate it in the CoNLL 2018 UD Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, which employs three metrics for submission ranking. Out of 26 participants, the prototype placed first in the MLAS ranking, third in the LAS ranking and third in the BLEX ranking. In extrinsic parser evaluation EPE 2018, the system ranked first in the overall score.
The prototype utilizes an artificial neural network with a single joint model for POS tagging, lemmatization and dependency parsing, and is trained only using the CoNLL-U training data and pretrained word embeddings, contrary to both systems surpassing the prototype in the LAS and BLEX ranking in the shared task.
The open-source code of the prototype is available at http://github.com/CoNLL-UD-2018/UDPipe-Future.
After the shared task, we slightly refined the model architecture, resulting in better performance both in the intrinsic evaluation (corresponding to first, second and second rank in MLAS, LAS and BLEX shared task metrics) and the extrinsic evaluation. The improved models will be available shortly in UDPipe at http://ufal.mff.cuni.cz/udpipe.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
ISBN* 978-1-948087-72-8
Address* Stroudsburg, PA, USA
Venue* SQUARE Brussels Meeting Centre
Publisher* Association for Computational Linguistics
Institution* ACL's Special Interest Group on Natural Language Learning
Creator: Common Account
Created: 10/18/18 2:04 PM
Modifier: Common Account
Modified: 10/18/18 2:16 PM
***

Paperpublicudpipe.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Wed Nov 14 17:48:05 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant