[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2015
Type in proceedings
Status published
Language English
Author(s) Straka, Milan Hajič, Jan Straková, Jana Hajič, jr., Jan
Date 11.12.2015
Title Parsing Universal Dependency Treebanks using Neural Networks and Search-Based Oracle
Czech title Parsování Universal Dependency korpusů pomocí neuronových sítí a prohledávacího orákula
Proceedings 2015: Warszawa, Poland: TLT 2015: 14th International Workshop on Treebanks and Linguistic Theories (TLT 2015)
Pages range 208-220
How published online
URL http://ufal.mff.cuni.cz/~straka/papers/2015-parsito.pdf
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika) 2015 SVV 260 224 (Teoretické základy informatiky a výpočetní lingvistiky)
Czech abstract V článku popisujeme přechodový neprojektivní závislostní parser používající klasifikátor založený na neuronových sítích, který nevyžaduje tvorbu rysů. Dále představujeme nové přechodové orákulum, které zvyšuje úspěšnost parseru porovnatelně s dynamickým orákulem, ale je použitelné pro každý přechodový systém, jako například neprojektivní systém s operací swap. Parser je velmi rychlý, jeho modely kompaktní, přičemž dosahuje vysoké úspěšnosti bez potřeby dalších zdrojů jako například korpusů s čistým textem. Parser jsme otestovali na všech 19 korpusech z projektu Universal Dependencies. Implementaci parseru v jazyce C++ uvolňujeme jako open-source.
English abstract We describe a transition-based, non-projective dependency parser which uses a neural network classifier for prediction and requires no feature engineering. We propose a new, search-based oracle, which improves parsing accuracy similarly to a dynamic oracle, but is applicable to any transition system, such as the fully non-projective swap system. The parser has excellent parsing speed, compact models, and achieves high accuracy without requiring any additional resources such as raw corpora. We tested it on all 19 treebanks of the Universal Dependencies project. The C++ implementation of the parser is being released as an open-source tool.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISBN* 978-83-63159-18-4
Address* Warszawa, Poland
Month* December
Publisher* IPIPAN
Institution* IPIPAN
Creator: Common Account
Created: 10/13/15 8:59 AM
Modifier: Common Account
Modified: 7/28/17 7:38 PM
***

Paperpublic2015-parsito.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2019. Page generated: Sat Mar 23 02:51:12 CET 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant