[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Libovický, Jindřich
Title Neural Scoring Function for MST Parser
Czech title Neuronová ohodnocovací funkce pro MST parser
Proceedings 2016: Paris, France: LREC 2016: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)
Pages range 694-698
How published online
Supported by 2015-2017 GAUK 52315/2014 (Využití lingvistické informace při extrakci textu z obrazu) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky)
Czech abstract Spojité distribuované slovní reprezentace prokázaly svoji užitečnost v mnoha úlohách zpracování přirozeného jazyka. V tomto článku používáme vektorové reprezentace slov jako další vstupy pro MST parser. Použití distribuovaných reprezentací umožňuje snížit dimenzionalitu lexikálních rysů a neuronovou sítí odpadá nutnost ručního ladění kombinací rysů. Přestože jeho úspěšnost je nižší, než u klasického MST Parseru, výsledný model je výrazně menší než modely využívající klasickou sadu rysů. Navíc funguje velice dobře pro jazyky, pro které je dostupný pouze relativně malý treebank a výsledky vypadají velice slibně i pro delexikalizovaný parsing.
English abstract Continuous word representations appeared to be a useful feature in many natural language processing tasks. Using fixed-dimension pre-trained word embeddings allows avoiding sparse bag-of-words representation and to train models with fewer parameters. In this paper, we use fixed pre-trained word embeddings as additional features for a neural scoring function in the MST parser. With the multi-layer architecture of the scoring function we can avoid handcrafting feature conjunctions. The continuous word representations on the input also allow us to reduce the number of lexical features, make the parser more robust to out-of-vocabulary words, and reduce the total number of parameters of the model. Although its accuracy stays below the state of the art, the model size is substantially smaller than with the standard features set. Moreover, it performs well for languages where only a smaller treebank is available and the results promise to be useful in cross-lingual parsing.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Marko Grobelnik; Bente Maegaard; Joseph Mariani; Asunción Moreno; Jan Odijk; Stelios Piperidis
ISBN* 978-2-9517408-9-1
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 5/30/16 9:45 AM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Nov 21 16:33:51 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant