[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status submitted
Language English
Author(s) Mediankin, Nikita Droganova, Kira
Title Building NLP Pipeline for Russian with a Handful of Linguistic Knowledge
Czech title Vytvoreni NLP Pipeline pro rustinu s pouzitim maleho mnoznstvi lingvistickych dat
Czech abstract Tato práce se zabývá otázkou budování svobodného NLP potrubí pro zpracování ruské texty z prostého textu na morfologicky a syntakticky anotovaný struktury ve formátu CONLL. Potrubí je napsán v python3. Segmentace je zajišťována vlastní modul. Mystem s četnými postprocesních oprav se používá pro lemmatizace a morfologie značkování. A konečně, syntaktická anotace se získá MaltParser využitím naší vlastní model vyškolený na SynTagRus, který byl převeden do formátu CONLL pro tento účel, s jeho morfologické tagset převádí do Mystem / ruského národního korpusu tagset
English abstract This work addresses the issue of building a free NLP pipeline for processing Russian texts from plain text to morphologically and syntactically annotated structures in CONLL format. The pipeline is written in python3. Segmentation is provided by our own module. Mystem with numerous postprocessing fixes is used for lemmatization and morphology tagging. Finally, syntactical annotation is obtained with MaltParser utilizing our own model trained on SynTagRus, which was converted into CONLL format for this purpose, with its morphological tagset being converted into Mystem/Russian National Corpus tagset
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Creator: Common Account
Created: 10/21/16 10:14 PM
Modifier: Common Account
Modified: 11/7/16 6:34 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sat Sep 23 21:51:36 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant