[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2015
Type in proceedings
Status published
Language English
Author(s) Ramasamy, Loganathan Rosen, Alexandr Straňák, Pavel
Title Improvements to Korektor: A case study with native and non-native Czech
Czech title Zlepšení korektor: Případová studie s nativní a non-rodilého Čecha
Proceedings 2015: Praha, Czechia: SloNLP 2015: Proceedings of the 15th conference ITAT 2015: Slovenskočeský NLP workshop (SloNLP 2015)
Pages range 73-80
How published print
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract Představujeme aktuální vývoj korektor, je statistický systém kontroly pravopisu. Kromě lexikonu, Korektor používá jazyk modely najít chyby real-slovo, detekovatelná pouze v kontextu. Modely a chyba probanického, vyvozené z chyb korpusů, jsou také používány pro navrhovaly GEST nejpravděpodobnější opravy. Korektor byl původně vyškolení na malé chyby korpusu a použité jazykové modely extrahuje z in-house corpus WebColl. Ukážeme dvě nedávná zlepšení: • Postavili jsme nové jazykové modely z volne dostupný schopné (šoural) verze České národní korespondence hnis a ukazují, že tyto provádět trvale lepší na texty vyráběných jak rodilými mluvčími a non-nativní studenti češtiny. • Trénovali jsme nové modely chyb na ručně s poznámkami žák korpus a ukázat, že lepší výkon než Standardní model chyba (detekce chyb) nejenom pro texty studenty ", ale také pro naše standardní hodšpatne rozpoznaných zpráv data rodilého Čecha. Pro korekci chyb se standardní model chyba překonaly non-nativní modulárně els ve 2 ze 3 testovaných datových sad. Diskutujeme důvody pro tento ne zcela intuitivní zlepprostředí. Na základě těchto poznatků a na základě analýzy chyb základě v obou domorodec a češtině frekventantů, navrhujeme směry pro další zlepšení korektor.
English abstract We present recent developments of Korektor, a statistical spell checking system. In addition to lexicon, Korektor uses language models to find real-word errors, detectable only in context. The models and error probabilities, learned from error corpora, are also used to suggest the most likely corrections. Korektor was originally trained on a small error corpus and used language models extracted from an in-house corpus WebColl. We show two recent improvements: • We built new language models from freely avail- able (shuffled) versions of the Czech National Corpus and show that these perform consistently better on texts produced both by native speakers and non-native learners of Czech. • We trained new error models on a manually annotated learner corpus and show that they perform better than the standard error model (in error detection) not only for the learners’ texts, but also for our standard eval- uation data of native Czech. For error correction, the standard error model outperformed non-native models in 2 out of 3 test datasets. We discuss reasons for this not-quite-intuitive improvement. Based on these findings and on an analysis of errors in both native and learners’ Czech, we propose directions for further improvements of Korektor.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Jakub Yaghob
ISBN* 978-1515120650
ISSN* 1613-0073
Address* Praha, Czechia
Month* August
Venue* Hotel Čingov
Publisher* CreateSpace Independent Publishing Platform
Institution* Charles University in Prague
Creator: Common Account
Created: 10/19/15 10:38 AM
Modifier: Almighty Admin
Modified: 2/8/16 9:53 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Fri Nov 16 11:47:38 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant