[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2012
Type in proceedings without ISBN
Status published
Language English
Author(s) Richter, Michal Straňák, Pavel Rosen, Alexandr
Title Korektor – A System for Contextual Spell-checking and Diacritics Completion
Czech title Korektor – systém pro kontextovou kontrolu pravopisu a doplňování diakritiky
Proceedings 2012: Mumbai, India: COLING 2012: Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012)
Pages range 1-12
Note opravit: čísla stránek, proceedings WITHOUT->WITH isbn
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract Představujeme Korektor – flexibilní statistický nástroj pro opravu českých textů, jehož schopnosti přesahují tradiční nástroje pro kontrolu pravopisu. Korektor využívá kombinace jazykových modelů a chybového modelu jak k tomu, aby setřídil pořadí nabízených náhrad pro neznámé slovo podle pravděpodobnosti výskytu na daném místě v textu, tak také, aby nalezl i překlepy, které se nahodile shodují s existujícím českým slovním tvarem. Prostou náhradou chybového modelu náš pracuje Korektor také jako systém pro doplnění diakritiky („oháčkování textu“) s nejvyšší publikovanou úspěšností. Systém neobsahuje žádné významné jazykově specifické komponenty s výjimkou natrénovaných statistických modelů. Je tedy možné jej snadno natrénovat i pro jiné jazyky. Ukážeme, jakých zlepšení náš systém dosahuje v porovnání se stávajícími českými korektory pravopisu i systémy pro doplnění diakritiky. Ukážeme také, že kombinace těchto schopností pomáhá při anotaci chyb v korpusu češtiny jako druhého jazyka.
English abstract We present Korektor – a flexible and powerful purely statistical text correction tool for Czech that goes beyond a traditional spell checker. We use a combination of several language models and an error model to offer the best ordering of correction proposals and also to find errors that cannot be detected by simple spell checkers, namely spelling errors that happen to be homographs of existing word forms. Our system works also without any adaptation as a diacritics generator with the best reported results for Czech text. The design of Korektor contains no language-specific parts other than trained statistical models, which makes it highly suitable to be trained for other languages with available resources. The evaluation demonstrates that the system is a state-of-the-art tool for Czech, both as a spell checker and as a diacritics generator. We also show that these functions combine into a potential aid in the error annotation of a learner corpus of Czech.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Martin Kay; Christian Boitet
Address* Mumbai, India
Month* December
Venue* IIT Bombay, VMCC
Publisher* Coling 2012 Organizing Committee
Institution* IIT Bombay
Creator: Common Account
Created: 12/7/12 5:35 PM
Modifier: Almighty Admin
Modified: 9/6/13 4:51 PM
***

Korektor – A System for Contextual Spell-checking ...publicFINAL-SUBMISSION.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Fri Nov 16 11:51:33 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant