[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2015
Type in proceedings
Status published
Language English
Author(s) Libovický, Jindřich Neumann, Lukáš Pecina, Pavel Matas, Jiří
Title A Machine Learning Approach to Hypothesis Decoding in Scene Text Recognition
Czech title Využití strojového učení při dekódování hypotéz v rozpoznávání textu z fotografií
Proceedings 2015: Switzerland: ACCV 2014: Computer Vision - ACCV 2014 Workshops
Pages range 169-180
Note ISBN 978-3-319-16630-8
How published print
Supported by 2012-2018 GBP103/12/G084 (Centrum pro multi-modální interpretaci dat velkého rozsahu) 2012-2016 PRVOUK P46 (Informatika) 2015 SVV 260 224 (Teoretické základy informatiky a výpočetní lingvistiky)
Czech abstract Cílem Rozpoznávání textu z fotografií (STR) je právně lokalizovat a přespat text zachycený na fotografii z reálného prostředí. Rostoucí úspěšnost rozpoznávání zároveň dělá z těchto textů zajímavý zdroj dat pro zpracování přirozeného jazyka a zároveň přináší nové problémy, které jsou specifické právě pro texty, které se na fotografiích vyskytují. V tomto článku představujeme učení dekódování textových řetězců v systému STR pomocí metod strukturní predikce, které se využívají při dekódování v rozpoznávání řeči a strojovém překladu. Model při učení využívá jazykové a typografické rysy. Navržená metoda je evaluována na standardní datové sadě a zvyšuje úspěšnost rozpoznávání znaků i rozpoznávání celých slov.
English abstract Scene Text Recognition (STR) is a task of localizing and transcribing textual information captured in real-word images. With its increasing accuracy, it becomes a new source of textual data for standard Natural Language Processing tasks and poses new problems because of the specific nature of Scene Text. In this paper, we learn a string hypotheses decoding procedure in an STR pipeline using structured prediction methods that proved to be useful in automatic Speech Recognition and Machine Translation. The model allow to employ a wide range of typographical and language features into the decoding process. The proposed method is evaluated on a standard dataset and improves both character and word recognition performance over the baseline.
Specialization computer science ("informatika")
Confidentiality default – not confidential
Open access no
Editor(s)* C. V. Jawahar; Shiguang Shan
ISBN* 978-3-319-16630-8
ISSN* 0302-9743
Address* Switzerland
Publisher* Springer International Publishing
Institution* National University of Singapore, Singapore
Journal* Lecture Notes in Computer Science
Creator: Common Account
Created: 10/2/14 11:24 PM
Modifier: Common Account
Modified: 2/19/16 10:43 AM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sun Dec 16 22:11:01 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant