[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic

[ Back to the navigation ]


Year 2016
Type in proceedings without ISBN
Status published
Language English
Author(s) Libovický, Jindřich Pecina, Pavel
Title A Dataset and Evaluation Metric for Coherent Text Recognition from Scene Images
Czech title Dataset a evaluační metrika pro rozpoznávání souvislého textu z fotografií
Proceedings 2016: Paris, France: LREC 2016 workshop: Multimodal Corpora: Computer vision and language processing
Pages range 33-36
How published online
URL http://www.lrec-conf.org/proceedings/lrec2016/workshops/LREC2016Workshop-MCC-2016-proceedings.pdf
Supported by 2012-2018 GBP103/12/G084 (Centrum pro multi-modální interpretaci dat velkého rozsahu) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract V tomto článku se zabýváme získáváním textových informací z fotografií. Dosud se v této oblasti pracovalo pouze s rozpoznáváním izolovaných slov a krátká slova se pro zjednodušení vynechávala. Tento přístup není vhodný pro další lingvistické zpracování rozpoznaného textu. Proto se pokoušíme a lepší definice úlohy, která zahrnuje i souvislost rozpoznaného textu. Rozšířili jsme anotaci stávajících datastetů a vyvinuli evaluační metriku, které bude sloužit k hodnocení rozpoznávání souvislého textu.
English abstract In this paper, we deal with extraction of textual information from scene images. So far, the task of Scene Text Recognition (STR) has only been focusing on recognition of isolated words and, for simplicity, it omits words which are too short. Such an approach is not suitable for further processing of the extracted text. We define a new task which aims at extracting coherent blocks of text from scene images with regards to their future use in natural language processing tasks, mainly machine translation. For this task, we enriched the annotation of existing STR benchmarks in English and Czech and propose a string-based evaluation measure that highly correlates with human judgment.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Jens Edlund; Dirk Heylen; Patrizia Paggio
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 5/30/16 1:52 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM

Content, Design & Functionality: ÚFAL, 2006–2018. Page generated: Sun Feb 17 19:51:32 CET 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant