[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type in proceedings
Status published
Language English
Author(s) Kocmi, Tom Bojar, Ondřej
Title LanideNN: Multilingual Language Identification on Character Window
Czech title LanideNN: mnohojazyčný rozpoznávač jazyků
Proceedings 2017: Stroudsburg, PA, USA: EACL 2017: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers
Pages range 927-936
How published print
Supported by 2016-2018 GAUK 8502/2016 (Využití umělých neuronových sítí pro počítačový překlad) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2015-2018 H2020-ICT-2014-1-645452 (QT21: Quality Translation 21) 2017-2021 PROGRES Q18 (Společenské vědy: od víceoborovosti k mezioborovosti) 2017-2021 PROGRES Q48 (Informatika)
Czech abstract V identifikaci jazyka, společný prvním krokem při zpracování přirozeného jazyka, chceme automaticky určit jazyk nějakého vstupního textu. Jednojazyčná identifikace jazyka předpokládá, že daný dokument je napsán v jednom jazyce. Ve vícejazyčné identifikaci jazyka, že dokument je obvykle ve dvou nebo ve třech jazycích a my jen chceme jejich jména. Naš cíl je ještě o krok dále a chceme navrhnout metodu pro identifikaci jazyků, kde se mohou jazyky libovolně měnit v textu a cílem je identifikovat rozpětí každého z jazyků. Naše metoda je založena na obousměrné rekurentních neuronových sítí, která funguje dobře v jednojazyčné a vícejazyčných identifikaci jazyka. Náš nástroj pokrývá 131 jazyků. Tato metoda zachovává přesnost i pro krátké dokumenty a napříč doménami, takže je ideální pro použití bez přípravy tréninkových dat.
English abstract In language identification, a common first step in natural language processing, we want to automatically determine the language of some input text. Monolingual language identification assumes that the given document is written in one language. In multilingual language identification, the document is usually in two or three languages and we just want their names. We aim one step further and propose a method for textual language identification where languages can change arbitrarily and the goal is to identify the spans of each of the languages. Our method is based on Bidirectional Recurrent Neural Networks and it performs well in monolingual and multilingual language identification tasks on six datasets covering 131 languages. The method keeps the accuracy also for short documents and across domains, so it is ideal for off-the-shelf use without preparation of training data.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
ISBN* 978-1-945626-35-7
Address* Stroudsburg, PA, USA
Month* April
Venue* Valencia Conference Center
Publisher* Association for Computational Linguistics
Institution* Universitat Politécnica de València
Creator: Common Account
Created: 1/16/17 3:23 PM
Modifier: Common Account
Modified: 10/9/17 12:48 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Thu Nov 23 08:36:43 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant