Saturday, September 17, 2016 - 17:45 to Monday, September 19, 2016 - 09:00

SloNLP 2016

English version

SloNLP je slovenskočeský workshop speciálně zaměřený na zpracování přirozeného jazyka a počítačovou lingvistiku. Jeho hlavním cílem je podpořit spolupráci mezi výzkumníky v oblasti NLP v Česku a na Slovensku; k účasti proto vyzýváme i magisterské studenty a doktorandy věnující se počítačové lingvistice.

Mezi témata workshopu patří automatické rozpoznávání mluvené řeči (ASR), automatická analýza a generování přirozeného jazyka (morfologie, syntax, sémantika...), dialogové systémy, strojový překlad (MT), vyhledávání informací (IR), praktické aplikace NLP technologií, a další témata počítačové lingvistiky.

Uvítáme také články o probíhajícím výzkumu s předběžnými výsledky (work in progress), články popisující negativní výsledky (negative results), a články představující návrhy na budoucí výzkum.

Workshop je součástí konference ITAT, která se koná 15.9. - 19.9.2016 v hotelu SOREA Hutník I. v Tatranských Matliarech (1,5 km od Tatranské Lomnice; mapa).

Proceedings

proceedings coverČlánky SloNLP jsou součástí hlavního sborníku ITATu, který je publikovaný online v CEURu, a zároveň v tištěné podobě na Amazonu. Navrhovaný způsob citování článků pomocí BibTeXu je následující (pro lidsky čitelnou podobu viz záznam v Bibliu):

@inproceedings{slonlp2016:XXXauthornameXXX,
  booktitle = {Proceedings of the 16th {ITAT}: Slovensko{\v{c}}esk{\'{y}} {NLP} workshop (Slo{NLP} 2016)},
  title = {XXX paper title XXX},
  editor = {Bro{\v{n}}a Brejov{\'{a}}},
  author = {XXX paper authors XXX},
  year = {2016},
  publisher = {CreateSpace Independent Publishing Platform},
  organization = {Comenius University in Bratislava, Faculty of Mathematics, Physics and Informatics},
  address = {Bratislava, Slovakia},
  venue = {{SOREA} Hutn{\'{i}}k I.},
  series = {{CEUR} Workshop Proceedings},
  volume = {1649},
  pages = {XXXpagefrom-pagetoXXX},
  isbn = {978-1537016740},
  issn = {1613-0073},
}

Program

Sobota 17. září: společný program konference ITAT

  • 17:45-18:45 Jiří Materna (Seznam.cz): Aplikace strojového učení ve fulltextovém vyhledávání (zvaná přednáška SloNLP - viz níže)
  • 19:00-          Konferenční banket

Neděle 18. září: workshop SloNLP

  • 08:55-09:00 Rudolf Rosa: Úvodní slovo
  • 09:00-09:20 Ladislav Lenc, Tomas Hercig: Neural Networks for Sentiment Analysis in Czech (paper, slides)
  • 09:20-09:40 Ondřej Plátek, Petr Bělohlávek, Vojtěch Hudeček, Filip Jurčíček: Recurrent Neural Networks for Dialog State Tracking (paperslides)
  • 09:40-10:00 Tomáš Jelínek: Error rates and agreements of parsers: two experiments with ensemble parsing of Czech (paperslides)
  • 10:00-10:20 David Mareček: 12 years of Unsupervised Dependency Parsing (paperslides)
  • 10:20-10:30 Jaroslava Hlaváčová: Kolik potřebujeme slovních druhů? (diskuzní kroužek) (slide)
     
  • 10:30-11:00 Kávová prestávka
     
  • 11:10-11:30 Katrin Přikrylová, Vladislav Kuboň, Kateřina Veselovská: Logical vs. Natural Language Conjunctions in Czech: A Comparative Study (paperslides)
  • 11:30-11:40 Josef Chaloupka: Automatic Symbol Processing for Language Model Building in Slavic Languages (paperslides, demo)
  • 11:40-12:00 Alexandr Rosen: Building and using corpora of non-native Czech (paperslides, democorpus)
  • 12:00-12:20 Rudolf Rosa: Czechizator - Čechizátor (paperslides, demo)
  • 12:20-12:30 László Kovács, Erika Baksa-Varga, Daniel Hládek: Lexicon-based Post Correction of OCR Errors

Účastníci SloNLP se mohou zúčastnit i dalších přednášek v rámci konference ITAT (viz program konference). Dovolujeme si upozornit zejména na následující:

  • Sobota 17.9. 11:00-11:30 Martin Kopp: How to Mimic Humans, Guide for Computers (přednáška workshopu WCIDM)
  • Sobota 17.9. 12:00-12:30 Tomáš Šabata: Modeling and Clustering the Behavior of Animals using Hidden Markov Models (přednáška workshopu WCIDM)
  • Neděle 18.9. 17:00-17:30 Martin Plátek, Karel Oliva: Redukční analýza A-stromů s minimalistickými omezeními (přednáška konference ITAT)
  • Neděle 18.9. 17:30-18:00 Vladislav Kuboň, Markéta Lopatková, Tomáš Hercig: Searching for a Measure of Word Order Freedom (přednáška konference ITAT)

Zvaná přednáška SloNLP

Jiří Materna (Seznam.cz): Aplikace strojového učení ve fulltextovém vyhledávání

Jiří Materna

Velká část veřejných informací je dnes k dispozici na internetu v elektronické podobě. Ve většině případů však neznáme přesné umístění odpovědí na naše otázky a jsme zvyklí pro jejich nalezení používat internetové vyhledávače jako jsou Seznam nebo Google. Zatímco v době vzniku prvních vyhledávačů se pro nalezení nejrelevantnějších odpovědí používaly jednoduché algoritmy a pravidlové systémy, dnes už se téměř ve všech částech vyhledávače využívá síly a robustnosti strojového učení.

Zajímá vás, jak moderní vyhledávače fungují a jaké problémy je ve fulltextovém vyhledávání třeba řešit? V této přednášce si představíme obecnou architekturu fulltextového vyhledávače a zaměříme se na vybrané aplikace strojového učení ve vyhledávání. Typickými příklady jsou porozumění dotazu, řazení výsledků nebo využití hlubokých neuronových sítí pro zpracování textové i obrazové informace.

Jiří Materna vystudoval obor informatika na Fakultě informatiky Masarykovy univerzity, kde také získal doktorát v oboru Umělá inteligence a počítačová lingvistika. Od roku 2008 je zaměstnán ve společnosti Seznam.cz, kde nyní zastává pozici vedoucího výzkumného oddělení. Je zakladatel a spoluorganizátor konference Machine Learning Prague, mentorem podnikatelského akcelerátoru StartupYard a autorem blogu o strojovém učení Machine Learning Guru. Mezi jeho odborné zájmy patří strojové učení, zpracování přirozeného jazyka, information retrieval, statistika a obecně řešení těžkých problémů z oblasti informatiky s aplikacemi v běžném životě.

Přijaté články

  • Ladislav Lenc and Tomas Hercig: Neural Networks for Sentiment Analysis in Czech
  • Ondřej Plátek, Petr Bělohlávek, Vojtěch Hudeček and Filip Jurčíček: Recurrent neural networks for dialog state tracking
  • Tomáš Jelínek: Error rates and agreements of parsers: two experiments with ensemble parsing of Czech
  • David Mareček: 12 years of Unsupervised Dependency Parsing
  • Katrin Přikrylová, Vladislav Kuboň and Kateřina Veselovská: Logical vs. Natural Language Conjunctions in Czech: A Comparative Study
  • Alexandr Rosen: Building and using corpora of non-native Czech
  • Rudolf Rosa: Czechizator - Čechizátor
  • Josef Chaloupka: Automatic Symbol Processing for Language Model Building in Slavic Languages

Pokyny pro autory

  • článek v angličtině, případně slovenštině/češtině
  • 4-8 stránek dvousloupcově, včetně referencí (styl pro latex, popřípadě styl pro Word)
  • zaslání článku pomocí EasyChair
  • každý článek bude recenzován 2-3 recenzenty
  • pokud je článek současně ve více recenzních řízeních, je nutné v případě publikace článku jinde (jiná konference/časopis) článek stáhnout nejpozději před odesláním finální verze (camera-ready)
  • prezentace článku v angličtině, případně slovenštině/češtině
  • články budou publikovány ve sborníku konference ITAT (s ISBN), který by měl být indexován v databázi Scopus

Důležité termíny

  • do   5.6. 29.5. zaslání abstraktu (50 - 200 slov) -- prodloužený deadline
  • do   8.6. 5.6. zaslání článku -- prodloužený deadline
  • do   3.7. informace o přijetí/nepřijetí/podmínečném přijetí
  • do 15.7. zaslání finální verze článku (pro podmínečně přijaté články do 13.7.)
  • do 31.7. včasná registrace
  • 17.9. banket a zvaná přednáška
  • 18.9. workshop

Všechny deadlines jsou 23:59 AoE.

Programový výbor

Minulé ročníky