Náměty na ročníkové, bakalářské a diplomové práce

 • Témata obvykle mohou být uzpůsobena či rozdělena pro ročníkovou, bakalářskou a diplomovou práci. 
 • Pokud máte vlastní zajímavé téma související s jazykem, ozvěte se.

Rozšířit Korektor – experimentální pokročilý český spell-and-grammar-checker

 • pro ročníkový projekt nebo bakalářskou práci jen vybraný problém či podmnožinu
 • natrénovat na jiný jazyk (angličtina, hindi, čínština, němčina…), případně implementovat i jiný chybový model – diplomka
 • implementace jako webová aplikace – done
 • vstupní metoda pro vybranou platformu (Android, Windows, Mac, KDE) – bakalářka
 • použít lépe Hajičův morfologický slovník
  • stylové příznaky
  • evaluace přínosu
  • odstranit slova (řetězce) ve slovníku, která se nám tam dostala asi nevhodným použitím guesseru
 • doplňkové funkce:
  • tezaurus
   • tezaurus bude nabízet k danému slovnímu tvaru synonyma správně vyskloňovaná, časovaná, stupňovaná a negovaná.
  • opakování slova

Editor pro aplikaci tezauru

 • Nabízet náhrady na základě frekvence slova (lemmatu) a jeho synonym v upravovaném textu a v korpusu, příp. s použitím signifikantních kolokací.
 • Náhrady nabízet ve správném tvaru.
 • Prozkoumat a aplikovat různé strategie užití synonym v různých typech textu – vědecký, esej, umělecký, atd. Typ textu může a nemusí být určen automaticky.

 

Implementovat vstupní metodu pro zápis textu pomocí zkratek

 • Na rozdíl od běžných metod nabízejících možnosti tato metoda nevyžaduje přepínání mezi psaním a rozhodováním-výběrem.
 • Zkratky slov vytvořené podle jednoduchých pravidel (hlavně vynechání většiny samohlásek) se expandují s využitím jazykového modelu na plný text s ohlledem na okolí
  • psaní s celou klávesnicí
  • jen s číselnou klávesnicí
  • Evaluace rychlosti a chybovosti v závislosti na době tréninku
  • možnost integrace s Korektorem (viz výše)
 • References:

  [1] S. M. Shieber and R. Nelken. Journal of Natural Language Engineering, 2007.

 

Pojmenované entity anotované v datech obohatit o automaticky extrahované glosy a zařadit je do slovníku víceslovných výrazů SemLex.

 • analyzovat, co lze ke kterým entitám získat pomocí reg. výrazů (viz Feng et al.)
 • provést experimenty (alespoň pro nejnadějnější typ, např. "Jména osob")
 • References:

  [1] D. Feng, D. Ravichandran, and E. H. Hovy. In Proceedings of the conference of the American Association of Artificial Intelligence (AAAI-06), Boston, MA, 2006.

 

Statistiky mezianotátorské shody lexikálně-semantických anotací

 • vč. analýzy vhodných měr (pi, Kappa, kappa, alpha, s jakými kategoriemi, atd), možnosti eliminace nepoužitých kategorií v anotacích podle CWN, apod.
  • viz Tutorial 5 na ACL 2007.
 • 2 samostatné projekty: (i) anotace podle CWN, (ii) LexemAnn, fáze 1 (víceslovné lexémy a entity)

 

Generátor "Garden Path" vět

 • anglický
 • český
 • a libovolný další jazyk​

 

Synchronní přejímky v jazycích

 • Detekce přejatých slov. Srovnání např. se slovenštinou, polštinou a dalšími jazyky. 
 • Případně jen v jednom jazyce a na velkých diachronních datech. Detekce přejímek, jejich přijetí či vymizení. V případě přijetí detekce případné adaptace na cílový jazyk, např. počeštění pravopisu pro usnadnění skloňování.
 • Statistiky, vizualizace, zpřístupnění nástrojů i dat lingvistům