Náměty na ročníkové, bakalářské a diplomové práce

  • Témata obvykle mohou být uzpůsobena či rozdělena pro ročníkovou, bakalářskou a diplomovou práci. 
  • Pokud máte vlastní zajímavé téma související s jazykem, ozvěte se.

Rozšířit Korektor – experimentální pokročilý český spell-and-grammar-checker

  • pro ročníkový projekt nebo bakalářskou práci jen vybraný problém či podmnožinu
  • natrénovat na jiný jazyk (angličtina, hindi, čínština, němčina…), případně implementovat i jiný chybový model – diplomka
  • implementace jako webová aplikace – done
  • vstupní metoda pro vybranou platformu (Android, Windows, Mac, KDE) – bakalářka
  • použít lépe Hajičův morfologický slovník
    • stylové příznaky
    • evaluace přínosu
    • odstranit slova (řetězce) ve slovníku, která se nám tam dostala asi nevhodným použitím guesseru
  • doplňkové funkce:
    • tezaurus
      • tezaurus bude nabízet k danému slovnímu tvaru synonyma správně vyskloňovaná, časovaná, stupňovaná a negovaná.
    • opakování slova

Editor pro aplikaci tezauru

  • Nabízet náhrady na základě frekvence slova (lemmatu) a jeho synonym v upravovaném textu a v korpusu, příp. s použitím signifikantních kolokací.
  • Náhrady nabízet ve správném tvaru.
  • Prozkoumat a aplikovat různé strategie užití synonym v různých typech textu – vědecký, esej, umělecký, atd. Typ textu může a nemusí být určen automaticky.

 

Implementovat vstupní metodu pro zápis textu pomocí zkratek

  • Na rozdíl od běžných metod nabízejících možnosti tato metoda nevyžaduje přepínání mezi psaním a rozhodováním-výběrem.
  • Zkratky slov vytvořené podle jednoduchých pravidel (hlavně vynechání většiny samohlásek) se expandují s využitím jazykového modelu na plný text s ohlledem na okolí
    • psaní s celou klávesnicí
    • jen s číselnou klávesnicí
    • Evaluace rychlosti a chybovosti v závislosti na době tréninku
    • možnost integrace s Korektorem (viz výše)
  • References:

    [1] S. M. Shieber and R. Nelken. Journal of Natural Language Engineering, 2007.

 

Pojmenované entity anotované v datech obohatit o automaticky extrahované glosy a zařadit je do slovníku víceslovných výrazů SemLex.

  • analyzovat, co lze ke kterým entitám získat pomocí reg. výrazů (viz Feng et al.)
  • provést experimenty (alespoň pro nejnadějnější typ, např. "Jména osob")
  • References:

    [1] D. Feng, D. Ravichandran, and E. H. Hovy. In Proceedings of the conference of the American Association of Artificial Intelligence (AAAI-06), Boston, MA, 2006.

 

Statistiky mezianotátorské shody lexikálně-semantických anotací

  • vč. analýzy vhodných měr (pi, Kappa, kappa, alpha, s jakými kategoriemi, atd), možnosti eliminace nepoužitých kategorií v anotacích podle CWN, apod.
    • viz Tutorial 5 na ACL 2007.
  • 2 samostatné projekty: (i) anotace podle CWN, (ii) LexemAnn, fáze 1 (víceslovné lexémy a entity)

 

Generátor "Garden Path" vět

  • anglický
  • český
  • a libovolný další jazyk​

 

Synchronní přejímky v jazycích

  • Detekce přejatých slov. Srovnání např. se slovenštinou, polštinou a dalšími jazyky. 
  • Případně jen v jednom jazyce a na velkých diachronních datech. Detekce přejímek, jejich přijetí či vymizení. V případě přijetí detekce případné adaptace na cílový jazyk, např. počeštění pravopisu pro usnadnění skloňování.
  • Statistiky, vizualizace, zpřístupnění nástrojů i dat lingvistům