Náměty na ročníkové, bakalářské a diplomové práce
- Témata obvykle mohou být uzpůsobena či rozdělena pro ročníkovou, bakalářskou a diplomovou práci.
- Pokud máte vlastní zajímavé téma související s jazykem, ozvěte se.
Rozšířit Korektor – experimentální pokročilý český spell-and-grammar-checker
- pro ročníkový projekt nebo bakalářskou práci jen vybraný problém či podmnožinu
- natrénovat na jiný jazyk (angličtina, hindi, čínština, němčina…), případně implementovat i jiný chybový model – diplomka
implementace jako webová aplikace– done- vstupní metoda pro vybranou platformu (Android, Windows, Mac, KDE) – bakalářka
- použít lépe Hajičův morfologický slovník
- stylové příznaky
- evaluace přínosu
- odstranit slova (řetězce) ve slovníku, která se nám tam dostala asi nevhodným použitím guesseru
- doplňkové funkce:
- tezaurus
- tezaurus bude nabízet k danému slovnímu tvaru synonyma správně vyskloňovaná, časovaná, stupňovaná a negovaná.
- opakování slova
- tezaurus
Editor pro aplikaci tezauru
- Nabízet náhrady na základě frekvence slova (lemmatu) a jeho synonym v upravovaném textu a v korpusu, příp. s použitím signifikantních kolokací.
- Náhrady nabízet ve správném tvaru.
- Prozkoumat a aplikovat různé strategie užití synonym v různých typech textu – vědecký, esej, umělecký, atd. Typ textu může a nemusí být určen automaticky.
Implementovat vstupní metodu pro zápis textu pomocí zkratek
- Na rozdíl od běžných metod nabízejících možnosti tato metoda nevyžaduje přepínání mezi psaním a rozhodováním-výběrem.
- Zkratky slov vytvořené podle jednoduchých pravidel (hlavně vynechání většiny samohlásek) se expandují s využitím jazykového modelu na plný text s ohlledem na okolí
- psaní s celou klávesnicí
- jen s číselnou klávesnicí
- Evaluace rychlosti a chybovosti v závislosti na době tréninku
- možnost integrace s Korektorem (viz výše)
- References:
[1] S. M. Shieber and R. Nelken. Journal of Natural Language Engineering, 2007.
Pojmenované entity anotované v datech obohatit o automaticky extrahované glosy a zařadit je do slovníku víceslovných výrazů SemLex.
- analyzovat, co lze ke kterým entitám získat pomocí reg. výrazů (viz Feng et al.)
- provést experimenty (alespoň pro nejnadějnější typ, např. "Jména osob")
- References:
[1] D. Feng, D. Ravichandran, and E. H. Hovy. In Proceedings of the conference of the American Association of Artificial Intelligence (AAAI-06), Boston, MA, 2006.
Statistiky mezianotátorské shody lexikálně-semantických anotací
- vč. analýzy vhodných měr (pi, Kappa, kappa, alpha, s jakými kategoriemi, atd), možnosti eliminace nepoužitých kategorií v anotacích podle CWN, apod.
- viz Tutorial 5 na ACL 2007.
- 2 samostatné projekty: (i) anotace podle CWN, (ii) LexemAnn, fáze 1 (víceslovné lexémy a entity)
Generátor "Garden Path" vět
- anglický
- český
- a libovolný další jazyk
Synchronní přejímky v jazycích
- Detekce přejatých slov. Srovnání např. se slovenštinou, polštinou a dalšími jazyky.
- Případně jen v jednom jazyce a na velkých diachronních datech. Detekce přejímek, jejich přijetí či vymizení. V případě přijetí detekce případné adaptace na cílový jazyk, např. počeštění pravopisu pro usnadnění skloňování.
- Statistiky, vizualizace, zpřístupnění nástrojů i dat lingvistům