Náměty na ročníkové, bakalářské a diplomové práce
Témata obvykle mohou být uzpůsobena či rozdělena pro ročníkovou, bakalářskou a diplomovou práci.
- Hlasové ovládání televize pro postižené s poruchou
hybnosti i řeči:
- notebook s infraportem a mikrofon k dispozici, možno zvolit i jiné HW řešení
- minimálně nutno implementovat:
- zapnout/vypnout
- přepínání kanálů (číslem, jménem stanice ...)
- teletext: strana číslo X, pauza, další, předchozí, obsah, program, ...
- natrénovat s konkrétním postiženým člověkem s poškozením řeči po dětské mozkové obrně (kontakt zajistím).
- GUI pro přepínání kanálů a zobrazení TV programu
průběžně aktualizovaného z internetu (viz např. EyeTv, nebo
mřížkové zobrazení na tv.sms.cz).
- Důležité proto, aby ostatní členové domácnosti měli z notebooku, který stále leží před televizí také užitek a nebyl pro ně jen překážkou. Velmi podstatné pro praktické nasazení!
- v případě diplomové práce: implementovat user-friendly trénování uživatelem
- Implementovat "pokročilý český spellchecker"
- pro ročníkový projekt nebo bakalářskou práci jen vybraný problém či podmnožinu
- použít Hajičův morfologický slovník
- stylové příznaky
- optimalizace nabízených náhrad (sousední znaky na klávesnici, s/z, aj.), možná i s trigram. modelem (viz téma níže)
- korektura kombinovaného textu s diakritikou i bez ní
- doplňkové funkce:
- tezaurus
- tezaurus bude nabízet k danému slovnímu tvaru synonyma správně vyskloňovaná, časovaná, stupňovaná a negovaná.
- odstraňování a doplňování diakritiky
- trigramový jazykový model pro "gramaticky správné překlepy"
- opakování slova
- tezaurus
- integrace vyvíjeného slovníku víceslovných lexémů (??)
- implementace jako Spelling Service pro Mac OS X nebo
jako webová aplikace
- viz prototyp O. Čady (možno použít a dokončit /
rozvinout)
Pro ročníkový projekt nebo bakalářskou práci jen vybraný problém či podmnožinu. Některé jsou popsány níže.
- viz prototyp O. Čady (možno použít a dokončit /
rozvinout)
- Editor pro aplikaci tezauru
- Nabízet náhrady na základě frekvence slova (lemmatu) a jeho synonym v upravovaném textu a v korpusu, příp. s použitím signifikantních kolokací.
- Náhrady nabízet ve správném tvaru.
- Prozkoumat a aplikovat různé strategie užití synonym v různých typech textu – vědecký, esej, umělecký, atd. Typ textu může a nemusí být určen automaticky.
- Trigramový jazykový model pro český spellchecker
(najde překlepy, které jsou zároveň platnými českými slovy).
– ZADÁNO
- Asi by musel používat kompresi, viz
- - pozor na patent Microsoftu
- viz také "Bloomův Filter" pro efektivní reprezentaci velkých množin (článek na EMNLP 2007, CPAN)
- Asi by musel používat kompresi, viz
- Pojmenované entity anotované v LexemAnn obohatit o
automaticky extrahované glosy a zařadit je do SemLexu.
- References:
[1] D. Feng, D. Ravichandran, and E. H. Hovy. . In Proceedings of the conference of the American Association of Artificial Intelligence (AAAI-06), Boston, MA, 2006.
- analyzovat, co lze ke kterým entitám získat pomocí reg. výrazů (viz Feng et al.)
- provést experimenty (alespoň pro nejnadějnější typ, např. "Jména osob")
- References:
- Statistiky mezianotátorské shody
lexikálně-semantických anotací – ZADÁNO
- vč. analýzy vhodných měr (pi, Kappa, kappa, alpha, s jakými
kategoriemi, atd), možnosti eliminace nepoužitých kategorií
v anotacích podle CWN, apod.
- viz Tutorial 5 na ACL 2007.
- 2 samostatné projekty: (i) anotace podle CWN, (ii) LexemAnn, fáze 1 (víceslovné lexémy a entity)
- vč. analýzy vhodných měr (pi, Kappa, kappa, alpha, s jakými
kategoriemi, atd), možnosti eliminace nepoužitých kategorií
v anotacích podle CWN, apod.
- Implementovat vstupní metodu pro zápis textu pomocí
zkratek místo obvyklejšiho napovídání/doplňování.
- References:
[1] S. M. Shieber and R. Nelken. . Journal of Natural Language Engineering, 2007 (to appear).
- s celou klávesnicí
- jen s číselnou klávesnicí
- Evaluace rychlosti a chybovosti v závislosti na době tréninku
- References:
- Generátor "Garden
Path" vět
- anglický
- český
- a libovolný další jazyk
- Automatická extrakce vztahu mezi pojmem vyjádřeným
substantivem a pojmem vyjádřeným jeho (de)substantvním
přívlastkem z textu.
- "školní třída", "školní výlet", "bratrova třída", "pražská šunka", "nůž z oceli", "nůž z Prahy", "nůž z druhé zásuvky"