Zde uvádím témata pro studentské práce. Každé z nich je možné upravit podle toho, o jaký druh práce (ročníkový projekt, bakalářská práce, diplomová práce) má student zájem.


Generátor tiskových zpráv

 
Eurostat je statistickým úřadem Evropského společenství, který poskytuje statistiky na evropské úrovni (http://ec.europa.eu/eurostat/web/main/home). Informace poskytuje nejen ve formě tabulek a grafů, ale i ve formě tiskových zpráv (http://ec.europa.eu/eurostat/news/news-releases). Ty se staly inspirací pro návrh projektu, jehož cílem je vytvořit platformu pro automatické generování a publikaci tiskových zpráv v češtině nad vybranými kolekcemi dat publikovanými dle principů Linked Open Data.
 
Dílčí cíle projektu
  1. Seznámit se s výsledky výzkumu v oblasti automatického generování textů (viz např. [1], [3])
  2. Seznámit se s datovými kolekcemi publikovanými dle principů Linked Open data (viz např. [2])
  3. Vybrat kolekce, z nichž budou extrahovány statistiky k publikováni
  4. Navrhnout a implementovat generátor tiskových zpráv prezentující statistiky z vybraných datových kolekcí
  5. Navrhnout a provést evaluaci generátoru
  6. Implementovat uživatelské rozhraní pro prezentaci kolekcí a tiskových zpráv
 
Literatura
  1. Dušek Ondřej, Natural Language Generation (Not Only) in Dialogue Systems. Lecture in Filip Jurčíček's Statistical Dialogue System Course, May, 2013 (http://ufal.mff.cuni.cz/~odusek/slides/2013_sds_nlg.pdf)
  2. The Linking Open Data cloud diagram. http://lod-cloud.net/
  3. Vystadial. https://ufal.mff.cuni.cz/grants/vystadial

Čapek

 

Koordinuji projekt vývoje a implementace aplikace Čapek, která umožňuje provádět tavroslovné a větné rozbory on-line, jak můžete vyzkoušet zde (přihlášení guest a Guest1). V projektu nejde pouze o editor, ale i o zpracování rozborů, které od školáků a studentů získáme. Nabízím témata jak implementační, tak experimentální. Směřujeme k moderní multiplatformové aplikaci!

Aktualizace portálu jazykových her LGame

Anotace jazykových dat je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby organizace anotace, zejména ty s přívlastkem crowdsourcing. Patří mezi ně on-line hry, při kterých se hráči primárně baví, ale na pozadí anotují data. Na portálu LGame jsou publikovány tři hry s texty, *PlayCoref*, *Shannon Game* a *Place the Space*. Jejich pravidla jsou formulována nezávisle na jazyce textů. Cílem bakalářské práce je revize všech tří her z pohledu dat, pravidel a implementace a na základě revize návrh a implementace vylepšení. 

Odkazy