Nabídka ročníkových projektů a bakalářských prací

Pozor: tento semestr už další zájemce nepřijímám.

  • Všechny zde uváděné ročníkové projekty je možné rozšířit na bakalářskou práci.
  • Výsledný program by měl být multiplatformní (případně pro Unix/Linux).
  • Zakončením projektu by měl být veřejný release spojený s vytvořením webové stránky, ze které si půjde release stáhnout.
  • Všechny tři níže uvedené návrhy se nějak týkají počítačové lingvistiky, ale nepředpokládá se žádná předchozí znalost.
  • Pokud máte o projekt u mě zájem, napište mi a domluvíme se na zadání. Můžete přijít i s vlastním tématem.

MT ComparEval (obsazen)

Nástroj pro porovnání a evaluaci strojového překladu.

Vstupem jsou věty v původním jazyce (např. v angličtině), referenční překlad (např. do češtiny) a dva či více automatických překladů (taktéž do češtiny). Výstupem by měly být různé statistiky a informace (zobrazitelné v textovém i grafickém režimu) o kvalitě jednotlivých automatických překladů a o tom, v čem se automatické překlady liší. Statistiky by byly jak na úrovni vět, tak na úrovni slov (a dvojic, trojic... slov).

  • Znalost HTML, CSS, JavaScript/AJAX, Perl/PHP/Java výhodou, ale ne nutností.
  • Projekt bude spíš implementační, nehrozí "zadření" kvůli nevyřešeným teoretickým otázkám.
  • Jedná se o velice praktické téma, výsledek by byl okamžitě využit v projektu strojového překladu.

Clever T9/Word completion (obsazen)

Nástroj pro prediktivní doplňování psaného textu.

Základní ideou je minimalizovat počet úhozů pro napsání textu v daném jazyce na daném modelu klávesnice (devítitlačítková z mobilních telefonů či počítačová qwerty), tedy naimplementovat systém podobný T9 či spíše iTap. Systémy používané v současnosti (včetně T9 a iTap) jsou navržené spíše jednoduše a mají paměťová omezení, aby se vešly i do (starších) mobilů. Krom většího slovníku s přidruženými pravděpodobnostmi se nabízí i další možná vylepšení: opravy překlepů, návrh slova, i pokud není obsaženo ve slovníku (dle pravděpodobností dvojic a trojic písmen), využití následujícího kontextu, pokud se edituje uprostřed již napsaného textu, atd. Součástí bakalářské práce bude i vyhodnocení podle několika metrik – krom průměrného počtu úhozů na písmeno a dalších automatických metrik by se měla zhodnotit i uživatelská přívětivost a skutečný čas psaní (příliš mnoho nabízených doplnění lidi spíš zpomaluje, průměrným uživatelům vyhovuje spíše jednodušší byť pomalejší systém atd.). Podle zájmu může být projekt cílen na použití v mobilech, chytrých textových editorech či jako pomůcka pro tělesně postižené (píšící jedním prstem, pohyby očí apod.). Program bude využívat statistických metod (vyhlazování) a jazykových modelů natrénovaných na velkém množství textu v daném jazyce.

  • Předpokládá se modulární návrh s dobře definovaným API. Některé moduly (např. optimalizace na konkrétní klávesnici, GUI či zakomponování do existujícího textového editoru) není nutné zpracovávat do detailu, hlavní je vnitřní logika nabízení nejpravděpodobnějších pokračování (optimální počet nabízených variant a jejich délek).
  • Projekt je možné koncipovat
    • buď spíše prakticky – vybrat si cílovou skupinu uživatelů a vytvořit kompletní software, který by jim pomohl,
    • nebo spíše teoreticky – porovnat různé jazykové modely, prozkoumat korelaci perplexity a počtu úhozů na písmeno či dalších metrik.

Comparable corpora based MT (zatím nepřidělen)

Statistický strojový překlad mezi příbuznými jazyky bez paralelních trénovacích dat

Cílem je vytvořit program, který dokáže překládat texty např. mezi těmito jazyky: čeština spisovná, obecná, hantec, ostravština, slovenština, polština... ovšem s těmito omezeními:

  1. Není k dispozici paralelní trénovací korpus (kde by si byly věty navzájem překladem), ale pouze tzv. porovnatelný korpus (např. dump Wikipedie s interwiki odkazy do jiných jazyků) nebo pouze jednojazyčné korpusy (např. ČNK pro češtinu, dump blogu pro ostravštinu apod.)
  2. Mělo by se použít co nejméně jazykově závislých pravidel. Ideálně by kód neměl obsahovat žádné if language=="cs" a mohl by se použít na překlad mezi libovolnými jazyky, pro která se dodají trénovací data.

Bylo by vhodné zkombinovat (a upravit) některou z již popsaných metod (např. [1], [2]) s předpokladem podobnosti slov (a automatickou morfologickou analýzou).

  • Z teoretického hlediska nejzajímavější projekt, ale taky nejnáročnější.
  • Nutnost pracovat s odbornou literaturou a nastudovat si příslušné statistické metody a unsupervised machine learning.
  • Prostor pro vlastní výzkum, implementace něčeho, co zde ještě nebylo. V případě dobrých výsledků možnost prezentace na některé mezinárodní konferenci a navazující diplomové práce.
Mgr. Martin Popel