Courses

  • Introduction to Machine Learning, Charles University in Prague, Faculty of Mathematics and Physics (taught in Czech with English materials)
  • A General Introduction to Machine Learning in Natural Language Processing using R,  course at ESSLLI 2013
  • Selected Topics in Applied Machine Learning: An integrating view on data analysis and learning algorithms, course at ESSLLI 2015

Some of my students

Bachelor and Master thesis supervision in the past

Převod vnitřních formátů pražských korpusů

Cílem rp je implementace automatické procedury pro převod mezi formáty, které se používají pro vnitřní reprezentaci tzv. pražských korpusů (banky textů obohacené o jazykovědné informace). Konkrétně se jedná o formát založený na XML, tzv. PML a formát založený na SGML, tzv. CSTS. Velmi stručné popisy obou formátů jsou k pročtení zde.

Pro převod mezi formáty se používá procedura, která je realizována jako perlovské makro v prostředí anotačního editoru [b]TrEd. Pro některé aplikace, jejichž součástí je převod zmíněných fomtátů, je nutnost nainstalování TrEdu "na obtíž". Převodní procedura, která nevyžaduje "třetí" prostředí, by byla vhodnější.

Určení smysluplnosti věty

Cílem rp je implementace automatické procedury, která v reálném čase rozezná, je-li shluk textových řetězců českou větou. Automatická procedura by měla spolupracovat s externími automatickými moduly, které se týkají tvarosloví (slovní druhy a jejich kategorie - rod, číslo, pád, osoba aj.) a jazykového modelování (sledování posloupností slov v textech). Vyřešení tohoto úkolu je využitelné ve fulltextovém vyhledávání, kde je mj. důležité rozeznat shluk klíčových slov určených pro zmatení vyhledávače od věty určené uživateli.

Rekonstrukce původního pořadí slov ve větě

Cílem RP je navrhnout a implementovat proceduru, která přeuspořádá vstupní řetězec slov tak, aby vznikla původní věta. Součástí rp bude i implementace procedury, která ve vstupní větě přeuspořádá slova, která spolu s původní větou budou vstupem pro hlavní proceduru.

K řešení budou k dispozici automatické nástroje pro tvaroslovný rozbor a větný rozbor. Zároveň budou k dispozici rozsáhlé soubory textů.

Hledání odpovědi v odpovědích

Cílem RP je (navrhnout a) implementovat algoritmus, který k otázce najde odpověď v množině odpovědí. V rámci RP bude sestavena banka (tzv. korpus) otázek a odpovědí z rozhovorů shromážděných ze zdrojů dostupných na internetu (doména a rozsah budou diskutovány). Základní schéma projektu je znázorněno následovně. Implementován bude algoritmus, který do vyhledávání odpovědí zapojí tzv. tf-idf váhu, pojem pocházející z oblasti information retrieval. Dále pak bude navržen a implementován algoritmus, který do vyhledávání zapojí i tvaroslovné informace o slovech v otázce a v odpovědích (viz příklad).

Doplňování informace o slovním druhu k chybějícím slovům textu

Český akademický korpus je rozsáhlá banka českých textů, které byly shromážděny v 70. letech minulého století. K jednotlivým slovům tohoto korpusu byla doplněna informace mj. o slovním druhu a jeho kategoriích (rod, číslo, pád, osoba aj.). Bohužel v textech jsou věty, ve kterých chybí vice či jedno slovo. Detekce těchto podezřelých míst byla provedena ručně.

Cílem rp je implementace automatické procedury, která u chybějících a ručně lokalizovaných slov doplní informace o slovním druhu a dalších kategoriích.

Příklad: Český akademický korpus obsahuje např. větu: Totéž platí o děvčatech []# ročníku v kursu šití od []? Tomešové z prodejny látek. Ručně byla do věty doplněna informace o tom, že před slovem Tomešové "něco" chybí. To "něco" je reprezentováno řetězcem '[]#'. Podíváte-li se na obrázek, který reprezentuje větný rozbor dané věty tak, jak je reprezentován v korpusu, uvidíte, že u všech ostatních slov věty je informace o slovním druhu a ostatních kategoriích - tato informace je "zakódována" v 15-ti poziční značce. Pro doplnění 15-ti poziční značky pro "něco" bude automatická procedura využívat značek ostatních slov věty.

Využití popisků obrázků v aplikaci počítačového zpracování přirozeného jazyka

Cílem rp je připravit textová data pro zjištění míry přínosu databáze obrázků s popisky pro vybranou úlohu počítačového zpracování přirozeného jazyka. Databáze je výstupem hry ESPgame, která obsahuje dvojice (obrázek, popisky). Podrobnosti ke hře jsou uvedeny v článku (von Ahn, Dabbish, 2004). V seznamu obrázků mohou být slova, která spolu významově souvisí. Například v uvedeném příkladě {guy, person}, {face, nose}, {ceiling, room}}. Zabýváme se myšlenkou, mohou-li být popisky nápovědou pro úlohy, které pracují s textem. Konkrétně máme na mysli úlohu automatického určování slov v textu, které odkazují k témuž. K řešení budou k dispozici automatické nástroje pro překlad popisků a pro tvaroslovný rozbor (morfologickou analýzu a syntézu).

  • Knopp Tomáš. On the Possibility of ESP Data Use in Natural Language Processing. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace, odkaz

Vzájomné odkazovanie slov v texte

Cieľom tejto bakalárskej práce je preskúmať moţnosti hľadania koreferencií pomocou systému pravidiel na základe morfologických a syntaktických informácií. Súčasťou práce je aj vizualizácia koreferencií v texte a evaluácia jednotlivých pravidiel. Za týmto účelom bola vytvorená aplikácia Koreferencie, ktorá tvorí prostredie pre vizualizáciu textu, tvorenie a evaluáciu pravidiel. Vytvorená a evaluovaná bola sada pravidiel. Súčasťou práce je popis pravidiel a moţnosti pravidlového systému spolu s algoritmom aplikácie pravidiel na text. Poslednú časť práce tvorí uţívateľská a programátorská dokumentácia.

Školní větné rozbory jako možný zdroj závislostních korpusů(?)

Jednou z oblastí výzkumu počítačové lingvistiky je anotování korpusů. Korpusy jsou rozsáhlé banky textů a mluvených projevů, které jsou při anotování obohacovány o jazykovědné informace. Nejrozsáhlejším anotovaným korpusem českých textů je Pražský závislostní korpus (PDT) o celkovem objemu cca 2 mil. slov anotovaných na rovinách morfologické, syntaktické a významové.

V projektu elektronické cvičebnice českého tvarosloví a syntaxe se věnujeme přiblížení anotovaného korpusu, konkrétně Pražského závislostního, školní výuce češtiny. Z korpusu byla posloupností filtrací a transformací připravena cvičebnice s 11 tis. větami k procvičení tvaroslovných a větných rozborů včetně okamžité kontroly. Pro rychlý úvod do elektronické cvičebnice STYX doporučujeme navštítvit tuto stránku.

Anotování korpusů odborníky je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby anotace -- jeden z nich představují on-line hry, při kterých se hráči baví, čímž anotují data (viz např. GWAP, PhraseDetectives, LGame). Další alternativní způsob anotace zapojí školáky, a to tak, že jim nabídneme editor větných rozborů Čapek. Tento editor je rozšířením systému Styx.

Cílem dp je (i) představit editor Čapek školákům a učitelům; (ii) motivovat je, aby editor používali; (iii) shromáždit rozbory vytvořené v Čapkovi, zpracovat podněty a komentáře; (iii) navrhnout a implementovat automatickou proceduru pro převod školských rozborů do koncepce PDT.

  • Konárová Marie. Školní větné rozbory jako možný zdroj závislostních korpusů (?). Diplomová práce, MFF UK, 2012, odkaz.

Implementace hry Shannon switching game pro iOS

  • Macík Miroslav. Implementace hry Shannon swithcing game pro iOS. Bakalářská práce, 2013, MFF UK, odkaz.

Normalizace pojmenovaných entit v českých textech 

Lemmatizace je proces, při kterém je slovo převedeno do základního tvaru, tzv. lemmatu. Např. náměstím --> náměstíkonsolidovanou --> konsolidovanýkoupil --> koupit. Pojmenované entity jsou slova a slovní spojení, která v textu vystupují jako jména osob, geografické názvy, jména produktů, názvy organizací, časové údaje atp. Např. Dnes sehrají fotbalisté Slavie na Strahově utkání InterpoháruNormalizace pojmenované entity je proces, při kterém je pojmenovaná entita převedena do základního tvaru. Např. konsolidované účetní závěrky --> konsolidovaná učetní závěrkanáměstím Jiřího z Poděbrad --> náměstí Jiřího z Poděbrad.

  • Kubát Petr. Normalizace pojmenovaných entit v českých textech. Bakalářská práce, MFF UK, 2014 (odkaz).