Ročníkové projekty|Bakalářské práce|Diplomové práce|Softwarové projekty|Vyřešené projekty|Brigády
Kontakt: Barbora Vidová Hladká (hladka@ufal.mff.cuni.cz)
ROČNÍKOVÉ PROJEKTY
Název: Rozšíření funkčnosti editoru Čapek
- Anotace: Větný editor Čapek je rozšířením elektronické cvičebnice českého tvarosloví a syntaxe STYX. Pedagogickou motivací je nabídnout školákům a jejich učitelům editor, ve kterém mohou procvičovat rozbory na větách, které si sami vymyslí. Výzkumnou motivací je získat rozbory od školáků a transformovat je do korpusových anotačních schémat, čímž očekáváme navýšení objemu dat pro aplikace počítačového zpracování přirozeného jazyka. Funkční prototyp editoru Čapek již existuje, cílem rp je jeho funkční rozšíření.
- Programovací jazyk: Java, platforma Netbeans
- Odkazy: STYX
Název: Hra Vlož mezeru (Place the Space) pro iPhone
- Anotace: Hra Vlož mezeru je jednou z her portálu LGame.
- Programovací jazyk:
- Odkazy:
Název: Rekonstrukce věty internetovou hrou
- Anotace: Cílem RP je implementovat internetovou hru pro jednoho a dva hráče. Na vstupu jsou slova věty, ale v jiném pořadí, než bylo v původní větě. Úkolem hráčů je zrekonstruovat původní větu v co nejkratším čase.
- Programovací jazyk: Libovolný. Hra bude vyvěšena na herním portálu LGame.
- Odkazy: Herní portál LGame.
Název: Rekonstrukce věty hrou pro iPhone
- Anotace: Cílem RP je implementovat hru pro jednoho a dva hráče. Na vstupu jsou slova věty, ale v jiném pořadí, než bylo v původní větě. Úkolem hráčů je zrekonstruovat původní větu v co nejkratším čase.
- Programovací jazyk: Pro iPhone.
- Odkazy: Herní portál LGame.
Název: Automatické vyhledávání rozhovorů na webu
- Anotace: Aplikace Interviewer umožňuje uživateli studovat rozhovory se zajímavými osobnostmi. Je navržena tak, že po výběru osobnosti se ručně vyhledají internetové stránky s rozhovory s danou osobností a následně se rozhovory opět ručně stáhnou na lokální disk uživatele. Cílem RP je implementovat web crawler, který po zadání jména vyhledá na webu rozhovory. Aplikaci není nutné implementovat from scratch. Využití již existujících je možné. Cílovým jazykem je čeština.
- Programovací jazyk: Volba musí být kompatibilní s požadavkem, aby se aplikace dala začlenit do aplikace Interviewer.
- Odkazy: Demo preview.
Název: Zpracování kolekce pracovních inzerátů jazykovými nástroji
- Anotace: Životopisy a popisy pracovních pozic se od textů, které se standartně používají jako data pro trénování metod strojového učení, poměrně liší. Zejména proto, že se nejedná o souvislé texty odstavců vět, ale heslovité části vět (nejčastěji jmenné fráze a pojmenované entity, např. pracovní stáž ve společnosti Google, Inc.). Cílem RP je ověřit, do jaké míry jsou současné jazykové nástroje vhodné pro zpracování pracovních inzerátů z oblasti IT. Návrhy na změny/úpravy a jejich implementace jsou součástí řešení.
- Programovací jazyk: po dohodě upřesněno.
- Odkazy:
BAKALÁŘSKÉ PRÁCE
Název: Refaktorizace a vylepšení funkčnosti her portálu LGame
Metodologie 'Games With A Purpose' (GWAP) využívá nadšení uživatelů hrát on-line hry tak, že na pozadí hraní jsou generována potřebná data. Poprvé byla tato metodologie uplatněna ve hrách s obrázky (viz http://gwap.com). Portál LGame byl založen pro publikování takových her s přirozeným jazykem.
Aktuální verze her portálu charakterizujeme jako funkční prototypy. Cílem bp je refaktorovat hry za účelem snadnější údržby a vylepšit jejich funkčnost na základě zkušenosti uživatelů.
Cíle bp podrobněji:- Seznámit se s implementací her portálu LGame, refaktorizace.
- Seznámit se s funkčností her a s výtkami uživatelů. Implementace vylepšení.
- Sepsání dokumentace.
- LGame.
- Hladká Barbora, Jiří Mírovský, Jan Kohout. An attractive game with the document: (im)possible? In PBML 96, pp. 1-26, 2011. (pdf)
DIPLOMOVÉ PRÁCE
Název: Sledování aktivovanosti objektů v dokumentech (Tracing salience in documents)
Při analýze promluvy (diskurzu) (promluvy) se pracuje s tzv. stupněm aktivovanosti objektů, o kterých se mluví. Volně řečeno, mluvčí/pisatel o něčem začne mluvit/psát, pak přejde k jinému tématu (objektu), následně se vrátí k tématu (objektu), o kterém hovořil/psal na začátku, ... To, jak "moc" či "málo" se o daném objektu hovoří napříč dokumentem, je ono sledování aktivovanosti. Příklad aplikace, která se o aktivovanost může opírat, je zjišťování hlavního tématu dokumentu.
Prvotní návrh algoritmu pro sledování aktivovanosti byl již implementován; výsledky byly názorně vizualizovány (Hajičová, Hladká, Kučová, 2006). Algoritmus je procedurální a byl testován na malém vzorku dat nezávisle na aplikaci, které by mohl být přímou součástí.
Cíle dp podrobněji:- revize implementovaného algoritmu,
- seznámit se s anotací rozšířené textové koreference (Nedolushko, 2009),
- sledovat aktivovanost na kompletním PDT 2.0,
- aplikovat metody strojového učení na sledování aktivovanosti
- Hajičová Eva, Barbora Hladká, Lucie Kučová: An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006.
- Nedoluzhko Anna, Jiří Mírovský, Radek Ocelák, Jiří Pergler. Extended coreferential relations and bridging anaphora in the Prague Dependency Treebank. In Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium, Goa, India, pp. 1-16, 2009.
- Pražský závislostní korpus 2.0
Název: Školní větné rozbory jako možný zdroj treebanků(?) (OBSAZENO)
Jednou z oblastí výzkumu počítačové lingvistiky je anotování korpusů. Korpusy jsou rozsáhlé banky textů a mluvených projevů, které jsou při anotování obohacovány o jazykovědné informace. Nejrozsáhlejším anotovaným korpusem českých textů je Pražský závislostní korpus (PDT) o celkovem objemu cca 2 mil. slov anotovaných na rovinách morfologické, syntaktické a významové.
V projektu elektronické cvičebnice českého tvarosloví a syntaxe se věnujeme přiblížení anotovaného korpusu, konkrétně Pražského závislostního, školní výuce češtiny. Z korpusu byla posloupností filtrací a transformací připravena cvičebnice s 11 tis. větami k procvičení tvaroslovných a větných rozborů včetně okamžité kontroly. Pro rychlý úvod do elektronické cvičebnice STYX doporučujeme navštítvit tuto stránku.
Anotování korpusů odborníky je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby anotace -- jeden z nich představují on-line hry, při kterých se hráči baví, čímž anotují data (viz např. GWAP, PhraseDetectives, LGame). Další alternativní způsob anotace zapojí školáky, a to tak, že jim nabídneme editor větných rozborů Elysium. Tento editor je rozšířením systému Styx.
Cílem dp je (i) představit editor Elysium školákům a učitelům; (ii) motivovat je, aby editor používali; (iii) shromáždit rozbory vytvořené v Elysiu, zpracovat podněty a komentáře; (iii) navrhnout a implementovat automatickou proceduru pro převod školských rozborů do koncepce PDT.
Cíle dp podrobněji:- Seznámit se s počítačovou aplikací STYX: koncepce transformace akademických syntaktických rozborů do větných rozborů.
- Vytipovat základní školy s nadšenými češtináři. Připravit a realizovat ukázkovou hodinu, iniciovat mezi školáky několik nepovinných sezení a motivovat je k částé práci s Elysiem.
- Shromáždit školské rozbory.
- Navrhnout a implementovat automatickou proceduru pro převod školských rozborů do rozborů dle koncepce PDT. Procedura by měla zapojit i proceduru pro parsing tool_chain.
- Domovská stránka elektronické cvičebnice STYX (http://ufal.mff.cuni.cz/styx).
- Barbora Hladká, Ondřej Kučera. An Annotated Corpus Outside Its Original Context: A Corpus-Based Exercise Book. In: Proceedings of the ACL-08: HLT Third Workshop on Innovative Use of NLP for Building Educational Applications, pp. 36-43, The Ohio State University, Columbus, Ohio, USA. 2008. Ke stažení.
- Ondřej Kučera. Pražský závislostní korpus jako cvičebnice jazyka českého. Diplomová práce, MFF UK Praha, 2006.
Název: Zapojení počítačových aplikací do hodin českého jazyka
Jednou z oblastí výzkumu počítačové lingvistiky je anotování korpusů. Korpusy jsou rozsáhlé banky textů a mluvených projevů, které jsou při anotování obohacovány o jazykovědné informace. Nejrozsáhlejším anotovaným korpusem českých textů je Pražský závislostní korpus o celkovem objemu cca 2 mil. slov anotovaných na rovinách morfologické, syntaktické a významové.
V projektu elektronické cvičebnice českého tvarosloví a syntaxe se věnujeme přiblížení anotovaného korpusu, konkrétně Pražského závislostního, školní výuce češtiny. Z korpusu byla posloupností filtrací a transformací připravena cvičebnice s 11 tis. větami k procvičení tvaroslovných a větných rozborů včetně okamžité kontroly. Pro rychlý úvod do elektronické cvičebnice STYX doporučujeme navštítvit tuto stránku.
Anotování korpusů odborníky je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby anotace -- jeden z nich představují on-line hry, při kterých se hráči baví, čímž anotují data. On-line hry, coby netradiční způsob anotace, byly originálně navrženy pro obrázky. Obrázky jsou oproti textům ve výhodě, protože obsah obrázku je zřejmý víceméně jedním pohledem, zatímco čtení textu je časově náročnější. Portál LGame soustřeďuje jazykové hry, které jsou navrženy jako hry "anotační".
Cílem dp je (i) představit cvičebnici STYX a jazykové hry školákům a studentům; (ii) zpracovat jejich podněty a komentáře; (iii) navrhnout úpravy a další vylepšení aplikací.
Cíle dp podrobněji:- Seznámit se s počítačovou aplikací STYX: ovládání a koncepce transformace akademických syntaktických rozborů do větných rozborů.
- Seznámit se s herním portálem LGame.
- Vytipovat školy (základní a střední) s nadšenými češtináři. Připravit a realizovat ukázkovou hodinu, iniciovat mezi studenty a školáky několik nepovinných sezení s hraním a motivovat je k co největšímu počtu odehraných partiíí.
- Formulovat kritéria pro hodnocení zajímavosti/přínosnosti aplikací na školách.
- Dle kritérií zpracovat podněty, komentáře, nápady studentů a školáků a navrhnout úpravy a další vylepšení nástrojů.
- Domovská stránka elektronické cvičebnice STYX (http://ufal.mff.cuni.cz/styx).
- Barbora Hladká, Ondřej Kučera. An Annotated Corpus Outside Its Original Context: A Corpus-Based Exercise Book. In: Proceedings of the ACL-08: HLT Third Workshop on Innovative Use of NLP for Building Educational Applications, pp. 36-43, The Ohio State University, Columbus, Ohio, USA. 2008. Ke stažení.
- Barbora Hladká a kol. Herní portál LGame (http://www.lgame.cz)
- Barbora Hladká, Jiří Mírovský, Pavel Schlesinger: Play the Language: Play Coreference. In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pp. 209-212, Suntec, Singapore, 2009. Ke stažení.
- Ondřej Kučera. Pražský závislostní korpus jako cvičebnice jazyka českého. Diplomová práce, MFF UK Praha, 2006.
SOFTWAROVÉ PROJEKTY
- Bez nabídky.
BRIGÁDY
- Bez nabídky.
Vyřešené projekty
Název: Převod vnitřních formátů pražských korpusů
Cílem rp je implementace automatické procedury pro převod mezi formáty, které se používají pro vnitřní reprezentaci tzv. pražských korpusů (banky textů obohacené o jazykovědné informace). Konkrétně se jedná o formát založený na XML, tzv. PML a formát založený na SGML, tzv. CSTS. Velmi stručné popisy obou formátů jsou k pročtení zde.
Pro převod mezi formáty se používá procedura, která je realizována jako perlovské makro v prostředí anotačního editoru [b]TrEd. Pro některé aplikace, jejichž součástí je převod zmíněných fomtátů, je nutnost nainstalování TrEdu "na obtíž". Převodní procedura, která nevyžaduje "třetí" prostředí, by byla vhodnější.
Literatura- Vachna Michal. Ročníkový projekt, UK MFF, 2009. Uživatelská dokumentace
Název: Určení smysluplnosti věty
Cílem rp je implementace automatické procedury, která v reálném čase rozezná, je-li shluk textových řetězců českou větou. Automatická procedura by měla spolupracovat s externími automatickými moduly, které se týkají tvarosloví (slovní druhy a jejich kategorie - rod, číslo, pád, osoba aj.) a jazykového modelování (sledování posloupností slov v textech). Vyřešení tohoto úkolu je využitelné ve fulltextovém vyhledávání, kde je mj. důležité rozeznat shluk klíčových slov určených pro zmatení vyhledávače od věty určené uživateli.
Literatura- Kříž Vincent. Určování syntaktické smysluplnosti českých vět. Bakalářská práce, UK MFF, 2009. Uživatelská dokumentace, část 1, Uživatelská dokumentace, část 2, DEMO
- Rovenský Vladimír. Určení smysluplnosti české věty na základě syntaktické informace. Bakalářská práce, UK MFF, 2009. Uživatelská dokumentace.
Název: Rekonstrukce původního pořadí slov ve větě
Cílem RP je navrhnout a implementovat proceduru, která přeuspořádá vstupní řetězec slov tak, aby vznikla původní věta. Součástí rp bude i implementace procedury, která ve vstupní větě přeuspořádá slova, která spolu s původní větou budou vstupem pro hlavní proceduru.
K řešení budou k dispozici automatické nástroje pro tvaroslovný rozbor a větný rozbor. Zároveň budou k dispozici rozsáhlé soubory textů.
Literatura- Dvořák Tomáš. Rekonstrukce pořadí slov ve větách. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Název: Hledání odpovědi v odpovědích
Cílem RP je (navrhnout a) implementovat algoritmus, který k otázce najde odpověď v množině odpovědí. V rámci RP bude sestavena banka (tzv. korpus) otázek a odpovědí z rozhovorů shromážděných ze zdrojů dostupných na internetu (doména a rozsah budou diskutovány). Základní schéma projektu je znázorněno následovně. Implementován bude algoritmus, který do vyhledávání odpovědí zapojí tzv. tf-idf váhu, pojem pocházející z oblasti information retrieval. Dále pak bude navržen a implementován algoritmus, který do vyhledávání zapojí i tvaroslovné informace o slovech v otázce a v odpovědích (viz příklad).
Literatura- Záhumenský Jakub. Hĺadanie odpovede v odpovediach. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Název: Doplňování informace o slovním druhu k chybějícím slovům textu
Český akademický korpus je poměrně rozsáhlá banka českých textů, které byly shromážděny v 70. letech minulého století. K jednotlivým slovům tohoto korpusu byla doplněna informace mj. o slovním druhu a jeho kategoriích (rod, číslo, pád, osoba aj.). Bohužel v textech jsou věty, ve kterých chybí vice či jedno slovo. Detekce těchto podezřelých míst byla provedena ručně.
Cílem rp je implementace automatické procedury, která u chybějících a ručně lokalizovaných slov doplní informace o slovním druhu a dalších kategoriích.
Příklad: Český akademický korpus obsahuje např. větu: Totéž platí o děvčatech []# ročníku v kursu šití od []? Tomešové z prodejny látek. Ručně byla do věty doplněna informace o tom, že před slovem Tomešové "něco" chybí. To "něco" je reprezentováno řetězcem '[]#'. Podíváte-li se na obrázek, který reprezentuje větný rozbor dané věty tak, jak je reprezentován v korpusu, uvidíte, že u všech ostatních slov věty je informace o slovním druhu a ostatních kategoriích - tato informace je "zakódována" v 15-ti poziční značce. Pro doplnění 15-ti poziční značky pro "něco" bude automatická procedura využívat značek ostatních slov věty.
Literatura- Václ Jan. A suspected annotation detection. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Název: Využití popisků obrázků v aplikaci počítačového zpracování přirozeného jazyka
- Anotace: Cílem rp je připravit textová data pro zjištění míry přínosu databáze obrázků s popisky pro vybranou úlohu počítačového zpracování přirozeného jazyka. Databáze je výstupem hry ESPgame, která obsahuje dvojice (obrázek, popisky), jako např. (obrázek, popisky). Podrobnosti ke hře jsou uvedeny v článku (von Ahn, Dabbish, 2004).
V seznamu obrázků mohou být slova, která spolu významově souvisí. Například v uvedeném příkladě {guy, person}, {face, nose}, {ceiling, room}}. Zabýváme se myšlenkou, mohou-li být popisky nápovědou pro úlohy, které pracují s textem. Konkrétně máme na mysli úlohu automatického určování slov v textu, které odkazují k témuž.
Cíle rp podrobněji:
- Analýza popisků ve vzorku, se kterým budeme pracovat (viz Small ESP Game Datase níže): popisky jakých slovních druhů, průniky množin popisků, ...
- Překlad anglických popisků do češtiny.
- Výběr vhodné datové reprezentace množin popisků.
- Ve vybraném textu označit slova ze stejné množiny popisků.
K řešení budou k dispozici automatické nástroje pro překlad popisků a pro tvaroslovný rozbor (morfologickou analýzu a syntézu).
- Odkazy:
- Nástroj tool_chain.
- Překladový systém TectoMT.
- Data Small ESP Game Dataset.
- Luis von Ahn, Laura Dabbish Labeling Imager with a Computer Game. ACM Conference on Human Factors in Computing Systems, CHI 2004. pp 319-326.
- Knopp Tomáš. On the Possibilitz of ESP Data Use in Natural Language Processing. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Název: Vzájomné odkazovanie slov v texte
Cieľom tejto bakalárskej práce je preskúmať moţnosti hľadania koreferencií pomocou systému pravidiel na základe morfologických a syntaktických informácií. Súčasťou práce je aj vizualizácia koreferencií v texte a evaluácia jednotlivých pravidiel. Za týmto účelom bola vytvorená aplikácia Koreferencie, ktorá tvorí prostredie pre vizualizáciu textu, tvorenie a evaluáciu pravidiel. Vytvorená a evaluovaná bola sada pravidiel. Súčasťou práce je popis pravidiel a moţnosti pravidlového systému spolu s algoritmom aplikácie pravidiel na text. Poslednú časť práce tvorí uţívateľská a programátorská dokumentácia.
Literatura- Pecsok Ján. A Vzájomné odkazovanie slov v texte. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.