Ročníkové projekty|Bakalářské práce|Diplomové práce|Softwarové projekty|Vyřešené projekty|Brigády

Kontakt: Barbora Vidová Hladká (hladka@ufal.mff.cuni.cz)

ROČNÍKOVÉ PROJEKTY

Název: Rozšíření funkčnosti editoru Čapek

Název: Hra Vlož mezeru (Place the Space) pro iPhone

Název: Rekonstrukce věty internetovou hrou

Název: Rekonstrukce věty hrou pro iPhone

Název: Automatické vyhledávání rozhovorů na webu

Název: Zpracování kolekce pracovních inzerátů jazykovými nástroji



BAKALÁŘSKÉ PRÁCE

Název: Refaktorizace a vylepšení funkčnosti her portálu LGame

Metodologie 'Games With A Purpose' (GWAP) využívá nadšení uživatelů hrát on-line hry tak, že na pozadí hraní jsou generována potřebná data. Poprvé byla tato metodologie uplatněna ve hrách s obrázky (viz http://gwap.com). Portál LGame byl založen pro publikování takových her s přirozeným jazykem.

Aktuální verze her portálu charakterizujeme jako funkční prototypy. Cílem bp je refaktorovat hry za účelem snadnější údržby a vylepšit jejich funkčnost na základě zkušenosti uživatelů.

Cíle bp podrobněji: Literatura:

DIPLOMOVÉ PRÁCE

Název: Sledování aktivovanosti objektů v dokumentech (Tracing salience in documents)

Při analýze promluvy (diskurzu) (promluvy) se pracuje s tzv. stupněm aktivovanosti objektů, o kterých se mluví. Volně řečeno, mluvčí/pisatel o něčem začne mluvit/psát, pak přejde k jinému tématu (objektu), následně se vrátí k tématu (objektu), o kterém hovořil/psal na začátku, ... To, jak "moc" či "málo" se o daném objektu hovoří napříč dokumentem, je ono sledování aktivovanosti. Příklad aplikace, která se o aktivovanost může opírat, je zjišťování hlavního tématu dokumentu.

Prvotní návrh algoritmu pro sledování aktivovanosti byl již implementován; výsledky byly názorně vizualizovány (Hajičová, Hladká, Kučová, 2006). Algoritmus je procedurální a byl testován na malém vzorku dat nezávisle na aplikaci, které by mohl být přímou součástí.

Cíle dp podrobněji: Literatura:

Název: Školní větné rozbory jako možný zdroj treebanků(?) (OBSAZENO)

Jednou z oblastí výzkumu počítačové lingvistiky je anotování korpusů. Korpusy jsou rozsáhlé banky textů a mluvených projevů, které jsou při anotování obohacovány o jazykovědné informace. Nejrozsáhlejším anotovaným korpusem českých textů je Pražský závislostní korpus (PDT) o celkovem objemu cca 2 mil. slov anotovaných na rovinách morfologické, syntaktické a významové.

V projektu elektronické cvičebnice českého tvarosloví a syntaxe se věnujeme přiblížení anotovaného korpusu, konkrétně Pražského závislostního, školní výuce češtiny. Z korpusu byla posloupností filtrací a transformací připravena cvičebnice s 11 tis. větami k procvičení tvaroslovných a větných rozborů včetně okamžité kontroly. Pro rychlý úvod do elektronické cvičebnice STYX doporučujeme navštítvit tuto stránku.

Anotování korpusů odborníky je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby anotace -- jeden z nich představují on-line hry, při kterých se hráči baví, čímž anotují data (viz např. GWAP, PhraseDetectives, LGame). Další alternativní způsob anotace zapojí školáky, a to tak, že jim nabídneme editor větných rozborů Elysium. Tento editor je rozšířením systému Styx.

Cílem dp je (i) představit editor Elysium školákům a učitelům; (ii) motivovat je, aby editor používali; (iii) shromáždit rozbory vytvořené v Elysiu, zpracovat podněty a komentáře; (iii) navrhnout a implementovat automatickou proceduru pro převod školských rozborů do koncepce PDT.

Cíle dp podrobněji: Literatura:

Název: Zapojení počítačových aplikací do hodin českého jazyka

Jednou z oblastí výzkumu počítačové lingvistiky je anotování korpusů. Korpusy jsou rozsáhlé banky textů a mluvených projevů, které jsou při anotování obohacovány o jazykovědné informace. Nejrozsáhlejším anotovaným korpusem českých textů je Pražský závislostní korpus o celkovem objemu cca 2 mil. slov anotovaných na rovinách morfologické, syntaktické a významové.

V projektu elektronické cvičebnice českého tvarosloví a syntaxe se věnujeme přiblížení anotovaného korpusu, konkrétně Pražského závislostního, školní výuce češtiny. Z korpusu byla posloupností filtrací a transformací připravena cvičebnice s 11 tis. větami k procvičení tvaroslovných a větných rozborů včetně okamžité kontroly. Pro rychlý úvod do elektronické cvičebnice STYX doporučujeme navštítvit tuto stránku.

Anotování korpusů odborníky je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby anotace -- jeden z nich představují on-line hry, při kterých se hráči baví, čímž anotují data. On-line hry, coby netradiční způsob anotace, byly originálně navrženy pro obrázky. Obrázky jsou oproti textům ve výhodě, protože obsah obrázku je zřejmý víceméně jedním pohledem, zatímco čtení textu je časově náročnější. Portál LGame soustřeďuje jazykové hry, které jsou navrženy jako hry "anotační".

Cílem dp je (i) představit cvičebnici STYX a jazykové hry školákům a studentům; (ii) zpracovat jejich podněty a komentáře; (iii) navrhnout úpravy a další vylepšení aplikací.

Cíle dp podrobněji: Literatura:

SOFTWAROVÉ PROJEKTY



BRIGÁDY



Vyřešené projekty

Název: Převod vnitřních formátů pražských korpusů

Cílem rp je implementace automatické procedury pro převod mezi formáty, které se používají pro vnitřní reprezentaci tzv. pražských korpusů (banky textů obohacené o jazykovědné informace). Konkrétně se jedná o formát založený na XML, tzv. PML a formát založený na SGML, tzv. CSTS. Velmi stručné popisy obou formátů jsou k pročtení zde.

Pro převod mezi formáty se používá procedura, která je realizována jako perlovské makro v prostředí anotačního editoru [b]TrEd. Pro některé aplikace, jejichž součástí je převod zmíněných fomtátů, je nutnost nainstalování TrEdu "na obtíž". Převodní procedura, která nevyžaduje "třetí" prostředí, by byla vhodnější.

Literatura
  1. Vachna Michal.
  2. Ročníkový projekt, UK MFF, 2009. Uživatelská dokumentace
Podrobnější informace na vyžádání.

Název: Určení smysluplnosti věty

Cílem rp je implementace automatické procedury, která v reálném čase rozezná, je-li shluk textových řetězců českou větou. Automatická procedura by měla spolupracovat s externími automatickými moduly, které se týkají tvarosloví (slovní druhy a jejich kategorie - rod, číslo, pád, osoba aj.) a jazykového modelování (sledování posloupností slov v textech). Vyřešení tohoto úkolu je využitelné ve fulltextovém vyhledávání, kde je mj. důležité rozeznat shluk klíčových slov určených pro zmatení vyhledávače od věty určené uživateli.

Literatura
  1. Kříž Vincent. Určování syntaktické smysluplnosti českých vět. Bakalářská práce, UK MFF, 2009. Uživatelská dokumentace, část 1, Uživatelská dokumentace, část 2, DEMO
  2. Rovenský Vladimír. Určení smysluplnosti české věty na základě syntaktické informace. Bakalářská práce, UK MFF, 2009. Uživatelská dokumentace.
Podrobnější informace na vyžádání.

Název: Rekonstrukce původního pořadí slov ve větě

Cílem RP je navrhnout a implementovat proceduru, která přeuspořádá vstupní řetězec slov tak, aby vznikla původní věta. Součástí rp bude i implementace procedury, která ve vstupní větě přeuspořádá slova, která spolu s původní větou budou vstupem pro hlavní proceduru.

K řešení budou k dispozici automatické nástroje pro tvaroslovný rozbor a větný rozbor. Zároveň budou k dispozici rozsáhlé soubory textů.

Literatura
  1. Dvořák Tomáš. Rekonstrukce pořadí slov ve větách. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Podrobnější informace na vyžádání.

Název: Hledání odpovědi v odpovědích

Cílem RP je (navrhnout a) implementovat algoritmus, který k otázce najde odpověď v množině odpovědí. V rámci RP bude sestavena banka (tzv. korpus) otázek a odpovědí z rozhovorů shromážděných ze zdrojů dostupných na internetu (doména a rozsah budou diskutovány). Základní schéma projektu je znázorněno následovně. Implementován bude algoritmus, který do vyhledávání odpovědí zapojí tzv. tf-idf váhu, pojem pocházející z oblasti information retrieval. Dále pak bude navržen a implementován algoritmus, který do vyhledávání zapojí i tvaroslovné informace o slovech v otázce a v odpovědích (viz příklad).

Literatura
  1. Záhumenský Jakub. Hĺadanie odpovede v odpovediach. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Podrobnější informace na vyžádání.

Název: Doplňování informace o slovním druhu k chybějícím slovům textu

Český akademický korpus je poměrně rozsáhlá banka českých textů, které byly shromážděny v 70. letech minulého století. K jednotlivým slovům tohoto korpusu byla doplněna informace mj. o slovním druhu a jeho kategoriích (rod, číslo, pád, osoba aj.). Bohužel v textech jsou věty, ve kterých chybí vice či jedno slovo. Detekce těchto podezřelých míst byla provedena ručně.

Cílem rp je implementace automatické procedury, která u chybějících a ručně lokalizovaných slov doplní informace o slovním druhu a dalších kategoriích.

Příklad: Český akademický korpus obsahuje např. větu: Totéž platí o děvčatech []# ročníku v kursu šití od []? Tomešové z prodejny látek. Ručně byla do věty doplněna informace o tom, že před slovem Tomešové "něco" chybí. To "něco" je reprezentováno řetězcem '[]#'. Podíváte-li se na obrázek, který reprezentuje větný rozbor dané věty tak, jak je reprezentován v korpusu, uvidíte, že u všech ostatních slov věty je informace o slovním druhu a ostatních kategoriích - tato informace je "zakódována" v 15-ti poziční značce. Pro doplnění 15-ti poziční značky pro "něco" bude automatická procedura využívat značek ostatních slov věty.

Literatura
  1. Václ Jan. A suspected annotation detection. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Podrobnější informace na vyžádání.

Název: Využití popisků obrázků v aplikaci počítačového zpracování přirozeného jazyka

Literatura
  1. Knopp Tomáš. On the Possibilitz of ESP Data Use in Natural Language Processing. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.

Název: Vzájomné odkazovanie slov v texte

Cieľom tejto bakalárskej práce je preskúmať moţnosti hľadania koreferencií pomocou systému pravidiel na základe morfologických a syntaktických informácií. Súčasťou práce je aj vizualizácia koreferencií v texte a evaluácia jednotlivých pravidiel. Za týmto účelom bola vytvorená aplikácia Koreferencie, ktorá tvorí prostredie pre vizualizáciu textu, tvorenie a evaluáciu pravidiel. Vytvorená a evaluovaná bola sada pravidiel. Súčasťou práce je popis pravidiel a moţnosti pravidlového systému spolu s algoritmom aplikácie pravidiel na text. Poslednú časť práce tvorí uţívateľská a programátorská dokumentácia.

Literatura
  1. Pecsok Ján. A Vzájomné odkazovanie slov v texte. Bakalářská práce, UK MFF, 2011. Uživatelská dokumentace.
Podrobnější informace na vyžádání.