Obsah


Obecné informace

Pokud máte vlastní nápad na ročníkový projekt nebo jinou studentskou práci, bude pro mně pravděpodobně zajímavá, pokud

  • ji budete psát v Perlu, Pythonu a Javě
  • ji budete vyvíjet v Linuxu
  • výsledek publikujete jako open-source
  • bude mít nějaké využítí v reálném, nebo akademickém světě ;-)
  • bude mít něco s NLP

Ročníkový projekt: Automatická extrakce konkordancí z Internetu

Zvolme libovolné cílové slovo v libovolném jazyce. V tomto projektu pod termínem konkordance myslíme kontext daného cílového slova. Tento kontext můžeme definovat počtem slov (např. 10 slov před a 10 slov za cílovým slovem), počtem vět apod. Jeden příklad za všechny, a sice cílové slovo Espana:

Cílem tohto projektu bude zhotovit aplikaci, které na vstupu zadáme cílové slovo a počet konkordancí. Aplikace následně požadované množství konkordancí vyhledá a stáhne z Internetu.

Podrobnosti

Úkolem řešitele bude především:

  • analyzovat vhodné Internetové zdroje pro získávání konkordancí,
  • vytvořit command-linovou aplikaci pro Linux,
  • vytvořit nástroje pro analyzování výsledků.

Množství a účel nástrojů pro analýzu výsledků bude záviset na specifikaci, kterou spoločně vytvoříme. Větší množství sofistikovanějších nástrojů by umožnilo vytvořit z této práce zadání pro Bakalářskou práci.


Ročníkový projekt: Framework pro extrakci informací z velkého množství jazykových dat

Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především

  • n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
  • skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)

Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.

Podrobnosti

Úkolem řešitele bude především:

  • vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
  • vymyslet vhodnou reprezentaci velkého objemu dat,
  • vytvořit knihovnu pro extrakci n/s-gramů,
  • vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.

Poslední bod je volitelný a mohl by být základem pro rozšíření práce na Bakalářskou práci.


Ročníkový projekt: Integrace výstupů jazykové analýzy do nástroje Brat

Aplikace Brat [1] je interaktivní webová aplikace, která umožňuje anotovat textové dokumenty pomocí značek a vyznačovat relace mezi těmito značkami. Aplikace je vyvíjena jako open-source projekt. [2]

Cílem tohoto projektu je vytvořit plugin do aplikace Brat, pomocí kterého bude uživatel zadávat dotazy v jazyce PML Tree Query [3]. Plugin zároveň vizualizuje úseky textu, které dotazu odpovídají, příp. k nim doplní odpovídající značky.

Nástroje pro jazykovou analýzu se nebudou spouštět on-line. Plugin bude mít specifikováno, kde vstupní soubory najde.

Podrobnosti

Úkolem řešitele bude především:

  • seznámit se s nástrojem Brat [1], systémem pro jazykovou analýzu češtiny (Treex [4] nebo tool_chain), editorem TrEd [5],
  • seznámit se systémem pluginů v aplikaci Brat
  • specifikovat a implementovat plugin pro vyhledávaní.

Práce může být rozšířena na bakalářskou například přidáním dalšího dotazovacího formalizmu.

Literatura

[1] Webová stránka projektu Brat: ​http://brat.nlplab.org/

[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii (2012). brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.

[3] Dokumentace PML Tree Query: http://ufal.mff.cuni.cz/pmltq/doc/pmltq_doc.html

[4] Treex: http://ufal.mff.cuni.cz/treex/

[5] TrEd: http://ufal.mff.cuni.cz/tred/


Diplomová práce: Webový nástroj pro anotaci textových dokumentů

Aplikace Brat [1] je interaktivní webová aplikace, která umožňuje anotovat textové dokumenty pomocí značek a vyznačovat relace mezi těmito značkami. Aplikace je vyvíjena jako open-source projekt, na kterém autoři neustále pracují. [2]

Praktické využití nástroje v projektu INTLIB [3] ukázalo, že nástroji chybí několik vlastností, bez kterých je manuální anotace v tomto nástroji zdlouhavá a pomalá.

Úkolem řešitele bude seznámit se s uživatelskými a administrátorskými připomínkami k nástroji Brat, provést jejich analýzu a specifikovat a implementovat programátorské úkoly, kterými nástroj Brat zlepší svoji použitelnost.

Podrobnosti

Úkolem řešitele bude především:

  • seznámení se s dostupnými anotačními nástroji pro anotaci značek a relací mezi značkami, jejich porovnání s nástrojem Brat;
  • analýza uživatelských a administrátorských připomínek a zkušeností s aplikací Brat;
  • specifikace programátorských úkolů, které přispějí k zlepšení aplikace Brat;
  • komunikace s autory aplikace Brat ohledně začlenění vývoje do jejich projektu, případně vytvoření vlastní větve projektu.

Poznámka

Vylepšení aplikace Brat není jediným možných řešením zadání. Pokud se v průběhu analýzy ukáže, že

  • vývoj nové aplikace by byl efektivnější a rychlejší, nebo
  • existuje jiná aplikace, která nabízí lepší vlastnosti, nebo
  • vývoj specifikovaných vlastností by byl vhodnější zlepšováním jiné aplikace,

bude toto řešení považováno minimálně za rovnocenné k původnímu záměru.

Literatura

[1] Webová stránka projektu Brat: ​http://brat.nlplab.org/

[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii (2012). brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.

[3] Webová stránka projektu INTLIB: ​http://ufal.mff.cuni.cz/intlib


Diplomová práce: Porovnání systémů pro automatickou klasifikaci dokumentů a jejich adaptace pro český jazyk

Automatická klasifikace dokumentů je klasickým problémem v oblasti zpracování přirozeného jazyka. Úkolem automatického klasifikátoru je pro zadaný dokument vybrat jeden nebo několik pojmů z předem definovaného tezauru, které dokument nejlépe charakterizují.

Úkolem řešitele bude seznámit se s metodami strojového učení, které v současnosti dosahují nejlepších výsledků, a vybrané přístupy pak použít na vytvoření klasifikátorů legislativních dokumentů Evropské unie pomocí tezauru EuroVoc.

Jako trénovací a testovací data budou použity legislativní dokumenty Evropské unie.

Podrobnosti

Úkolem řešitele bude především:

  • Seznámit se s nejpoužívanejšími technikami v oblasti klasifikace dokumentů.
  • Seznámit se s metodami pro evaluaci automatické klasifikace dokumentů.
  • Vytvořit trénovací a testovací kolekci dat z prostředí legislativy EU.
  • Natrénovat a otestovat několik přístupů ke klasifikaci dokumentů.
  • Evaluovat výsledky a porovnat výsledky jednotlivých metod.

Literatura

[1] FABRIZIO SEBASTIANI: Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.

[2] B S Harish, S Manjunath and D S Guru: TEXT DOCUMENT CLASSIFICATION: AN APPROACH BASED ON INDEXING. International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.2, No.1, January 2012

[3] Jens-Erik Mai: The modernity of classification. Journal of Documentation67. 4 (2011): 710-730.