Pavel Pecina

Associate Professor, Institute of Formal and Applied Linguistics, Charles University, Prague

Obhájené diplomové práce

Automatické doporučování ilustračních snímků

Většina zpravodajských serverů často opatřuje publikované články tzv. ilustračními snímky, jejichž úkolem je vizuálně dokreslovat obsah článku a upoutat na něj čtenářovu pozornost. Ilustrační snímky většinou pocházejí z rozsáhlých fotografických databází, jsou vybírány autory článku a s obsahem článku souvisejí jen relativně volně. Výběr ilustračních snímků probíhá nejčastěji na základě porovnávání klíčových slov specifikovaných autorem textu a popisků, kterými jsou obrázky v databázi opatřeny (typicky svými autory). Proces výběru ilustračních snímků (dotazování ve fotografické databázi) je obtížný jednak pro samotný vyhledávací systém (hledání relevantních fotografií na základě uživatelských dotazů), jednak pro autory, kteří musí dotazy vytvářet. Konstrukce dotazů spočívá v několika krocích: uživatel nejdříve musí identifikovat ústřední téma (či témata) článku, které chce ilustrovat vhodnou fotografií, a ta potom popsat vhodnými klíčovými slovy, zvolit a zkombinovat je tak, aby vedla k nalezení vhodného obrázku. Tento proces by mohl být zjednodušen tím, že konstrukce dotazů pro vyhledávání bude prováděna automaticky pouze na základě textu článku.
Cílem diplomové práce je navržení a implementace komfortní webové aplikace pro automatické navrhování ilustračních snímků na základě textu článku, bez nutnosti explicitně konstruovat vyhledávací dotazy. Součástí práce bude i uživatelská evaluace celého systému. Pro experimenty bude použita kolekce ilustračních snímků od společnosti Profimedia.

Automatické vytváření sémantických taxonomií

Z rozsáhlých textových korpusů lze poměrně úspěšně extrahovat nejrůznější lexikální vztahy, např. sémanticky asociované páry slov. Cílem studentské práce bude navrhnout a implementovat algoritmus, který by na základě těchto vztahů automaticky budoval celé taxonomie. (Martin Kirschner, 2012)

Evaluační metody systémů pro vyhledávání v nesegmentované řeči

Úkolem systémů pro vyhledávání v nesegmentované mluvené řeči je automatická identifikace tématicky koherentních pasáží v záznamech mluvené řeči. Vstupem je specifikace tématu (dotaz), výstupem časově určené začátky a konce relevantních pasáží. Oproti klasickému vyhledávání v kolekcích dokumentů (diskrétně rozlišených) se v tomto prípadě jedná o vyhledávání na spojitém prostoru (časové ose nahrávek); řeč není předem segmentována na kratší úseky ("dokumenty"), o jejichž relevanci k tématu je třeba rozhodnout, ale součástí řešení úlohy je tyto úseky objevit (mohou začínat, resp. končit v jakémkoliv okamžiku nahrávky).
Cílem zadané práce je seznámit se s různými přístupy pro vyhodnocování úspěšnosti systémů pro vyhledávání v nesegmentované mluvené řeči, navrhnout některé vlastní a posoudit vhodnost jejich použití na kolekci záznamů výpovědí svědků holokaustu připravené v rámci projektu Malach. (Petra Galusčáková, 2011)

Automatické vytváření slovníku z paralelních korpusů

Paralelní korpusy jsou zdrojem trénovacích dat pro metody statistického strojového překladu. Lze je ovšem využít i k řešení jednoduššího problému, a to automatického sestavení překladového slovníku. Cílem je každému slovu v jednom jazyce přiřadit jeho možné překladové ekvivalenty z druhého jazyka vybrané dle hodnot lexikálních asociačních měr spočtených na základě statistik jejich výskytů v korpusu. (Jan Popelka, 2011)

Využití syntaxe v metodách pro vyhledávání informací

Pravděpodobnostním metodám založeným na jazykovém modelování je v posledních letech výzkumu v oblasti vyhledávání informací věnována značná pozornost. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina experimentů, jejichž výsledky byly doposud publikovány, byla prováděna s klasickým n-gramovým jazykovým modelem založeným na povrchovém slovosledu. Myšlenka použití jazykového modelu využívajícího syntax není v této oblasti zcela nová, ale doposud nebyl prokázán její významnější přínos. Jedním z důvodů může být fakt, že doposud publikované práce vyhodnocovaly tento přístup na kolekci dokumentů v angličtině, která má poměrně pevný slovosled a přínos využití syntaxe zde nemusí být tak významný. Dalším důvodem může být poměrně nízká úspěšnost použitých syntaktických parserů. Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model pro vyhledávání informací obohatila o využití syntaktické informace získané automaticky (strojově) z dokumentů i dotazů. (Jana Kravalová, 2009)

Vyhledávání v mluvené řeči

Zatímco vyhledávání informací v textových dokumentech (information retrieval) je oblast výzkumu zkoumananá již mnoho let, vyhledávání v mluvené řeči si pozornost získává až v posledních letech, kdy systémy automatického rozpoznávání řeči dosahují poměrně dobré úspěšnosti. Cílem práce bude vyhledávání relevantních pasáží v kolekci automatických přepisů výpovědí svědků holokaustu vytvořené v rámci projektu Malach. (Pavel Češka, 2008)

Obhájené bakalářské práce

Extrakce klíčových slov z dokumentů

Vědecké publikace (články v časopisech, příspěvky na konferencích) ale také např. agenturní zprávy bývají často při vydání opatřeny několika klíčovými slovy, které velice stručně charakterizují jejich obsah nebo pouze oblast, které se týkají. Většinou bývají přiřazeny autorem nebo editorem publikace. V případě, že chybí, se můžeme pokusit přiřadit je automaticky na základě statistické analýzy dokumentu nebo celé kolekce. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení. (Radoslav Klíč, 2009)

Metody extrakce víceslovných výrazů z textu

Víceslovné výrazy jsou neobyčejně zajímavým jevem. Jedná se o případy, kdy více slov tvoří významově nedělitelný celek, jeho rozbitím by se význam původního výrazu ztratil, mluvíme o tzv. nekompozičnosti. Takové případy je vhodné při zpracování textu ošetřovat zvlášť. Metody automatické identifikace těchto výrazů jsou založeny na statistikách výskytu slov v textu a jejich úspěšnost závisí na množství analyzovaného textu. V dnešní době jsou k dispozici i velice rozsáhlé textové korpusy, jejichž zpracovaní a získání potřebných statistik je paměťově i časově poměrně náročné. Řešení úlohy spočívá v efektivní implementaci metod extrakce víceslovných výrazů pro použití na korpusech o velikosti v řádu miliard slov. (Česlav Przywara, 2008)

Sumarizace textu

Podobně jako v předchozím případě jde i zde o extrakci částí dokumentů, které co nejvíce charakterizují jejich obsah. Nezůstáváme však u izolovaných klíčových slov (nebo krátkých slovních spojení), ale jde nám o celé věty, které tak mohou tvořit jakýsi abstrakt dokumentu. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení. (Martin Majliš, 2008)

Automatické čištění dokumentů pro webový korpus

Možnost využití textů publikovaných na internetu jako obrovského korpusu je velice lákavá, vždyť objem takto dostupných dat je s velikostí klasických korpusů nesrovnatelný a pro čím dál tím populárnější metody založené na "unsupervised learningu" tak nesmírně cenný. Úskalím je však nutnost čištění těchto dat, tedy odstraňování částí, které netvoří vlastní obsah stránek (hlavičky, patičky, reklamy, atp.). Cílem projektu je aplikovat na tento problém metody strojového učení (tentokrát "supervised") a vytvořit programový nástroj, který bude čištění provádět automaticky. (Michale Marek, 2007)

Aplikace pro ruční alignment

Word alignment (párování slov) je důležitou součástí systémů statistického strojového překladu. Slovům vět v jednom jazyce se přiřazují slova z věty v jazyce druhém, tak aby se získaly nejlepší překladové páry slov. Zatímco v předchozím případě šlo o automatické řešní tohoto problému, nyní je úkolem řešitelovým navrhnout a implementovat grafický nástroj pro ruční hledání slovních párů. Vyvinutá aplikace by měla být jednoduchá, ale uživatelsky velmi přívětivá a měla by umožňovat co nejefektivnější práci. Velký důraz bude kladen na analýzu a návrh uživatelského rozhraní. Aplikace by měla být provozuchopná na různých operačních systémech a případně na webu. Doporučeným programovacím jazykem je JAVA. (Jan Sochna, 2007)

Vizualizace podobnosti dokumentů

Žijeme v informační společnosti, každým dnem a každým okamžikem vznikají obrovská množství dat a informací. Zpravodajské agentury, vydavatelé novin, časopisů, knih, státní zpráva, vědečtí pracovníci, ale i soukormé osoby produkují denně tisíce (ve světovém měřítku miliony) textových dokumentů. Zcela přirozeně se objevuje potřeba strojového zpracování těchto dat, zejména vyhledávání a vzájemné porovnávání. I přesto. že manuální zpracování a porovnávání je při podobných množstvích nereálné, v některých případech je ruční zásah žádoucí.
Cílem navrhovaného projektu je implementovat aplikaci s grafickým rozhraním umožňující komfortní porovnávání dvojic dokumentů. Tento nástroj by měl zobrazovat dokumenty v různých náhledech (paralelní zobrazení, diff-like zobrazení, maticové zobrazení atp.). (Lenka Smejkalová, 2007)

Hledání téměř identických dokumentů ve velkých kolekcích

Řěšení úlohy spočívá v efektivní implementaci algoritmů pro hledání velmi podobných textů v kolekcích čítajících až miliony dokumentů. Jedná se o spojení metod pro porovnávání dvojic dokumentů a metod pro prohledávání velkých kolekcí. Úlohu lze řešit na různých úrovních jako ročníkový projekt, bakalářskou i diplomovou práci. (Daniel Benčík, 2007)

Grafové algoritmy a závislostní parsing

Aplikace grafových algoritmů v oblasti zpracování přirozeného jazyka se v poslední době stávají velmi populární. Např. úlohu závislostního parsingu lze řešit pomocí algoritmu na hledání maximální kostry orientovaného ohodnoceného grafu. Slova analyzované věty tvoří vrcholy úplného grafu, ohodnocení hran se získá z trénovacích dat a nalezená maximální kostra pak reprezentuje nejlepší možný závislostní strom věty.
Řešení projektu bude spočívat: a) v efektivní implementaci algoritmu pro hledání maximální kostry grafu, b) v implementaci výpočtu ohodnocení hran grafu a c) v navržení a implementaci datových struktur pro uložení parametrů modelu závislostí. V rámci ročníkového projektu bude důraz kladen na část a), ostatní části mohou být řešeny jednoduše a případně rozpracovány v rámci bakalářské práce. (Antonín Wimberský, 2007)

Automatický word alignment

Jinou úlohou, kterou lze řešit pomocí grafového algoritmu je párování slov. Vstupem je v tomto případě věta ve dvou jazycích (např. v češtině a angličtině). Úkolem potom je automaticky spárovat slova věty v obou jazycích tak, aby se nalezly nejpravděpodobnější překladové dvojice. Tento problém lze řešit jako hledání maximálního pokrytí v úplném ohodnoceném bipartitním grafu. Vrcholy grafu jsou tvořeny slovy v jednom a v druhém jazyce. Hrany jsou ohodnocny mírou asociace spočtenou na základě trénovacích dat.
Řešení projektu bude opět spočívat: a) v efektivní implementaci algoritmu pro hledání maximálního pokrytí bipartitního grafu, b) v implementaci výpočtu ohodnocení hran bipartitního grafu a c) v implementaci datových struktur pro uložení asociačích skór. V rámci ročníkového projektu bude důraz kladen na část a), ostatní části mohou být řešeny jednoduše a případně rozpracovány v rámci bakalářské práce. (Jana Kravalová, 2007)

Webcrawler

Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových textů je však různá a data je nutné filtrovat a čistit. Program by měl automaticky procházet "celý internet" a kvalitní texty v určeném jazyce stahovat a ukládat. (Dan Lessner, 2006)

Segmentace textu

Textová data určená pro pokročilejší lingvistické zpracování je nejprve nutné zpracovat na základní úrovni oddělit od sebe slova, rozpoznat konce a začátky vět, dokumentů atp. V pokročilejších fázích je vhodné identifikovat i složitější entity (čísla, datumy, jména). Cílem práce je implementovat program, který bude tuto problematiku řešit pro texty v češtině. Část pro rozpoznávání konců vět by měl být řešena pomocí některé z metod strojového učení (např. rozhodovacích stromů) a důkladně otestována. Součást práce by měla být také příprava potřebných dat (např. slovníky zkratek a ručně rozpoznané příklady konců. (Pavel Češka, 2006)

Links

Profiles

Contact

UFAL MFF UK
Room 422, 4th floor
Malostranské nám. 25
118 00 Prague 1
Czech Republic

+420 951 554 332