Nová témata závěrečných prací
Doménová adaptace statistického strojového překladu
Statistický strojový překlad je aplikace strojového učení a proto platí, že optimálně bude fungovat pouze při překladu textů, které jsou podobné těm, na kterých bylo provedeno trénování. Systém trénovaný např. na novinových článcích bude jen obtížně překládat odborné texty z oblasti medicíny nebo ochrany životního prostředí apod. V ideálním případě je tedy nutné pro trénování statistického strojového překladu použít texty ze stejné domény, a to jak paralelní data pro překladové modely, tak monolinguální data pro jazykové modely. V praxi je ovšem dostupnost doménově specifických textů velice omezená. Běžně dostupné jsou většinou jen paralelní korpusy novinových článků či legislativních a jiných dokumentů státní správy, apod. Řešením v této situaci je tzv. doménová adaptace, při kterém se systém natrénovaný na (relativně) obecných (doménově nepříliš vyhraněných) textech adaptuje na konkrétní doménu. Většina metod využívá k doménové adaptaci alespoň malé množství dat z cílové domény, konkretní použití ale mohou být různá.
Cílem diplomové práce je nastudovat, popsat a otestovat existující metody doménová adaptace statistického strojového překladu a případně navrhnout, implementovat a otestovat metodu novou.
Extrakce víceslovných spojení z textu
Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramatiky, mají syntaktickou strukturu, ale zároveň také charakter sémantických jednotek (nedělitelný význam). Jako takové by tedy měli tvořit nedílnou součást slovníku (spolu s vyjádřením významu), např. protože pouze takto je možné jejich osvojení nerodilým mluvčím.
Automatickou konstrukci takového slovníku lze řešit použitím lexikálních asociačních měr, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech.
Cílem diplomové práce je návrh a implementace efektivního nástroje pro automatickou extrakci a identifikaci víceslovných spojeni v rozsáhlých textových korpusech. Řešení bude založené na principech strojového učení popsaných v [1].
Lexikální asociační míry pro více než dvouslovné výrazy
Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramaticky, mají syntaktickou strukturu ale zároveň charakter sémantických jednotek (nedělitelný význam). Měli by tedy tvořit nedílnou součást slovníku (spolu s vyjádřením významu), protože pouze takto je možné jejich osvojení nerodilým mluvčím.
Lexikální asociační míry jsou matematické funkce, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech. Kromě asociace sémantické, je možné analyzovat asociaci kolokační a použít asociační míry k extrakci slovních spojení s velkou lexikální asociací — tzv. víceslovných výrazů (multiword expressions). Většina asociačních měr je určena pro dva jevy — výskyt slova A a slova B — a lze je přímo použít pouze pro extrakci dvouslovných spojení.
Tato diplomová práce má za cíl analýzu lexikálních a asociačních měr a jejich použití pro extrakci víceslovných slovních výrazů (o více než dvou slovech). Součástí řešení bude empirická evaluace. Výhodou pro řešení budou hlubší znalosti matematické statistiky.
Robustní automatická identifikace jazyka neznámého textu
Identifikace jazyka textů na současném tak rozsáhlém multilinguálním webu je čím dál tím větším problémem. Dříve byla značná část obsahu na webu editována, jednotlivé stránky většinou jednojazyčné a relativně dlouhé. Identifikace jazyka za takových podmínek byla relativně jednoduchá (dlouhý a korektní text v jednom jazyce). V éře sociálních sítí a mikroblogování se situace stěžuje. Velká část obsahuje na dnešním webu je tvořena běžnými uživateli: diskusní fóra, čtenářské diskuse u článků, recenze, diskuse na sociálních sítích, atp. vedou k tomu, že velké množství textu už není editováno, pravopisné chyby jsou mnohem častější, používání interpunkce téměř nahodilé, na jedné stránce mohou být části v různých jazycích, příspěvky jsou krátké, plné slangových výrazů a nových zkratek. Strojové zpracování takových dat vyžaduje ve většině případů identifikaci jazyka a to na segmentech, které mohou být velice krátké (od jednoho slova).
Cílem diplomové práce je navrhnout, implementovat a otestovat nástroj pro automatickou identifikaci jazyka psaného textu. Metoda bude založena na klasických přístupech (slovníky, jazykové znakové modely, apod.) kombinovaných metodami strojového učení. V práci budou použita jazyková data získaná z Wikipedie a dalších volně přístupných zdrojů.
Automatická kontrola a oprava pravopisných chyb
Kontrola pravopisu je dnes již běžnou součástí textových editorů. Většina používaných metod je založena na slovnících a měření podobnosti slov (např. editační vzdálenosti), pokročilejší metody používají navíc např. i jazykové modelování a pracují s širším kontextem. Kontrola pravopisu funguje ve většině případů pouze jako (on-line) pomocník při psaní textu v a vyžaduje zásah uživatele (při výběru správného slovního tvaru z nabízených alternativ). Použití kontroly (a oprav) pravopisu je ovšem žádoucí i bez nutnosti zásahu uživatele (off-line), např. u již existujících textů, které není možné kvůli jejich objemu kontrolovat ručně, či při vkládání textů do různých informačních systémů, kde by mohla další intervence uživatele obtěžovat (např. při vkládání textu bez diakritiky).
Cílem diplomové práce je navrhnout, implementovat a evaluovat systém pro kontrolu a opravu pravopisných chyb bez nutnosti zásahu uživatele. Řešení práce bude obsahovat moduly pro detekci nekorektních slovních tvarů, návrh korektních alternativ a hledání globálně optimální sekvence korektních tvarů v textu.
Frázové párování v paralelních větách
Paralelní větou rozumíme větu v nějakém (zdrojovém) jazyce a její překlad do jiného (cílového) jazyka. Slovní párování (word alignment) v paralelní větě potom znázorňuje, jak slova ve zdrojovém jazyce korespondují se slovy v cílovém jazyce. Slovní párování se používá snad ve všech metodách statistického strojového překladu (Statistical Machine Translation — SMT). Ve většině případů však nejde o slovní párování přímo, ale je to prostředek pro získání složitějších struktur: např. frázových párů pro konstrukci překladových tabulek ve frázovém statistickém strojovém překladu (Phrase-Based SMT), nebo v přístupech založených na příkladech (Example-Based SMT). Slovní párování skrývá různé problémy, zejména jde o to, jak mají být párovaná slova, která nemají v druhém jazyce svůj ekvivalent (např. členy v anglicko-české paralelní větě) nebo víceslovná spojení, která lze párovat pouze jako celky a nikoliv po slovech. Zdá se, že vhodnější než párování slovní by bylo párování frázové. Tato úloha je ovšem NP-těžká [3]. Řešením je omezení prostoru hypotéz a to buď buď dekompozicí úlohy na dílčí kroky a nebo prořezáváním.
Cílem diplomové práce je návrh, implementace a evaluace metody, která by řešila párování na vyšších úrovních než slovech.
Segmentace textu: morfémy, slova, víceslovná spojení a věty
Segmentace textu v přirozeném jazyce je komplexní problém spočívající v dělení zpracovávaného textu na souvislé úseky. Segmentaci lze provádět v několika úrovních. Základním krokem při zpracování přirozeného jazyka je identifikace slovních tvarů a interpunkčních znamének, často označovaná jako tzv. tokenizace. V jazycích, které v psané formě využívají k oddělení slov mezery, není tokenizace nijak obtížná. V ostatních jazycích, které mezery mezi slovy nepoužívají, to ale problém je (např. čínština). Při segmentací na nižší úrovni než slovní jde o identifikaci tzv. morfémů, částí slov, které nesou svůj vlastní význam (kořen, předpony, přípony). Tento problém lze efektivně řešit pomocí slovníku, pokud ovšem informaci o morfémech obsahuje, ale nelze u něj předpokládat 100% pokrytí. Segmentací na vyšší úrovni je pak identifikace vět, tedy jejich začátků a konců.
Cílem práce je návrh, implementace a experimentální evaluace efektivního nástroje pro segmentaci textu na všech úrovních. Použité metody budou založeny na řízeném i neřízeném strojovém učení.
Spolehlivá extrakce paralelních vět z paralelních a srovnatelných korpusů
Paralelní data ve formě množin paralelních vět (párů vět ve dvou jazycích) jsou nezbytná pro trénovaní systémů statistického strojového překladu. Na jejich kvalitě a množství přímo závisí kvalita výsledného překladu. Zdrojem těchto dat jsou často korpusy paralelních textů, tedy párů dokumentů ve dvou jazycích, ve kterých je třeba paralelní věty identifikovat, tedy označit páry vět, které jsou svým vlastním překladem. Tato úloha bývá označována jako větné zarovnávání (sentence alignment) a její řešení je v případě přesných (doslovných) překladů relativně jednoduché a spolehlivé. Příkladem velice přesných překladů jsou např. legislativní nebo právnické texty, ve kterých jde typicky o zachování významu jednotlivých vět, jejichž pořadí se nemění, nepřidávají se ani neubírají žádné informace. Překlady např. novinových článků, ve kterých není zachování významu na úrovni vět nezbytné, bývají méně přesné. Ještě volnější jsou obvykle texty beletristické, kde bývá význam zachováván spíše u větších celků a nemalý důraz je kladen na uměleckou stránku překladu. Větné zarovnání v těchto případech je samozřejmě obtížnější. Ještě složitější je situace v případě, že jde o texty, které jsou si podobné pouze tématicky. Paralelních vět je v nich výrazně méně a jejich identifikace obtížná.
Cílem diplomové práce je navrhnout, implementovat a experimentálně otestovat metodu pro extrakci paralelních vět z korpusů s různou úrovní přesnosti překladu. Navržená metoda bude založena na větném zarovnávání a odhadu jeho spolehlivosti.
Pojmenované entity ve statistickém strojovém překladu
Pojmenované entity jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.
V překladu mají pojmenované entity zvláštní postavení — buď se nepřekládají vůbec (např. označení/typ nějakého výrobku), nebo je nutné je lokalizovat dle zvyklostí v cílovém jazyce/zemi (zápis časových údajů), případně překládat dle slovníku jako celky (nikoliv po částech). Pojmenované entity navíc způsobují velice závažný problém tzv. řídkosti dat (data sparsity). Zatímco běžná slova mají tendenci se opakovat dle Zipfova zákona, u pojmenovaných entit je distribuce výskytu výrazně plošší a neznámých slov (out-of-vocabulary words) více.
Tradiční metody statistického strojového překladu pojmenované entity většinou ignorují a zacházejí s nimi jako s běžnými slovy. Cílem této diplomové práce je navrhnout, implementovat a evaluovat modifikace frázového statistického strojového překladu , které budou využívat znalostí o pojmenovaných entitách ke zlepšení kvality překladu, a to zejména ve dvou směrech: a) redukce řídkosti dat nahrazením pojmenovaných entit meta-slovy a b) následný překlad pojmenovaných entit pomocí pravidel či zvláštního slovníku.
Korektor anglické gramatiky: určité a neurčité členy
Správné používání určitých a neurčitých členů v angličtině je pro mnohé nerodilé mluvčí obtížné, a to i přesto, že jejich užívání má poměrně jasná pravidla a rodilým mluvčím většinou problém nepůsobí. Cílem práce je tato pravidla analyzovat, navrhnout automatickou metodu, která bude nesprávné použití určitých a neurčitých členů v angličtině automaticky odhalovat a opravovat.
Cílem diplomové práce je navrhnout, implementovat a experimentálně otestovat nástroj pro automatickou opravu používání určitých a neurčitých členů v angličtině Řešení práce bude spočívat ve dvou krocích: 1) Detekovat potenciální výskyty členů ve větě bez ohledu na to, zda-li se tam člen vyskytuje nebo ne. 2) O každé takové pozici rozhodnout, zda-li má být obsazena nějakým (a případně jakým) členem nebo nikoliv. První krok bude vyžadovat důkladnou analýzu jazykových pravidel používání členů v angličtině a jejich formální popis, který bude použit pro automatickou detekci potenciálních pozic výskytů členů ve větě. Tento krok bude zahrnovat morfologickou a syntaktickou analýzu vstupní věty. Druhý krok bude založen na tzv. značkování (každé potenciální pozici bude přiřazen správný člen, případně žádný člen). Úlohu značkování lze řešit několika různými metodami strojového učení (s učitelem či bez učitele, generativním či diskriminativními metodami). Součástí práce bude srovnání vybraných postupů a doporučení optimálního řešeni.
Faktory ve frázovém statistickém strojovém překladu
Koehn a Hoang (2007) navrhli rozšíření frázového statistického strojového překladu o tzv. faktory, tedy rysy asociované s jednotlivými slovy (na zdrojové i cílové straně). Takovými rysy mohou být morfologické značky, základní slovní tvary, nejrůznější třídy slov nebo dokonce syntaktické informace. Jednotlivé modely (jazykové, překladové) potom mohou vyžívat různých faktorů (a jejich kombinací), nikoliv jen povrchových tvarů slov.
Použití faktorů může ale nemusí vést ke zlepšení kvality strojového překladu. Základním problémem je vhodná volba faktorů — zejména z hlediska řídkosti dat. Cílem této experimentální práce je optimalizace tvorby faktorů v anglicko-českém a česko-anglickém frázovém statistickém strojovém překladu. Evaluace bude prováděna na několika různých testovacích množinách.
Dynamické parametrizování statistického strojového překladu
Moderní systémy pro statistický strojový překlad jsou založeny na tzv. log-lineárním modelu, který se používá pro hodnocení jednotlivých překladových hypotéz v průběhu tzv. dekódování, hledání nejlepšího překladu vstupní věty. Tento model spočívá v lineární kombinaci zlogaritmovaných hodnot poskytovaných dílčími modely (překladové modely, jazykový model, atd.), která je parametrizovaná tzv. váhovým vektorem. Každý dílčí model má tedy přiřazenu svoji váhu. Optimalizace váhového vektoru se provádí na tzv. vývojových datech, nejčastěji metodou Minimum Error Weight Training, a má podstatný vliv na kvalitu výsledného překladu. Doposud se předpokládalo, že nastavení váhového vektoru je pro konkrétní úlohu pevné, ale nabízí se otázka, zda-li by nebylo výhodnější váhový vektor nastavit pro každou překládanou větu zvlášť.
Diplomové práce má dva cíle: 1) implementace dynamického parametrizování log-lineárního modelu do překladového systému Moses a 2) navržení, implementace a otestování funkce, která by změnu váhového vektoru prováděla pro každou větu zvlášť.
Automatické stahování lingvistických dat z webu
Internet (a zejména World Wide Web) je rozsáhlým a relativně lehce přístupným zdrojem lingvistických dat. Jejich automatické stahování a vytváření textových korpusů má široké využití, zejména pokud by šlo o tzv. doménově specifické korpusy, tedy texty z předem definovaných domén.
Celý proces vytváření tzv. doménově specifických webových korpusů spočívá v několika krocích: 1) automatické procházení webu (webcrawling), 2) čištění dat (extrakce textu z HTML a jiných dokumentů), 3) identifikace jazyka a 4) identifikace a odstraňování duplicit.
Cíl práce spočívá v návrhu, implementaci a evaluaci funkčního, robustního a na údržbu nenáročného prostředí pro automatické vytváření doménově specifických webových korpusů. Pro některé kroky jsou vhodné nástroje dostupné, jiné je nutné implementovat. Součástí práce bude rešerše existujících možností, specifikace požadavků a následná modifikace existujících nástrojů nebo implementace nových řešení.
Segmentace textu na tématické pasáže
U delších textových dokumentů lze předpokládat, že pojednávají o více tématech. Pokud budeme navíc předpokládat, že v jednom okamžiku (na konkrétní pozici) je aktuální právě jedno téma, lze definovat úlohu tématické segmentace textu na jako hledání bodů v textu, kde se téma mění. Základním rysem při změně tématu je především změnou aktuálně používaného slovníku, lze ale využít i mnoho dalších znaků.
Témata mohou, ale nemusí, být specifikována předem, což ovlivňuje výběr metod, které lze pro řešení použít. Neřízené (unsupervised) metody se používají v případě, kdy témata nejsou nijak specifikována, cílem je potom identifikovat místa v textu, kdy dochází k signifikantní změně ve slovní zásobě (přestanou se opakovat slova, která jsou pro specifické téma charakteristická). Řízené (supervised) metody předpokládají předem daná témata (a jejich popis, například formou výčtu klíčových slov) a hledají začátky a konce pasáží, kde se tato slova vyskytují.
Cílem diplomové práce je návrh, implementace a otestování vlastní metody vycházející ze současných postupů. Výsledný nástroj musí být navržený a implementovaný obecně, tak aby umožňoval zpracování např. i automatických přepisů audio dat apod.
Diskriminativní závislostní parsing a víceslovné výrazy
Závislostní parsing (hledání závislostních stromů vět) je jednou ze základních úloh počítačové lingvistiky. K řešení této úlohy lze přistupovat různě. Jedna z nejlepších současných metod je založena na strukturované predikci a závislostní stromy hledá jako minimální kostry ohodnoceného grafu, jehož vrcholy tvoří slova věty a hrany jsou ohodnoceny odhadem pravděpodobnosti existence závislostního vztahu mezi příslušnými slovy. Víceslovné výrazy (multiword expressions) se vyznačují tím, že jejich komponenty jsou silně lexikálně asociované, a hypotéza zní, jestli je možné použít míry lexikální asociace jako rysy v diskriminantním modelu pro parsing.
Řešení diplomové práce spočívá v podrobném nastudování metod diskriminativního závislostního parsingu a implementaci modifikace, která umožní využití lexikálních asociačních měr jako rysů. Součástí práce bude i evaluace na standardních testovacích datech.
Vyhledávání v rozsáhlých obrazových datových kolekcích
V úloze vyhledávání informací jde o vyhledání objektů (dokumentů), které odpovídají požadavkům uživatele specifikovaným formou tzv. dotazů. Modalita dokumentů i dotazů může být libovolná. Nejčastěji jde o vyhledávání v textových dokumentech na základě textových dotazů (viz. různé internetové vyhledávače). Relativně běžné je dnes i vyhledávání formou mluvených dotazů. Dokumenty mohou být také mluvené [1], ale možné je i vyhledávání v obrazových datech (ať už jde o statické snímky nebo videa). Základní metody vyhledávání na modalitě dotazů a dokumentů příliš nezávisí, vždy je nejdříve nutné reprezentovat jak dokumenty, tak dotazy nějakým modelem, nejčastěji formou vektorů reálných čísel, které odpovídají hodnotám rysů. Tyto rysy na modalitě již ale závisí. Ve vyhledávání v obrazových databázích jde primárně o vyhledávání obrázků, které ovšem mohou být opatřeny textovými popisky. Kombinují se zde tedy rysy grafické i textové.
Řešení diplomové práce spočívá v důkladné rešerši, návrhu a implementaci vyhledávacího systému pro vyhledávání statických obrazových data(případně modifikace nějakého existujícího) a jeho otestování. Pro experimenty bude použita kolekci ilustračních snímků od společnosti Profimedia.
Anonymizace textu
Anonymizace textu spočívá v odstranění částí textu, které by mohly vést k identifikaci nějaké osoby (ať už fyzické nebo právnické). Z hlediska počítačové lingvistiky je to aplikace rozpoznávání pojmenovaných entit (určitého typu) a jejich nahrazením nějakým generickým slovem nebo značkou, tak aby výsledný text neobsahoval žádné osobní údaje.
Pojmenované entity v počítačové lingvistice jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.
Cílem diplomové práce je návrh, implementace a otestování nástroje pro anonymizaci dokumentů. Součástí práce bude podrobná analýza pojmenovaných entit, které bude nutné odstraňovat, analýza nástrojů a metod pro rozpoznávání entit tohoto typu (případně jeho modifikace či kompletní implementace), příprava testovacích data a evaluace.
Vizuální analýza chyb strojového překladu
Kvalitu výstupu strojového překladu nelze v žádném případě považovat za dostatečnou a je stále třeba pracovat na jeho vylepšování. Součástí tohoto "zdokonalování" je důsledná manuální analýza chyb, která může být ovšem velmi pracná.
Řešení diplomové práce bude spočívat ve vytvoření uživatelsky komfortního nástroje pro analýzu chyb statistického strojového překladu. Nástroj bude umět vizualizovat vstupní větu, její překlad, frázové párování, zobrazení alternativ a jejich skórování.