ML: Návrh studijního plánu tak, jak je teď na webu

Pracovní verze

20. června 2005

V tomto dokumentu předkládáme novou – minimalizovanou původní – verzi zkušebních okruhů oboru I-3 Matematická lingvistika. Předkládáme i návrh zkušebních otázek. Není vůbec jasné, kdy by mohly zkušební okruhy v navrhované podobě vejít v platnost. Vše souvisí s celkovými změnami v rámci studijního programu informatiky jako takové.

STUDIJNÍ PLÁN PRO OBOR I-3 MATEMATICKÁ LINGVISTIKA

Garantující pracoviště: ÚFAL
Odpovědný učitel: RNDr. Jan Hajič, Dr.

POVINNÉ PŘEDMĚTY Z BAKALÁŘSKÉHO STUDIJNÍHO PROGRAMU INFORMATIKA

kód	název	ZS	LS
PRG029	Programování v C a C++	--	2/2 Z,Zk
SWI095	Úvod do UNIXu	--	2/2 Z,Zk
MAI059	Pravděpodobnost a statistika	2/2 Z,Zk	--

POVINNÉ PŘEDMĚTY

kód	název	kdo	ZS	LS	body
PFL012	Úvod do počítačové lingvistiky	Kuboň	2/0 Zk	--	(2b.)

POVINNĚ VOLITELNÉ PŘEDMĚTY

Posluchač musí získat alespoň 20 bodů z odborných lingvistických předmětů, tj. z předmětů s kódem PFL, nebo z předmětů:

kód	Název	kdo	ZS	LS	body
MAI060	Pravděpodobnostní metody	Antoch	2/0 Zk	--	(2b.)
MAI061	Metody matematické statistiky	Prášková	--	2/1 Z,Zk	(3b.)
SWI105	Závislostní analýza pomocí treebanku	Holan		0/2Z	(2b.)

Pokud si posluchač zapíše předmět PRG023 Softwarový projekt a téma vypracovaného projektu je lingvisticky zaměřeno, může požádat o uznání bodů získaných za práci na softwarovém projektu do požadovaných bodů za povinně volitelné předměty. Uznání bodů musí schválit odpovědný učitel oboru.

Obor I3 je tvořen jediným studijním plánem.

DOPORUČENÉ PŘEDMĚTY

Doporučenými předměty pro obor I3 jsou všechny odborné lingvistické předměty, tj. předměty s kódem PFL.

ZKUŠEBNÍ OKRUHY

Základy formálního popisu přirozených jazyků.
Jazykové korpusy, strojové učení a stochastické metody.
Automatické zpracování přirozeného jazyka.

ZKUŠEBNÍ POŽADAVKY

1. Základy formálního popisu přirozených jazyků.

Závislostní syntax.

1. Závislostní strom, principy reprezentace syntaxe (závislosti, koordinace a apozice).

Formální definice a vlastnosti závislostních stromů.

2. Formální popis hloubkové struktury české věty (komplexní závislostní struktura, zachycení závislosti a koordinace)

3. Podmínka projektivity v závislostním stromu a její využití pro reprezentaci podkladové struktury věty.

Syntax bezprostředních složek a frázové gramatiky.

4. Základní principy popisu věty na základě bezprostředních složek a popisu závislostního.

5. Vývoj Chomského školy od Syntaktických struktur po teorii principů a parametrů a minimalismus.

6. (kdyby bylo málo otázek, tak tahle by se dala rozložit na víc!), (případne i:Lexikálně-funkční gramatika)

Základy obecné lingvistiky.

JPa

7. Zdroje a přínosy (klasické) strukturní lingvistiky

8. Typologie jazyků (charakteristika 5 jazykových typů)

9. Pojem funkce v různých strukturních školách

Funkční generativní popis.

10. Základní charakteristika. Struktura rovin. Valenční teorie (slovesa a další slovní druhy). Zachycení významu (synonymie, homonymie, vágnost). Aktuální členění.

JPa

11. Synonymie v lexiku a v gramatice (kritéria pro jazykovou synonymii)

12. Valence slovesa a dalších slovních druhů

13. Vztah formy a funkce jednotek na sousedních jazykových rovinách

14. Aktuální členění věty a postavení AČV ve formálním popis jazyka.

15. (Taky by se dalo přidat: negace a presupozice v popisu hloubkové struktury věty.)

16. Vysvětlete obecně rovinový model popisu jazyka (vyšší a nižší roviny, forma a funkce, povrch a význam, základní a složené prvky rovin, relace typu R a C…)

17. Jak byste popsali rovinu fonetickou, fonologickou, morfonologickou, morfematickou, povrchově syntaktickou, hloubkově syntaktickou?

Formální sémantika.

18. Lexikální sémantika (reprezentace významu; sémantické relace, sémantické třídy; EuroWordNet)

Reprezentace znalostí.

19. Typy reprezentace znalostí: logická reprezentace, sémantické sítě, rámce, lingvistické struktury

20. Některé vybrané systémy komunikace člověka s počítačem v přirozeném jazyce

21. Zdroje obtíží při automatickém zpracování jazyka: víceznačnost, nejasná reference, vágnost.

2. Jazykové korpusy, strojové učení a stochastické metody.

Jazykové korpusy.

1. Dostupné zdroje dat pro češtinu a jejich charakteristika (ČNK, PDT, EuroWordNet). Zdroje dat pro jiné jazyky – ale to je spíš Zdeňkova otázka

ZŽ

2. Pojem anotace, důvody pro vytváření lingvisticky anotovaných dat.

3. Kódování znakových národních abeced (ISO, Unicode atd.).

4. Datové formáty pro lingvistická data (technologie XML apod.).

5. Korpusy, jejich typologie a způsoby užití (Brown Corpus, NK), vyváženost.

6. Paralelní korpusy.

7. Značkování korpusů, důvody značkování, sady značek.

8. Treebanky, otázky převoditelnosti (složkové na závislostní a naopak).

9. Datové zdroje pro word sense disambiguation.

10. Počítačová lexikografie, valenční slovníky.

11. Wordnety (Princeton WordNet, EuroWordNet), základni principy (synset, hyperonymie).

12. Vysvětlete, co jsou to korpusy a k čemu slouží. Poreferujte o souvisejících tématech (neanotované vs. anotované korpusy, treebanky, paralelní korpusy, velikost korpusů, která je k dispozici vs. která je potřeba pro určité aplikace, reprezentativnost, mezianotátorská shoda, sady značek a specifikace všeho druhu, řečové korpusy – mluví se v jednotkách času, přepisy, fonetické abecedy; jaké korpusy jsou k dispozici pro češtinu, jaké (popište alespoň jeden) pro angličtinu; XML, různá anotační schémata).

Metody strojového učení.

BVH, KR

13. Metody s/bez učitelem, klasifikace dat.

14. Učení založené na konceptu: uspořádání prostoru hypotéz, prostor možností, FIND-S algoritmus, Candidate-Elimination algoritmus.

15. Rozhodovací stromy: ID3 algoritmus, přetrénování, prořezávání, spojité atributy instancí.

16. Neuronové sítě: Spojité prostory hypotéz, algoritmus zpětného šíření, rekurentní neuronové sítě.

17. Učení založené na příkladech.

18. Evoluční metody a genetické algoritmy.

19. Vyhodnocování hypotéz: chyba vzorku dat, reálná chyba, intervaly spolehlivosti, porovnání úspěšnosti dvou hypotéz, porovnání úspěšnosti dvou algoritmů učení.

20. Výpočetní aspekty strojového učení: PAC naučitelnost, Vapnik-Chervonenkisova dimenze, model učení založený na chybách, algoritmus váženého hlasování.

Stochastické metody.

BVH, KR

21. Bayesovské učení: Bayesův vzorec, maximální aposteriorní pravděpodobnost, maximální pravděpodobnost, algoritmus hrubé síly, hypotézy s nejmenším čtvercem chyb, princip popisu minimální délky, Bayesův optimální klasifikátor, Naivní Bayesův klasifikátor, EM algoritmus.

Vyhodnocení experimentů.

3. Automatické zpracování přirozeného jazyka

Automatická analýza jazyka (morfologie, syntax povrchová a hloubková).

1. Popište nízkoúrovňové operace, které je vhodné nebo nutné provést s textem, než může nastoupit lingvistický rozbor. Zmiňte problémy, se kterými se přitom setkáme, proberte možná řešení. (Čištění textu, různá kódování, UTF-8, tokenizace, hranice vět, normalizace čísel aj., pojmenované entity, hranice slov v jazycích, jako je čínština.)

2. Navrhněte, jak byste řešili: doplňování krátkých samohlásek v arabštině, doplňování ztracené diakritiky, rozpoznávání jazyka a kódování, ve kterém je určitý text.

3. Popište úlohu morfologické analýzy (odlište ji od značkování), prodiskutujte problémy technické, morfematické a (mor)fonologické, načrtněte zběžně možná řešení, zmiňte jejich výhody a nevýhody.

4. Popište algoritmus dvouúrovňové morfologie, vysvětlete funkci slovníku a konečných převodníků.

5. Popište úlohu (morfologického) značkování (a lematizace), odlište ji od morfologické analýzy. Popište jednoduché řešení (algoritmus) této úlohy pomocí n-gramového modelu. Zmiňte jiné možnosti řešení a jejich výhody a nevýhody.

6. Co je to a jak funguje chart parser? Srovnejte ho s obyčejnou analýzou shora dolů a zdola nahoru a vysvětlete, v čem je chart parser lepší.

7. Pravděpodobnostní bezkontextové gramatiky a chart parser – popište rozšíření algoritmu a vysvětlete, kde získat pravděpodobnosti.

8. Uveďte některé další možnosti (kromě chart parseru a PCFG) přístupu k automatické syntaktické analýze přirozeného jazyka (přímé modelování závislostí, zásobníkové automaty, data-oriented parsing atd.).

9. Systém ASIMUT.

10. Systém MOZAIKA.

11. Metody kontroly překlepů a návrhu jejich oprav.

12. Problémy automatické kontroly gramatické správnosti.

Generování přirozeného jazyka.

Analýza a syntéza mluvené řeči

PPod, NP

22. HMM: definice, Viterbi algoritmus, Forward alg., Baum-Welch algoritmus.

23. Jazykové modely: N-gramový jazykový model, metody vyhlazování.

24. Kombinace jazykových modelů: back-off, lineární interpolace.

Vyhledávání a extrakce informací.

25. Dokumentografické informační systémy a modely vyhledávání relevantních dokumentů.

26. Indexace textových dokumentů.

27. Evaluace systémů pro vyhledávání informací v textech.

Strojový překlad.

28. Základní terminologie – transfer, interlingua, pivotní jazyk.

29. Přehled hlavních metod automatického překladu (překlad pomocí transferu, EBMT, stochastické metody, přímý překlad).

30. Historie strojového překladu (Georgetownský experiment, ALPAC, TAUM-METEO, Eurotra, Systran, Verbmobil).

31. Systémy strojového překladu pro češtinu (APAČ, RUSLAN, Česílko, komerční systémy).

32. Počítačem podporovaný překlad.