Pracovní
verze
20. června 2005
V tomto dokumentu předkládáme
novou – minimalizovanou původní – verzi zkušebních okruhů oboru I-3 Matematická lingvistika. Předkládáme
i návrh zkušebních otázek. Není vůbec jasné, kdy by mohly zkušební okruhy
v navrhované podobě vejít v platnost. Vše souvisí s celkovými
změnami v rámci studijního programu informatiky jako takové.
STUDIJNÍ
PLÁN PRO OBOR I-3 MATEMATICKÁ LINGVISTIKA
Garantující
pracoviště: ÚFAL
Odpovědný učitel: RNDr. Jan Hajič, Dr.
POVINNÉ
PŘEDMĚTY Z BAKALÁŘSKÉHO STUDIJNÍHO PROGRAMU INFORMATIKA
kód |
název |
ZS |
LS |
Programování v C a C++ |
-- |
2/2 Z,Zk |
|
Úvod do UNIXu |
-- |
2/2 Z,Zk |
|
Pravděpodobnost a statistika |
2/2 Z,Zk |
-- |
POVINNÉ
PŘEDMĚTY
kód |
název |
kdo |
ZS |
LS |
body |
Úvod do počítačové lingvistiky |
Kuboň |
2/0 Zk |
-- |
(2b.) |
POVINNĚ
VOLITELNÉ PŘEDMĚTY
Posluchač
musí získat alespoň 20 bodů z odborných lingvistických předmětů, tj. z předmětů
s kódem PFL, nebo z předmětů:
kód |
Název |
kdo |
ZS |
LS |
body |
Pravděpodobnostní metody |
Antoch |
2/0 Zk |
-- |
(2b.) |
|
Metody matematické statistiky |
Prášková |
-- |
2/1
Z,Zk |
(3b.) |
|
Závislostní analýza pomocí treebanku |
Holan |
|
0/2Z |
(2b.) |
Pokud si posluchač zapíše
předmět PRG023 Softwarový projekt a téma vypracovaného projektu je lingvisticky
zaměřeno, může požádat o uznání bodů získaných za práci na softwarovém projektu
do požadovaných bodů za povinně volitelné předměty. Uznání bodů musí schválit
odpovědný učitel oboru.
Obor I3 je tvořen jediným
studijním plánem.
DOPORUČENÉ
PŘEDMĚTY
Doporučenými předměty pro obor
I3 jsou všechny odborné lingvistické předměty, tj. předměty s kódem PFL.
ZKUŠEBNÍ OKRUHY
ZKUŠEBNÍ POŽADAVKY
1.
Základy formálního popisu přirozených jazyků.
Závislostní
syntax.
ML
1. Závislostní strom, principy reprezentace syntaxe (závislosti, koordinace a apozice).
Formální definice a vlastnosti závislostních
stromů.
ML
2. Formální popis hloubkové struktury české věty (komplexní závislostní struktura, zachycení závislosti a koordinace)
EH
3. Podmínka projektivity v závislostním stromu a její využití pro reprezentaci podkladové struktury věty.
Syntax bezprostředních složek a frázové gramatiky.
EH
4. Základní principy popisu věty na základě bezprostředních složek a popisu závislostního.
5. Vývoj Chomského školy od Syntaktických struktur po teorii principů a parametrů a minimalismus.
6. (kdyby bylo málo otázek, tak tahle by se dala rozložit na víc!), (případne i:Lexikálně-funkční gramatika)
Základy
obecné lingvistiky.
7. Zdroje a přínosy (klasické) strukturní lingvistiky
8. Typologie jazyků (charakteristika 5 jazykových typů)
9. Pojem funkce v různých strukturních školách
Funkční generativní popis.
ML
10. Základní charakteristika. Struktura rovin. Valenční teorie (slovesa a další slovní druhy). Zachycení významu (synonymie, homonymie, vágnost). Aktuální členění.
JPa
11. Synonymie v lexiku a v gramatice (kritéria pro jazykovou synonymii)
12. Valence slovesa a dalších slovních druhů
13. Vztah formy a funkce jednotek na sousedních jazykových rovinách
EH
14. Aktuální členění věty a postavení AČV ve formálním popis jazyka.
15. (Taky by se dalo přidat: negace a presupozice v popisu hloubkové struktury věty.)
DZ
16. Vysvětlete obecně rovinový model popisu jazyka (vyšší a
nižší roviny, forma a funkce, povrch a význam, základní a složené prvky rovin,
relace typu R a C…)
17. Jak byste popsali rovinu fonetickou, fonologickou,
morfonologickou, morfematickou, povrchově syntaktickou, hloubkově syntaktickou?
Formální sémantika.
ML
18. Lexikální sémantika (reprezentace významu; sémantické relace, sémantické třídy; EuroWordNet)
Reprezentace znalostí.
EH
19.
Typy
reprezentace znalostí: logická reprezentace, sémantické sítě, rámce,
lingvistické struktury
20.
Některé vybrané
systémy komunikace člověka s počítačem v přirozeném jazyce
21. Zdroje obtíží při automatickém zpracování jazyka: víceznačnost, nejasná reference, vágnost.
2. Jazykové
korpusy, strojové učení a stochastické metody.
Jazykové
korpusy.
ML
1. Dostupné zdroje dat pro češtinu a jejich charakteristika (ČNK, PDT, EuroWordNet). Zdroje dat pro jiné jazyky – ale to je spíš Zdeňkova otázka
ZŽ
2. Pojem anotace, důvody pro vytváření lingvisticky anotovaných dat.
3. Kódování znakových národních abeced (ISO, Unicode atd.).
4. Datové formáty pro lingvistická data (technologie XML apod.).
5. Korpusy, jejich typologie a způsoby užití (Brown Corpus, NK), vyváženost.
6. Paralelní korpusy.
7. Značkování korpusů, důvody značkování, sady značek.
8. Treebanky, otázky převoditelnosti (složkové na závislostní a naopak).
9. Datové zdroje pro word sense disambiguation.
10. Počítačová lexikografie, valenční slovníky.
11. Wordnety (Princeton WordNet, EuroWordNet), základni principy (synset, hyperonymie).
DZ
12. Vysvětlete, co jsou to korpusy a k čemu slouží.
Poreferujte o souvisejících tématech (neanotované vs. anotované korpusy,
treebanky, paralelní korpusy, velikost korpusů, která je k dispozici vs.
která je potřeba pro určité aplikace, reprezentativnost, mezianotátorská shoda,
sady značek a specifikace všeho druhu, řečové korpusy – mluví se
v jednotkách času, přepisy, fonetické abecedy; jaké korpusy jsou
k dispozici pro češtinu, jaké (popište alespoň jeden) pro angličtinu; XML,
různá anotační schémata).
Metody strojového učení.
BVH,
KR
13. Metody s/bez učitelem, klasifikace dat.
14. Učení založené na konceptu: uspořádání prostoru hypotéz, prostor možností, FIND-S algoritmus, Candidate-Elimination algoritmus.
15. Rozhodovací stromy: ID3 algoritmus, přetrénování, prořezávání, spojité atributy instancí.
16. Neuronové sítě: Spojité prostory hypotéz, algoritmus zpětného šíření, rekurentní neuronové sítě.
17. Učení založené na příkladech.
18. Evoluční metody a genetické algoritmy.
19. Vyhodnocování hypotéz: chyba vzorku dat, reálná chyba, intervaly spolehlivosti, porovnání úspěšnosti dvou hypotéz, porovnání úspěšnosti dvou algoritmů učení.
20. Výpočetní aspekty strojového učení: PAC naučitelnost, Vapnik-Chervonenkisova dimenze, model učení založený na chybách, algoritmus váženého hlasování.
Stochastické metody.
BVH,
KR
21. Bayesovské učení: Bayesův vzorec, maximální aposteriorní pravděpodobnost, maximální pravděpodobnost, algoritmus hrubé síly, hypotézy s nejmenším čtvercem chyb, princip popisu minimální délky, Bayesův optimální klasifikátor, Naivní Bayesův klasifikátor, EM algoritmus.
Vyhodnocení experimentů.
3. Automatické zpracování
přirozeného jazyka
Automatická
analýza jazyka (morfologie, syntax povrchová a hloubková).
DZ
1.
Popište nízkoúrovňové operace, které je
vhodné nebo nutné provést s textem, než může nastoupit lingvistický
rozbor. Zmiňte problémy, se kterými se přitom setkáme, proberte možná řešení.
(Čištění textu, různá kódování, UTF-8, tokenizace, hranice vět, normalizace
čísel aj., pojmenované entity, hranice slov v jazycích, jako je čínština.)
2.
Navrhněte, jak byste řešili: doplňování
krátkých samohlásek v arabštině, doplňování ztracené diakritiky,
rozpoznávání jazyka a kódování, ve kterém je určitý text.
3.
Popište úlohu morfologické analýzy
(odlište ji od značkování), prodiskutujte problémy technické, morfematické a
(mor)fonologické, načrtněte zběžně možná řešení, zmiňte jejich výhody a
nevýhody.
4.
Popište algoritmus dvouúrovňové
morfologie, vysvětlete funkci slovníku a konečných převodníků.
5.
Popište úlohu (morfologického)
značkování (a lematizace), odlište ji od morfologické analýzy. Popište
jednoduché řešení (algoritmus) této úlohy pomocí n-gramového modelu. Zmiňte
jiné možnosti řešení a jejich výhody a nevýhody.
6.
Co je to a jak funguje chart parser?
Srovnejte ho s obyčejnou analýzou shora dolů a zdola nahoru a vysvětlete,
v čem je chart parser lepší.
7.
Pravděpodobnostní bezkontextové
gramatiky a chart parser – popište rozšíření algoritmu a vysvětlete, kde získat
pravděpodobnosti.
8.
Uveďte některé další možnosti (kromě
chart parseru a PCFG) přístupu k automatické syntaktické analýze
přirozeného jazyka (přímé modelování závislostí, zásobníkové automaty,
data-oriented parsing atd.).
VK
9.
Systém ASIMUT.
10. Systém MOZAIKA.
11. Metody kontroly překlepů a návrhu jejich oprav.
12. Problémy automatické kontroly gramatické správnosti.
Generování
přirozeného jazyka.
Analýza
a syntéza mluvené řeči
PPod,
NP
22. HMM: definice, Viterbi algoritmus, Forward alg., Baum-Welch algoritmus.
23. Jazykové modely: N-gramový jazykový model, metody vyhlazování.
24. Kombinace jazykových modelů: back-off, lineární interpolace.
Vyhledávání
a extrakce informací.
MH
25.
Dokumentografické
informační systémy a modely vyhledávání relevantních dokumentů.
26.
Indexace
textových dokumentů.
27.
Evaluace
systémů pro vyhledávání informací v textech.
Strojový překlad.
VK
28. Základní terminologie – transfer, interlingua, pivotní jazyk.
29. Přehled hlavních metod automatického překladu (překlad pomocí transferu, EBMT, stochastické metody, přímý překlad).
30. Historie strojového překladu (Georgetownský experiment, ALPAC, TAUM-METEO, Eurotra, Systran, Verbmobil).
31. Systémy strojového překladu pro češtinu (APAČ, RUSLAN, Česílko, komerční systémy).
32. Počítačem podporovaný překlad.