Informatika - Jazykové technologie a počítačová lingvistika (magisterský program)

Zaměření:

počítačová a formální lingvistika
statistické metody a metody strojového učení pro zpracování jazyka

Státní závěrečná zkouška

Program Informatika - Jazykové technologie a počítačová lingvistika má jeden společný povinný okruh pro obě zaměření, jeden povinný okruh dle zvoleného zaměření a jeden okruh si student vybírá z volitelných okruhů. Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření tohoto programu.
Celkem tedy každý student dostane tři otázky.

Závazné studijní plány (tzv. Karolinku) najdete zde, na této stránce najdete podrobnější popis zkušebních okruhů (jednotlivá témata, typicky odpovídají státnicové otázce, jsou černě, modře pak co se očekává, že budete znát).

Okruh 1 Základy počítačového zpracování přirozeného jazyka (povinný pro obě zaměření)
Okruh 2 Lingvistické teorie a formalismy (povinný pro zaměření Počítačová a formální lingvistika)
Okruh 3 Statistické metody a strojové učení v počítačové lingvistice (povinný pro zaměření Statistické metody a metody strojového učení pro zpracování jazyka)
Okruh 4 Zpracování řeči, dialogové systémy a multimodální systémy (volitelný)
Okruh 5 Aplikace metod zpracování přirozeného jazyka (volitelný)

Okruh 1: Základy počítačového zpracování přirozeného jazyka

Úrovně popisu jazyka: fonetika [fonetické rysy], fonologie [foném, fonologická pravidla], morfologie [typy morfologických procesů, morfologické typy jazyků], syntax [závislostní, frázová], sémantika, pragmatika.
[Pro všechny úrovně umět popsat základní jednotky, vztah k sousedním úrovním, synchronní vs diachronní popis, deskriptivní/lingvistický vs preskriptivní/normativní pohled, ambiguita, arbitrárnost.]
Základní pojmy z teorie informace [pravděpodobnost, entropie, vzájemná informace, KL-divergence, křížová entropie].
Markovovy modely [definice, základní vlastnosti, související algoritmy - trellis, Viterbi, beam search, Baum-Welch (základní charakteristika)].
Jazykové modely a vyhlazování [definice n-gramových modelů, metody vyhlazování, EM algoritmus a vyhlazování].
Třídy slov [motivace jazykovými modely, definice na základě vzájemné informace, algoritmus pro tvorbu tříd slov].
Anotované korpusy [definice, způsoby anotace a měření anotátorké shody, vztah k lingvistickým kategoriím a rovinám - morfologie, syntax, sémantika, pragmatika].
Návrh a vyhodnocení lingvistických experimentů, evaluační metriky [pojem experimentu v NLP, standardní metriky pro známé problémy].
Morfologické značkování [technické definice lematizace, morfologické analýzy a značkování].
Přehled základních klasifikačních a regresních algoritmů [lineární regrese, logistická regrese, modely založené na principu maximální entropie, SVM (základní charakteristika)].

Doporučené předměty:

NPFL063 Úvod do obecné lingvistiky
NPFL067 Statistické metody zpracování přirozených jazyků I
NPFL114 Hluboké učení
NPFL070 Zdroje jazykových dat

Okruh 2: Lingvistické teorie a formalismy

Funkční generativní popis [systém rovin, forma a funkce, valence, aktuální členění věty].
Pražský závislostní korpus [charakteristika rovin, lexikální, morfologická a syntaktická informace; srovnání s Funkčním generativním popisem a Universal Dependencies].
Universal Dependencies [základní charakteristika, basic dependencies vs. enhanced dependencies; srovnání s Pražským závislostním korpusem].
Další gramatické formalismy - přehled a základní charakteristika [Government and Binding, HPSG (struktury rysů), Lexical Functional Grammar (LFG), kategoriální gramatiky, (Lexical) Tree Adjoining Grammar ((L)TAG), teorie Smysl-text (MTT; roviny, lexikální funkce), Case Grammar a Frame Semantics, konstrukční gramatiky].
Fonetika, fonologie.
Počítačová morfologie [flexe vs. derivace, formální gramatiky, konečně-stavové technologie, konečný automat vs. konečný převodník].
Povrchová a hloubková stavba věty; valence [složkové stromy, závislostní stromy; koordinace, neprojektivita; hloubková syntax, valence; elipsa].
Aktuální členění věty; informační struktura, diskurz.
Koreference [gramatická vs. textová koreference].
Typologie jazyků [zejm. morfologie, slovosled].
Parsing [přechodové parsery, grafové parsery].

Doporučené předměty:

NPFL063 Úvod do obecné lingvistiky
NPFL006 Úvod do formální lingvistiky
NPFL075 Závislostní gramatiky a korpusy
NPFL083 Lingvistické teorie a gramatické formalismy
NPFL094 Morfologická a syntaktická analýza

Okruh 3: Statistické metody a strojové učení v počítačové lingvistice

Generativní a diskriminativní modely.
Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech [KNN, lokálně vážená regrese], SVM a kernely, logistická regrese).
Metody neřízeného učení [clustering, EM].
Jazykové modely a modely kanálu.
Vyhlazování modelů, kombinace modelů [backoff, interpolace].
HMM, trellis, Viterbi, Baum-Welch.
Algoritmy pro statistický tagging.
Algoritmy pro složkový a závislostní statistický parsing.
Strojové učení s využitím neuronových sítí [konstrukce ztrátových funkcí metodou maximální věrohodnosti, backpropagation, SGD, Adam, vícevrstvý perceptron, L2 regularizace, dropout, batch normalization].
Konvoluční a rekurentní sítě [operace konvoluce, ResNet; LSTM, GRU, sequence labeling, span labeling, rekurentní encoder-decoder architektura, Transformer architektura].
Slovní embeddingy [distribuovaná reprezentace, word2vec, slovní embeddingy založené na znacích pomocí RNN či CNN, subwords pomocí BPE či WordPieces].

Doporučené předměty:

NPFL067 Statistické metody zpracování přirozených jazyků I
NPFL114 Hluboké učení
NPFL068 Statistické metody zpracování přirozených jazyků II

Okruh 4: Zpracování řeči, dialogové systémy a multimodální systémy

Základy tvoření a vnímání mluvené řeči.
Metody zpracování řečového signálu.
Modelování akustiky fonémů pomocí HMM.
Implementace Baum-Welch a Viterbi algoritmu pro rozpoznávání řeči.
Neuronové modely řeči.
Metody syntézy řeči [zpracování textu pro syntézu řeči; modelování prosodie].
Řečové aplikace [rozpoznávání plynulé řeči s pomocí velkých slovníků; adaptační techniky; sumarizace řečových nahrávek; vyhledávání témat a klíčových slov v řečových korpusech; rozpoznávání mluvčího; prohledávání a indexování audiovizuálních archivů].
Základní komponenty dialogového systému.
Porozumění jazyku v dialogových systémech.
Sledování dialogového stavu.
Metody řízení dialogu [systémy MDP a POMDP; zpětnovazební učení; simulace uživatele].
End-to-end neuronové dialogové systémy.
Architektury pro dialogové systémy v otevřené doméně.
Generování přirozeného jazyka.
Evaluace dialogových systémů.
Vizuální dialog a multimodální systémy.

Doporučené předměty:

NPFL038 Základy rozpoznávání a generování mluvené řeči
NPFL079 Algoritmy rozpoznávání mluvené řeči
NPFL099 Statistické dialogové systémy

Okruh 5: Aplikace metod zpracování přirozeného jazyka

Kontrola překlepů, kontrola gramatické správnosti [editační/Levenshteinova vzdálenost, k-gram index].
Strojový překlad [zjednodušující definice úlohy překladu a její rizika, klasické statistické přístupy: frázový a příklady syntaktických metod, neuronové přístupy].
Počítačem podporovaný překlad.
Statistické metody ve strojovém překladu [typické komponenty klasické statistického překladu: zarovnání dokumentů, vět, slov, optimalizace parametrů a příp. hyperparametrů].
Strojový překlad mluvené řeči [neuronové přístupy, specifické problémy psané vs. mluvené domény, možnosti a komplikace sloučení rozpoznávání + překladu mluvené řeči (end-to-end methods)].
Vyhodnocování kvality překladu a překladu mluvené řeči [používané techniky, úskalí při srovnávání kvalit strojového a lidského výstupu].
Vyhledávání informací [definice úlohy, invertovaný index, bag-of-words, toolkity (Lucene, Terrier)], modely pro vyhledávání informací [boolský, vektorový, pravděpodobnostní, BM25].
Rozšiřování dotazů a relevance feedback [algoritmus Rocchio, pseudo-relevance feedback].
Shlukování dokumentů [k-means, hierarchické shlukování, míry podobnosti shluků].
Hledání blízkých duplicit [shingles, sketches].
Evaluace vyhledávání informací [precision, recall, precision-recall křivky, average precission, mean average precision].
Postojová analýza (sentiment analysis).
Předtrénované modely a jejich využití v úlohách klasifikační povahy a úlohách generování [BERT, GPT2 a další; metody adaptace předtrénovaných modelů; výhody a nevýhody (rizika) používání předtrénovaných modelů].

Doporučené předměty:

NPFL087 Statistický strojový překlad
NPFL093 Aplikace NLP
NPFL103 Vyhledávání informací
NPFL128 Jazykové technologie v praxi

===========================================================================

Computer Science - Language Technologies and Computational Linguistics (Master programme)

Specializations:

Computational and formal linguistics
Statistical and machine learning methods in Natural Language Processing

State Final Exam

The state final exam for the program Computer Science - Language Technologies and Computational Linguistics consists of one obligatory examination area for both specializations (examination area 1), one obligatory area dependent on the selected specialization (examination area 2 or examination area 3), and one elective examination area (examination areas 4 and 5). As the third examination area, the student may also select the obligatory area of the other specialization of this study program.
In total, each student gets questions from three examination areas.

The oficial Study guide can be found here, this webpage provides more detailed explanation of the examination areas.

Area 1 Fundamentals of natural language processing (obligatory for both specializations)
Area 2 Linguistic theories and formalisms (obligatory for the specialization Computational and formal linguistics)
Area 3 Statistical methods and machine learning in computational linguistics (obligatory for the specialization Statistical and machine learning methods in Natural Language Processing)
Area 4 Speech, dialogue and multimodal systems (elective)
Area 5 Applications in natural language processing (elective)

Area 1: Fundamentals of natural language processing

Levels of language description: phonetics [phonetic features], phonology [phoneme, phonological rules], morphology [types of morphological processes, morphological typology of languages], syntax [dependency vs phrasal], semantics, pragmatics.
[For all levels, you should describe the basic units, relationship to the neighboring levels, compare synchronic & diachronic views, compare descriptive/linguistic & prescriptive views, address ambiguity & arbitrariness.]
Fundamentals of information theory [probability, entropy, mutual information, KL-divergence, cross-entropy].
Markov models [definition, basic properties, related algorithms - trellis, Viterbi, beam search, Baum-Welch (basic characteristics)].
Language modeling and smoothing [n-gram LM definition, methods of smoothing, EM algorithm and smoothing].
Word classes [motivation by LMs, definition using mutual information, algorithm for creating word classes].
Annotated corpora [definition, methods of annotation and inter-annotator agreement metrics, relation to linguistic categories and layers - morphology, syntax, semantics, pragmatics].
Design and evaluation of linguistic experiments, evaluation metrics [the notion of an experiment in NLP, standard metrics for known problems].
Morphological disambiguation [technical definitions of lemmatization, morphological analysis, and POS tagging].
Basic classification and regression algorithms [linear regression, logistic regression, Maximum Entropy models, SVM (basic characteristics)].

Recommended courses:

NPFL063 Introduction to General Linguistics
NPFL067 Statistical Methods in Natural Language Processing I
NPFL114 Deep Learning
NPFL070 Language Data Resources

Area 2: Linguistic theories and formalisms

Functional Generative Description [layers of description, form and function, valency, topic-focus articulation].
Prague Dependency Treebank [characteristics of layers, lexical, morphological and syntactic information; comparison with Functional Generative Description and Universal Dependencies].
Universal Dependencies [basic characteristics, basic dependencies vs. enhanced dependencies; comparison with the Prague Dependency Treebank].
Other grammar formalisms - overview and basic characteristics [Government and Binding, HPSG (feature structures), Lexical Functional Grammar (LFG), categorial grammars, (Lexical) Tree Adjoining Grammar ((L)TAG), Meaning-Text Theory (layers, lexical functions), Case Grammar and Frame Semantics, construction grammars].
Phonetics, phonology.
Computational Morphology [inflection vs. derivation, formal grammars, finite-state technologies, finite-state automaton vs. finite-state transducer].
Surface and deep syntactic structure; valency [phrase structure trees, dependency trees; coordination, non-projectivity; deep syntax, valency; ellipsis].
Topic-focus articulation; information structure, discourse.
Coreference [grammatical vs. textual coreference].
Linguistic typology [esp. morphology, word order].
Parsing [transition-based parsers, graph-based parsers].

Recommended courses:

NPFL063 Introduction to General Linguistics
NPFL006 Introduction to Formal Linguistics
NPFL075 Dependency Grammars and Treebanks
NPFL083 Linguistic Theories and Grammar Formalisms
NPFL094 Morphological and Syntactic Analysis

Area 3: Statistical methods and machine learning in computational linguistics

Generative and discriminative models.
Supervised learning methods for classification and regression (linear models, other methods: Naive Bayes, decision trees, example-based learning [KNN, locally weighted regression], SVM and kernels, logistic regression).
Unsupervised learning methods [clustering, EM].
Language models, noisy channel models.
Model smoothing, model combination [backoff, interpolation].
HMM, trellis, Viterbi, Baum-Welch.
Algorithms for statistical tagging.
Algorithms for constituency and dependency statistical parsing.
Machine learning with neural networks [loss function construction based on maximum likelihood, backpropagation, SGD, Adam, multilayer perceptron, L2 regularization, dropout, batch normalization].
Convolution and recurrent networks [convolution operation, ResNet; LSTM, GRU, sequence labeling, span labeling, recurrent encoder-decoder architecture, Transformer architecture].
Word embeddings [distributed representation, word2vec, character-based word embeddings using RNN or CNN, subwords using BPE or WordPieces].

Recommended courses:

NPFL067 Statistical Methods in Natural Language Processing I
NPFL114 Deep Learning
NPFL068 Statistical Methods in Natural Language Processing II

Area 4: Speech, dialogue and multimodal systems

Fundamentals of speech production and perception.
Methods of speech signal processing.
HMM acoustic modeling of phonemes.
The implementation of the Baum-Welch and Viterbi algorithms in speech recognition systems.
Neural models for speech.
Methods of speech synthesis [text processing for speech synthesis; prosody modeling].
Speech applications [continuous speech recognition using large dictionaries; adaptation techniques; speech summarization; topic and key-word spotting in speech corpora; speaker recognition; search and indexing in audio-visual archives].
Basic components of a dialogue system.
Natural language understanding in dialogue systems.
Dialogue state tracking.
Methods for dialogue management [MDP and POMDP systems; reinforcement learning; user simulation].
End-to-end neural dialogue systems.
Open-domain dialogue system architectures.
Natural language generation.
Dialogue systems evaluation.
Visual dialogue and multimodal systems.

Recommended courses:

NPFL038 Fundamentals of Speech Recognition and Generation
NPFL079 Algorithms in Speech Recognition
NPFL099 Statistical Dialogue Systems

Area 5: Applications in natural language processing

Spell-checking and grammar-checking [edit/Levenshtein distance, k-gram index].
Machine translation [simplified definitions of the task of machine translation and the long-term drawbacks the simplification brings, classical statistical approaches to MT: phrase-based MT, examples of syntax-informed or inspired methods, neural approaches].
Machine-aided translation.
Statistical methods in machine translation [typical components of classical statistical MT: alignment of documents, sentences and words, parameter or hyperparameter optimization].
Speech translation [neural approaches, specific issues of written vs. spoken domain, benefits and drawbacks of combining speech recognition + machine translation into end-to-end speech translation methods].
Quality evaluation of machine translation and speech translation [current common methods, risks when comparing human and machine output].
Information retrieval [task definition, inverted index, bag-of-words, toolkits (Lucene, Terrier)], models for information retrieval [boolean, vector space, probabilistic, BM25].
Query expansion and relevance feedback [Rocchio algorithm, pseudo-relevance feedback].
Document clustering [k-means, hierarchical clustering, cluster similarity measures].
Near duplicate detection [shingles, sketches].
Information retrieval evaluation [precision, recall, precision-recall curves, average precission, mean average precision].
Sentiment analysis.
Pre-trained models and their use in classification tasks and in tasks of natural language generation [BERT, GPT2 and others; methods of adaptation of pre-trained models; advantages and drawbacks (risks) of using pre-trained models].

Recommended courses:

NPFL087 Statistical Machine Translation
NPFL093 NLP Applications
NPFL103 Information Retrieval
NPFL128 Language Technologies in Practice

Institute of Formal and Applied Linguistics

Charles University, Czech Republic
Faculty of Mathematics and Physics

Search form

Informatika - Jazykové technologie a počítačová lingvistika (magisterský program)

Zaměření:

Státní závěrečná zkouška

Okruh 1: Základy počítačového zpracování přirozeného jazyka

Doporučené předměty:

Okruh 2: Lingvistické teorie a formalismy

Doporučené předměty:

Okruh 3: Statistické metody a strojové učení v počítačové lingvistice

Doporučené předměty:

Okruh 4: Zpracování řeči, dialogové systémy a multimodální systémy

Doporučené předměty:

Okruh 5: Aplikace metod zpracování přirozeného jazyka

Doporučené předměty:

Computer Science - Language Technologies and Computational Linguistics (Master programme)

Specializations:

State Final Exam

Area 1: Fundamentals of natural language processing

Recommended courses:

Area 2: Linguistic theories and formalisms

Recommended courses:

Area 3: Statistical methods and machine learning in computational linguistics

Recommended courses:

Area 4: Speech, dialogue and multimodal systems

Recommended courses:

Area 5: Applications in natural language processing

Recommended courses: