SIS code:

POPJ1

Semester:

winter

Examination:

zápočet

Instructor:

Daniel Zeman

Počítače a přirozený jazyk 1
(FJFI ČVUT)

V zimním semestru 2017-2018 se vyučuje na FJFI každé pondělí od 9:30 v učebně T-210 (2. patro v Trojanově ulici).

Upozornění: Data v následující tabulce jsou předběžná. Není zaručeno, že daná látka opravdu vyjde na daný den. Prezentace se v průběhu semestru mohou měnit, zejména pokud jde o dosud neodpřednášenou látku. Výuka odpadá 1. ledna (státní svátek) a pravděpodobně ještě někdy v prosinci (budu na konferenci, upřesním později).

Název části	PowerPoint	PDF	Úkol	Datum
Úvod, přehled aplikací počítačové lingvistiky	PowerPoint	PDF		2.10.2017
Lingvistická terminologie, roviny zpracování přirozeného jazyka	PowerPoint	PDF		9.10.2017
Vyhodnocování úspěšnosti	PowerPoint	PDF		9.–16.10.2017
Slovníky a morfologické značky	PowerPoint	PDF	Úkol	16.10.2017
Značkování (zjednoznačnění výsledků morfologické analýzy)	PowerPoint	PDF	Úkol (viz prezentaci)	30.10.2017
Dvojúrovňová morfologie, morfonologie	PowerPoint	PDF	Úkol	30.10.–13.11.2017
Morfologie a bezkontextové gramatiky	PowerPoint	PDF		27.11.2017
Morfologie a unifikační gramatiky	PowerPoint	PDF		27.11.2017
Funkční morfologie	PowerPoint	PDF		20.11.2017
Kontrola pravopisu	PowerPoint	PDF		20.11.2017
Syntaxe: složková analýza věty	PowerPoint	PDF		4.–11.12.2017
Syntaxe: závislostní analýza věty	PowerPoint	PDF	Úkol	11.–18.12.2017
Inside-outside algoritmus (Joshua Goodman)				zatím nezařazeno
Ontologie (Wordnet)				zatím nezařazeno

Kromě prezentací z přednášek jsou k dispozici tyto další materiály:

Toolkity pro dvojúrovňovou morfologii: PCKIMMO a Foma
Čeština pro PC-Kimmo: pokusná pravidla, slovník a gramatika pro česká podstatná jména, přídavná jména a slovesa; není ani úplné (slovník), ani plně funkční (pravidla), ale může pomoci jako odrazový můstek

Domácí úkoly

V průběhu semestru budou zadány nejméně dva domácí úkoly a zápočet bude udělen na základě bodů získaných za řešení těchto úkolů. Součástí hodnocení je i včasnost odevzdání, nicméně i za úkol odevzdaný pozdě je možné získat nenulový počet bodů. Prosím zkontrolujte tuto stránku týden po odeslání řešení a ozvěte se mi, jestliže zde o vašem řešení není zmínka. E-mailová komunikace není vždy spolehlivá a může se stát, že vaše řešení skončí ve složce se spamy.

Různě těžké úkoly mohou mít různou bodovou dotaci a ve výjimečných případech, kdy nějaké řešení rozsahem nebo kvalitou výrazně přesahuje požadavky, je možné získat i vyšší počet bodů, než bylo očekávané maximum pro danou úlohu. Pro orientaci, hodnota jedné středně těžké úlohy je 14 bodů. Minimum potřebné k získání zápočtu je 20 bodů.

DÚ1 byl zadán 23.10.2017 (viz zde), termín odevzdání je 13.11.2017, bodová dotace 14 bodů.

DÚ2 byl zadán 30.10.2017 (viz poslední snímek prezentace o značkování), termín odevzdání je 27.11.2017, bodová dotace 8 bodů.

DÚ3 byl zadán 13.11.2017 (viz zde), termín odevzdání je 18.12.2017, bodová dotace ~14 bodů (může být i překročena).

DÚ4 (viz zde), bodová dotace 14 bodů.

Zkr. jméno	DÚ1		DÚ2		Celkem
Zkr. jméno	Odevzdáno	Body	Odevzdáno	Body	Celkem

Studijní informační systém

Následují odkazy na oficiálně vyvěšené anotace předmětů na stránkách fakulty.

Počítačové zpracování přirozeného jazyka (NPFL007)
Počítačové zpracování přirozeného jazyka z pohledu FF UK (ATKL00027)
Sylaby FJFI (POPJ1)

Předpoklady

Základní zkušenosti s programováním ve kterémkoli programovacím jazyku (konkrétní kurz programování na MFF se nevyžaduje).
Středoškolské znalosti mluvnice češtiny.

Anotace

Základní metody a algoritmy používané pro předzpracování a zpracování textu z hlediska počítačového zpracování přirozeného jazyka obecně a češtiny speciálně; kromě češtiny bude zvýšená pozornost věnována ještě angličtině. Důraz bude kladen zejména na nižší úrovně zpracování, se všeobecným úvodem do komplexních metod zpracování. Základy jazyka Perl (pro zpracování textu).

Osnova

Přehled aplikací počítačové lingvistiky
Předzpracování a čištění textu. Identifikace a normalizace čísel, identifikace vlastních jmen, identifikace slov a interpunkce, identifikace vět.
Značkování, SGML, TEI
Programovací jazyk Perl
Roviny formálního popisu jazyka. Fonetika (řeč), morfologie, syntax, sémantika.
Elektronické slovníky a morfologická analýza. Přehled přístupů k morfologické analýze. Motivace dvouúrovňové morfologie
Dvouúrovňová morfologie
Zjednoznačnění morfologie (značkování). Ukázka statistických metod při počítačovém zpracování přirozeného jazyka
Syntaktická analýza. Frázový a závislostní model vztahů ve větě. Algoritmy syntaktické analýzy založené na pravidlech. Nástin statistických přístupů k syntaktické analýze
Textové a řečové korpusy

Prerequisities

Basic experience of programming in any programming language (no particular classes of programming at MFF required)
High-school level of knowledge of the Czech grammar

Annotation

Basic methods and algorithms used for text processing and preprocessing from the point of view of natural language processing in general and Czech processing in particular; besides Czech, the second language of interest is English. The focus is on lower levels of processing but an introduction is given to the complex methods. Fundaments of the Perl language (for text processing).

Syllabus

A survey of the applications of computational linguistics
Text preprocessing and cleaning. Number detection and normalization, proper noun identification, word and punctuation detection, sentence boundary detection.
Annotation, SGML, TEI
Perl programming language
Levels of formal description of language. Phonetics (speech), morphology, syntax, semantics.
Electronic dictionaries and morphological analysis. An overview of approaches to morphological analysis. Motivation of the two-level morphology.
Two-level morphology
Morphology disambiguation (tagging). An example of statistical methods in natural language processing.
Syntactic analysis. Phrasal and dependency-based model of the relations in sentence. Rule-based algorithms of syntactic analysis. An introduction to statistical methods in syntactic analysis.
Text and speech corpora

Literatura

James Allen: Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc.; Redwood City, California,1994. ISBN 0-8053-0334-0.
Larry Wall, Tom Christiansen, Randal Schwartz: Programming Perl. O'Reilly, 1996. ISBN 1-56592-149-6. http://www.perl.com/
Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990
Kimmo Koskenniemi: Two-level Morphology: A General Computational Model for Word-form Recognition and Production. University of Helsinki, Department of General Linguistics, Publications No. 11; Helsinki, 1983
Jan Hajič: Unification Morfology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994
Jan Hajič: Disambiguation of Rich Inflection. Karolinum, Praha, 2004. ISBN 978-80-246-0282-0
Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, 1986
Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 1999. ISBN 0-26213-360-1.
Frederick Jelinek: Statistical Methods for Speech Recognition. The MIT Press, Cambridge, Massachusetts, 1997. ISBN 0-262-10066-5.
Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003

Odkazy

Rezervace letenek (rozpoznávání řeči a dialog)

Institute of Formal and Applied Linguistics

Charles University, Czech Republic
Faculty of Mathematics and Physics

Search form

Počítače a přirozený jazyk 1
(FJFI ČVUT)

Domácí úkoly

Studijní informační systém

Předpoklady

Anotace

Osnova

Prerequisities

Annotation

Syllabus

Literatura

Odkazy

Search form

Počítače a přirozený jazyk 1 (FJFI ČVUT)

Domácí úkoly

Studijní informační systém

Předpoklady

Anotace

Osnova

Prerequisities

Annotation

Syllabus

Literatura

Odkazy

Počítače a přirozený jazyk 1
(FJFI ČVUT)