SIS code: 
POPJ1
Semester: 
winter
Examination: 
zápočet
Instructor: 

Počítače a přirozený jazyk 1
(FJFI ČVUT)

V zimním semestru 2017-2018 se vyučuje na FJFI každé pondělí od 9:30 v učebně T-210 (2. patro v Trojanově ulici).

Upozornění: Data v následující tabulce jsou předběžná. Není zaručeno, že daná látka opravdu vyjde na daný den. Prezentace se v průběhu semestru mohou měnit, zejména pokud jde o dosud neodpřednášenou látku. Výuka odpadá 1. ledna (státní svátek) a pravděpodobně ještě někdy v prosinci (budu na konferenci, upřesním později).

Název části PowerPoint PDF Úkol Datum
Úvod, přehled aplikací počítačové lingvistiky PowerPoint PDF   2.10.2017
Lingvistická terminologie, roviny zpracování přirozeného jazyka PowerPoint PDF   9.10.2017
Vyhodnocování úspěšnosti PowerPoint PDF   9.–16.10.2017
Slovníky a morfologické značky PowerPoint PDF Úkol 16.10.2017
Značkování (zjednoznačnění výsledků morfologické analýzy) PowerPoint PDF Úkol (viz prezentaci) 30.10.2017
Dvojúrovňová morfologie, morfonologie PowerPoint PDF Úkol 30.10.–13.11.2017
Morfologie a bezkontextové gramatiky PowerPoint PDF   27.11.2017
Morfologie a unifikační gramatiky PowerPoint PDF   27.11.2017
Funkční morfologie PowerPoint PDF   20.11.2017
Kontrola pravopisu PowerPoint PDF   20.11.2017
Syntaxe: složková analýza věty PowerPoint PDF   4.–11.12.2017
Syntaxe: závislostní analýza věty PowerPoint PDF Úkol 11.18.12.2017
Inside-outside algoritmus (Joshua Goodman)       zatím nezařazeno
Ontologie (Wordnet)       zatím nezařazeno

Kromě prezentací z přednášek jsou k dispozici tyto další materiály:

Domácí úkoly

V průběhu semestru budou zadány nejméně dva domácí úkoly a zápočet bude udělen na základě bodů získaných za řešení těchto úkolů. Součástí hodnocení je i včasnost odevzdání, nicméně i za úkol odevzdaný pozdě je možné získat nenulový počet bodů. Prosím zkontrolujte tuto stránku týden po odeslání řešení a ozvěte se mi, jestliže zde o vašem řešení není zmínka. E-mailová komunikace není vždy spolehlivá a může se stát, že vaše řešení skončí ve složce se spamy.

Různě těžké úkoly mohou mít různou bodovou dotaci a ve výjimečných případech, kdy nějaké řešení rozsahem nebo kvalitou výrazně přesahuje požadavky, je možné získat i vyšší počet bodů, než bylo očekávané maximum pro danou úlohu. Pro orientaci, hodnota jedné středně těžké úlohy je 14 bodů. Minimum potřebné k získání zápočtu je 20 bodů.

DÚ1 byl zadán 23.10.2017 (viz zde), termín odevzdání je 13.11.2017, bodová dotace 14 bodů.

DÚ2 byl zadán 30.10.2017 (viz poslední snímek prezentace o značkování), termín odevzdání je 27.11.2017, bodová dotace 8 bodů.

DÚ3 byl zadán 13.11.2017 (viz zde), termín odevzdání je 18.12.2017, bodová dotace ~14 bodů (může být i překročena).

DÚ4 (viz zde), bodová dotace 14 bodů.

Zkr. jméno DÚ1 DÚ2 Celkem
Odevzdáno Body Odevzdáno Body
           
           

Studijní informační systém

Následují odkazy na oficiálně vyvěšené anotace předmětů na stránkách fakulty.

Předpoklady

  • Základní zkušenosti s programováním ve kterémkoli programovacím jazyku (konkrétní kurz programování na MFF se nevyžaduje).
  • Středoškolské znalosti mluvnice češtiny.

Anotace

Základní metody a algoritmy používané pro předzpracování a zpracování textu z hlediska počítačového zpracování přirozeného jazyka obecně a češtiny speciálně; kromě češtiny bude zvýšená pozornost věnována ještě angličtině. Důraz bude kladen zejména na nižší úrovně zpracování, se všeobecným úvodem do komplexních metod zpracování. Základy jazyka Perl (pro zpracování textu).

Osnova

  1. Přehled aplikací počítačové lingvistiky
  2. Předzpracování a čištění textu. Identifikace a normalizace čísel, identifikace vlastních jmen, identifikace slov a interpunkce, identifikace vět.
  3. Značkování, SGML, TEI
  4. Programovací jazyk Perl
  5. Roviny formálního popisu jazyka. Fonetika (řeč), morfologie, syntax, sémantika.
  6. Elektronické slovníky a morfologická analýza. Přehled přístupů k morfologické analýze. Motivace dvouúrovňové morfologie
  7. Dvouúrovňová morfologie
  8. Zjednoznačnění morfologie (značkování). Ukázka statistických metod při počítačovém zpracování přirozeného jazyka
  9. Syntaktická analýza. Frázový a závislostní model vztahů ve větě. Algoritmy syntaktické analýzy založené na pravidlech. Nástin statistických přístupů k syntaktické analýze
  10. Textové a řečové korpusy

Prerequisities

  • Basic experience of programming in any programming language (no particular classes of programming at MFF required)
  • High-school level of knowledge of the Czech grammar

Annotation

Basic methods and algorithms used for text processing and preprocessing from the point of view of natural language processing in general and Czech processing in particular; besides Czech, the second language of interest is English. The focus is on lower levels of processing but an introduction is given to the complex methods. Fundaments of the Perl language (for text processing).

Syllabus

  1. A survey of the applications of computational linguistics
  2. Text preprocessing and cleaning. Number detection and normalization, proper noun identification, word and punctuation detection, sentence boundary detection.
  3. Annotation, SGML, TEI
  4. Perl programming language
  5. Levels of formal description of language. Phonetics (speech), morphology, syntax, semantics.
  6. Electronic dictionaries and morphological analysis. An overview of approaches to morphological analysis. Motivation of the two-level morphology.
  7. Two-level morphology
  8. Morphology disambiguation (tagging). An example of statistical methods in natural language processing.
  9. Syntactic analysis. Phrasal and dependency-based model of the relations in sentence. Rule-based algorithms of syntactic analysis. An introduction to statistical methods in syntactic analysis.
  10. Text and speech corpora

Literatura

  • James Allen: Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc.; Redwood City, California,1994. ISBN 0-8053-0334-0.
  • Larry Wall, Tom Christiansen, Randal Schwartz: Programming Perl. O'Reilly, 1996. ISBN 1-56592-149-6. http://www.perl.com/
  • Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990
  • Kimmo Koskenniemi: Two-level Morphology: A General Computational Model for Word-form Recognition and Production. University of Helsinki, Department of General Linguistics, Publications No. 11; Helsinki, 1983
  • Jan Hajič: Unification Morfology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994
  • Jan Hajič: Disambiguation of Rich Inflection. Karolinum, Praha, 2004. ISBN 978-80-246-0282-0
  • Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, 1986
  • Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 1999. ISBN 0-26213-360-1.
  • Frederick Jelinek: Statistical Methods for Speech Recognition. The MIT Press, Cambridge, Massachusetts, 1997. ISBN 0-262-10066-5.
  • Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003

Odkazy