SIS code: 
Semester: 
summer
E-credits: 
6
Examination: 
2/2 Z+Zk
Instructor: 

Automatické zpracování textových dat – NPFL098 / ATKL00345

Program kursu

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Použijeme texty děl Karla Čapka a další díla v jazycích dle zaměření frekventantů.

 • Zpracování textu jako nutný základ (nejen) komputační linvistiky
 • Proč používat unixový shell; nejzákladnější příkazy
 • další příkazy pro manipulaci s texty
 • textové editory
 • vyhledávání pomocí regulárních výrazů
 • využití regulárních výrazů pro úpravy textu
 • odstranění diakritiky, segmentace na věty, tokenizace
 • pravidlové automatické určení slovních druhů
 • zpracování textu v NLP: segmentace, POS tagging, lematizace, morfologická analýza, parsing, hloubkové struktury, anafora, koreference, pojmenované antity
 • webové služby k analýze textu

Lecture slides

 1. Lecture 1
 2. Lecture 2
 3. Lecture 3
 4. Lecture 4
 5. Lecture 5
 6. Lecture 6
  • Basics of HTML
  • Homework: HTML tables of sentences from UD
 7. Lecture 7
  • NLP applications and toolkits
  • Web applications, web services (REST)
  • Homework: learn to use UDPipe via curl
 8. Lecture 8
  • Unicode
  • Unicode in Perl
 9. Lecture 9
 10. Lecture 10
  • unix: fg, bg, find, xargs, process substitution
  • version control systems (VCS)
  • Github and project management