SIS code: 
Semester: 
summer
E-credits: 
6
Examination: 
2/2 Z+Zk
Instructor: 

Automatické zpracování textových dat – NPFL098 / ATKL00345

Program kursu

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Použijeme texty děl Karla Čapka a další díla v jazycích dle zaměření frekventantů.

  • Zpracování textu jako nutný základ (nejen) komputační linvistiky
  • Proč používat unixový shell; nejzákladnější příkazy
  • další příkazy pro manipulaci s texty
  • textové editory
  • vyhledávání pomocí regulárních výrazů
  • využití regulárních výrazů pro úpravy textu
  • odstranění diakritiky, segmentace na věty, tokenizace
  • pravidlové automatické určení slovních druhů
  • zpracování textu v NLP: segmentace, POS tagging, lematizace, morfologická analýza, parsing, hloubkové struktury, anafora, koreference, pojmenované antity
  • webové služby k analýze textu

Lecture slides

  1. Lecture 1
  2. Lecture 2
  3. Lecture 3
  4. Lecture 4
  5. Lecture 5
  6. Lecture 6
    • Basics of HTML
    • Homework: HTML tables of sentences from UD
  7. Lecture 7
    • NLP applications and toolkits
    • Web applications, web services (REST)
    • Homework: learn to use UDPipe via curl
  8. Lecture 8
    • Unicode
    • Unicode in Perl
  9. Lecture 9
  10. Lecture 10
    • unix: fg, bg, find, xargs, process substitution
    • version control systems (VCS)
    • Github and project management