SIS code: 
Semester: 
winter
E-credits: 
2
Examination: 
2 Z
Instructor: 

Jazykové technologie pro výzkum v humanitních oborech – NPFL131

Program kursu

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.

  • Význam a vlastnosti velkých dat
  • unixový shell; nejzákladnější příkazy
  • další unixové příkazy a základy Perlu pro manipulaci s texty
  • textové editory
  • kvantitativní analýza textu
  • porovnání textů a vizualizace rozdílů
  • vyhledávání pomocí regulárních výrazů
  • využití regulárních výrazů pro hromadné úpravy textu
  • odstranění diakritiky, segmentace na věty, tokenizace
  • získávání informací o čínských znacích z databáze Unihan
  • pravidlové automatické určení slovních druhů
  • vytvoření vlastního korpusu
  • "NLP workflow engines" - GATE, OpenNLP, Treex
  • volání REST API
  • UDPipe a výběr vhodného modelu, je-li jich pro jazyk více
  • vizualizace analýzy a výsledků

Lecture slides (starší výuka, v r. 22 bude pozměněná, nicméně pro referenci)

  1. Lecture 1
  2. Lecture 2
  3. Lecture 3
  4. Lecture 4
  5. Lecture 5
  6. Lecture 6
    • Basics of HTML
    • Homework: HTML tables of sentences from UD
  7. Lecture 7
    • NLP applications and toolkits
    • Web applications, web services (REST)
    • Homework: learn to use UDPipe via curl
  8. Lecture 8
    • Unicode
    • Unicode in Perl
  9. Lecture 9
  10. Lecture 10
    • unix: fg, bg, find, xargs, process substitution
    • version control systems (VCS)
    • Github and project management