Zpracování textových dat v lingvistice – ATKL00345
Program kursu
Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla Čapka a různá další díla v jazycích dle zaměření frekventantů.
- Zpracování textu jako nutný základ (nejen) komputační linvistiky
- Proč používat unixový shell; nejzákladnější příkazy
- další příkazy pro manipulaci s texty
- textové editory
- vyhledávání pomocí regulárních výrazů
- využití regulárních výrazů pro úpravy textu
- základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
- odstranění diakritiky, segmentace na věty, tokenizace
- pravidlové automatické určení slovních druhů
Presentace ze seminářů
- Seminář 1
- Seminář 2
- Seminář 3 (27. 10. 2010)
- Seminář 4 (3. 11. 2010)
- Semináře 5 a 6( 10. a 24. 11. 2010) byly věnovány opakování a procvičování. Další příklady.
- 7. a 8. hodina byly věnovány POS taggingu.
- Seminář 9 (5. ledna 1011) – základy HTML