Automatické zpracování textových dat


NPFL098 / ATKL00345

Pavel Straňák

stranak@ufal.mff.cuni.cz

středa 14.00–17.10
Malostranské nám. 25, S421+SU1

2. 4. 2014

NLP Aplikace a nástroje

Zpracování - analýza

  1. segmentace na věty (segmenter)
  2. tokenizace (tokenizer)
  3. stemming, POS tagging, lematizace a morfologie (stemmer, POS tagger)
  4. syntax povrchová (syntactic parser, chunker)
  5. syntax hloubková (in Treex modifying the surface parse tree)
  6. další jednotky a vztahy (na různých rovínách popisu):
    • rozpoznání pojmenovaných entit
    • koreference (zájmenná, jmenná)
    • časové vztahy
    • Word Sense Disambiguation (viz t-lemmata)

Kompletní analýza: řetězec mnoha kroků. Syntéza analogicky.

NLP Toolkits

NLP Toolkits cont.

Treex

"Treex (formerly TectoMT) is a highly modular NLP software system implemented in Perl programming language under Linux."

NLTK