Projekt si klade za cíl vytvoření automatické metody pro anotaci diskurzních vztahů v češtině.
Využije řady klíčových datových zdrojů, přičemž některé z nich již existují (především Pražský
závislostní korpus, Penn Discourse Treebank, Prague Czech-English Dependency Treebank),
některé budou vytvořeny v rámci projektu s použitím nákladově efektivních metod (elektronický
slovník diskurzních konektorů, další diskurzně anotovaná data).
Projekt má tři hlavní cíle:
- vytvořit elektronický slovník českých diskurzních konektorů
- vytvořit proceduru pro automatickou anotaci diskurzních vztahů v češtině s využitím tohoto
slovníku
- kromě využití již existujících dat použít anotační projekci k získání a využití dalších
anotovaných dat