Projekt je zaměřen na výzkum a vývoj inovativních nákladově efektivních metod diskurzní
anotace v různých typech textových korpusů dostupných v Prague Dependency Treebank - Consolidated 1.0 (PDT-C). Využijeme a dále rozvineme existující metody pro automatickou diskurzní předanotaci dat a v mezích daných velikostí tohoto projektu provedeme nejdůležitější ruční opravy takto automaticky předanotovaných dat, čímž vytvoříme jedinečný žánrově rozmanitý diskurzně anotovaný korpus v češtině. Projekt se bude zabývat explicitními diskurzními vztahy vyjádřenými tzv. primárními konektory. Výzkum bude věnován rovněž zpřístupnění teoretických i praktických výsledků mezinárodní vědecké komunitě, včetně transformace a zveřejnění dat v široce používaném formátu a taxonomii Penn Discourse Treebanku (PDTB). Výstupy přispějí jak k teoretickým znalostem o diskurzních vztazích v různých typech textů v češtině, nově především v mluvených a přeložených datech, tak ke strojovému zpracování přirozeného jazyka v souvislosti s diskurzními vztahy.
Projekt má tři hlavní cíle: