Ve druhé etapě řešení projektu (E002, rok 2016) se řešitelský tým věnoval studiu existujících přístupů k vytvoření slovníku konektorů s využitím zdrojů nalezených v etapě předchozí (E001, rok 2015) a s využitím zkušeností spolupracovníků z pracovišť ostatních členů akce COST TextLink. Byly provedeny první kroky v adaptaci anotačních postupů na české konektory a byly ověřeny na několika vybraných českých konektorech. Hlavními teoretickými výsledky etapy E002 jsou: (1) výběr typů informací, které mají být anotovány ve slovníku českých konektorů, a (2) jejich struktura. Tyto výsledky byly prezentovány na mezinárodní konferenci PACLIC 30 a jsou shrnuty v příslušném článku:

Mírovský Jiří, Synková Pavlína, Rysová Magdaléna, Poláková Lucie: Designing CzeDLex – A Lexicon of Czech Discourse Connectives. In: Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation, Kyung Hee University, Seoul, Korea, in print

 

Hlavními vlastnostmi navrženého slovníkového schématu jsou:

  1. primárním datovým formátem je XML, podobně jako u německého slovníku DiMLex a francouzského LEXCONNu; tato volba rovněž usnadní integraci s PDT

  2. slovník je přístupný i pro anglicky mluvící badatele – charakteristiky i jejich hodnoty jsou zavedeny tak, aby byly mezinárodně srozumitelné, uvádějí se ekvivalenty konektorů v angličtině, příklady jsou přeloženy

  3. struktura slovníkových hesel je téměř totožná pro konektory primární (gramatikalizované výrazy jako proto, protože) i sekundární (negramatikalizované struktury jako z toho důvodu, to je důvod proč); již samotný fakt začlenění sekundárních konektorů do slovníku jej učiní unikátním datovým zdrojem ve světovém měřítku

  4. hnízdování hesel na jednotlivých úrovních je založeno:

  • na první úrovni na lemmatu konektoru; pro sekundární konektory jde o lemma jádrového (core) slova (viz níže)
  • na druhé úrovni na sémanticko-pragmatickém typu diskurzního vztahu (krátce „diskurzním typu“), který v daném použití konektor vyjadřuje; pro zachování stejného počtu úrovní pro primární a sekundární konektory je hnízdování druhé úrovně pro sekundární konektory založeno na kombinaci diskurzního typu a závislostního schématu reprezentujícího množinu strukturně podobných sekundárních konektorů

Pro popis konektorů byly navrženy charakteristiky jednak komputačně využitelné, jednak lingvisticky relevantní. U každého hesla se kromě užití daného výrazu jako konektoru (connective_usages) zohledňují i možná užití nekonektivní (non-connective_usages). U obou těchto možností se uvádí (přibližný) ekvivalent v angličtině, slovní druh daného výrazu, žánr, ve kterém lze výraz užít, případné pravopisné varianty a příklady užití z PDT (v češtině a angličtině). Užití konektivní zahrnuje kromě toho tyto charakteristiky:

  1. element arg_semantics popisuje, v které části diskurzního vztahu se konektor vyskytuje. Např. konektor tedy se vyskytuje v části důsledek (result) v příčinném vztahu (reason–result). Tato charakteristika se uvádí v diskurzních typech se sémanticky odlišnými částmi (tzv. vztahy asymetrické, např. příčina–důsledek, přípustka, podmínka), u diskurzních typů se sémanticky stejnými částmi (tzv. vztahy symetrické, např. slučování, současnost) je ponechána prázdná (non-applicable)

  2. element ordering popisuje lineární pořadí argumentu (tj. části vztahu), ve kterém se vyskytuje konektor (např. konektory tedy nebo to je důvod, proč jsou vždy v lineárně druhém argumentu v textu, konektor protože může být v lineárně prvním i druhém argumentu atd.)

  3. element integration uvádí slovoslednou pozici, na které se konektor vyskytuje ve svém argumentu (např. tedy může být na první i druhé pozici v argumentu, protože pouze na první)

  4. element modifications uvádí plný seznam modifikací konektoru zaznamenaných v datech PDT (modifikace se nepodílejí na vyjadřování diskurzního typu, přidávají nejčastěji modální charakteristiky – právě proto, že; možným důvodem je)

  5. element compounds uvádí plný seznam složených konektorů zaznamenaných v datech PDT, jejichž částí je popisovaný konektor (při zachování typu diskurzního vztahu) – např. nejen, ale i; a to je důvod, proč (části složených konektorů participují na vyjadřování diskurzního typu, nejčastěji vystupují jako konektory i samostatně, ale někdy tomu tak není – např. buďanebo)

  6. pokud je popisovaný konektor sám složený (např. i když), uvádí se u něj i to, zda je spojitý (continuous; mezi jeho části nelze vsunout jiné výrazy), nespojitý (discontinuous; mezi jeho části lze vsunout jiné výrazy, ale všechny části konektoru se vyskytují v jednom argumentu), nebo korelativní (correlative; části konektoru se vyskytují v obou argumentech)

Klíčovou otázkou při začleňování sekundárních konektorů do slovníku byla především volba samostatných hesel a výběr vhodného lemmatu. Sekundární konektory (na rozdíl od konektorů primárních) nejsou totiž plně gramatikalizované a vykazují značnou míru variability (srov. např. příčina je vs. příčinou je; to je důvod, proč vs. je to důvod proč apod.). Otázkou tedy je, zda považovat za samostatná hesla jednotlivé struktury a dále jaké pro ně zvolit lemma (tj. jak do slovníku začlenit např. struktury příčinou je, příčina je apod.).

Obecnou charakteristikou většiny sekundárních konektorů je, že obsahují tzv. jádrová slova, tj. slova signalizující příslušný sémanticko-pragmatický diskurzní vztah (srov. např. pro sekundární konektor podmínkou je považujeme za jádrové slovo podstatné jméno podmínka signalizující diskurzní vztah podmínky; stejné jádrové slovo mají další sekundární konektory, např. za těchto podmínek, to bylo hlavní podmínkou apod.).

Pro tvorbu slovníkových hesel pro sekundární konektory jsme se proto rozhodli považovat za základ tato jádrová slova, pod která zahrnujeme všechny konkrétní struktury sekundárních konektorů, které dané jádrové slovo obsahují. Jednotlivé struktury jsou dále ve slovníku zachycovány pod obecnými závislostními schématy – srov. např. schéma pod jádrovým slovem důvod: „z ((anaph. Atr) důvod.2)“ (tj. předložka z, anaforický přívlastek, slovo důvod v genitivu) odpovídající např. sekundárním konektorům z tohoto důvodu, z uvedených důvodů, z popsaných důvodů apod.; tyto konkrétní sekundární konektory jsou do slovníku zaneseny v elementu realizations.