Během předchozího roku řešení (2016) byla na základě studií obdobných zdrojů navržena struktura slovníku českých diskurzních konektorů. Rok 2017 byl věnován praktické aplikaci tohoto návrhu. Z dat Pražského diskurzního korpusu 2.0 (Prague Discourse Treebank 2.0; PDiT 2.0) byla vyextrahována základní verze slovníku, následně byla prozatím nejfrekventovanější hesla ručně upravena a doplněna. Podrobnosti v následujících bodech.

Extrakce základní verze slovníku

Základní verze slovníku byla poloautomaticky vyextrahována z anotovaných dat Pražského diskurzního korpusu 2.0, který představuje nejnovější diskurzní anotaci dat Pražského závislostního korpusu. Extrakce probíhala ve třech krocích (krok 2 byl proveden ručně, kroky 1 a 3 automaticky):

  1. Automatické vytvoření seznamu všech konektorů anotovaných v PDiT 2.0 (včetně jejich variant, modifikací a komplexních forem) pomocí dotazu v systému PML-Tree Query.
  2. Ruční zpracování tohoto seznamu, kdy byly rozlišeny varianty, modifikace a komplexní formy a přiřazeny ke svým základním konektorům (tedy např. konektor „právě proto“ byl označen za modifikaci a přiřazen ke konektoru „proto“, nebo např. konektor „přesto ale“ byl označen za komplexní formu a přiřazen k oběma základním konektorům („přesto“ a „ale“). U vybraných nejčastějších sekundárních konektorů byly jednotlivé formy rozděleny navíc podle závislostního schématu reprezentujícího syntakticky podobné konstrukce (rozliší se tak významově odlišná užití klíčového slova, např. „z tohoto důvodu“ vs. „důvodem bylo“).
  3. Automatická extrakce slovníku (s využitím ručního rozdělení konektorů z předchozího kroku) z dat PDiT 2.0. Každý výskyt konektoru v datech PDiT 2.0 byl automaticky zařazen na správné místo ve struktuře slovníku (konektivní vs. nekonektivní užití, v případě konektivního užití dále v závislosti na diskurzním typu příslušného diskurzního vztahu a případně závislostním schématu (u vybraných sekundárních konektorů). Ke každému konektivnímu užití konektoru (tj. ke každému diskurznímu typu vyjádřenému konektorem v anotovaných datech) bylo uloženo až 10 mezivětných a 10 vnitrovětných příkladů (vybíraly se co nejkratší příklady; obdobně byly uloženy příklady nekonektivních užití, zvlášť pro různé slovní druhy anotované v datech u daného konektoru). Automaticky byly předvyplněny některé atributy (např. argument semantics, obsahující u nesymetrických vztahů význam argumentu asociovaného s konektorem, tj. např. zda se u vztahu reason–result jedná o reason či result).

Takto vygenerovaná základní verze slovníku obsahuje všechny konektory anotované v PDiT 2.0, přičemž u každého je (díky ručnímu kroku 2) rozlišeno, zda se jedná o základní konektor (či jeho variantu) nebo zda jde o modifikaci či komplexní formu, které jsou v rámci jednotlivých diskurzních typů sdruženy pod příslušné základní konektory.

Formát dat

Pro technické zpracování slovníku byl zvolen datový formát a skupina aplikací Prague Markup Language (PML). Jedná se o variantu formátu XML uzpůsobenou pro zachycení jazykových dat, zejména treebanků (řada treebanků vytvořených na ÚFALu používá tento formát, včetně PDiT 2.0). Užití datového formátu PML přináší tři základní výhody: (1) data je možno editovat v editoru TrEd, (2) data je možno dávkově zpracovat v programu btred a (3) data je možno prohledávat pomocí vyhledávacího nástroje PML-TQ (Prague Markup Language - Tree Query). Další potenciální výhodou je možnost snadného prolinkování slovníku se zdrojovým korpusem.

Automatické a manuální kontroly a úpravy

Kritériem pro zařazení komplexní formy konektoru (např. „přesto však“) pod určité užití základního slovníkového hesla (např. pod „opposition“ u základního slovníkového hesla „přesto“¨) je schopnost základního konektoru („přesto“) vyjádřit daný diskurzní vztah („opposition“) i samostatně. Automatický skript označil u základních konektorů ve slovníku všechna užití (diskurzní typy), které jsou v datech PDiT 2.0 vyjádřeny (v souvislosti s tímto konektorem) výhradně jeho komplexními formami – tedy případy, kdy samotný základní konektor tento význam vyjádřit neumí (resp. takový případ se nevyskytl v datech). Ve webovém rozhraní i v prostředí TrEdu jsou tato užití označena červeným vykřičníkem. Anotátor měl pak možnost zvážit, zda jde pouze o řídká data či zda samotný základní konektor daný diskurzní typ skutečně nevyjadřuje. Ve druhém případě bylo dané užití od daného základního konektoru odstraněno. Příslušné komplexní formy tak zůstanou reprezentovány u daného diskurzního typu jen u ostatních základních konektorů, ze kterých jsou tvořeny. Pokud ani ostatní složky komplexní formy daný diskurzní typ samy nevyjadřují, bylo z dané komplexní formy vytvořeno základní slovníkové heslo. To nastalo např. u vztahu typu „concession“ vyjádřeného komplexní formou „i tak“. Ani samotné „i“, ani samotné „tak“ diskurzní typ „concession“ nevyjadřují, komplexní forma „i tak“ byla tedy do slovníku zařazena jako základní heslo a užití „concession“ bylo z hesel „i“ a „tak“ odstraněno.

Pro ruční kontroly dat bylo implementováno rozšíření editoru stromů TrEd. Je volně ke stažení z manažeru rozšíření z menu TrEdu a obsahuje definici struktury slovníku (tzv. schéma), definici způsobu zobrazení slovníkových dat (tzv. stylesheet) a rovněž makra usnadňující časté anotační úkony. Součástí ručních kontrol je jednak kontrola automaticky vyplněných hodnot, posouzení sporných významů konektoru (vzhledem ke komplexním formám – viz předchozí odstavec), doplnění atributů, které nebyly vyplněny automaticky, překlad hlavních slovníkových hesel do angličtiny, doplnění glos k jednotlivým užitím (a doplnění jejich překladů), překlad komplexních forem a modifikací, označní jejich typů, výběr nejvhodnějších příkladů a rovněž jejich překlad do angličtiny. Podstatné informace, které nemohly být přidány v rámci zmíněných strukturních atributů, byly dodány jako volný text v k tomu určeném atributu „note“ (anglicky).

Ruční kontroly a anotace začaly od nejfrekventovanějších hesel (podle počtu konektivních užití základního konektoru) a pokračují dále k méně frekventovaným. Na konci listopadu 2017 byla ručně zkontrolována a anotována  následující hesla (v závorce uvádíme počty konektivních užití, a to včetně variant, modifikací a komplexních forem): a (6 617), ale (1 746), však (1 686), když (780), protože (637), totiž (485), proto (478), pokud (473), aby (451), pak (432), : (416), tedy (339), také (334), tak (331), ovšem (311). Ze sekundárních konektorů jsou ručně zpracovány dodat (187), případ (83) a „vzhledem k“ (42). U několika dalších sekundárních konektorů jsou všechny realizace ručně rozděleny podle závislostního schématu: důvod (76), strana (61), naproti (24), oproti (4), ale prozatím nejsou doplněny dalšími informacemi. Z celkového počtu 205 základních hesel jde tedy o poměrně malou část, která je již ručně zpracována, představuje však více než dvě třetiny všech konektivních výskytů konektorů ve zdrojovém korpusu PDiT 2.0. Navíc i zbylá hesla, přestože nejsou zatím zpracována ručně (kromě ručního předrozdělení variant, modifikací a kompl. forem…), poskytují již v této podobě užitečné informace o různých užitích konektorů, včetně jejich četností a příkladů.
Ruční kontroly přinesly řadu podnětných poznatků ke struktuře slovníku, k rozličným užitím konektorů a v neposlední řadě také k anotaci diskurzních vztahů obecně. Důležitým výsledkem těchto kontrol je vznikající seznam chyb v anotacích zdrojového korpusu, které takto byly odhaleny – nejčastěji u málo frekventovaných užití konektorů či v příkladech nekonektivních užití konektorů (často se jedná o konektivní užití, která však chybně nebyla anotována).

Webová on-line verze slovníku

Primární datový formát slovníku PML je vhodný pro počítačové zpracování a pro ruční úpravy slovníku. Pro snadnou prezentaci slovníku bez nutnosti instalace např. editoru TrEd byl vytvořen skript (programovací jazyk Perl, prostředí btred), pomocí něhož je možno slovník z primárního formátu PML vyexportovat do verze HTML. Ta je od října 2017 umístěna na webu a zpřístupňuje slovník v jeho aktuální pracovní verzi. V graficky přehledné formě představuje hlavní informace o jednotlivých slovníkových heslech. Pro lepší orientaci umožňuje filtrovat seznam slovníkových hesel podle tří kritérií (která zatím nelze kombinovat): základní filtr rozlišuje konektory primární a sekundární, další filtr rozlišuje konektory podle diskurzního typu, který jsou schopny vyjádřit, a poslední filtr třídí konektory podle slovního druhu. Barevně (a rovněž slovním upozorněním) jsou rozlišena ručně plně zpracovaná a zkontrolovaná hesla, hesla ručně zpracovaná a zkontrolovaná, ale bez překladů příkladů, a hesla zatím ručně nezkontrolovaná a nezpracovaná.