Hlavním cílem projektu TextLink: Skladba diskurzu v evropských jazycích je vytvoření anotačního schématu pro slovník českých diskurzních konektorů a – na základě anotovaného korpusu PDT – vytvoření pilotní verze tohoto slovníku.

Aktuální verze slovníku je k dispozici on-line (s anglickým uživatelským rozhraním).

Etapy projektu (2015-2017):

2015

Projekt TextLink, podpořený grantem COST-cz Ministerstva školství, mládeže a tělovýchovy, zahájil činnost v listopadu 2015. V prvních dvou měsících (tj. posledních dvou měsících roku 2015) řešitelský tým zajistil technické a administrativní zázemí projektu. Byly vytvořeny veřejně přístupné oficiální stránky grantu (http://ufal.mff.cuni.cz/grants/textlink-cz) a veřejně přístupné oficiální stránky projektu (http://ufal.mff.cuni.cz/textlink-cz), kde budou v následujících letech zveřejňovány výsledky projektu. Pro průběžné potřeby pracovního týmu byly vytvořeny wiki stránky (https://wiki.ufal.ms.mff.cuni.cz/textlink-cz). Pro uchovávání dat (články, data poskytnutá jinými pracovišti, data a skripty vytvořené řešitelským týmem) byl založen repozitář svn. Webové stránky, wiki stránky i repozitář svn jsou hostovány řešitelským pracovištěm, Ústavem formální a aplikované lingvistiky.

S využitím seznamu existujících slovníků diskurzních konektorů vytvořeného v rámci mezinárodní akce COST TextLink (http://www.textlink.ii.metu.edu.tr/dsd-view) byl získán přístup k řadě jazykových zdrojů obdobného typu, jakým je hlavní plánovaný výstup tohoto projektu – slovník diskurzních konektorů. S některými z těchto pracovišť byl navázán přímý kontakt, na jehož základě byl získán přístup k příslušnému jazykovému zdroji. Byla zakoupena odborná literatura zabývající se zkoumanou problematikou.

2016

Ve druhé etapě řešení projektu (E002, rok 2016) se řešitelský tým věnoval studiu existujících přístupů k vytvoření slovníku konektorů s využitím zdrojů nalezených v etapě předchozí (E001, rok 2015) a s využitím zkušeností spolupracovníků z pracovišť ostatních členů akce COST TextLink. Byly provedeny první kroky v adaptaci anotačních postupů na české konektory a byly ověřeny na několika vybraných českých konektorech. Hlavními teoretickými výsledky etapy E002 jsou: (1) výběr typů informací, které mají být anotovány ve slovníku českých konektorů, a (2) jejich struktura. Tyto výsledky byly prezentovány na mezinárodní konferenci PACLIC 30 a jsou shrnuty v příslušném článku:
 

Mírovský Jiří, Synková Pavlína, Rysová Magdaléna, Poláková Lucie: Designing CzeDLex – A Lexicon of Czech Discourse Connectives. In: Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation, Kyung Hee University, Seoul, Korea, in print

Hlavními vlastnostmi navrženého slovníkového schématu jsou:

  1. primárním datovým formátem je XML, podobně jako u německého slovníku DiMLex a francouzského LEXCONNu; tato volba rovněž usnadní integraci s PDT

  2. slovník je přístupný i pro anglicky mluvící badatele – charakteristiky i jejich hodnoty jsou zavedeny tak, aby byly mezinárodně srozumitelné, uvádějí se ekvivalenty konektorů v angličtině, příklady jsou přeloženy

  3. struktura slovníkových hesel je téměř totožná pro konektory primární (gramatikalizované výrazy jako proto, protože) i sekundární (negramatikalizované struktury jako z toho důvodu, to je důvod proč); již samotný fakt začlenění sekundárních konektorů do slovníku jej učiní unikátním datovým zdrojem ve světovém měřítku

  4. hnízdování hesel na jednotlivých úrovních je založeno:

  • na první úrovni na lemmatu konektoru; pro sekundární konektory jde o lemma jádrového (core) slova (viz níže)
  • na druhé úrovni na sémanticko-pragmatickém typu diskurzního vztahu (krátce „diskurzním typu“), který v daném použití konektor vyjadřuje; pro zachování stejného počtu úrovní pro primární a sekundární konektory je hnízdování druhé úrovně pro sekundární konektory založeno na kombinaci diskurzního typu a závislostního schématu reprezentujícího množinu strukturně podobných sekundárních konektorů

Pro popis konektorů byly navrženy charakteristiky jednak komputačně využitelné, jednak lingvisticky relevantní. U každého hesla se kromě užití daného výrazu jako konektoru (connective_usages) zohledňují i možná užití nekonektivní (non-connective_usages). U obou těchto možností se uvádí (přibližný) ekvivalent v angličtině, slovní druh daného výrazu, žánr, ve kterém lze výraz užít, případné pravopisné varianty a příklady užití z PDT (v češtině a angličtině). Užití konektivní zahrnuje kromě toho tyto charakteristiky:

  1. element arg_semantics popisuje, v které části diskurzního vztahu se konektor vyskytuje. Např. konektor tedy se vyskytuje v části důsledek (result) v příčinném vztahu (reason–result). Tato charakteristika se uvádí v diskurzních typech se sémanticky odlišnými částmi (tzv. vztahy asymetrické, např. příčina–důsledek, přípustka, podmínka), u diskurzních typů se sémanticky stejnými částmi (tzv. vztahy symetrické, např. slučování, současnost) je ponechána prázdná (non-applicable)

  2. element ordering popisuje lineární pořadí argumentu (tj. části vztahu), ve kterém se vyskytuje konektor (např. konektory tedy nebo to je důvod, proč jsou vždy v lineárně druhém argumentu v textu, konektor protože může být v lineárně prvním i druhém argumentu atd.)

  3. element integration uvádí slovoslednou pozici, na které se konektor vyskytuje ve svém argumentu (např. tedy může být na první i druhé pozici v argumentu, protože pouze na první)

  4. element modifications uvádí plný seznam modifikací konektoru zaznamenaných v datech PDT (modifikace se nepodílejí na vyjadřování diskurzního typu, přidávají nejčastěji modální charakteristiky – právě proto, že; možným důvodem je)

  5. element compounds uvádí plný seznam složených konektorů zaznamenaných v datech PDT, jejichž částí je popisovaný konektor (při zachování typu diskurzního vztahu) – např. nejen, ale i; a to je důvod, proč (části složených konektorů participují na vyjadřování diskurzního typu, nejčastěji vystupují jako konektory i samostatně, ale někdy tomu tak není – např. buďanebo)

  6. pokud je popisovaný konektor sám složený (např. i když), uvádí se u něj i to, zda je spojitý (continuous; mezi jeho části nelze vsunout jiné výrazy), nespojitý (discontinuous; mezi jeho části lze vsunout jiné výrazy, ale všechny části konektoru se vyskytují v jednom argumentu), nebo korelativní (correlative; části konektoru se vyskytují v obou argumentech)

Klíčovou otázkou při začleňování sekundárních konektorů do slovníku byla především volba samostatných hesel a výběr vhodného lemmatu. Sekundární konektory (na rozdíl od konektorů primárních) nejsou totiž plně gramatikalizované a vykazují značnou míru variability (srov. např. příčina je vs. příčinou je; to je důvod, proč vs. je to důvod proč apod.). Otázkou tedy je, zda považovat za samostatná hesla jednotlivé struktury a dále jaké pro ně zvolit lemma (tj. jak do slovníku začlenit např. struktury příčinou je, příčina je apod.).

Obecnou charakteristikou většiny sekundárních konektorů je, že obsahují tzv. jádrová slova, tj. slova signalizující příslušný sémanticko-pragmatický diskurzní vztah (srov. např. pro sekundární konektor podmínkou je považujeme za jádrové slovo podstatné jméno podmínka signalizující diskurzní vztah podmínky; stejné jádrové slovo mají další sekundární konektory, např. za těchto podmínek, to bylo hlavní podmínkou apod.).

Pro tvorbu slovníkových hesel pro sekundární konektory jsme se proto rozhodli považovat za základ tato jádrová slova, pod která zahrnujeme všechny konkrétní struktury sekundárních konektorů, které dané jádrové slovo obsahují. Jednotlivé struktury jsou dále ve slovníku zachycovány pod obecnými závislostními schématy – srov. např. schéma pod jádrovým slovem důvod: „z ((anaph. Atr) důvod.2)“ (tj. předložka z, anaforický přívlastek, slovo důvod v genitivu) odpovídající např. sekundárním konektorům z tohoto důvodu, z uvedených důvodů, z popsaných důvodů apod.; tyto konkrétní sekundární konektory jsou do slovníku zaneseny v elementu realizations.

2017

Během předchozího roku řešení (2016) byla na základě studií obdobných zdrojů navržena struktura slovníku českých diskurzních konektorů. Rok 2017 byl věnován praktické aplikaci tohoto návrhu. Z dat Pražského diskurzního korpusu 2.0 (Prague Discourse Treebank 2.0; PDiT 2.0) byla vyextrahována základní verze slovníku, následně byla prozatím nejfrekventovanější hesla ručně upravena a doplněna. Podrobnosti v následujících bodech.

Extrakce základní verze slovníku

Základní verze slovníku byla poloautomaticky vyextrahována z anotovaných dat Pražského diskurzního korpusu 2.0, který představuje nejnovější diskurzní anotaci dat Pražského závislostního korpusu. Extrakce probíhala ve třech krocích (krok 2 byl proveden ručně, kroky 1 a 3 automaticky):

  1. Automatické vytvoření seznamu všech konektorů anotovaných v PDiT 2.0 (včetně jejich variant, modifikací a komplexních forem) pomocí dotazu v systému PML-Tree Query.
  2. Ruční zpracování tohoto seznamu, kdy byly rozlišeny varianty, modifikace a komplexní formy a přiřazeny ke svým základním konektorům (tedy např. konektor „právě proto“ byl označen za modifikaci a přiřazen ke konektoru „proto“, nebo např. konektor „přesto ale“ byl označen za komplexní formu a přiřazen k oběma základním konektorům („přesto“ a „ale“). U vybraných nejčastějších sekundárních konektorů byly jednotlivé formy rozděleny navíc podle závislostního schématu reprezentujícího syntakticky podobné konstrukce (rozliší se tak významově odlišná užití klíčového slova, např. „z tohoto důvodu“ vs. „důvodem bylo“).
  3. Automatická extrakce slovníku (s využitím ručního rozdělení konektorů z předchozího kroku) z dat PDiT 2.0. Každý výskyt konektoru v datech PDiT 2.0 byl automaticky zařazen na správné místo ve struktuře slovníku (konektivní vs. nekonektivní užití, v případě konektivního užití dále v závislosti na diskurzním typu příslušného diskurzního vztahu a případně závislostním schématu (u vybraných sekundárních konektorů). Ke každému konektivnímu užití konektoru (tj. ke každému diskurznímu typu vyjádřenému konektorem v anotovaných datech) bylo uloženo až 10 mezivětných a 10 vnitrovětných příkladů (vybíraly se co nejkratší příklady; obdobně byly uloženy příklady nekonektivních užití, zvlášť pro různé slovní druhy anotované v datech u daného konektoru). Automaticky byly předvyplněny některé atributy (např. argument semantics, obsahující u nesymetrických vztahů význam argumentu asociovaného s konektorem, tj. např. zda se u vztahu reason–result jedná o reason či result).

Takto vygenerovaná základní verze slovníku obsahuje všechny konektory anotované v PDiT 2.0, přičemž u každého je (díky ručnímu kroku 2) rozlišeno, zda se jedná o základní konektor (či jeho variantu) nebo zda jde o modifikaci či komplexní formu, které jsou v rámci jednotlivých diskurzních typů sdruženy pod příslušné základní konektory.

Formát dat

Pro technické zpracování slovníku byl zvolen datový formát a skupina aplikací Prague Markup Language (PML). Jedná se o variantu formátu XML uzpůsobenou pro zachycení jazykových dat, zejména treebanků (řada treebanků vytvořených na ÚFALu používá tento formát, včetně PDiT 2.0). Užití datového formátu PML přináší tři základní výhody: (1) data je možno editovat v editoru TrEd, (2) data je možno dávkově zpracovat v programu btred a (3) data je možno prohledávat pomocí vyhledávacího nástroje PML-TQ (Prague Markup Language - Tree Query). Další potenciální výhodou je možnost snadného prolinkování slovníku se zdrojovým korpusem.

Automatické a manuální kontroly a úpravy

Kritériem pro zařazení komplexní formy konektoru (např. „přesto však“) pod určité užití základního slovníkového hesla (např. pod „opposition“ u základního slovníkového hesla „přesto“¨) je schopnost základního konektoru („přesto“) vyjádřit daný diskurzní vztah („opposition“) i samostatně. Automatický skript označil u základních konektorů ve slovníku všechna užití (diskurzní typy), které jsou v datech PDiT 2.0 vyjádřeny (v souvislosti s tímto konektorem) výhradně jeho komplexními formami – tedy případy, kdy samotný základní konektor tento význam vyjádřit neumí (resp. takový případ se nevyskytl v datech). Ve webovém rozhraní i v prostředí TrEdu jsou tato užití označena červeným vykřičníkem. Anotátor měl pak možnost zvážit, zda jde pouze o řídká data či zda samotný základní konektor daný diskurzní typ skutečně nevyjadřuje. Ve druhém případě bylo dané užití od daného základního konektoru odstraněno. Příslušné komplexní formy tak zůstanou reprezentovány u daného diskurzního typu jen u ostatních základních konektorů, ze kterých jsou tvořeny. Pokud ani ostatní složky komplexní formy daný diskurzní typ samy nevyjadřují, bylo z dané komplexní formy vytvořeno základní slovníkové heslo. To nastalo např. u vztahu typu „concession“ vyjádřeného komplexní formou „i tak“. Ani samotné „i“, ani samotné „tak“ diskurzní typ „concession“ nevyjadřují, komplexní forma „i tak“ byla tedy do slovníku zařazena jako základní heslo a užití „concession“ bylo z hesel „i“ a „tak“ odstraněno.

Pro ruční kontroly dat bylo implementováno rozšíření editoru stromů TrEd. Je volně ke stažení z manažeru rozšíření z menu TrEdu a obsahuje definici struktury slovníku (tzv. schéma), definici způsobu zobrazení slovníkových dat (tzv. stylesheet) a rovněž makra usnadňující časté anotační úkony. Součástí ručních kontrol je jednak kontrola automaticky vyplněných hodnot, posouzení sporných významů konektoru (vzhledem ke komplexním formám – viz předchozí odstavec), doplnění atributů, které nebyly vyplněny automaticky, překlad hlavních slovníkových hesel do angličtiny, doplnění glos k jednotlivým užitím (a doplnění jejich překladů), překlad komplexních forem a modifikací, označní jejich typů, výběr nejvhodnějších příkladů a rovněž jejich překlad do angličtiny. Podstatné informace, které nemohly být přidány v rámci zmíněných strukturních atributů, byly dodány jako volný text v k tomu určeném atributu „note“ (anglicky).

Ruční kontroly a anotace začaly od nejfrekventovanějších hesel (podle počtu konektivních užití základního konektoru) a pokračují dále k méně frekventovaným. Na konci listopadu 2017 byla ručně zkontrolována a anotována  následující hesla (v závorce uvádíme počty konektivních užití, a to včetně variant, modifikací a komplexních forem): a (6 617), ale (1 746), však (1 686), když (780), protože (637), totiž (485), proto (478), pokud (473), aby (451), pak (432), : (416), tedy (339), také (334), tak (331), ovšem (311). Ze sekundárních konektorů jsou ručně zpracovány dodat (187), případ (83) a „vzhledem k“ (42). U několika dalších sekundárních konektorů jsou všechny realizace ručně rozděleny podle závislostního schématu: důvod (76), strana (61), naproti (24), oproti (4), ale prozatím nejsou doplněny dalšími informacemi. Z celkového počtu 205 základních hesel jde tedy o poměrně malou část, která je již ručně zpracována, představuje však více než dvě třetiny všech konektivních výskytů konektorů ve zdrojovém korpusu PDiT 2.0. Navíc i zbylá hesla, přestože nejsou zatím zpracována ručně (kromě ručního předrozdělení variant, modifikací a kompl. forem…), poskytují již v této podobě užitečné informace o různých užitích konektorů, včetně jejich četností a příkladů.
Ruční kontroly přinesly řadu podnětných poznatků ke struktuře slovníku, k rozličným užitím konektorů a v neposlední řadě také k anotaci diskurzních vztahů obecně. Důležitým výsledkem těchto kontrol je vznikající seznam chyb v anotacích zdrojového korpusu, které takto byly odhaleny – nejčastěji u málo frekventovaných užití konektorů či v příkladech nekonektivních užití konektorů (často se jedná o konektivní užití, která však chybně nebyla anotována).

Webová on-line verze slovníku

Primární datový formát slovníku PML je vhodný pro počítačové zpracování a pro ruční úpravy slovníku. Pro snadnou prezentaci slovníku bez nutnosti instalace např. editoru TrEd byl vytvořen skript (programovací jazyk Perl, prostředí btred), pomocí něhož je možno slovník z primárního formátu PML vyexportovat do verze HTML. Ta je od října 2017 umístěna na webu a zpřístupňuje slovník v jeho aktuální pracovní verzi. V graficky přehledné formě představuje hlavní informace o jednotlivých slovníkových heslech. Pro lepší orientaci umožňuje filtrovat seznam slovníkových hesel podle tří kritérií (která zatím nelze kombinovat): základní filtr rozlišuje konektory primární a sekundární, další filtr rozlišuje konektory podle diskurzního typu, který jsou schopny vyjádřit, a poslední filtr třídí konektory podle slovního druhu. Barevně (a rovněž slovním upozorněním) jsou rozlišena ručně plně zpracovaná a zkontrolovaná hesla, hesla ručně zpracovaná a zkontrolovaná, ale bez překladů příkladů, a hesla zatím ručně nezkontrolovaná a nezpracovaná.