English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5

Obsah

Úvod

Typy uzlů

Typy hran

Struktura uzlu

Funktory

Formémy

Gramatémy

Valence

Dostupné specifikace

V následujícím textu popisujeme hlavní principy tektogramatické reprezentace platné pro angličtinu, užíváme anglické příklady. Rysy, které nejsou jazykově specifické pro angličtinu, však platí i pro českou tektogramatickou reprezentaci.

Obrázek 1

Obrázek 1 ukazuje vnitřní strukturu t-uzlu, který není technickým kořenem. V této sekci popisujeme jednotlivé atributy a jejich hodnoty, ze kterých se tato struktura skládá. Některé atributy již byly zmíněny. Některé atributy pak nejsou v této verzi korpusu vyplněny, jejich význam zde proto nebudeme vysvětlovat. Atributy zde popisujeme v abecedním pořadí. Jsou tak zobrazeny i v TrEdu, když dvakrát klikneme na vybraný uzel nebo když si v TrEdu zobrazíme Side panel (View → Side panel) a nezvolíme "Hide empty values".

Odkazy do a-roviny: Atributy a, aux.rf a lex.rf

odkaz na slovo the je v atributu aux.rf a odkaz na slovo crowd je v atributu lex.rf

Obrázek 2: odkaz na slovo the je v atributu aux.rf a odkaz na slovo crowd je v atributu lex.rf

Atribut a obsahuje odkazy na nižší (analytickou) rovinu. Vlastní odkazy na a-uzly (uzly na a-rovině), které odpovídají danému t-uzlu, obsahují podatributy lex.rf a aux.rf. Atribut lex.rf obsahuje odkaz na autosémantické slovo, funkční a pomocná slova jsou odkázána v atributu aux.rf. Poznamenejme, že odkaz vede na identifikátor daného a-uzlu, nikoliv na jeho lemma nebo formu. T-uzel reprezentující spojení the crowd v první větě souboru wsj_0800.treex.gz odkazuje na a-uzly reprezentující slovo the a crowd (viz Obrázek 2).

Atribut alignment

Tento atribut obsahují pouze anglická data. Podatribut counterpart.rf obsahuje odkaz na odpovídající t-uzel v odpovídajícím českém t-stromě. Podatribut type je vždy giza++.

Odkaz u doplňku: atribut compl.rf

Výše zmíněná zelená šipka vedoucí z uzlu pro doplněk (s funktorem COMPL) je vizualizací odkazu, který je u tohoto uzlu uložen v atributu compl.rf. Atribut compl.rf obsahuje identifikátor cílového t-uzlu.

Atribute coref_gram.rf: gramatická koreferenční šipka

the growing crowd of Japanese investors is buying up foreign companies: ten, kdo roste, i ten, kdo skupuje, je dav.

Obrázek 3: the growing crowd of Japanese investors is buying up foreign companies: ten, kdo roste, i ten, kdo skupuje, je dav.

Odkazy (identifikátory t-uzlů) uložené v atributu coref_gram.rf se ve stromě zobrazují jako hnědé šipky a je jimi zachycena gramatická koreference. Gramatickou koreferenci mají přidané t-uzly se zástupným t-lemmatem #Cor a t-uzly reprezentující vztažná zájmena, adjektiva a adverbia (např. who, whose, that, which). Cílovým uzlem odkazu je vždy t-uzel, který lze vždy na základě gramatických pravidel, jednoznačně určit jako antecedent. Typickým příkladem gramatické koreference je subjekt infinitivu v konstrukcích s kontrolou. Viz Obrázek 3 a Obrázek 4. Gramatická koreference se odlišuje od textové koreference, která v korpusu PCEDT 2.0 velkou měrou koresponduje s tím, co se často označuje jako „anafora“ („anaphora resolution“): vztah mezi referujícím výrazem a jeho antecedentem, který je dán daleko více kontextem než gramatickými pravidly. Anotace textové koreference je pouze v české části korpusu.

Atribut formeme

Atribut formeme je uživatelsky vstřícná zkratka mezi rovinami anotace. Jak již bylo zmíněno dříve, funkční a pomocná slova nejsou reprezentována samostatnými t-uzly. Chceme-li v korpusu na tektogramatické rovině vyhledat například předložku beneath, znamená to hledat t-uzel, který má odkaz typu aux.rf na nějaký a-uzel, jehož atribut m/form (nebo m/lemma) je beneath. Atribut formeme však umožňuje vyhledávací dotaz zkrátit, můžeme hledat přímo t-uzel, který má v atributu formeme uveden formém n:beneath. Atribut formeme, budeme-li důslední, neodpovídá principům funkčního generativního popisu, ale ukazuje se jako velice užitečný.

Mr. Savoca succeeds William H. Borten, who resigned to pursue personal interests. Slovo who je zde užito jako vztažné zájmeno, které má gramatickou koreferenci se slovem Borten. Aktorem slovesa resign je who, od kterého pokračuje koreferenční řetězec k Borten.

Obrázek 4: Mr. Savoca succeeds William H. Borten, who resigned to pursue personal interests. Slovo who je zde užito jako vztažné zájmeno, které má gramatickou koreferenci se slovem Borten. Aktorem slovesa resign je who, od kterého pokračuje koreferenční řetězec k Borten.

Atribut functor

Funktory označují sémanticko-syntaktické funkce. Jejich seznam a popis je v sekci Funktory.

Atribut gram

Gramatémy (uložené v atributu gram) představují jemné syntaktické a sémantické kategorie. Jejich seznam a popis je v sekci Gramatémy.

Atribut id

V atributu id je uložen identifikátor daného uzlu. Obvyklé kódování je EnglishT-wsj_číslo_souboru-sčíslo_věty-tčíslo_uzlu. Některé identifikátory však mají i formu EnglishT-wsj_číslo_souboru-sčíslo_věty-ačíslo_uzlu, a to v případech, kdy anotátor do stromu přidal nový uzel (jak kopírovaný, tak nově vložený) nebo se nejprve nějaký negenerovaný uzel rozhodl smazat a následně ho znovu do stromu vložil a vymazal hodnotu "1" v jeho atributu is_generated.

Atribut is_dsp_root

Atribut označuje přímou řeč. V anglických datech není vyplněn příliš důkladně, daleko spolehlivější je jeho anotace v české části korpusu.

Atribut is_generated

T-uzly, které mají v atributu is_generated hodnotu "1", jsou přidané uzly. Chceme-li v korpusu vyhledávat jen nepřidané uzly, nelze hledat uzly, pro které platí is_generated="0", ale dotaz je třeba formulovat tak, že hledáme uzly, které nemají tento atribut vyplněný (které v tomto atributu nemají hodnotu "1"). Toto platí pro všechny atributy boolovského typu (is_member, is_parenthesis).

Atribut is_member

T-uzly s hodnotou "1" v atributu is_member reprezentují členy souřadné struktury (koordinace nebo apozice).

for a fuel that is cleaner to burn than either oil or coal

Obrázek 5: for a fuel that is cleaner to burn than either oil or coal

Atribute is_parenthesis

T-uzly s hodnotou "1" v atributu is_parenthesis reprezentují jednotlivé části nějaké vsuvky. Vsuvka může být začleněná do struktury věty (např. Or did Mr. Chestman only hear a market rumor (which one may lawfully trade upon)?) nebo tomu tak nemusí být (např. Such a situation can wreak havoc, as was shown by the emergency that developed in soybean futures trading this summer on the Chicago Board of Trade.). Kořen podstromu syntakticky nezačleněné vsuvky má funktor PAR.

Atribut nodetype

Viz sekce Typy uzlů.

Atribut ord

V atributu ord je uložena informace o pořadí uzlu ve stromě. Při úplné tektogramatické anotaci by tzv. hloubkový slovosled reflektoval výpovědní dynamičnost (aktuální členění). V PCEDT 2.0 však pořadí uzlů ve stromě zhruba odpovídá povrchovému pořadí slov a nepřináší žádnou novou informaci, protože anotace aktuálního členění není ani pro jednu část korpusu k dispozici.

Atribut sentmod

Atribut sentmod obsahuje informaci o větné modalitě. Náleží následujícím t-uzlům:

  • kořeni věty (reprezentované tektogramatickým stromem)
  • kořeni podstromu reprezentujícího přímou řeč
  • kořeni podstromu reprezentujícího (syntakticky nezačleněnou) vsuvku, efektivní kořen tohoto podstromu má funktor PAR.

Atribut t_lemma

Jedním z atributů t-uzlu je také tektogramatické lemma uzlu (dále t-lemma). Hodnotou atributu t_lemma je buď lexikální hodnota uzlu (tj. její základní forma reprezentovaná posloupností grafémů), nebo hodnota „umělá“, tzv. zástupné t-lemma.

He has in tow his prescient girlfriend, whose sassy retorts mark her as anything but a docile butterfly.

Obrázek 6: He has in tow his prescient girlfriend, whose sassy retorts mark her as anything but a docile butterfly.

Termín zástupné t-lemma je užíván pro umělá t-lemmata začínající #. Zástupná t-lemmata jsou přiřazována v následujících případech:

  • Osobní a přivlastňovací zájmena: Uzly reprezentující osobní a přivlastňovací zájmena mají t-lemma #PersPron.
  • Syntaktická negace: Uzel reprezentující syntaktickou negaci (vyjádřenou předponou ne- u českých sloves a částicí not nebo n't v angličtině) má t-lemma #Neg. Jiným výrazům pro negaci jako no, none, neither, nebo dokonce hardly, never není zástupné t-lemma přiřazováno.
  • Interpunkční znaménka a jiné symboly: Interpunkční znaménko je samostatným t-uzlem reprezentováno pouze v případě, že jeho sémantická interpretace je podobná jako u nějakého slova (např. funguje jako spojka). Seznam viz dále. Jedno z hlavních pravidel anotace, říká nic z toho, co je přítomné na nižší rovině, nesmí být opomenuto na rovině vyšší. Proto je žádoucí, aby i interpunkční znaménka, která nejsou reprezentována t-uzlem, byla odkázána v atributu a/aux.rf některých t-uzlů. Avšak jak v české, tak v anglické části tektogramatické anotace jsou zatím téměř všechna interpunkční znaménka, která nejsou reprezentována samostatným t-uzlem (např. čárka před závislou klauzí), zanedbána. Tato anotace bude doplněna v příští verzi korpusu.
  • Elipsy: Pro uzly přidané při rekonstrukci elips je též navrženo několik typů zástupných t-lemmat, která se liší podle typu elipsy. Kritéria rozlišování těchto zástupných t-lemmat jsou, zjednodušeně řečeno, založena tom, který slovní druh elidované doplnění reprezentuje a zda má v textu koreferenční antecedent. Seznam viz dále.
  • Seznamové struktury: Při zachycení seznamových struktur jsou doplňovány uzly se zástupnými t-lemmaty #Forn a #Idph, t-uzly mají vždy is_generated="1".
  • Anglická pro-forma do: Tzv. „dummy-do“ není považováno za elipsu. Je reprezentováno t-uzlem, který nemá vyplněný atribut is_generated a t-lemma takového uzlu je #VerbPron. Odkaz na a-uzel reprezentující příslušný výraz v povrchové podobě věty je uložen v atributu a/lex.rf.

Uzly reprezentující interpunkční znaménka a jiné (nealfanumerické) symboly mají následující zástupná t-lemmata:

Except for the gas tank at Hustead's Towing Service exploding and burning in downtown Berkeley, things here are quite peaceful

Obrázek 7: Except for the gas tank at Hustead's Towing Service exploding and burning in downtown Berkeley, things here are quite peaceful

  • & je reprezentován uzlem s t-lemmatem #Amp
  • % je reprezentováno uzlem s t-lemmatem #Percnt
  • * je reprezentována uzlem s t-lemmatem #Ast
  • tečka je reprezentována uzlem s t-lemmatem #Period
  • tři tečky jsou reprezentovány uzlem s t-lemmatem #Period3
  • čárka je reprezentována uzlem s t-lemmatem #Comma
  • dvojtečka je reprezentována uzlem s t-lemmatem #Colon
  • pomlčka a spojovník jsou reprezentovány uzlem s t-lemmatem #Dash
  • lomítko je reprezentováno uzlem s t-lemmatem #Slash
  • středník je reprezentován uzlem s t-lemmatem #Semicolon
  • závorka je reprezentován uzlem s t-lemmatem #Bracket
  • chybějící spojovací výraz je reprezentován uzlem s t-lemmatem #Separ. Poznamenejme, že tento uzel má is_generated="1" na rozdíl od vlastních interpunkčních znamének!

Uzly doplněné v případech elips mají vždy is_generated="1" a následující zástupná t-lemmata:

  • #Gen
  • #Oblfm
  • #Unsp
  • #Cor
  • #Rcp
  • #Benef
  • #EmpVerb
  • #EmpNoun
  • #Total
  • #AsMuch
  • #Equal
  • #Some

Uzel se zástupným t-lemmatem #PersPron, pokud má is_generated="1", reprezentuje elipsu. Pokud má atribut is_generated prázdný, reprezentuje zájmeno přítomné v povrchové podobě věty.

Mr. Runkel says he doubts Mr. Kennedy can muster enough congressional support to reorganize the Justice Department.

Obrázek 8: Mr. Runkel says he doubts Mr. Kennedy can muster enough congressional support to reorganize the Justice Department.

Uzly se zástupnými t-lemmaty #Gen, #Oblfm, #Unsp, #Cor a #Rcp se doplňují na pozice chybějících obligatorních doplnění slovesa (v české části anotace také u deverbativních substantiv odvozených příponou -ní, -tí). #Gen se užívá pro tzv. všeobecný aktant; např. Luis Nogales, 45 years old, has been elected to the board of this brewer. (Kdo zvolil Luise Nogalese do představenstva?) Všeobecný aktant je buď z textu neznámý, nebo se jím rozumí "kdokoliv", "cokoliv" nebo "to, co se obvykle vyskytuje v dané situaci". T-lemma #Oblfm se užívá pro obligatorní volná doplnění (která mohou být jak z kontextu známá, tak všeobecná). T-lemmatem #Unsp jsme se pokusili zachytit nepatrný rozdíl mezi čistě všeobecným aktantem ("lidé/věci obecně") a tzv. blíže nespecifikovaným aktantem, tj. více méně dobře vymezitelnou skupinou lidí nebo věcí, např. úředníků v dané kanceláři: These optional 1%-a-year increases to the steel quota program are built into the Bush administration's steel-quota program to give its negotiators leverage with foreign steel suppliers to try to get them to withdraw subsidies and protectionism from their own steel industries. (Kdo způsobil zvýšení ve vládním programu ohledně kvót oceli? Velmi pravděpodobně Bushova vláda). Zkušenost s reálnými daty však ukázala, že pro anotátora (zejména v anglické části) je velmi obtížné vést jasnou hranici mezi těmito dvěma aktanty. Užití t-lemmatu #Unsp v anotovaných datech je proto velmi provizorní, speciálně pro tento úkol nebyla nikdy měřena ani mezianotátorská shoda. Všeobecné/blíže nespecifikované one a they je v anglické části zachyceno jako běžný aktant (one s t-lemmatem one a osobní zájmeno s t-lemmatem #PersPron, např. they v následujících větách: Two became one flesh, as they said at the marriage ceremony, but who could say that it would be so hard. a They say the way to a man's heart is through his stomach. ).

Zástupné t-lemma #Cor se užívá v konstrukcích s tzv. kontrolou, kdy nepřítomnost nějakého aktantu je dána gramatickými pravidly: Peter decided to leave (Petr odešel). Zástupné t-lemma #Cor je obecně užíváno vždy, když je z gramatických důvodů vložení skutečného aktantu na danou pozici nemožné, ale zároveň jsme si vždy jistí, které slovo z kontextu má danou pozici vyplňovat, protože i to je dáno gramatickými pravidly.

Zástupné t-lemma #Rcp se užívá pro chybějící valenční doplnění, které z věty "zmizelo" v důsledku užití reciproční konstrukce. Například sloveso kiss vyžaduje dva aktanty: Peter kisses Mary. Tento požadavek je zapsán ve valenčním rámci slovesa. Ve větě Peter and Mary kissed jsou aktor a patient slovesa spojeny v koordinaci. Podle pravidel tektogramtatické anotace musí mít oba (všechny) členy souřadné struktury stejný funktor, pokud jde o valenční doplnění. Proto jsou zde jak Mary, tak Peter označeny jako aktor a na pozici obligatorního patientu je vložen uzel se zástupným t-lemmatem #Rcp.

The New York Stock Exchange now has the capacity to handle a volume of nearly a billion shares a day.

Obrázek 9: The New York Stock Exchange now has the capacity to handle a volume of nearly a billion shares a day.

Zástupné t-lemma #Benef se přidává především pří zachycování konstrukcí se sponovým slovesem, které se pojí s hodnotícími výrazy, například It is easy to forget about this case. Jde o konstrukce s tzv. kontrolou. Vložený uzel má význam benefaktoru, („pro někoho konkrétně, pro kohokoliv“) a slouží jako koreferenční antecedent uzlu s t-lemmatem #Cor (Obrázek 5).

Zástupná t-lemmata #EmpVerb a #EmpNoun jsou vkládána v případech, kdy ve větě není vyjádřen řídící člen nějakého rozvíjejícího (závislého) doplnění. Můžeme je chápat jako primitivní koncepty mít, být, jít, věc, člověk. V anglických datech jak #EmpVerb, tak #EmpNoun mají nodetype=complex, v českých datech má #EmpNoun nodetype=complex z důvodu zachycení obligatorní gramatické shody adjektivních přívlastků s nevyjádřeným řídícím jménem a #EmpVerbnodetype=qcomplex, protože tomuto uzlu nejsou žádné gramatémy přiřazovány.

Zástupné t-lemma #Total se užívá v konstrukcích, které nesou význam omezení, výjimky (funktor RESTR). Konstrukce s významem omezení obsahuje typicky nějaký totalizátor, kterým je slovo jako all nebo anything. Restriktivní doplnění závisí na tomto totalizátoru. Viz Obrázek 6. Totalizátor však může ve větě chybět, tak je tomu například ve větě Except for the gas tank at Hustead's Towing Service exploding and burning in downtown Berkeley, things here are quite peaceful (Obrázek 7). Chybějící totalizátor zachycujeme v tektogramatickém stromě přidaným uzlem se zástupným t-lemmatem #Total.

Zástupné t-lemma #AsMuch se doplňuje při zachycování konstrukcí se závislou klauzí účinkovou (funktor RESL), ve kterých chybí výraz vyjadřující míru, množství jako enough, too (much) nebo (in)sufficient(ly). Srovnej Mr. Runkel says he doubts Mr. Kennedy can muster enough congressional support to reorganize the Justice Department. na Obrázek 8 vs. The New York Stock Exchange now has the capacity to handle a volume of nearly a billion shares a day. na Obrázek 9.

Zástupná t-lemmata #Equal a #Some se užívají pro rekonstrukci elips v konstrukcích s významem srovnání (Obrázek 10). Struktura těchto konstrukcí je poměrně složitá. Podrobná pravidla anotace elips ve srovnávacích konstrukcích obsahuje jak český, tak anglický manuál.

This was an October massacre like those that occurred in 1978 and 1979.

Obrázek 10: This was an October massacre like those that occurred in 1978 and 1979.

Lexikální hodnoty t-lemmat

T-lemmata, která mají lexikální hodnotu (která nejsou zástupná), se někdy odlišují od toho, co se obvykle považuje za „lemma“ (zde „morfologické lemma“). Tektogramatické lemma se chápe jako společný jmenovatel pro různé typy syntaktických a lexikálních derivátů nějakého slova. Slovní derivace je pak především výrazný rys češtiny. Například slovní základ kdo se užívá v mnoha různých typech zájmen: kdo (tázací nebo vztažné zájmeno), někdo, leckdo/ledaskdo, kdosi, kdokoli, málokdo, kdovíkdo (neurčitá zájmena), nikdo (záporné zájmeno). V tektogramatickém popisu jsou všechny tyto odvozené podoby reprezentovány společným t-lemmatem kdo a kombinacemi gramatémů (viz sekce Gramatémy)), například nikdo má t-lemma kdo a gram/indeftype="negat". Derivace jsou také obvyklé u základních slovních druhů (u podstatných jmen, adjektiv, sloves, adverbií). Lexikální negace slov (hezký-nehezkýpretty/unpretty) je zachycena pouze pomocí gramatému negace a obě formy slova (kladná i záporná) jsou reprezentovány nezáporným t-lemmatem hezký. Derivace v češtině je velice rozsáhlá (srov. například hezoučký) a aktuální tektogramatická reprezentace ji zdaleka nepokrývá v celém jejím rozsahu. V anglických datech pak t-lemmata více nebo méně korespondují se základní formou slova. Jen adjektiva začínající zápornou předponou un- mají t-lemma bez této předpony. Zachycení t-lemmat je jak v české, tak v anglické části zatím jen velmi hrubé, a protože je výsledkem automatického procesu, je v něm i řada chyb.

Atribut val_frame.rf

Každý výskyt slovesa (v anglické části korpusu) je propojen s valenčním rámcem ve valenčním slovníku Engvallex. Pojetí valence a valenční slovník popisujeme v sekci Valence.