English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5

Obsah

Úvod

Typy uzlů

Typy hran

Struktura uzlu

Funktory

Formémy

Gramatémy

Valence

Dostupné specifikace

V následujícím textu popisujeme hlavní principy tektogramatické reprezentace platné pro angličtinu, užíváme anglické příklady. Rysy, které nejsou jazykově specifické pro angličtinu, však platí i pro českou tektogramatickou reprezentaci.

V korpusu PCEDT 2.0 jsou veškeré gramatémy generovány automaticky.

Gramatémy jsou sémantické protějšky morfologických kategorií, jako je číslo, stupeň nebo čas. V systému gramatémů je uchována kognitivní informace realizovaná morfologickými kategoriemi, která by jinak na nejvyšší rovině abstrakce byla ztracena (pokud reprezentujeme slova jejich lemmaty). Ne všechny vyjádřené morfologické kategorie jsou sémanticky relevantní. Slova, kterým náleží gramatémy, mají nodetype="complex".

Pro každý slovní druh jsou relevantní jiné gramatémy. Komplexní uzly jsou proto rozděleny do čtyř základních skupin podle toho, jaké gramatémy jim náleží. Tyto skupiny jsou označovány jako sémantické slovní druhy a jsou to: sémantická substantiva, sémantická adjektiva, sémantická slovesa a sémantická příslovce. Tyto skupiny nejsou identické s „tradičními“ slovními druhy, reflektují základní onomaziologické kategorie substance, kvalita, událost a okolnost. Informace o sémantickém slovním druhu je uložena v atributu sempos.

Gramatémy jsou v anglické části anotace vloženy automaticky s využitím tagů slovní druhů, informací o pomocných slovech, seznamu zájmen atp. Ze všech gramatémů dále představíme jen některé.

gram/sempos

Gramatém sempos obsahuje informaci o sémantickém slovním druhu. V anglické části jsou rozlišovány následující hodnoty:

  • n.denot: (vždy zároveň i gramatém gram/number: sg, pl)
  • adj.denot: (vždy zároveň i gramatém gram/negation: Adjektiva jako uncool mají gram/negation="neg1"). Adjektiva s morfologickým tagem JJR nebo rozvitá výrazem more mají gram/degcmp="comp". Adjektiva s morfologickým tagem JJS nebo rozvitá výrazem most mají gram/degcmp="sup". Adjektiva s morfologickým tagem JJ a nerozvitá výrazem most nebo more mají gram/degcmp="pos".
  • adv.denot.grad.neg: (vždy zároveň i gramatém gram/negation: adverbia jako unfortunately mají gram/negation="neg1".) Adverbia s morfologickým tagem RBR nebo rozvitá výrazem more mají gram/degcmp="comp". Adverbia s morfologickým tagem RBS nebo rozvitá výrazem most mají gram/degcmp="sup".
  • n.pron.def.pers: Tato hodnota označuje určitá osobní zájmena. Je spojena s gramatémem gram/gender, gram/number a gram/person.
  • adv.pron.indef: Hodnota označuje neurčitá zájmenná adverbia jako when, where, why, how.
  • n.pron.indef: Hodnota označuje zájmena what, who, whose, ale také those, these, both pokud fungují ve větě jako podstatná jména. Zájmenům those, these, both náleží gramatém gram/number="pl", zatímco ostatní mají gram/number="sg". Pokud tato zájmena mají gramatický antecedent (např. the girl that I saw yesterday), náleží jim gramatém gram/indeftype="relat". Gramatém indeftype nabývá v češtině mnoha různých hodnot (které zachycují různé druhy neurčitosti), v angličtině však nabývá pouze této jediné hodnoty.
  • Číslovkám náleží hodnoty n.quant.def (základní číslovky) a adj.quant.def (řadové číslovky). Kontejnerovým číslovkám užívaným v singuláru ((hundred, thousand, million, billion)) náleží gram/number="pl".
  • Všechna morfologická slovesa mají gram/sempos="v". Pro slovesa jsou dále relevantní gramatémy gram/deontmod, gram/verbmod a gram/tense. Jejich popis následuje dále.

gram/deontmod

Gramatém deontmod obsahuje informaci o slovesné modalitě. Sloveso bez modálního významu má hodnotu decl. Spojením plnovýznamového a modálního slovesa náležejí následující hodnoty:

  • must, have to: deb
  • should, ought to: hrt
  • can, cannot, could: poss
  • may, might: perm

V současné verzi korpusu je několik sporadických výskytů následujících hodnot:

  • be able to: fac (12x)
  • want: vol (jednou)

Tyto hodnoty byly vyplněny automaticky, pokud anotátor omylem skryl slovesa be able to a want jako odkaz v atributu a/aux.rf.

gram/verbmod

Gramatém verbmod obsahuje informaci o slovesném způsobu. Nabývá následujících hodnot:

  • ind: infinitiv and indikativ
  • cdn: podmiňovací způsob vyjádřený would, should, could, might

Hodnoty zachycují podobnou informaci jako atribut sentmod, který však nepatří mezi gramatémy, a jeho hodnoty jsou:

  • enunc: enunciative (větná modalita oznamovací)
  • inter: interrogative(větná modalita tázací)
  • desid: desiderative (větná modalita přací, pravděpodobně aplikovatelné jen v češtině)
  • excl: exclamative (větná modalita zvolací)
  • imper: imperative (větná modalita rozkazovací)

Atribut sentmod náleží predikátům ve větách hlavních, u predikátů v závislých klauzích není vyplňován. Pokud predikát v hlavní klauzi más gram/verbmod="ind", náleží mu přirozeně i sentmod="enunc", anotace je v takovém případě redundantní.

gram/tense

V češtině se rozlišují pouze tři kategorie času. V současné verzi korpusu jsou v jeho anglické části rozlišeny také jen tři základní kategorie času, neboť systém časů je v angličtině velmi komplikovaný:

  • will, shall, wo (won't), to be going to: post
  • have -ed a slovesa s tagy VBN, VBD: ant
  • přítomný čas a přítomný průběhový čas: sim
  • neurčitá slovesná forma: nil

gram/gender

Rod je signalizován osobními a přivlastňovacími zájmeny a u vlastních jmen byl odhadnut na základě samostatného skriptu. Rozlišuje se maskulinum, femininum a neutrum. Hodnoty jsou následující:

  • nr: nerozpoznáno
  • fem: femininum
  • neut: neutrum
  • inan: maskulinum (Hodnota byla přejata ze sady hodnot navržených pro češtinu, ve které jsou zavedeny dvě hodnoty pro maskulinum: maskulinum životné a neživotné. Takové rozlišování je v angličtině nepochybně zbytečné; maskulinum je zde identifikováno jen životnými zájmeny jako he, his, him and himself).

gram/negation

U podstatných jmen a adjektiv je tímto gramatémem zachycena jejich lexikální negace. Jako zápor jsou rozpoznány tyto záporné předpony un, in, im, non, dis, il, ir. Poznamenejme, že na příslovce a slovesa nebylo toto zatím aplikováno, tedy unexpectedly a unwrap má stále gram/negation="neg0". Slovesa spojená s negačními částicemi not/n't mají systematicky gram/negation="neg0", negační částice je reprezentována jako samostatný uzel, který je potomkem uzlu pro sloveso.

gram/number

Gramatém nabývá hodnot singulár (sg), plurál (pl) a nr (nerozpoznaná hodnota) a náleží podstatným jménům a dále zájmenům a číslovkám, které se chovají jako podstatná jména. Hodnota gramatému není kopií čísla z morfologického tagu, ale sleduje také gramatickou shodu a další vodítka pro určení sémantického plurálu (např. ve spojeních 5 billion euro, jak billion tak euro jsou rozpoznány jako sémantický plurál, ačkoliv morfologický tag nic takového nenaznačuje).

gram/degcmp

Adjektiva s morfologickým tagem JJR nebo rozvitá výrazem more mají gram/degcmp="comp". Adjektiva s morfologickým tagem JJS nebo rozvitá výrazem most mají gram/degcmp="sup". Ostatní adjektiva mají gram/degcmp="pos".

gram/indeftype

V angličtině nabývá tento gramatém pouze hodnoty relat, a to v případě vztažných zájmen: that, what, whatever, whereby, which, who a whose.

gram/person

Gramatém náleží zájmenům. Zájmena I, me, we, my, us, our, ours, mine mají v tomto gramatému hodnotu "1". Ostatní osobní a přivlastňovací zájmena mají analogicky hodnoty "2" nebo "3". Pouze několik případů má hodnotu nr (nerozpoznaná hodnota).

Gramatémy dispmod, iterativeness a resultative

Tyto gramatémy nejsou upravené pro angličtinu a jejich hodnoty v tomto okamžiku nepřinášejí žádnou informaci.