English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5

Obsah

Úvod

Typy uzlů

Typy hran

Struktura uzlu

Funktory

Formémy

Gramatémy

Valence

Dostupné specifikace

V následujícím textu popisujeme hlavní principy tektogramatické reprezentace platné pro angličtinu, užíváme anglické příklady. Rysy, které nejsou jazykově specifické pro angličtinu, však platí i pro českou tektogramatickou reprezentaci.

Obecné principy tektogramatické reprezentace byly nejpodrobněji popsány ve specifikaci české tektogramatické anotace. Tato specifikace je dostupná ve dvou verzích. Je to jednak podrobný anotační manuál, jednak zkrácená verze. Obě verze obsahují kompletní technickou specifikaci dat. Podrobná specifikace zprostředkovává čtenáři detailní vhled do anotace řady jazykových jevů. Na základě této specifikace byla v roce 2006 vypracována podobná dokumentace pro anglickou tektogramatickou reprezentaci. Tato dokumentace také obsahuje většinu technických informací uvedených v českých specifikacích (např. seznamy hodnot atributů) a popisuje anotaci vybraných jazykových jevů, někdy specifických pro angličtinu. Tento anotační manuál pro angličtinu ovšem trpí tím, že byl příliš těsně pojatý jako odvozenina českého anotačního manuálu a také tím, že v době jeho vzniku nebyl pro neprogramující lingvisty dostupný žádný nástroj na prohledávání anglických dat. Jazykové jevy proto byly vybírány a popisovány spíše na základě učebnic gramatiky a hledání v Britském národním korpusu než na základě skutečných dat Penn Treebanku. Později, při konfrontaci se skutečnými daty PTB-WSJ během masívní anotace, se ukazovalo, že některé jevy pro WSJ-PTB charakteristické byly v popisu zanedbány, zatímco jiné, extenzívně popisované v gramatikách, se v amerických finančních textech vyskytovaly pouze okrajově. Zejména když byl uveden do provozu vyhledávací nástroj PML Tree Query Engine a prohledávání korpusu se náhle stalo snadným, bylo zřejmé, že mnoho instrukcí obsažených v manálu v praxi nešlo dodržet, zatímco jiné, které byly dodržovány napříč celým korpusem, se do manuálu nestačily dostat. Tento stručný popis anglické reprezentace má za úkol doplnit a částečně nahradit zastaralý anglický manuál z roku 2006. Stále ještě konzultujeme vyvážený korpus, kdykoli se nám zdá, že texty PTB-WSJ neposkytují dostatek podkladů pro zkoumání některého jazykového jevu, ale místo BNC teď používáme půlmiliardový Corpus of Contemporary American English (COCA), který byl zpřístupněn pro veřejnost v roce 2008.