Kapitola 2. Roviny anotace

Obsah

2.1. Morfologická rovina
2.1.1. Logická struktura
2.1.2. Fyzická realizace
2.1.3. Proces anotace
2.2. Analytická rovina
2.2.1. Logická struktura
2.2.2. Fyzická realizace
2.2.3. Proces anotace
2.3. Tektogramatická rovina
2.3.1. Logická struktura
2.3.2. Fyzická realizace
2.3.3. Proces anotace
2.4. Ukázka anotace na třech rovinách

Data v PDT 2.0 jsou anotována na třech rovinách: na morfologické rovině (2.1 - "Morfologická rovina"), analytické rovině (2.2 - "Analytická rovina") a tektogramatické rovině (2.3 - "Tektogramatická rovina"). Ve skutečnosti existuje ještě jedna, neanotační rovina, reprezentující "surový text". Na této rovině, zvané slovní rovina, je text rozdělen do dokumentů a odstavců. Jsou tu rozlišeny slovní jednotky (slova, čísla, interpunkce) a jsou opatřeny jednoznačnými identifikátory.

Slovní rovina je nazývána také w-rovina, morfologická m-rovina, analytická a-rovina a tektogramatická t-rovina. Podobně je uzel stromu reprezentujícího analytickou anotaci věty nazýván a-uzel atd.

Obrázek 2.1 - "Propojení rovin" znázorňuje vztah mezi sousedními rovinami, jak jsou anotovány a reprezentovány v datech. Zobrazená česká věta Byl by šel dolesa. obsahuje minulý čas podmiňovacího způsobu slovesa jít a tiskovou chybu.

Obrázek 2.1. Propojení rovin

Propojení rovin

2.1. Morfologická rovina

Tato sekce stručně popisuje morfologickou rovinu. Více informací najdete v Manuálu k morfologické anotaci.

2.1.1. Logická struktura

Na morfologické rovině je posloupnost slovních jednotek w-roviny rozdělena do vět. Anotace na této rovině spočívá v přiřazení několika atributů slovním jednotkám w-roviny, z nichž nejdůležitější jsou morfologické lemma a tag.

2.1.2. Fyzická realizace

Atribut lemma obsahuje lemma dané slovní jednotky. Reprezentuje jeho základní tvar a odpovídá jednoznačnému klíči příslušného záznamu v morfologickém slovníku. Atribut tag obsahuje morfologickou značku, která má 15 pozic a vyjadřuje slovní druh a hodnoty ostatních morfologických kategorií dané slovní jednotky. Atribut id obsahuje (v rámci PDT 2.0 jednoznačný) identifikátor této jednotky m-roviny, později používaný pro zpětnou referenci z analytické roviny (pro celkový přehled o propojení rovin, viz 2.1 - "Propojení rovin"), a referenční atribut w.rf odkazuje zpět do w-roviny. Několik dalších atributů slouží k možným (ale vzácným) opravám a/nebo normalizacím týkajícím se w-roviny; nejdůležitější z nich je atribut form, který obsahuje správnou textovou podobu slovní jednotky (která se může lišit od textové podoby vyskytující se v původním textu z důvodu tiskových chyb, nesprávně rozdělených nebo spojených slov, špatného znaku pro desetinnou čárku v číslech nebo dalších technických problémů).

Příklad věty najdete v tabulce 2.2 - "Morfologická analýza ukázkové věty"

2.1.3. Proces anotace

Morfologická rovina PDT byla anotována skupinou sedmi anotátorů. Anotace postupovala ve dvou oddělených fázích. Během první fáze byl každý text nejprve předzpracován automatickým morfologickým analyzátorem. Z jeho výstupu pak dva anotátoři nezávisle na sobě vybrali správné lemma a morfologický tag. Ve druhé, rozhodovací fázi byly všechny neshody těchto dvou anotátorů vyřešeny třetím anotátorem - rozhodčím.

Po oddělených kontrolách morfologické a syntakticko-analytické roviny byla provedena jejich společná revize. Soustředila se na vztah mezi analytickými funkcemi a morfologickými tagy, vztah mezi předložkami a pády závislých uzlů a nakonec na shodu v pádě, rodu a čísle mezi závislými a nadřízenými uzly.

2.2. Analytická rovina

Tato sekce stručně popisuje analytickou rovinu. Více informací najdete v textu Anotace na analytické rovině.

2.2.1. Logická struktura

Na analytické rovině je věta reprezentována orientovaným stromem s kořenem, s ohodnocenými hranami a uzly. Každý prvek morfologické roviny (viz sekce 2.1 - "Morfologická rovina") odpovídá právě jednomu uzlu stromu a závislostní vztah mezi dvěma slovními jednotkami je vyjádřen hranou mezi příslušnými dvěma uzly. Typ vztahu je dán funkčním ohodnocením hrany. Většina hran reprezentuje závislostní vztah, ostatní odrážejí různé další lingvistické či technické jevy, např. koordinaci, apozici, interpunkci apod. Zaznamenáno je i lineární uspořádání uzlů, odpovídající pořadí slovních jednotek ve větě, což umožňuje "správné" grafické zobrazení stromu.

2.2.2. Fyzická realizace

Každému uzlu je přiřazeno šest atributů (kromě technického kořene stromu, který jich má méně). Atribut id obsahuje identifikátor uzlu, jednoznačný v rámci PDT 2.0, na který se zpětně odkazuje z tektogramatické roviny (viz obrázek 2.1 - "Propojení rovin"). Lineární uspořádání uzlů zachycuje atribut ord, obsahující pozici příslušné slovní jednotky ve větě. Z technických důvodů je analytická funkce hrany vyjádřena v atributu afun u uzlu na závislém konci hrany. Atributy is_member a is_parenthesis_root napomáhají správné interpretaci koordinace, apozice a závorek. A konečně atribut m.rf spojuje uzel s odpovídajícím prvkem na morfologické rovině.

Příklad stromu najdete na obrázku 2.3 - "Analytický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější."

2.2.3. Proces anotace

Všechna analytická data byla anotována ručně týmem šesti anotátorů. Zpočátku museli anotátoři ručně vytvářet celý strom a rovněž ručně přiřazovat všechny analytické funkce. Později byly věty nejprve předzpracovány parserem a předběžné analytické funkce byly přiřazeny pravidlově založenou automatickou procedurou. Anotátoři však museli zkontrolovat a opravit výstup obou těchto automatických procedur, který byl často chybný.

Po skončení anotace byly na datech provedeny kontrolní testy. Příkladem takového testu je ověření platnosti tvrzení, že slovesný jmenný predikát (indikovaný analytickou funkcí Pnom) musí vždy přímo záviset na slovese být. Všechna porušení těchto pravidel/testů byla ručně prověřena a opravena.

2.3. Tektogramatická rovina

Tato sekce stručně popisuje tektogramatickou rovinu. Více informací najdete v textu Tektogramatická anotace PDT: Pokyny pro anotátory.

2.3.1. Logická struktura

Tektogramatická reprezentace věty zachycuje informace z následujících oblastí:

  • Tektogramatická struktura a funktory. Každá věta je reprezentována jako orientovaný strom s kořenem, s ohodnocenými hranami a uzly. Strom zachycuje hloubkovou strukturu věty. Uzly zastupují pouze plnovýznamová slova (s několika výjimkami technické povahy). Narozdíl od analytické roviny, ne všechny morfologické prvky jsou na tektogramatické rovině reprezentovány jako uzly (např. tu chybějí předložky) a některé tektogramatické uzly neodpovídají žádnému morfologickému prvku (např. struktura obsahuje uzel reprezentující vynechaný subjekt v konstrukcích s nevyjádřeným podmětem (pro-drop constructions). K některým uzlům jsou připojeny gramatémy poskytující o uzlu informaci, kterou nelze odvodit ze struktury, funktoru či jiných atributů (např. číslo u podstatných jmen, modalitu a čas u sloves apod.). Hrany stromu reprezentují vztah mezi uzly, které spojují; typ vztahu je, podobně jako u analytické roviny, vyjádřen ohodnocením hrany. Ke každému uzlu reprezentujícímu sloveso nebo jistý typ podstatného jména je přiřazen valenční rámec (ve smyslu odkazu na prvek valenčního slovníku, viz sekce 3.8 - "PDT-VALLEX").

  • Aktuální členění (TFA, Topic-focus articulation). Každému uzlu je na základě jeho kontextového zapojení přiřazena jedna ze tří hodnot: uzel může být kontextově zapojený, kontrastivně kontextově zapojený nebo kontextově nezapojený. Uzly v základové (topic) části věty jsou navíc seřazeny podle předpokládané výpovědní dynamičnosti.

  • Koreference. V současné verzi anotace jsou zachyceny některé druhy koreferenčních vztahů mezi uzly, s rozlišením, o jaký druh vztahu se jedná (textový, gramatický nebo "druhá závislost" doplňku).

2.3.2. Fyzická realizace

Každému nekořenovému uzlu tektogramatického stromu je přiřazeno 39 atributů; v závislosti na typu uzlu (určeného atributem nodetype) je však vyplněna jen určitá jejich podmnožina. Řada atributů je typu seznam nebo množina a obsahují více hodnot.

  • Tektogramatická struktura a funktory. Podobně jako na analytické rovině, ke každému uzlu patří skupina atributů; na tektogramatické rovině je jich však mnohem více. Atribut id obsahuje v rámci PDT 2.0 jednoznačný identifikátor uzlu, atribut functor popisuje typ hrany vedoucí od uzlu k jeho předchůdci (hrana může reprezentovat jak závislostní vztah, tak i další technické jevy). Atribut t_lemma obsahuje tektogramatické lemma uzlu. Gramatémy jsou vyjádřeny skupinou 16 atributů, označených "předponou" gram (např. gram/verbmod pro slovesnou modalitu). Další atributy slouží k zpětnému odkazování do analytické roviny (viz obrázek 2.1 - "Propojení rovin"), jiné pro koordinaci a apozici, závorky, přímou řeč, citace apod.

  • Aktuální členění. Rozdělení uzlů na kontextově zapojené, kontrastivně kontextově zapojené a kontextově nezapojené je reprezentováno hodnotami atributu tfa. Číselný atribut deepord je použit pro hloubkové pořadí uzlů, založené na výpovědní dynamičnosti.

  • Koreference. Atributy coref_text.rf, coref_gram.rf a compl.rf obsahují id koreferenčních uzlů příslušných typů. Atribut coref_special nese informaci o zvláštních případech koreference.

Příklad stromu najdete na obrázku 2.4 - "Tektogramatický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější. (podrobné zobrazení)".

2.3.3. Proces anotace

Jelikož je tektogramatická struktura rovněž založená na závislostních relacích, byly použity automatické postupy ke konverzi závislostních analytických stromů do provizorních stromů tektogramatického typu. Všechny vytvořené provizorní stromy pak byly zpracovány anotátory, kteří doplnili velké množství chybějících informací a opravili chyby. Koreference, aktuální členění a některé gramatémy byly anotovány odděleně. Všechna data pak byla zkontrolována množstvím poanotačních testů (viz sekce 4.7 - "Makra pro detekce chyb").

Obrázek 2.2. Schéma průběhu prací na datech a anotacích

Schéma průběhu prací na datech a anotacích

Schéma průběhu prací na datech a anotacích je zobrazeno na obrázku 2.2 - "Schéma průběhu prací na datech a anotacích". Silné šipky znamenají opakované operace, dvojité šipky značí procedury spojování, které byly použity, kdykoliv byla jedna data anotována na více podrovinách současně.

2.4. Ukázka anotace na třech rovinách

Tabulka 2.1. Ukázková věta

Některé kontury problému se však po oživením Havlovým projevem zdají být jasnější .

Ukázkovou větu vidíte v tabulce 2.1 - "Ukázková věta".

Anotace této věty na morfologické rovině je zachycena v tabulce 2.2 - "Morfologická analýza ukázkové věty". Všimněte si, že sedmý pád slova oživení byl změněn na šestý pád. Důvodem (jak je naznačeno elementem form_change) je tisková chyba.

Tabulka 2.2. Morfologická analýza ukázkové věty

slovní forma lemma morfologický tag
Některé některý PZFP1----------
kontury kontura NNFP1-----A----
problému problém NNIS2-----A----
se se_^(zvr._zájmeno/částice) P7-X4----------
však však J^-------------
po po-1 RR--6----------
oživení oživení_^(*3it) NNNS6-----A----
Havlovým Havlův_;S_^(*3el) AUIS7M---------
projevem projev NNIS7-----A----
zdají zdát VB-P---3P-AA---
být být Vf--------A----
jasnější jasný AAFP1----2A----
. . Z:-------------

Anotaci ukázkové věty na analytické rovině vidíte na obrázku 2.3 - "Analytický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.". Všimněte si, že slovo zdají je označeno jako jediný člen koordinace. Tímto způsobem je na analytické rovině anotována koordinace s předchozí větou.

Obrázek 2.3. Analytický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.

Analytický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.

Anotaci ukázkové věty na tektogramatické rovině vidíte na obrázku 2.4 - "Tektogramatický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější. (podrobné zobrazení)".

Obrázek 2.4. Tektogramatický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější. (podrobné zobrazení)

Tektogramatický strom ukázkové věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější. (podrobné zobrazení)

Všimněte si, že slovo však už není koordinačním uzlem. Funktorem PREC je označeno jako slovo spojující tuto větu s větou předchozí. Dále si všimněte, že slovo se se stalo částí složené slovesné formy zdát_se, že zmizela předložka po (je však na ni odkazováno ze slova oživení a je základem hodnot funktoru a podfunktoru tohoto slova), že zájmeno některýt_lemma který a jeho neurčitost je vyjádřena v hodnotách gramatémů gram/sempos a gram/indeftype, apod.

Více příkladů najdete v sekci 3.7 - "Ukázková data".