Morfologická rovina PML

Tento soubor obsahuje sbírku námětů, co všechno by mělo být zakódováno na morfologické rovině. Nebo lépe, čeho všeho zakódování by morfologická rovina měla umožňovat.

Nespokojuji se s konstatováním, že potřebujeme morfologickou či POS značku, ale rozebírám značky na jednotlivé atributy, jsa si vědom, že to, co je v jednom korpusu součástí jedné značky, může být v jiném rozděleno do různých značek z několika sad. Ideálně by měla být někde množina atributů, které umíme popsat, a z nich by se v definičních souborech sad značek (něco jako značkařské slovníky) skládaly značky zapadající do jednotlivých sad.

Níže jsou shromážděny postřehy z různých korpusů, zejména:

ČNK a PDT (čeština, morfologie JHaj)

Multext-East (čeština, slovinština, chorvatština, bulharština, rumunština, maďarština, estonština, angličtina). Velmi podobné značky jsou i v západoevropském EU Multext, ale nezkoumal jsem, zda obsahují nějaké atributy navíc (angličtina, němčina, holandština, švédština, francouzština, španělština, italština).

Desam (čeština, brněnský systém (program Lemma)). Poznámka: jejich značky obsahují vždy dvojice znaků, kde první znak určuje atribut a druhý jeho hodnotu, takže možná není zaručeno, že atributy budou vždy ve značkách uvedeny ve stejném pořadí. V tom případě by asi bylo nejbezpečnější uvádět každou dvojici jako samostatnou značku jiného druhu (a každá dvojice by byla samostatným odkazem do definičního souboru sady značek).

Penn TreeBank (angličtina): 36 POS značek.

Penn Chinese TreeBank (čínština): 33 POS značek.

Negra a TiGer (němčina) obsahuje několik různých značek: POS (slovní druh a poddruh), morph (morfologické informace jako rod, číslo, pád, osoba), cat (zřejmě něco jako typ fráze – označuje neterminály), edge label (něco jako naše analytická funkce?) a secondary edge label. Tady zahrnuju první dvě, zbývající tři asi patří spíš na syntaktickou rovinu.

Informace u lematu (ve slovníku)

stylistické zařazení (lematu, ne koncovky), např.: zastaralé, knižní, neutrální, hovorové, vulgární…

sémantické zařazení, např.: křestní jméno, příjmení, zeměpisný název, jméno obyvatele určitého území či příslušníka etnické skupiny…

cizost — odlišit slova z cizích jazyků, která nebyla přejata, ale jsou pouze citována (třeba všechna slova názvu „Bank of America“. PDT 1.0 např. nerozlišuje „America“ (cizí) od „Amerika“ (české), tj. ani jedna varianta nedostane příslušní příznak cizosti)

Penn:

FW = foreign word

Morfologické a syntaktické kategorie

Slovní druhy a jejich jemnější rozlišení, podmíněné nejen syntakticky.

podstatná jména

V pražském pozičním systému se dále nerozlišují (s výjimkou zkratek, ale ty nezahrnuji do poddruhů). V Multext-East se rozlišují obecná a vlastní jména.

obecná (člověk)

vlastní (Jan)

Penn:

NN = noun, singular or mass

NNS = noun, plural

NNP = proper noun, singular

NNPS = proper noun, plural

Penn Chinese:

NR = proper noun (region/country/county/city, mountain/river, newspaper/journal, organization/company, school/association/foundation, person/family; ne však nationality, race, title, disease, occupation, organ, instrument, game, flower etc.)

NT = temporal noun (názvy určující čas): 1990 (rok 1990), 一月 (leden), 汉朝 (dynastie Chan)

NN = other noun

STTS:

NN = normales Nomen (Tisch, Herr, [das] Reisen)

NE = Eigennamen (Hans, Hamburg, HSV)

přídavná jména

obyčejná (mladý, jarní)

přivlastňovací (otcův, matčin)

z přechodníku přítomného (dělající)

z přechodníku minulého (udělavší)

zvláštní (sám, tentam)

krátká (mlád); v pádu mají pomlčku nebo akuzativ, to je závada!

nesamostatná před pomlčkou (česko-: česko-slovenský)

Multext-East rozlišuje následující druhy přídavných jmen:

f = qualificative (EN, RO, SL, CS, HU, HR)

i = indefinite (žádný zúčastněný jazyk (!))

s = possessive (SL, CS, HR)

o = ordinal (SL)

Navíc však Multext-East eviduje vlastnost formation, kterou přiznává pouze češtině, s hodnotami

n = nominal

c = compound

Penn:

JJ, JJR, JJS = adjective (ve 3 stupních)

Penn Chinese:

JJ = other noun-modifier (z nějakého důvodu tomu neříkají adjective)

STTS:

ADJA = attributives Adjektiv ([das] große [Haus])

ADJD = adverbiales oder prädikatives Adjektiv ([er fährt] schnell), ([er ist] schnell)

zájmena

Takhle to je v pražském pozičním systému:

osobní (já); v rodě mohou i nemusí mít pomlčku, to je závada! Další závada je, že mohou a nemusí mít pomlčku v čase (!). Čas rozlišuje zájmeno „ty“ od „tys“, v prvním případě je v něm pomlčka, ve druhém „P“. Nic proti tomu, kdyby se ve druhém případě také změnila hodnota poddruhu (druhá pozice ve značce).

osobní zkrácené (odlišuje „mi“, „mu“ od „mně“, „jemu“); v rodě mohou i nemusí mít pomlčku, to je závada!

osobní po předložce (odlišuje „něho“ od „jeho“)

osobní slité s předložkou („naň“)

osobní zvratné („sebe“)

osobní zvratné zkrácené (odlišuje „se“ od „sebe“); Závada: analogicky k ty-tys se se-ses rozlišuje pomocí času, v němž je buď pomlčka, nebo nepomlčka, ale rozdíl už se neprojeví v poddruhu.

přivlastňovací („můj“); v rodě mohou i nemusí mít pomlčku, to je závada!

přivlastňovací zvratné („svůj“)

ukazovací („ten“)

zvláštní („sám“, „všechen“)

vztažné („jenž“)

vztažné po předložce (odlišuje „něhož“ od „jehož“)

vztažné neživotné („což“)

tázací životné („kdo“, „kdož“); Má rod (ovšem vždy mužský životný, to by „což“ mohlo mít klidně rod střední). Poznámka: jako vztažná jsou označena jen zájmena končící na „-ž“, zejména „jenž“. Zájmena, která mohou být tázací i vztažná (kdo, co, který, jaký, čí) jsou označena jako tázací. Závada: „kdos“ se opět neodlišuje poddruhem, ale časem.

tázací neživotné („co“)

tázací adjektivní („jaký“)

tázací slité s předložkou („nač“)

neurčité životné („někdo“)

neurčité neživotné („něco“)

neurčité adjektivní („nějaký“)

záporné životné („nikdo“)

záporné neživotné („nic“)

záporné adjektivní („nijaký“)

Multext-East rozlišuje následující typy (nic nerozlišuje jen u HR):

p = personal (vše)

d = demonstrative (kromě EN)

i = indefinite (kromě EN)

s = possessive (vše)

q = interrogative (kromě RO)

r = relative (kromě RO)

e = exclamative (nikde, ale s hodnotou se počítá)

x = reflexive (vše)

y = reciprocal (jen ET a HU)

z = negative (RO, SL, CS a BG)

g = general (EN, SL, CS a BG)

w = int_rel (jen RO)

h = emphatic (jen RO)

m = determinal (jen ET)

t = ex_there (existenční there z „there is“: jen EN)

U rumunštiny dále Multext-East rozlišuje kategorii pronoun_form s hodnotami

s = strong (silné)

w = weak (slabé)

U angličtiny dále Multext-East rozlišuje kategorii wh_type s hodnotami

r = relative (vztažné)

q = question (tázací)

Penn:

EX = existential there

PRP = personal pronoun

PRP$ = possessive pronoun

WP = wh-pronoun

WP$ = possessive wh-pronoun

Penn Chinese:

PN = pronoun (zahrnuje osobní zájmena ( = já), ukazovací zájmena, pokud tvoří bez cizí pomoci jmennou frázi ( = tento), přivlastňovací zájmena a zvratná zájmena)

STTS:

PDS = substituirendes Demonstrativ-Pronomen (dieser, jener)

PDAT = attribuirendes Demonstrativ-Pronomen (jener [Mensch])

PIS = substituirendes Indefinitpronomen (keiner, viele, man, niemand)

PIAT = attribuirendes Indefinitpronomen ohne Determiner (kein [Mensch], irgendein [Glas])

PIDAT = attribuirendes Indefinitpronomen mit Determiner ([ein] wenig [Wasser], [die] beiden [Brüder])

PPER = irreflexives Personalpronomen (ich, er, ihm, mich, dir)

PPOSS = substituirendes Possessivpronomen (meins, deiner)

PPOSAT = attribuirendes Possessivpronomen (mein [Buch], deine [Mutter])

PRELS = substituirendes Relativpronomen ([der Hund,] der)

PRELAT = attribuirendes Relativpronomen ([der Mann,] dessen [Hund])

PRF = reflexives Personalpronomen (sich, einander, dich, mir)

PWS = substituirendes Interrogativpronomen (wer, was)

PWAT = attribuirendes Interrogativpronomen (welche [Farbe], wessen [Hut])

PWAV = adverbiales Interrogativ- oder Relativpronomen (warum, wo, wann, worüber, wobei)

PAV = Pronomialadverb (dafür, dabei, deswegen, trotzdem)

členy (determiners)

Multext-East jako samostatná slova tohoto slovního druhu rozlišuje u EN a RO. Rozlišuje řadu druhů členů, z nichž některé nejsou v daných jazycích zastoupeny (ale nejspíš byly zastoupeny v západním Multextu).

d = demonstrative

i = indefinite

s = possessive

q = interrogative (nezastoupen)

r = relative (nezastoupen)

e = exclamative (nezastoupen)

a = article (nezastoupen)

g = general (pouze EN)

w = int_rel (pouze RO)

z = negative (pouze RO)

h = emphatic (pouze RO)

U rumunštiny členy navíc rozlišují kategorii modific_type s hodnotami

e = prenomin

o = postnomin

U angličtiny navíc rozlišují kategorii wh_type s hodnotami

r = relative (vztažný)

q = question (tázací)

Penn:

DT = determiner

PDT = predeterminer (???)

WDT = wh-determiner

Penn Chinese: řadí dohromady determinátory a číslovky, ale já uvádím každé zvlášť

DT = determiner (zahrnuje ukazovací zájmena v některých výskytech, ale viz též část o zájmenech ( = tento, = tamten) a slova jako = každý)

STTS:

ART = bestimmter oder unbestimmter Artikel (der, die, das, ein, eine…)

členy (article)

Takovýto člen se rozlišuje v Multext-East u rumunštiny a maďarštiny. Druhy:

f = definite

i = indefinite

s = possessive (pouze RO)

d = demonstrative (pouze RO)

číslovky

základní 1 – 4 („jeden“)

základní ³ 5 („pět“)

základní tázací („kolik“)

základní neurčitá („několik“)

řadová („první“)

řadová tázací („kolikátý“)

řadová neurčitá („několikátý“)

druhová („dvojí“)

jiná druhová („jedni“) ???

ještě jiná druhová („čtvero“) ????

ještě úplně jiná druhová („čtvery“) ?????

násobná („jedenkrát“)

násobná tázací („kolikrát“)

násobná neurčitá („několikrát“)

jmenovatel („polovina“)

arabské číslo („1“)

římské číslo („I“)

Multext-East rozlišuje tyto druhy:

c = cardinal (základní)

o = ordinal (řadové)

f = fractal (zlomkové: pouze RO a HU)

m = multiple (???: RO, SL, CS, HR)

l = collect (???: RO, HU)

s = special (zvláštní: SL, CS, HR)

V Multext-East mají číslovky navíc kategorii form s těmito hodnotami:

d = digit (číselná)

r = roman (římská)

l = letter (slovní)

b = both (obojí: pouze RO)

m = m_form (pouze BG)

a = approx (přibližná: pouze BG)

Specielně pro češtinu pak Multext-East rozlišuje číslovkovou kategorii class, která má zřejmě doplnit zbývající rozlišení zvládané pražskými značkami.

1 = definite1

2 = definite2

3 = definite34

f = definite

d = demonstrative

i = indefinite

q = interrogative

r = relative

Brněnský systém rozlišuje tyto druhy číslovek:

xC = základní

xO = řadová

xR = druhová

xN = názvy jmen (???)

xD = názvy zlomků

xT = názvy n-tic

Penn:

CD = cardinal number

Penn Chinese:

CD = cardinal number (např. 1245; 一百 = sto)

OD = ordinal number (např. 第一百 = stý)

STTS:

CARD = Kardinalzahl (zwei [Männer], [im Jahre] 1994)

ORD = Ordinalzahl ([der] neunte [August])

počítací slova (measure words, numerativa?)

V čínštině slovo, které se nachází mezi determinátorem nebo číslem a podstatným jménem nebo slovesem. Některá počítací slova se lexikálně shodují s podstatnými jmény jako láhev, balení…

Penn Chinese: M = measure words. Příklad: [one]/CD [small]/JJ [bottle]/M [water]/NN.

slovesa

infinitiv („dělat“)

přítomný nebo budoucí čas („dělám“, „udělám“)

přítomný nebo budoucí čas s „neboť“ („dělámť“)

příčestí minulé („dělal“); Závada: osoba může a nemusí obsahovat pomlčku. Rozlišuje se tím „dělals“ od „dělal jsi“.

příčestí minulé s „neboť“ („dělalť“)

příčestí trpné („dělán“); Závada: pád může obsahovat pomlčku nebo akuzativ („dělánu“). Druhá závada: osoba může a nemusí obsahovat pomlčku („dělánas“).

rozkazovací způsob („dělej“)

podmiňovací způsob („by“)

přechodník přítomný („dělaje“)

přechodník minulý („udělav“)

Multext-East rozlišuje následující druhy sloves (type):

m = main (obyčejné)

a = auxiliary (pomocné)

o = modal (modální: vše kromě BG a HU)

c = copula (???: pouze RO, SL, CS a HR)

b = base (???: pouze EN)

Kromě druhů rozlišuje Multext-East ještě vform:

i = indikativ (oznamovací způsob: všechny jazyky)

s = subjunktiv (RO)

m = imperativ (rozkazovací způsob: vše kromě EN)

c = kondicionál (podmiňovací způsob: vše kromě RO a BG)

n = infinitiv (neurčitý tvar: vše kromě BG)

p = participle (příčestí: vše kromě HU)

g = gerundium (RO, BG, ET)

u = supine (SL, ET)

t = transgresivum (přechodník: CS)

q = quotative (ET)

Dále rozlišuje Multext-East tense (čas):

p = present (přítomný: všechny jazyky)

i = imperfect (RO, BG, ET, HR)

f = future (budoucí: SL, CS, HR)

s = past (minulý: všechny jazyky)

l = plusperfect (RO, HR)

a = aorist (BG, HR)

Dále rozlišuje Multext-East voice (slovesný rod), a to u SL, CS, BG, ET a HR:

a = active (činný)

p = passive (trpný)

Dále rozlišuje Multext-East aspect (vid), ale pouze ve slovinštině a v těchto dvou hodnotách:

p = progressive

e = perfective

Brněnský systém rozlišuje již výše uvedené slovesné způsoby, ale ještě rozlišuje zvlášť

mC = condicional

mK = konjunktiv

Začínám mít ale podezření, že konjunktiv a subjunktiv je totéž (o konjunktivu se mluví v němčině, o subjunktivu v románských jazycích).

Penn:

MD = modal, snad si správně vysvětluji, že má jít o modální sloveso a ne nějakou potrhlou částici či co

VB = verb, base form

VBD = verb, past tense

VBG = verb, gerund or present participle

VBN = verb, past participle

VBP = verb, non-3rd person singular present

VBZ = verb, 3rd person singular present

Penn Chinese: common class verb or adjective (ale viz též JJ)

VA = predicative adjective

VC = copula (spona?) ( = být)

VE = you3 as the main verb (jen dva znaky mohou, ale nemusí dostat tuto značku: 有,没) (různé významy, např. přivlastňovací (= mít), existenční odpovídající anglickému there is atd.)

VV = other verb (např. = jít)

STTS:

VVFIN = finites Verb, voll ([du] gehst, [wir] kommen [an])

VVIMP = Imperativ, voll (komm [!])

VVINF = Infinitiv, voll (gehen, ankommen)

VVIZU = Infinitiv mit „zu“, voll (anzukommen, loszulassen)

VVPP = Partizip Perfekt, voll (gegangen, angekommen)

VAFIN = finites Verb, aux ([du] bist, [wir] werden)

VAIMP = Imperativ, aux (sei [ruhig!])

VAINF = Infinitiv, aux (werden, sein)

VAPP = Partizip Perfekt, aux (gewesen)

VMFIN = finites Verb, modal (dürfen)

VMINF = Infinitiv, modal (wollen)

VMPP = Partizip Perfekt, modal (gekonnt, [er hat gehen] können)

příslovce

bez stupně a záporu („jak“); Poznámka: je tato kategorie ekvivalentní s množinou příslovcí, která nebyla odvozena od přídavných jmen?

se stupněm a záporem

Multext-East rozlišuje tyto druhy (type):

g = general (RO, SL, CS, BG, HU, HR)

p = particle (RO, HU)

o = causal (HU)

z = negative (RO)

a = adjectival (BG)

v = verbal (HU)

m = modifier (EN, RO, HU)

s = specifier (EN)

w = int_rel (RO)

c = portmanteau (RO)

q = interrogative (HU)

V angličtině se rozlišuje wh_type:

r = relative

q = question

Brněnský systém rozlišuje tato příslovce:

xL = místa

xT = času

xM = způsobu

xD = modální (???)

Penn:

RB, RBR, RBS = adverb

WRB = wh-adverb

Penn Chinese:

AD = adverb (大大 = greatly)

STTS:

ADV = Adverb (schon, bald, doch)

předložky

normální („k“)

vokalizovaná („ke“, „ku“)

část složené předložky („vzhledem“) ???

Multext-East má místo slovního druhu předložka slovní druh adpozice a rozlišuje ho na poddruh prepozice (předložka) a postpozice (záložka?):

p = preposition (vše kromě HU)

t = postposition (EN, ET, HU)

Dále rozlišuje formation:

s = simple (jednoduchá)

c = compound (složená)

Penn:

IN = preposition or subordinating conjunction

TO = to (v angličtině si nejsem jist, co je to za slovní druh — asi nejen předložka, ale jak se to jmenuje u sloves, to nevím)

Penn Chinese:

P = preposition ( = z)

STTS:

APPR = Präposition; Zirkumposition links (in [der Stadt], ohne [mich])

APPRART = Präposition mit Artikel (im [Haus], zur [Sache])

APPO = Postposition ([ihm] zufolge, [der Sache] wegen)

APZR = Zirkumposition rechts ([von jetzt] an)

spojky

souřadící („a“)

souřadící matematická („krát“)

podřadící („že“)

podřadící slovesná („abych“)

Multext-East rozlišuje tyto druhy (type):

c = coordinating (souřadící)

s = subordinating (podřadící)

p = portmanteau (jen RO)

Dále formation (RO, SL, BG, HU, HR):

s = simple (jednoduchá)

c = compound (složená)

Dále coord_type:

s = simple (RO)

r = repetit (RO)

c = correlat (RO)

p = sentence (HU)

w = words (HU)

i = initial (EN)

n = non-initial (EN)

Dále sub_type (jen RO):

z = negative

p = positive

Penn:

CC = coordinating conjunction

IN = preposition or subordinating conjunction

Penn Chinese:

CC = coordinating conjunction ( = a)

CS = subordinating conjunction (如果[if]/CS … [then]/AD)

STTS:

KOUI = unterordnende Konjunktion mit „zu“ und Infinitiv (um [zu leben], anstatt [zu fragen])

KOUS = unterordnende Konjunktion mit Satz (weil, daß, damit, wenn, ob)

KON = nebenordnende Konjunktion (und, oder, aber)

KOKOM = Vergleichskonjunktion (als, wie)

částice

Pražský poziční systém žádné poddruhy nerozlišuje. Multext-East rozlišuje type u tří jazyků. U ET a HU zřejmě částice vůbec nejsou?

z = negative (RO, BG, HR)

n = infinitive (RO)

s = subjunctive (RO)

a = aspect (RO)

f = future (RO)

g = general (BG)

c = comparative (BG)

v = verbal (BG)

q = interrogative (BG, HR)

o = modal (BG, HR)

r = affirmative (HR)

formation (BG)

s = simple

c = compound

Penn:

RP = particle

Penn Chinese:

DEC = de5 as a complementizer or nominalizer ( )

DEG = de5 as a genitive marker and an associative marker ()

DER = resultative de5 ()

DEV = manner de5 ( nebo )

AS = aspect particle (zahrnuje jen 4 znaky, např. )

SP = sentence-final particle (např. 吧,吗)

ETC = etc (jen dvě slova: a 等等; příklad: 科技[science and technology]、文教[culture and education]等等/ETC

MSP = other particle

STTS:

PTKZU = „zu“ vor Infinitiv (zu [gehen])

PTKNEG = Negationspartikel (nicht)

PTKVZ = abgetrennter Verbzusatz ([er kommt] an, [er fährt] rad)

PTKANT = Antwortpartikel (ja, nein, danke, bitte)

PTKA = Partikel bei Adjektiv oder Adverb (am [schönsten], zu [schnell])

citoslovce

Pražský poziční systém žádné poddruhy nerozlišuje. Multext-East rozlišuje type u maďarštiny.

m = mood

o = other

formation (BG, HR)

s = simple

c = compound

Penn:

UH = interjection

Penn Chinese:

IJ = interjection

ON = onomatopoeia (slovo imitující zvuk) Prý ho ve stokilovém korpusu nenašli, ale značku mu vyhradili, protože se o něm tradičně zmiňují čínské mluvnice i některé čínské sady značek.

STTS:

ITJ = Interjektion (mhm, ach, tja)

zvláštní, interpunkce

kořen stromu

interpunkce

V Multext-East tomuhle odpovídá tzv. zbytková třída (residual). Na žádné poddruhy se nedělí.

Penn Chinese:

LB = bei4 in long bei-construction

SB = bei4 in short bei-construction

BA = ba3 in ba-construction

PU = punctuation (s výjimkou případů, kdy je součástí jiného slova: 123,456/CD)

STTS: Součást složeniny před pomlčkou (v pražském systému je něco takového mezi poddruhy přídavných jmen, ale v němčině to může nastat i u jiných slovních druhů).

TRUNC = Kompositions-Erstglied (An- [und Abreise])

XY = Nichtwort, Sonderzeichen enthaltend (3:7, H2O, D2XW3)

\$, = Komma (,)

\$. = Satzbeendende Interpunktion (. ? ! ; :)

\$( = sonstige Satzzeichen; satzintern (- [,] ())

neznámý

je ve slovníku, ale chybí morfologie

není ve slovníku

Penn:

FW = foreign word

Penn Chinese:

FW = foreign word (nezahrnuje překlady cizích slov ani cizí slova smíchaná s čínskými (např. 卡拉OK[karaoke]/NN) ani slova, jejichž význam a POS je zřejmý z kontextu. Anotátoři se tedy snaží vyvarovat této značky, jak je to jen možné.)

STTS:

FM = Fremdsprachliches Material ([Er hat das mit "] A big fish [" übersetzt])

posesiva

Tento slovní druh je rozlišen v brněnském systému. Nevím, zda se jím mají na mysli přivlastňovací přídavná jména, zájmena, nebo ještě něco jiného.

Penn: zvláštní značka pro přivlastňovací / genitivní koncovku „s“ za apostrofem: McDonald’s. Značka je POS.

localizers

Penn Chinese: zjednodušeně slova, která se dávají za některá podstatná jména, která bez nich nemohou viset na předložce udávající místo. Některé lokalizátory mohou také existovat samostatně. Značka je LC.

list item marker

Rozlišeno v Penn TreeBanku značkou LS, předpokládám, že jsou to např. písmena „a“, „b“, když se někde vyskytne „a) takto; b) jinak“. To by se nám v PDT taky hodilo, zatím JHaj morfologie přiřadí, co je po ruce, takže „a“ je obvykle spojka, „i“ taky, „k“ je předložka atd.

symbol

Penn: SYM = symbol.

STTS:

SGML = SGML Markup

SPELL = Buchstabierfolge (S-C-H-W-E-I-K-L)

Morfologické a valenční vlastnosti

Některé z nich mají v některých jazycích a u některých slovních druhů spíše valenční charakter — v češtině například pád u předložek nebo rod u podstatných jmen.

syntaktický typ

Rozlišuje se u SL a CS zájmen v Multext-East. V PDT nic takového není, i když by to dost pomohlo.

n = nominal (substantivní)

a = adjectival (adjektivní)

r = adverbial (adverbiální; pouze SL)

rod

V Multext-East se nerozlišuje pro ET a HU, pro všech 6 ostatních (EN, RO, BG, HR, SL, CS) ano.

M = mužský životný

I = mužský neživotný (rozlišuje se v PDT, ale ne v MULTEXT-EAST, tam je životnost samostatnou kategorií)

F = ženský

N = střední

Žádné hodnoty Y, Z, T, H, Q apod.! Od toho jsou <alt>. Pokud to morfologická značka jinak neumí, nedá se nic dělat, ale v jejím definičním souboru by rody měly být rozepsány.

U přídavných jmen v Multext-East rozlišují rod všechny jazyky kromě EN, ET a HU.

životnost

V Multext-East je to samostatná kategorie, v PDT se rozlišuje pouze v mužském rodě a je zahrnuta do kategorie rodu. V Multext-East se rozlišuje pro SL, CS, HU a HR.

n = ne

y = ano

číslo

S = jednotné

D = dvojné (v Multext-East pro CS a SL, pro ostatní ne)

P = množné

C = „count“ (nevím, co to je, ale v Multext-East se to rozlišuje pro BG)

U přídavných jmen v Multext-East rozlišují číslo všechny jazyky kromě EN. V HU i u příslovcí. U spojek v CS (abych vs. abychom).

Penn:

Číslo podstatných jmen se označuje písmenem „S“ na konci značky: NN vs. NNS, NNP vs. NNPS.

pád

1 = nominativ

2 = genitiv

3 = dativ

4 = akuzativ

5 = vokativ

6 = lokál

7 = instrumentál

V Multext-East jsou české pády označeny písmeny n, g, d, a, v, l, i. U číslovek se kupodivu v češtině nerozlišuje vokativ, což je asi chyba. Stejnou množinu pádů má ještě chorvatština (dokonce má vokativ i u číslovek), slovinštině chybí vokativ. Angličtina má jen nominativ a akuzativ, a to pouze u zájmen (zde odlišují např. „him“ od „he“), bulharština má pouze nominativ a vokativ. Rumunština má vokativ a dva zvláštní pády:

r = direct (přímý, odpovídá současně nominativu a akuzativu)

o = oblique (nepřímý, odpovídá současně genitivu a dativu)

Estonština a maďarština mají velké množství pádů uvedených níže; z nám známých pádů k nim přibírají ještě nominativ a genitiv (ET i HU) a maďarština dále dativ, akuzativ a instrumentál. V estonštině jsou některé pády relevantní dokonce i u sloves (ilativ, inesiv, elativ, translativ, abesiv). Šest českých pádů (kromě vokativu) uvádí Multext-East u sloves taky, ale nejsou u žádného jazyka vyplněny. Snad jsou relevantní pro některé jazyky západního Multextu?

1 = partitive (ET)

x = illative (HU i ET)

2 = inessive (HU i ET)

e = elative (HU i ET)

t = allative (HU i ET)

3 = adessive (HU i ET)

b = ablative (HU i ET)

4 = translative (ET)

9 = terminative (HU i ET)

w = essive (HU i ET)

5 = abessive (ET)

k = komitative (ET)

7 = aditive (ET)

m = temporalis (HU)

c = causalis (HU)

s = sublative (HU)

h = delative (HU)

q = sociative (HU)

y = factive (HU)

p = superessive (HU)

u = distributive (HU)

U předložek rozlišuje Multext-East pády požadované předložkou (subkategorizace). Pro SL, CS a HR jsou to pády g, d, a, l, i. Pro RO je to g, d, a.

osoba

1 = autor

2 = adresát

3 = ostatní

zatím nijak neodlišujeme vykání, ale v některých jazycích to možná hraje větší roli

V Multext-East v HU je osoba rozlišena i u příslovcí. U spojek v CS (abych vs. abys).

stupeň

1 = pozitiv

2 = komparativ

3 = superlativ

V Multext-East jsou stupně vyjádřeny písmeny p, c, s a mají je všechny zúčastněné jazyky s výjimkou bulharštiny. Slovinština má ještě jeden stupeň navíc:

e = elativ

Penn: stupně rozlišeny u přídavných jmen takto: JJ, JJR, JJS; u příslovcí takto: RB, RBR, RBS.

zápor

A = nezáporný

N = záporný

určitost

Podstatná a přídavná jména v rumunštině a bulharštině mají na konci morfém odpovídající určitému nebo neurčitému členu (viz mj. Multext-East). U přídavných jmen navíc první dvě hodnoty existují i v HR. U zájmen se určitost týká pouze BG. U číslovek mají první dvě hodnoty RO, SL a BG, zbývající dvě pouze BG. U sloves se opět objevují čtyři hodnoty v BG, první 2 v HU, kde navíc přibývá i pátá.

n = ne

y = ano

s = krátký člen (pouze BG)

f = dlouhý člen (pouze BG)

2 = 1s2s (pouze HU u sloves)

klitika

U podstatných, přídavných jmen, číslovek, sloves pouze rumunština (Multext-East). U příslovcí RO a HU. U předložek RO. U spojek RO. U částic RO.

n = ne

y = ano

clitic_s

U zájmen pouze čeština. Totéž v češtině i u sloves (že by šlo o připojené –s zastupující „jsi“?).

rod vlastníka viz rod. V Multext-East ho kupodivu nemají pro přídavná jména u češtiny (v PDT ano). V brněnském systému by tomuhle mohla odpovídat kategorie, kterou nazvali přirozený rod.

číslo vlastníka viz číslo. V Multext-East v HU se rozlišuje pro podstatná i přídavná jména.

osoba vlastníka viz osoba. V Multext-East v HU se rozlišuje pro podstatná a přídavná jména.

owned_number (???) viz číslo. V Multext-East v HU se rozlišuje pro podstatná jména.

referent_type (???)

Kategorie v Multext-East pro zájmena v SL, CS a BG:

p = personal

s = possessive

a = attributive (pouze BG)

q = quantitative (pouze BG)

wh

V angličtině může být několik slovních druhů současně typu „wh“ (Penn značky jsem nahoře zařadil k různým slovním druhům, jsou to ty začínající na W: WDT, WP, WP$, WRB.)

A takhle se morfologie značí v Negře / Tigeru

Čínská morfologie

Podle jednoho článku, který jsem nedávno recenzoval pro ACL 2003, se dá rozeznat nejméně následujících 5 postupů, jakými čínština modifikuje slova. Protože jsou z našeho indoevropského pohledu dost exotické, zatím jsem nehloubal nad tím, kam je zasadit do výše nastíněného systému.

Všechno to souvisí i s neexistencí viditelných hranic slov v čínštině (které by podle mého názoru měly být vyznačeny také na morfologické rovině).

1. affixation         pengyou (přítel) — pengyoumen (přátelé); Tohle nám připadá povědomé, ale v čínštině je to velká rarita a většina podstatných jmen žádné množné číslo netvoří.

2. reduplication         gaoxing (šťastný) — gaogaoxingxing (velmi šťastný, nebo také šťastně)

3. merging         shangwu (dopoledne) + xiawu (odpoledne) — shangxiawu (dopoledne i odpoledne)

4. head particle (něco jako slovesné koncovky modifikující význam, koncovky většinou samy mohou fungovat jako slovesa)         zou (kráčet) + chuqu (ven, ovšem doslova: vyjít ven + jít) — zouchuqu (jenže obě části mohou být ve větě roztržené, podobně jako německé oddělitelné předpony (rausgehen – ich gehe heute raus))

5. split          chifan + le — chi le fan (chifan je sémanticky jedno slovo — jíst, ale syntakticky jsou to dvě slova, mohou být rozdělena něčím jiným, jako je třeba částice le. Navíc chifan samo o sobě doslova znamená „jíst vařenou-rýži“ a z pohledu Evropana to jsou dvě slova. Jenže v čínštině to „fan“ není nutně vařená rýže, ale prostě zástupný předmět, aby sloveso nezůstalo nepřechodné (zřejmě je čínská potřeba pospolitosti tak velká, že i slovesa se tam bojí zůstat sama J).)

Transliterace a transkripce

Zejména u jazyků, které nepíší latinkou, lze očekávat potřebu zápisu v latince (i když ten problém je obecný, proč by korpus nemohl obsahovat přepis z arabského písma do cyrilice?).

Je také nutné počítat s tím, že pro jeden jazyk a dvojici existuje několik různých transliteračních systémů, k tomu se ale asi dá přistupovat podobně jako ke značkám z různých sad.

Některé jazyky píší více písmy (třeba kurdština: latinkou, arabským písmem i cyrilicí), nebo obecněji existuje více různých pravopisů (třeba pravopis historických českých textů: „Geho Gasnost gest w Praze“ vs. „Jeho jasnost jest v Praze“).

Vokalizace apod. (háčkování)

U jazyků, které běžně nezapisují samohlásky (arabština, hebrejština). Jedno vstupní slovo může připouštět více různých vokalizací a ty mohou vést na různé morfologické analýzy.

Na podobné úrovni by byl i český (a nejen český) problém s háčkováním, tj. doplňováním chybějící diakritiky.

Hranice slov

U jazyků, které běžně neoddělují slova mezerami (čínština), je segmentace slov součástí morfologické roviny. Pravděpodobně pro ni však nemusíme zavádět žádné zvláštní elementy. Na textové rovině bude jeden token odpovídat jednomu znaku a na morfologické rovině bude akorát mnohem běžnější jev, se kterým v češtině zatím počítáme spíše jako s výjimkou: že jednomu <m> bude odpovídat několik <f>. Nezřídka bude pro jeden řetězec možných několik různých segmentací, v nichž se předpokládaná slova budou různě překrývat.

Další informace o tvaru

zkratka

Informace, zda šlo o zkratku. Zkratka může mít různé slovní druhy (i když asi ne všechny, ale proč to omezovat) a může mít i ostatní vlastnosti. Např. „s.“ má rod, číslo i pád: ve frázi „na počest s. G. Husáka“ je to genitiv singuláru. I když ve zkratce není vidět koncovka, která by výběr pádu zúžila, musíme počítat, že jeden ze 7 (v případě češtiny) pádů je ten správný.

V Multext-East je zkratka na úrovni samostatného slovního druhu (zřejmě bez ohledu na slovní druh slova, které se zkracuje).

Stylistické zařazení koncovky

Například koncovky podle vzoru „mladej“. Nejde o stylistické zařazení hesla, to může být klidně neutrální, případně dokonce knižní. Také nejde jen o informaci, že koncovka „-ej“ je hovorová nebo oblastní, ale odlišení dvou různých paradigmat — prostě aby dva různé tvary neměly stejnou značku.