Tento soubor obsahuje sbírku námětů, co všechno by mělo být zakódováno na morfologické rovině. Nebo lépe, čeho všeho zakódování by morfologická rovina měla umožňovat.
Nespokojuji se s konstatováním, že potřebujeme morfologickou či POS značku, ale rozebírám značky na jednotlivé atributy, jsa si vědom, že to, co je v jednom korpusu součástí jedné značky, může být v jiném rozděleno do různých značek z několika sad. Ideálně by měla být někde množina atributů, které umíme popsat, a z nich by se v definičních souborech sad značek (něco jako značkařské slovníky) skládaly značky zapadající do jednotlivých sad.
Níže jsou shromážděny postřehy z různých korpusů, zejména:
ČNK a PDT (čeština, morfologie JHaj)
Multext-East (čeština, slovinština, chorvatština, bulharština, rumunština, maďarština, estonština, angličtina). Velmi podobné značky jsou i v západoevropském EU Multext, ale nezkoumal jsem, zda obsahují nějaké atributy navíc (angličtina, němčina, holandština, švédština, francouzština, španělština, italština).
Desam (čeština, brněnský systém (program Lemma)). Poznámka: jejich značky obsahují vždy dvojice znaků, kde první znak určuje atribut a druhý jeho hodnotu, takže možná není zaručeno, že atributy budou vždy ve značkách uvedeny ve stejném pořadí. V tom případě by asi bylo nejbezpečnější uvádět každou dvojici jako samostatnou značku jiného druhu (a každá dvojice by byla samostatným odkazem do definičního souboru sady značek).
Penn TreeBank (angličtina): 36 POS značek.
Penn Chinese TreeBank (čínština): 33 POS značek.
Negra a TiGer (němčina) obsahuje několik různých značek: POS (slovní druh a poddruh), morph (morfologické informace jako rod, číslo, pád, osoba), cat (zřejmě něco jako typ fráze – označuje neterminály), edge label (něco jako naše analytická funkce?) a secondary edge label. Tady zahrnuju první dvě, zbývající tři asi patří spíš na syntaktickou rovinu.
stylistické zařazení (lematu, ne koncovky), např.: zastaralé, knižní, neutrální, hovorové, vulgární…
sémantické zařazení, např.: křestní jméno, příjmení, zeměpisný název, jméno obyvatele určitého území či příslušníka etnické skupiny…
cizost — odlišit slova z cizích jazyků, která nebyla přejata, ale jsou pouze citována (třeba všechna slova názvu „Bank of America“. PDT 1.0 např. nerozlišuje „America“ (cizí) od „Amerika“ (české), tj. ani jedna varianta nedostane příslušní příznak cizosti)
Penn:
FW = foreign word
Slovní druhy a jejich jemnější rozlišení, podmíněné nejen syntakticky.
podstatná jména
V pražském pozičním systému se dále nerozlišují (s výjimkou zkratek, ale ty nezahrnuji do poddruhů). V Multext-East se rozlišují obecná a vlastní jména.
obecná (člověk)
vlastní (Jan)
Penn:
NN = noun, singular or mass
NNS = noun, plural
NNP = proper noun, singular
NNPS = proper noun, plural
Penn Chinese:
NR = proper noun (region/country/county/city, mountain/river, newspaper/journal, organization/company, school/association/foundation, person/family; ne však nationality, race, title, disease, occupation, organ, instrument, game, flower etc.)
NT = temporal noun (názvy
určující čas): 1990年 (rok 1990), 一月 (leden),
汉朝 (dynastie Chan)
NN = other noun
STTS:
NN = normales Nomen (Tisch, Herr, [das] Reisen)
NE = Eigennamen (Hans, Hamburg, HSV)
přídavná jména
obyčejná (mladý, jarní)
přivlastňovací (otcův, matčin)
z přechodníku přítomného (dělající)
z přechodníku minulého (udělavší)
zvláštní (sám, tentam)
krátká (mlád); v pádu mají pomlčku nebo akuzativ, to je závada!
nesamostatná před pomlčkou (česko-: česko-slovenský)
Multext-East rozlišuje následující druhy přídavných jmen:
f = qualificative (EN, RO, SL, CS, HU, HR)
i = indefinite (žádný zúčastněný jazyk (!))
s = possessive (SL, CS, HR)
o = ordinal (SL)
Navíc však Multext-East eviduje vlastnost formation, kterou přiznává pouze češtině, s hodnotami
n = nominal
c = compound
Penn:
JJ, JJR, JJS = adjective (ve 3 stupních)
Penn Chinese:
JJ = other noun-modifier (z nějakého důvodu tomu neříkají adjective)
STTS:
ADJA = attributives Adjektiv ([das] große [Haus])
ADJD = adverbiales oder prädikatives Adjektiv ([er fährt] schnell), ([er ist] schnell)
zájmena
Takhle to je v pražském
pozičním systému:
osobní (já); v rodě
mohou i nemusí mít pomlčku, to je závada! Další závada je, že mohou a nemusí
mít pomlčku v čase (!). Čas rozlišuje zájmeno „ty“ od „tys“, v prvním
případě je v něm pomlčka, ve druhém „P“. Nic proti tomu, kdyby se ve
druhém případě také změnila hodnota poddruhu (druhá pozice ve značce).
osobní zkrácené (odlišuje „mi“, „mu“ od „mně“, „jemu“); v rodě mohou i nemusí mít pomlčku, to je závada!
osobní po předložce (odlišuje „něho“ od „jeho“)
osobní slité s předložkou („naň“)
osobní zvratné („sebe“)
osobní zvratné zkrácené (odlišuje „se“ od „sebe“); Závada: analogicky k ty-tys se se-ses rozlišuje pomocí času, v němž je buď pomlčka, nebo nepomlčka, ale rozdíl už se neprojeví v poddruhu.
přivlastňovací („můj“); v rodě mohou i nemusí mít pomlčku, to je závada!
přivlastňovací zvratné („svůj“)
ukazovací („ten“)
zvláštní („sám“, „všechen“)
vztažné („jenž“)
vztažné po předložce (odlišuje „něhož“ od „jehož“)
vztažné neživotné („což“)
tázací životné („kdo“, „kdož“); Má rod (ovšem vždy mužský životný, to by „což“ mohlo mít klidně rod střední). Poznámka: jako vztažná jsou označena jen zájmena končící na „-ž“, zejména „jenž“. Zájmena, která mohou být tázací i vztažná (kdo, co, který, jaký, čí) jsou označena jako tázací. Závada: „kdos“ se opět neodlišuje poddruhem, ale časem.
tázací neživotné („co“)
tázací adjektivní („jaký“)
tázací slité s předložkou („nač“)
neurčité životné („někdo“)
neurčité neživotné („něco“)
neurčité adjektivní („nějaký“)
záporné životné („nikdo“)
záporné neživotné („nic“)
záporné adjektivní („nijaký“)
Multext-East rozlišuje následující typy (nic nerozlišuje jen u HR):
p = personal (vše)
d = demonstrative (kromě EN)
i = indefinite (kromě EN)
s = possessive (vše)
q = interrogative (kromě RO)
r = relative (kromě RO)
e = exclamative (nikde, ale s hodnotou se počítá)
x = reflexive (vše)
y = reciprocal (jen ET a HU)
z = negative (RO, SL, CS a BG)
g = general (EN, SL, CS a BG)
w = int_rel (jen RO)
h = emphatic (jen RO)
m = determinal (jen ET)
t = ex_there (existenční there z „there is“: jen EN)
U rumunštiny dále Multext-East rozlišuje kategorii pronoun_form s hodnotami
s = strong (silné)
w = weak (slabé)
U angličtiny dále Multext-East rozlišuje kategorii wh_type s hodnotami
r = relative (vztažné)
q = question (tázací)
Penn:
EX = existential there
PRP = personal pronoun
PRP$ = possessive pronoun
WP = wh-pronoun
WP$ = possessive wh-pronoun
Penn Chinese:
PN = pronoun (zahrnuje osobní
zájmena (我 = já), ukazovací zájmena, pokud tvoří bez
cizí pomoci jmennou frázi (这 = tento),
přivlastňovací zájmena a zvratná zájmena)
STTS:
PDS = substituirendes Demonstrativ-Pronomen (dieser, jener)
PDAT = attribuirendes Demonstrativ-Pronomen (jener [Mensch])
PIS = substituirendes Indefinitpronomen (keiner, viele, man, niemand)
PIAT = attribuirendes
Indefinitpronomen ohne Determiner (kein [Mensch], irgendein [Glas])
PIDAT = attribuirendes Indefinitpronomen mit Determiner ([ein] wenig
[Wasser], [die] beiden [Brüder])
PPER = irreflexives Personalpronomen (ich, er, ihm, mich, dir)
PPOSS = substituirendes Possessivpronomen
(meins, deiner)
PPOSAT = attribuirendes Possessivpronomen (mein [Buch], deine [Mutter])
PRELS = substituirendes Relativpronomen ([der Hund,] der)
PRELAT = attribuirendes Relativpronomen ([der Mann,] dessen [Hund])
PRF = reflexives Personalpronomen (sich, einander, dich, mir)
PWS = substituirendes Interrogativpronomen (wer, was)
PWAT = attribuirendes Interrogativpronomen (welche [Farbe], wessen [Hut])
PWAV = adverbiales Interrogativ- oder Relativpronomen (warum, wo, wann, worüber, wobei)
PAV = Pronomialadverb (dafür, dabei, deswegen, trotzdem)
členy (determiners)
Multext-East jako samostatná slova tohoto slovního druhu rozlišuje u EN a RO. Rozlišuje řadu druhů členů, z nichž některé nejsou v daných jazycích zastoupeny (ale nejspíš byly zastoupeny v západním Multextu).
d = demonstrative
i = indefinite
s = possessive
q = interrogative (nezastoupen)
r = relative (nezastoupen)
e = exclamative (nezastoupen)
a = article (nezastoupen)
g = general (pouze EN)
w = int_rel (pouze RO)
z = negative (pouze RO)
h = emphatic (pouze RO)
U rumunštiny členy navíc rozlišují kategorii modific_type s hodnotami
e = prenomin
o = postnomin
U angličtiny navíc rozlišují kategorii wh_type s hodnotami
r = relative (vztažný)
q = question (tázací)
Penn:
DT = determiner
PDT = predeterminer (???)
WDT = wh-determiner
Penn Chinese: řadí dohromady determinátory a číslovky, ale já uvádím každé zvlášť
DT = determiner (zahrnuje
ukazovací zájmena v některých výskytech, ale viz též část o zájmenech (这 = tento, 那 = tamten) a slova jako 每 = každý)
STTS:
ART = bestimmter oder unbestimmter Artikel (der, die, das, ein, eine…)
členy (article)
Takovýto člen se rozlišuje v Multext-East u rumunštiny a maďarštiny. Druhy:
f = definite
i = indefinite
s = possessive (pouze RO)
d = demonstrative (pouze RO)
číslovky
základní 1 – 4 („jeden“)
základní ³ 5 („pět“)
základní tázací („kolik“)
základní neurčitá („několik“)
řadová („první“)
řadová tázací („kolikátý“)
řadová neurčitá („několikátý“)
druhová („dvojí“)
jiná druhová („jedni“) ???
ještě jiná druhová („čtvero“) ????
ještě úplně jiná druhová („čtvery“) ?????
násobná („jedenkrát“)
násobná tázací („kolikrát“)
násobná neurčitá („několikrát“)
jmenovatel („polovina“)
arabské číslo („1“)
římské číslo („I“)
Multext-East rozlišuje tyto druhy:
c = cardinal (základní)
o = ordinal (řadové)
f = fractal (zlomkové: pouze RO a HU)
m = multiple (???: RO, SL, CS, HR)
l = collect (???: RO, HU)
s = special (zvláštní: SL, CS, HR)
V Multext-East mají číslovky navíc kategorii form s těmito hodnotami:
d = digit (číselná)
r = roman (římská)
l = letter (slovní)
b = both (obojí: pouze RO)
m = m_form (pouze BG)
a = approx (přibližná: pouze BG)
Specielně pro češtinu pak Multext-East rozlišuje číslovkovou kategorii class, která má zřejmě doplnit zbývající rozlišení zvládané pražskými značkami.
1 = definite1
2 = definite2
3 = definite34
f = definite
d = demonstrative
i = indefinite
q = interrogative
r = relative
Brněnský systém rozlišuje tyto druhy číslovek:
xC = základní
xO = řadová
xR = druhová
xN = názvy jmen (???)
xD = názvy zlomků
xT = názvy n-tic
Penn:
CD = cardinal number
Penn Chinese:
CD = cardinal number (např.
1245; 一百 = sto)
OD = ordinal number (např. 第一百 = stý)
STTS:
CARD = Kardinalzahl (zwei [Männer], [im Jahre] 1994)
ORD = Ordinalzahl ([der] neunte [August])
počítací slova (measure words, numerativa?)
V čínštině slovo, které se nachází mezi determinátorem nebo číslem a podstatným jménem nebo slovesem. Některá počítací slova se lexikálně shodují s podstatnými jmény jako láhev, balení…
Penn Chinese: M = measure
words. Příklad: 一[one]/CD 小[small]/JJ 瓶[bottle]/M
水[water]/NN.
slovesa
infinitiv („dělat“)
přítomný nebo budoucí čas („dělám“, „udělám“)
přítomný nebo budoucí čas s „neboť“ („dělámť“)
příčestí minulé („dělal“); Závada: osoba může a nemusí obsahovat pomlčku. Rozlišuje se tím „dělals“ od „dělal jsi“.
příčestí minulé s „neboť“ („dělalť“)
příčestí trpné („dělán“); Závada: pád může obsahovat pomlčku nebo akuzativ („dělánu“). Druhá závada: osoba může a nemusí obsahovat pomlčku („dělánas“).
rozkazovací způsob („dělej“)
podmiňovací způsob („by“)
přechodník přítomný („dělaje“)
přechodník minulý („udělav“)
Multext-East rozlišuje následující druhy sloves (type):
m = main (obyčejné)
a = auxiliary (pomocné)
o = modal (modální: vše kromě BG a HU)
c = copula (???: pouze RO, SL, CS a HR)
b = base (???: pouze EN)
Kromě druhů rozlišuje Multext-East ještě vform:
i = indikativ (oznamovací způsob: všechny jazyky)
s = subjunktiv (RO)
m = imperativ (rozkazovací způsob: vše kromě EN)
c = kondicionál (podmiňovací způsob: vše kromě RO a BG)
n = infinitiv (neurčitý tvar: vše kromě BG)
p = participle (příčestí: vše kromě HU)
g = gerundium (RO, BG, ET)
u = supine (SL, ET)
t = transgresivum (přechodník: CS)
q = quotative (ET)
Dále rozlišuje Multext-East tense (čas):
p = present (přítomný: všechny jazyky)
i = imperfect (RO, BG, ET, HR)
f = future (budoucí: SL, CS, HR)
s = past (minulý: všechny jazyky)
l = plusperfect (RO, HR)
a = aorist (BG, HR)
Dále rozlišuje Multext-East voice (slovesný rod), a to u SL, CS, BG, ET a HR:
a = active (činný)
p = passive (trpný)
Dále rozlišuje Multext-East aspect (vid), ale pouze ve slovinštině a v těchto dvou hodnotách:
p = progressive
e = perfective
Brněnský systém rozlišuje již výše uvedené slovesné způsoby, ale ještě rozlišuje zvlášť
mC = condicional
mK = konjunktiv
Začínám mít ale podezření, že konjunktiv a subjunktiv je totéž (o konjunktivu se mluví v němčině, o subjunktivu v románských jazycích).
Penn:
MD = modal, snad si správně vysvětluji, že má jít o modální sloveso a ne nějakou potrhlou částici či co
VB = verb, base form
VBD = verb, past tense
VBG = verb, gerund or present participle
VBN = verb, past participle
VBP = verb, non-3rd person singular present
VBZ = verb, 3rd person singular present
Penn Chinese: common class verb
or adjective (ale viz též JJ)
VA = predicative adjective
VC = copula (spona?) (是 = být)
VE = you3 as the main verb (jen
dva znaky mohou, ale nemusí dostat tuto značku: 有,没) (různé
významy, např. přivlastňovací (= mít), existenční odpovídající anglickému there
is atd.)
VV = other verb (např. 走 = jít)
STTS:
VVFIN = finites Verb, voll ([du] gehst, [wir] kommen [an])
VVIMP = Imperativ, voll (komm [!])
VVINF = Infinitiv, voll (gehen, ankommen)
VVIZU = Infinitiv mit „zu“, voll (anzukommen, loszulassen)
VVPP = Partizip Perfekt, voll (gegangen, angekommen)
VAFIN = finites Verb, aux ([du] bist, [wir] werden)
VAIMP = Imperativ, aux (sei [ruhig!])
VAINF = Infinitiv, aux (werden, sein)
VAPP = Partizip Perfekt, aux (gewesen)
VMFIN = finites Verb, modal (dürfen)
VMINF = Infinitiv, modal (wollen)
VMPP = Partizip Perfekt, modal (gekonnt, [er hat gehen] können)
příslovce
bez stupně a záporu („jak“); Poznámka: je tato kategorie ekvivalentní s množinou příslovcí, která nebyla odvozena od přídavných jmen?
se stupněm a záporem
Multext-East rozlišuje tyto druhy (type):
g = general (RO, SL, CS, BG, HU, HR)
p = particle (RO, HU)
o = causal (HU)
z = negative (RO)
a = adjectival (BG)
v = verbal (HU)
m = modifier (EN, RO, HU)
s = specifier (EN)
w = int_rel (RO)
c = portmanteau (RO)
q = interrogative (HU)
V angličtině se rozlišuje wh_type:
r = relative
q = question
Brněnský systém rozlišuje tato příslovce:
xL = místa
xT = času
xM = způsobu
xD = modální (???)
Penn:
RB, RBR, RBS = adverb
WRB = wh-adverb
Penn Chinese:
AD = adverb (大大 = greatly)
STTS:
ADV = Adverb (schon, bald, doch)
předložky
normální („k“)
vokalizovaná („ke“, „ku“)
část složené předložky („vzhledem“) ???
Multext-East má místo slovního druhu předložka slovní druh adpozice a rozlišuje ho na poddruh prepozice (předložka) a postpozice (záložka?):
p = preposition (vše kromě HU)
t = postposition (EN, ET, HU)
Dále rozlišuje formation:
s = simple (jednoduchá)
c = compound (složená)
Penn:
IN = preposition or subordinating conjunction
TO = to (v angličtině si nejsem jist, co je to za slovní druh — asi nejen předložka, ale jak se to jmenuje u sloves, to nevím)
Penn Chinese:
P = preposition (从 = z)
STTS:
APPR = Präposition; Zirkumposition links (in [der Stadt], ohne [mich])
APPRART = Präposition mit Artikel (im [Haus], zur [Sache])
APPO = Postposition ([ihm] zufolge, [der Sache] wegen)
APZR = Zirkumposition rechts ([von jetzt] an)
spojky
souřadící („a“)
souřadící matematická („krát“)
podřadící („že“)
podřadící slovesná („abych“)
Multext-East rozlišuje tyto druhy (type):
c = coordinating (souřadící)
s = subordinating (podřadící)
p = portmanteau (jen RO)
Dále formation (RO, SL, BG, HU, HR):
s = simple (jednoduchá)
c = compound (složená)
Dále coord_type:
s = simple (RO)
r = repetit (RO)
c = correlat (RO)
p = sentence (HU)
w = words (HU)
i = initial (EN)
n = non-initial (EN)
Dále sub_type (jen RO):
z = negative
p = positive
Penn:
CC = coordinating conjunction
IN = preposition or subordinating conjunction
Penn Chinese:
CC = coordinating conjunction (和 = a)
CS = subordinating conjunction
(如果[if]/CS …
[then]/AD)
STTS:
KOUI = unterordnende Konjunktion mit „zu“ und Infinitiv (um [zu leben], anstatt [zu fragen])
KOUS = unterordnende Konjunktion mit Satz (weil, daß, damit, wenn, ob)
KON = nebenordnende Konjunktion (und, oder, aber)
KOKOM = Vergleichskonjunktion (als, wie)
částice
Pražský poziční systém žádné poddruhy nerozlišuje. Multext-East rozlišuje type u tří jazyků. U ET a HU zřejmě částice vůbec nejsou?
z = negative (RO, BG, HR)
n = infinitive (RO)
s = subjunctive (RO)
a = aspect (RO)
f = future (RO)
g = general (BG)
c = comparative (BG)
v = verbal (BG)
q = interrogative (BG, HR)
o = modal (BG, HR)
r = affirmative (HR)
formation (BG)
s = simple
c = compound
Penn:
RP = particle
Penn Chinese:
DEC = de5 as a complementizer
or nominalizer (的, 之)
DEG = de5 as a
genitive marker and an associative marker (的)
DER = resultative
de5 (得)
DEV = manner de5 (地 nebo 的)
AS = aspect particle
(zahrnuje jen 4 znaky, např. 了)
SP = sentence-final particle (např. 了,吧,吗)
ETC = etc (jen dvě slova: 等 a 等等; příklad: 科技[science and
technology]、文教[culture
and education]等等/ETC
MSP = other particle
STTS:
PTKZU = „zu“ vor Infinitiv (zu [gehen])
PTKNEG = Negationspartikel (nicht)
PTKVZ = abgetrennter Verbzusatz
([er kommt] an, [er fährt] rad)
PTKANT = Antwortpartikel (ja, nein, danke, bitte)
PTKA = Partikel bei Adjektiv oder Adverb (am [schönsten], zu [schnell])
citoslovce
Pražský poziční systém žádné poddruhy nerozlišuje. Multext-East rozlišuje type u maďarštiny.
m = mood
o = other
formation (BG, HR)
s = simple
c = compound
Penn:
UH = interjection
Penn Chinese:
IJ = interjection
ON = onomatopoeia (slovo
imitující zvuk) Prý ho ve stokilovém korpusu nenašli, ale značku mu vyhradili,
protože se o něm tradičně zmiňují čínské mluvnice i některé čínské sady značek.
STTS:
ITJ = Interjektion (mhm, ach, tja)
zvláštní, interpunkce
kořen stromu
interpunkce
V Multext-East tomuhle odpovídá tzv. zbytková třída (residual). Na žádné poddruhy se nedělí.
Penn Chinese:
LB = bei4 in long bei-construction
SB = bei4 in short bei-construction
BA = ba3 in ba-construction
PU = punctuation (s výjimkou případů, kdy je součástí jiného slova: 123,456/CD)
STTS: Součást složeniny před pomlčkou (v pražském systému je něco takového mezi poddruhy přídavných jmen, ale v němčině to může nastat i u jiných slovních druhů).
TRUNC = Kompositions-Erstglied
(An- [und Abreise])
XY = Nichtwort, Sonderzeichen enthaltend (3:7, H2O, D2XW3)
\$, = Komma (,)
\$. = Satzbeendende Interpunktion (. ? ! ; :)
\$( = sonstige Satzzeichen; satzintern (- [,] ())
neznámý
je ve slovníku, ale chybí morfologie
není ve slovníku
Penn:
FW = foreign word
Penn Chinese:
FW = foreign word (nezahrnuje
překlady cizích slov ani cizí slova smíchaná s čínskými (např. 卡拉OK[karaoke]/NN) ani slova, jejichž význam a
POS je zřejmý z kontextu. Anotátoři se tedy snaží vyvarovat této značky,
jak je to jen možné.)
STTS:
FM = Fremdsprachliches Material ([Er hat das mit "] A big fish [" übersetzt])
posesiva
Tento slovní druh je rozlišen v brněnském systému. Nevím, zda se jím mají na mysli přivlastňovací přídavná jména, zájmena, nebo ještě něco jiného.
Penn: zvláštní značka pro přivlastňovací / genitivní koncovku „s“ za apostrofem: McDonald’s. Značka je POS.
localizers
Penn Chinese: zjednodušeně slova, která se dávají za některá podstatná jména, která bez nich nemohou viset na předložce udávající místo. Některé lokalizátory mohou také existovat samostatně. Značka je LC.
list item marker
Rozlišeno v Penn TreeBanku značkou LS, předpokládám, že jsou to např. písmena „a“, „b“, když se někde vyskytne „a) takto; b) jinak“. To by se nám v PDT taky hodilo, zatím JHaj morfologie přiřadí, co je po ruce, takže „a“ je obvykle spojka, „i“ taky, „k“ je předložka atd.
symbol
Penn: SYM = symbol.
STTS:
SGML = SGML Markup
SPELL = Buchstabierfolge (S-C-H-W-E-I-K-L)
Některé z nich mají v některých jazycích a u některých slovních druhů spíše valenční charakter — v češtině například pád u předložek nebo rod u podstatných jmen.
syntaktický
typ
Rozlišuje se u SL a CS zájmen v Multext-East. V PDT nic takového není, i když by to dost pomohlo.
n = nominal (substantivní)
a = adjectival (adjektivní)
r = adverbial (adverbiální; pouze SL)
rod
V Multext-East se nerozlišuje pro ET a HU, pro všech 6 ostatních (EN, RO, BG, HR, SL, CS) ano.
M = mužský životný
I = mužský neživotný (rozlišuje se v PDT, ale ne v MULTEXT-EAST, tam je životnost samostatnou kategorií)
F = ženský
N = střední
Žádné hodnoty Y, Z, T, H, Q apod.! Od toho jsou <alt>. Pokud to morfologická značka jinak neumí, nedá se nic dělat, ale v jejím definičním souboru by rody měly být rozepsány.
U přídavných jmen v Multext-East rozlišují rod všechny jazyky kromě EN, ET a HU.
životnost
V Multext-East je to samostatná kategorie, v PDT se rozlišuje pouze v mužském rodě a je zahrnuta do kategorie rodu. V Multext-East se rozlišuje pro SL, CS, HU a HR.
n = ne
y = ano
číslo
S = jednotné
D = dvojné (v Multext-East pro CS a SL, pro ostatní ne)
P = množné
C = „count“ (nevím, co to je, ale v Multext-East se to rozlišuje pro BG)
U přídavných jmen v Multext-East rozlišují číslo všechny jazyky kromě EN. V HU i u příslovcí. U spojek v CS (abych vs. abychom).
Penn:
Číslo podstatných jmen se označuje písmenem „S“ na konci značky: NN vs. NNS, NNP vs. NNPS.
pád
1 = nominativ
2 = genitiv
3 = dativ
4 = akuzativ
5 = vokativ
6 = lokál
7 = instrumentál
V Multext-East jsou české pády označeny písmeny n, g, d, a, v, l, i. U číslovek se kupodivu v češtině nerozlišuje vokativ, což je asi chyba. Stejnou množinu pádů má ještě chorvatština (dokonce má vokativ i u číslovek), slovinštině chybí vokativ. Angličtina má jen nominativ a akuzativ, a to pouze u zájmen (zde odlišují např. „him“ od „he“), bulharština má pouze nominativ a vokativ. Rumunština má vokativ a dva zvláštní pády:
r = direct (přímý, odpovídá současně nominativu a akuzativu)
o = oblique (nepřímý, odpovídá současně genitivu a dativu)
Estonština a maďarština mají velké množství pádů uvedených níže; z nám známých pádů k nim přibírají ještě nominativ a genitiv (ET i HU) a maďarština dále dativ, akuzativ a instrumentál. V estonštině jsou některé pády relevantní dokonce i u sloves (ilativ, inesiv, elativ, translativ, abesiv). Šest českých pádů (kromě vokativu) uvádí Multext-East u sloves taky, ale nejsou u žádného jazyka vyplněny. Snad jsou relevantní pro některé jazyky západního Multextu?
1 = partitive (ET)
x = illative (HU i ET)
2 = inessive (HU i ET)
e = elative (HU i ET)
t = allative (HU i ET)
3 = adessive (HU i ET)
b = ablative (HU i ET)
4 = translative (ET)
9 = terminative (HU i ET)
w = essive (HU i ET)
5 = abessive (ET)
k = komitative (ET)
7 = aditive (ET)
m = temporalis (HU)
c = causalis (HU)
s = sublative (HU)
h = delative (HU)
q = sociative (HU)
y = factive (HU)
p = superessive (HU)
u = distributive (HU)
U předložek rozlišuje Multext-East pády požadované předložkou (subkategorizace). Pro SL, CS a HR jsou to pády g, d, a, l, i. Pro RO je to g, d, a.
osoba
1 = autor
2 = adresát
3 = ostatní
zatím nijak neodlišujeme vykání, ale v některých jazycích to možná hraje větší roli
V Multext-East v HU je osoba rozlišena i u příslovcí. U spojek v CS (abych vs. abys).
stupeň
1 = pozitiv
2 = komparativ
3 = superlativ
V Multext-East jsou stupně vyjádřeny písmeny p, c, s a mají je všechny zúčastněné jazyky s výjimkou bulharštiny. Slovinština má ještě jeden stupeň navíc:
e = elativ
Penn: stupně rozlišeny u přídavných jmen takto: JJ, JJR, JJS; u příslovcí takto: RB, RBR, RBS.
zápor
A = nezáporný
N = záporný
určitost
Podstatná a přídavná jména v rumunštině a bulharštině mají na konci morfém odpovídající určitému nebo neurčitému členu (viz mj. Multext-East). U přídavných jmen navíc první dvě hodnoty existují i v HR. U zájmen se určitost týká pouze BG. U číslovek mají první dvě hodnoty RO, SL a BG, zbývající dvě pouze BG. U sloves se opět objevují čtyři hodnoty v BG, první 2 v HU, kde navíc přibývá i pátá.
n = ne
y = ano
s = krátký člen (pouze BG)
f = dlouhý člen (pouze BG)
2 = 1s2s (pouze HU u sloves)
klitika
U podstatných, přídavných jmen, číslovek, sloves pouze rumunština (Multext-East). U příslovcí RO a HU. U předložek RO. U spojek RO. U částic RO.
n = ne
y = ano
clitic_s
U zájmen pouze čeština. Totéž v češtině i u sloves (že by šlo o připojené –s zastupující „jsi“?).
rod vlastníka viz rod. V Multext-East ho kupodivu nemají pro přídavná jména u češtiny (v PDT ano). V brněnském systému by tomuhle mohla odpovídat kategorie, kterou nazvali přirozený rod.
číslo vlastníka viz číslo. V Multext-East v HU se rozlišuje pro podstatná i přídavná jména.
osoba vlastníka viz osoba. V Multext-East v HU se rozlišuje pro podstatná a přídavná jména.
owned_number (???) viz číslo. V Multext-East v HU se rozlišuje pro podstatná jména.
referent_type
(???)
Kategorie v Multext-East pro zájmena v SL, CS a BG:
p = personal
s = possessive
a = attributive (pouze BG)
q = quantitative (pouze BG)
wh
V angličtině může být několik slovních druhů současně typu „wh“ (Penn značky jsem nahoře zařadil k různým slovním druhům, jsou to ty začínající na W: WDT, WP, WP$, WRB.)
Podle jednoho článku, který jsem nedávno recenzoval pro ACL 2003, se dá rozeznat nejméně následujících 5 postupů, jakými čínština modifikuje slova. Protože jsou z našeho indoevropského pohledu dost exotické, zatím jsem nehloubal nad tím, kam je zasadit do výše nastíněného systému.
Všechno to souvisí i s neexistencí viditelných hranic slov v čínštině (které by podle mého názoru měly být vyznačeny také na morfologické rovině).
1. affixation pengyou (přítel) — pengyoumen (přátelé); Tohle nám připadá povědomé, ale v čínštině je to velká rarita a většina podstatných jmen žádné množné číslo netvoří.
2. reduplication gaoxing (šťastný) — gaogaoxingxing (velmi šťastný, nebo také šťastně)
3. merging shangwu (dopoledne) + xiawu (odpoledne) — shangxiawu (dopoledne i odpoledne)
4. head particle (něco jako slovesné koncovky modifikující význam, koncovky většinou samy mohou fungovat jako slovesa) zou (kráčet) + chuqu (ven, ovšem doslova: vyjít ven + jít) — zouchuqu (jenže obě části mohou být ve větě roztržené, podobně jako německé oddělitelné předpony (rausgehen – ich gehe heute raus))
5. split chifan + le — chi le fan (chifan je sémanticky jedno slovo — jíst, ale syntakticky jsou to dvě slova, mohou být rozdělena něčím jiným, jako je třeba částice le. Navíc chifan samo o sobě doslova znamená „jíst vařenou-rýži“ a z pohledu Evropana to jsou dvě slova. Jenže v čínštině to „fan“ není nutně vařená rýže, ale prostě zástupný předmět, aby sloveso nezůstalo nepřechodné (zřejmě je čínská potřeba pospolitosti tak velká, že i slovesa se tam bojí zůstat sama J).)
Zejména u jazyků, které nepíší latinkou, lze očekávat potřebu zápisu v latince (i když ten problém je obecný, proč by korpus nemohl obsahovat přepis z arabského písma do cyrilice?).
Je také nutné počítat s tím, že pro jeden jazyk a dvojici existuje několik různých transliteračních systémů, k tomu se ale asi dá přistupovat podobně jako ke značkám z různých sad.
Některé jazyky píší více písmy (třeba kurdština: latinkou, arabským písmem i cyrilicí), nebo obecněji existuje více různých pravopisů (třeba pravopis historických českých textů: „Geho Gasnost gest w Praze“ vs. „Jeho jasnost jest v Praze“).
U jazyků, které běžně nezapisují samohlásky (arabština, hebrejština). Jedno vstupní slovo může připouštět více různých vokalizací a ty mohou vést na různé morfologické analýzy.
Na podobné úrovni by byl i český (a nejen český) problém s háčkováním, tj. doplňováním chybějící diakritiky.
U jazyků, které běžně neoddělují slova mezerami (čínština), je segmentace slov součástí morfologické roviny. Pravděpodobně pro ni však nemusíme zavádět žádné zvláštní elementy. Na textové rovině bude jeden token odpovídat jednomu znaku a na morfologické rovině bude akorát mnohem běžnější jev, se kterým v češtině zatím počítáme spíše jako s výjimkou: že jednomu <m> bude odpovídat několik <f>. Nezřídka bude pro jeden řetězec možných několik různých segmentací, v nichž se předpokládaná slova budou různě překrývat.
zkratka
Informace, zda šlo o zkratku. Zkratka může mít různé slovní druhy (i když asi ne všechny, ale proč to omezovat) a může mít i ostatní vlastnosti. Např. „s.“ má rod, číslo i pád: ve frázi „na počest s. G. Husáka“ je to genitiv singuláru. I když ve zkratce není vidět koncovka, která by výběr pádu zúžila, musíme počítat, že jeden ze 7 (v případě češtiny) pádů je ten správný.
V Multext-East je zkratka na úrovni samostatného slovního druhu (zřejmě bez ohledu na slovní druh slova, které se zkracuje).
Například koncovky podle vzoru „mladej“. Nejde o stylistické zařazení hesla, to může být klidně neutrální, případně dokonce knižní. Také nejde jen o informaci, že koncovka „-ej“ je hovorová nebo oblastní, ale odlišení dvou různých paradigmat — prostě aby dva různé tvary neměly stejnou značku.