Aplikace typu
komunikace člověk-počítač musí být navrženy tak, aby práce
s nimi byla pro uživatele co nejpohodlnější. Komunikace by měla pokud
možno probíhat v přirozeném jazyce, nebo ještě lépe v mateřském
jazyce uživatele. V případě komunikace uživatele s počítačem
v rámci vyhledávání informací v elektronických textových kolekcích
(jakými jsou např. elektronické informační systémy, ať už oborové nebo
všeobecné) by vyhledávací procedury měly přijímat dotaz uživatele zformulovaný
v přirozeném jazyce. Schopnost počítače komunikovat v přirozeném
jazyce by
se tedy měla musí opírat o co nejpodrobnější znalosti tohoto jazyka
komunikace. Jedním z nejdůležitějších zdrojů „informací“ o struktuře
přirozeného jazyka pro počítačové zpracování jsou bezpochyby anotované korpusy, umožňující přenos dozsaženého poznání o o jazycece
do světa aplikací tím,
že se na jejich základě budují pomocí metod strojového učení (zejména
statistických, ale i jiných) nástroje na praktické
zpracování jazyka.
Korpusem přitom rozumíme
(elektronickou) sbírku
textů nejrůznějších stylů v podobě, kterou potkáváme každý den na stránkách
novin, knih, v e-mailech, ale také které slyšíme ve formě mluveného jazyka
v televizi či v běžném rozhovoru. … Anotovaným
korpusem rozumíme také sbírku týchž textů,
ale tentokrát již obohacenýchých o
jazykovědné informace, např. informace z tvarosloví (slovní druhy,
morfologické kategorie), z větné stavby (podmět, přísudek, …), případně dalšíaj.
Takto vložené informace označujeme jako anotace. Bez
existence textových korpusů vznikají lingvistické teorie (a co hůře, i
systémy na automatickou analýzu jazyka) teorie často
na příkladech osamocených vět, které se více méně rodí v hlavách
jazykovědců,
nereflektují kvalitativní ani kvantitativní charakteristiky jazyka
vyskytujícího se v praxi a tedy dávají vesměs špatné výsledky,
v praxi obvykle nepoužitelné.. Přítomnost
realistického datového materiálu je výzvou pro otestování těchto teorií. Na
druhou stranu anotace, resp. strategie anotování, jsou hmatatelným výsledkem
lingvistických teorií.
Metody strojového učení
klasifikované jako tzv. supervised (s učitelem) jsou v počítačové
lingvistice označovány jako metody korpusové a učitelem je
v daném případě anotátor (přeneseně i výsledný anotovaný datový soubor),
který do textu vkládá anotace. Trénovací data těchto metod jsou výše zmíněné potom
anotované korpusy. Korpusové metody ze své podstaty potřebují
taková trénovací data, která pokud možno pokrývají všechny možné situace
vzhledem k zadání úlohy. Kupříkladu iIdeální morfologicky anotovaný korpus by měl
obsahovat všechna slova ve všech možných tvarech a ve všech smysluplných
kontextech. Ideální korpus neexistuje (a snad ani existovat nemůže) a tím spíše
platí: čím více
trénovacích dat, tím lépe.
V předkládaném projektu se zaměříme na zpracování českého tvarosloví (jazykové morfologie), jako základu pro aplikace pracující
primárně s textem, jakými jsou právě fulltextové informační systémy. Důležitost takového morfologického
zpracování textů je vhodné ilustrovat opět na příkladu
vyhledávacích procedur. Základním (a dosud nejvíce používaným) způsobem, jak
zjistit, zda dokument obsahuje informace, po kterých se táže uživatel
prostřednictvím zadaného dotazu, je srovnání, zda a v jaké míře dokument
obsahuje slova vyskytující se v dotazu. V jazycích s bohatou
flexí, mezi které také čeština patří, se většina slov může vyskytovat
v mnoha různých slovních tvarech. Při analýze vstupního dokumentu se
slovnímu tvaru přiřadí jeho základní forma v podobě (lemmatu). Toto přiřazování je
realizováno diesambiguační
procedurou, tzv.
taggingemtagováním, která
z dané množiny lemmat a morfologických charakteristik (značek)
vygenerovaných morfologickou analýzou vybere právě jednu dvojici ([lemma, značka)] na základě větného
kontextu. Obecně je morfologická analýza nutným základem jakékoli automatické
lingvistické aplikace, ať už je to automatický překlad, již zmíněné vyhledávání
informací v dokumentech, rozpoznávání a generování mluvené řeči pro automatické
informační systémy, tvorba nových (výkladových, překladových, specializovaných)
slovníků nebo jazykové modelování v rozpoznávání mluvené řeči a
v systémech digitalizace tištěných dokumentů (tzv. OCR systémy).
Nejčastěji používané a rovněž nejúspěšnější taggovací
(Hajič 2002,
Hladká, 2000)…) procedury jsou
založené na korpusových metodách, a tedy vyžadují velké množství anotovaných dat
(viz výše)..
Znamená to, že
k tomu, aby mohly vybírat kontextově správné lemma a značku musí se
nejdříve učit z morfologicky ručně anotovaného korpusu co největšího objemu
(vzhledem k reálným možnostem).
Jedna
z perspektiv, která se po přípravě většího množství anotovaných českých
dat a tím i vylepšení korpusových metod otvírá, je v dalším rozvíjení systému TIBAQ
(Text-and-Inference Based Approach to Question Answering; Hajičová a kol.,
1995). TIBAQ je systémem pro zodpovídání otázek kladených v přirozeném
jazyce (češtině), na které sám hledá odpověď přímo ve zvoleném dokumentu. Tento
systém vznikl v době (80. léta), kdy zájem o co nejpřirozenější komunikaci
člověk-počítač začínal růst a kdy obor počítačová korpusová lingvistika byl
v počátcích. Jak vstupní dokument, tak i vstupní dotaz jsou postupně
zpracovány morfologicky, syntakticky a sémanticky. Každému kroku zpracování odpovídá
jeden samostatný modul, který realizuje tzv. knowledge-based metody; metody
formulované na základě zkušeností jazykovědců, ne na základě pozorování
korpusů. Pomocí inferenčních pravidel se sémantický zápis dotazu
(tektogramatické stromy) „unifikuje“ se sémantickými zápisy vět dokumentu.
Práce na TIBAQ se pozastavila (po několika úvodních experimentech) v době,
kdy se centrum všeobecného zájmu začalo soustřeďovat na korpusy. Obnovení
systému bude spočívat v uvedení systému do „původního“ stavu; rozvíjení si
klade za cíl některé knowledge-based moduly systému nahradit moduly založenými
na korpusových metodách a zároveň obohatit systém současným morfologickým
slovníkem, který pokrývá skoro „všechny“ slovní tvary.
2.1 Vymezení problému a cílů
projektu
Projekt je zaměřen na posílení
počítačového morfologického zpracování češtiny
prostřednictvím dat a softwarových nástrojů. Větší množství anotovaných dat
přispěje ke zvýšení úspěšnosti korpusových metod. Nástroje budou umožňovat
přípravu nových dat, editaci již existujících dat, zpracování textů morfologickou analýzouu
s pohodlným, uživatelskýmch
rozhraním (pro případné doplňky do morfologického slovníku) a zejména integrované zpracování
textů taggovacími procedurami, které pak budou
umožňovat
žádané technologické změny ve způsobu, jakým se postupuje při indexaci
fulltextových databázi pro přesné vyhledávání.
Cíle projektu
formulujeme v následujících čtyřech bodech:
1.
Korpus
věcného stylu ve formátu Pražského závislostního korpusu.
2.
Nástroj
pro lexikální anotaci
3. Modifikace morfologického analyzátoru a editor pro
správu morfologického slovníku
4.
Nové
metody tagovánítaggingu,
automatického přiřazování morfologických informací
2.2 Významnost řešení pro praxi
nebo společenskou potřebu
Moduly morfologického
analyzátoru a taggeru mají přímý
dopad na budoucí aplikace, resp. doplnění stávajících
informačních systémů. V moderních informačních systémech založených na jazykově
inteligentních metodách vyhledávání (v zahraničí viz např.
AskJeeves.com, u nás např. systém ASPI, nebo vyhledávání na
centrum.cz) nebo v systémech pro
vyhledávání v mluvených textech snižuje kvalitní tagger výrazně náklady na tzv.
předzpracování textu, při kterém se významově odlišují slova textu pro jeho
indexaci. Zároveň
takový tagger slouží pro zpracování uživatelských dotazů a umožňuje zvýšit přesnost
vyhledávání bez nutnosti žádat o rozlišení významu konečného uživatele.
Tagger a morfologický
analyzátor je možno za určitých předpokladů a po určitých modifikacích využít i pro zvýšení
přesnosti aplikací rozpoznávání mluvené řeči, a to jak
interaktivně, tak i v dávkovém režimu (rozpoznávání audioarchívů). Vlastní vývoj
(modifikace) současných systémů rozpoznávačů bud probíhat mimo rámec tohoto
projektu, ale výsledky tohoto projektu takové modifikace vůbec umožní.
Průběžné
výsledky projektu budou publikovány ve sbornících
konferencí, případně časopisecky. Hlavním
výsledkem však budou zejména
nástroje vytvořené metodami strojového učení na základě připravených
dat pro všeobecné použití odbornou
veřejností z privátního i veřejného sektoru.
Předpokládá se i zájem o samotná anotovaná
data pro vlastní vývoj nástrojů subjekty, které dávajidávají
přednost vlastnímu vývoji softwarových nástrojů.
Zároveň plánujeme shrnout výsledky projektu v publikaci
s pracovním názvem „Morfologie v praxi“, která by populární formou
prezentovala manuály (dokumentace) k ručnímu morfologickému anotování dat a k
ovládání nástrojů, které jsou k anotaci potřeba.
V části
Časový rozvrh řešení uvádíme
časové horizonty pro zveřejnění jednotlivých verzí dat a nástrojů (vydáním CDROM/online/DVD) tak, jak budou vznikat
v průběhu řešení projektu.
2.3 Strategie a metodyEditor pro správu morfologického slovníku
Strategie a metody uvádíme pro jednotlivé cíle
projektu zvlášť.
2.3.1
V roce 2001 byla publikována první verze Pražského
závislostního korpusu (PZK), jako datová základna pro vytváření prakticky
orientovaných nástrojů pro automatickou počítačovou analýzu češtiny..
S odkazem na zkušenosti získané během šestileté práce nad PZK a
s odkazem na současné trendy informačních technologií vyžadujících
jazykové (před)zpracování dat není na přípravu anotovaných korpusů (trénovacích
dat) úplně od začátku (tedy od „surových“ textů) prostor – z pohledu času
i finančních prostředků. Pokud by ovšem byla k dispozici anotovaná česká
data, která by odpovídala koncepci nastavené v rámci projektu PZK, nabízí
se možnost (polo)automatickou konverzí tato data převést do požadované podoby. V našem případě
se jedná o Tuto eventualitu nezmiňujeme náhodou, protože
k dispozici je Korpus věcného stylu – anotovaný korpus
českých textů.
Korpus věcného stylu (KVS)
vznikl v 60.-70. letech minulého století v Ústavu pro jazyk český pod
vedením dr. Marie Těšitelové. KVS je korpusem textů o celkovém objemu 550
000 slov anotovaných na morfologické (tvarosloví)a a
syntakticko-analytické (větná stavba) rovině.
V době vzniku KVS existovaly ještě další dva anotované korpusy - Brown
Corpus of Standard American English a
Lancaster-Oslo/Bergen Corpus of Britisch English. Oba dva korpusy byly
v té době objemu dvojnásobného oproti KVS, ale jejich anotace zachycovaly
pouze morfologické informace, ne informace o větné stavbě. V tomto
kontextu je na místě zdůraznit ojedinělost KVS. Bohužel politická situace tehdejšího
Československa nedovolila, aby se KVS dostal do podvědomí světové korpusové
lingvistiky, počítačová a korpusová lingvistika „si musela“ počkat až na PZK.
KVS se svým vnitřním
formátem i anotačními schématy liší od PZK standardu. Tyto odlišnosti však
nebrání tomu, aby byl KVS konvertován do „PZK“ formátu. Název Korpus věcného
stylu (bez další číselné specifikace) ponecháváme pro označení původního korpusu;
v rámci konverzí jednotlivé verze číslujeme. Pro konverze jsme se rozhodli
hlavně z těchto důvodů:
·
550 000 slov představuje z pohledu korpusových metod strojového učení nezanedbatelný
objem dat (PZK
má na morfolloigické rovině celkem anotováno 1 800 000 slov)..
·
Poloautomatická konverze jednoho anotačního schématu do druhého je jistě levnější
a rychlejší (vzhledem k lidskému úsilí, času, finančním prostředkům) než
ruční anotace.
·
Anotační schémata KVS a PZK se neliší nijak výrazně, přesto v KVS
jsou součástí anotací charakteristiky, které v PZK nejsou zohledněny.
Tento fakt dává prostor pro vývoj korpusové metody, která by tyto
charakteristiky doplňovala do PZK na základě natrénování na KVS.
·
PZK
obsahuje písemné texty publicistického, ekonomického a populárně
vědeckého stylu. KVS obsahuje písemné a mluvené texty (celkem
180 textů) stylu publicistického (33% textů), administrativního (11% textů) a
vědeckého (56% textů). Mluvené texty (psaná podoba rozhlasových reportáží a
rozhovorů, televizních komentářů a zpráv, proslovených přednášek) představuje
třetinu celkového objemu a pro češtinu reprezentují vůbec první morfologicky i
syntakticky anotovaný mluvený datový materiál.
2.3.2
Během morfologického anotování PZK byly texty
nejdříve zpracovány morfologickou analýzou. Každý soubor byl anotován dvěma
anotátory, jejichž anotace se automaticky porovnaly a rozdíly byly ručně
vyhodnoceny. K výběru lemmat a značek se používal nástroj DA, který
vytvořil Jiří Hana (mj. sám se podílel na anotování). Nástroj DA svoji funkci
plnil velmi dobře, ale protože byl „šitý na míru“ potřebám pouze morfologického
anotování, časem se objevila zadání, která nebylo možné v DA realizovat.
Nový anotační nástroj bude
koncipován tak, aby byl univerzálním (co do volby anotačního schématu) nástrojem
pro libovolnou anotaci slov, kdy jednotlivé anotace budou výsledkem
výběru z nějaké množiny možností.
Primárně bude nástroj nastaven na anotaci
morfologickou s anotačním
schématem PZK a s doplňky užitečnými pro morfologické anotování. Například bude-li daný text již syntakticky
anotován, dají se závislosti ze závislostního stromu použít jako nápovědy pro
morfologické anotace využitím pravidel o shodě v rodě, čísle, pádu, o
předložkových vazbách, aj.Slovník morfologické analýzy nemůže obsahovat všechna
slova, která se vůbec kdy vyskytla. Z tohoto důvodu bude nástroj umožňovat
přímo přístup do slovníku tak, aby anotátor mohl vložit morfologickou analýzu
pro ni neznámého slova či případně analýzu opravit. Je-li text anotován více
anotátory, je zajímavé a užitečné výsledky porovnávat. Podobně je i přínosné
porovnání ruční anotace s anotacemi přiřazenými automaticky. Tyto aspekty spolu
s vyhodnocovacími statistikami budou součástí nástroje.
Anotační fáze nad PZK byla
dostatečně dlouhá a natolik různorodá, že uplatnění získaných zkušeností při
návrhu anotačního nástroje směřuje k vytvoření
opravdu kvalitního „asistenta“ pro kontrolu a
zvýšení kvality anotovaného korpusu a v konečném důsledku zvýšení kvality výsledných, prakticky
orientovaných nástrojů (viz níže). - asistenta
jazykovědce, asistenta lexikografa, asistenta školáka. Nový nástroj rovněž umožní
flexibilní anotaci
menších, doménově orientovaných
korpusů (např. pro právo a zákony,
lékařství apod.), které se mohou ukázat jako nebytný doplněk
současných anotovaných korpusů v případě specializovaných aplikací. I tyto
nástroje budou dány k dispozici veřejnosti.
2.3.3
Naším
cílem je vytvořit nový morfologický
analyzátor založený na konečných
automatech, pomocí něhož bude možno snadněji a rychleji reagovat na případné
budoucí změny anotačních schémat, což současná verze neumožňuje. Morfologický analyzátor
porovnává slova libovolného textu s hesly morfologického slovníku a podle nich
přiřazuje slovům možné hodnoty morfologických kategorií.
Základem
morfologické analýzy je tedy morfologický slovník, který obsahuje
"všechny" slovní tvary, které se mohou v jazyce vyskytnout spolu s
hodnotami morfologických kategorií. "Všechny" je v uvozovkách proto,
že je to maximalistický limit, kterého prakticky nelze dosáhnout.
Nový
analyzátor bude navíc obsahovat tzv. guesser -
nástroj, který je schopen odhadnout hodnoty morfologických kategorií neznámých
slov, tedy slovních tvarů, které se v morfologickém slovníku (dosud) nevyskytují.
Základem morfologické analýza je tzv. morfologický slovník, který
obsahuje "všechny" slovní tvary, které se mohou v jazyce vyskytnout
spolu s hodnotami morfologických kategorií. "Všechny" je v uvozovkách
proto, že je to maximalistický limit, kterého prakticky nelze dosáhnout. Proto
je potřeba se morfologickému slovníku neustále věnovat, především ho doplňovat
o nová slova a jejich tvary. Morfologický analyzátor potom
porovnává slova libovolného textu s hesly morfologického slovníku a podle nich
přiřazuje slovům možné hodnoty morfologických kategorií. V případě
neznámého slova, tedy slovního tvaru, který se v morfologickém slovníku
nevyskytuje, je tzv. guesser schopen hodnoty morfologických
kategorií neznámého slova odhadnout.
Morfologickému slovníku je třeba se neustále
věnovat, především ho doplňovat o nová slova a jejich tvary. V současné
době obsahuje český morfologický slovník asi 25 milionů slovních tvarů, proto
je třeba klást důraz i na způsob uchování dat, aby morfologická analýza
probíhala dostatečně rychle. Slovní tvary se pochopitelně nevkládají do
slovníku jednotlivě, ale využívá se pravidelného skloňování, časování či
stupňování podle vzorů. Na aktualizaci morfologického slovníku je třeba
mít specializovaný editor, který usnadňuje uživateli práci. Editor musí
znát všechny vzory, generovat podle zadaného vzoru všechny možné tvary
příslušného lemmatu a v neposlední řadě by měl uživateli usnadňovat práci i
tím, že bude odhadovat vzory podle tvaru zadaného lemmatu (např. lemma končící
na "ovat" bude s největší pravděpodobností sloveso). U lemmat s
nepravidelným skloňováním / časováním je třeba zadat do slovníku všechny jeho
tvary. Takový editor sice existuje, ale je 14...
let starý a pracuje pouze pod
operačním systémem MS DOS. Je proto nutné vytvořit moderní nástroj
využívající současných počítačových i programovacích možností s cílem co
nejvíce usnadnit uživateli práci se slovníkem. Použití nástroje přirozeně eliminuje
množství chyb, které nutně při jakékoli ruční práci vyvstávají. Nový editor
bude mít ještě některá další vylepšení oproti staré verzi: inkrementální
vyhledávání slov, vyhledávání podle různých kritérií (podle vzoru, předpony,
slovního druhu, ...), dávkové zpracování množiny zadaných hesel.
Vytvořený
morfologický analyzátor bude k dispozici pro uživatele jednak jako
samostatný modul, jednak bude integrován do výsledného taggeru (viz dále, též
časový harmonogram).
2.3.4
|4. Nové
metody taggingutagování
Tagování je proces, při
kterém se automaticky rozhodne, která z možných interpretací tvaroslovných
charakteristik slova v kontextu celé věty (nebo jiného delšího úseku textu
nebo promluvy) je správná.
Současný
český statistický tagger vychází z práce (Hajič, 2002). Předpokládá se, že
tento tagger bude využit v
experimentech jako tzv. baseline, tj. pro porovnání úpěšnosti a přesnosti
nových metod se současným stavem (state-of-the-art). Je oprávněné se domnívat,
že i tento tagger bude dosahovat lepších výsledků po přidání v projektu
připravených dat (KVS 1.0, později 2.0).
Náplní
projektu bude vývoj
nové, efektivnější a přesnější verze
českého taggeru (s pracovním označením PESTAG, Perceptronový statistický
tagger), která bude i jednoduše škálovatelná, tj. použitelná
v systémech s různými omezeními (rychlosti, velikosti), za co nejmenší ztráty přesnosti
systému a s minimálními nároky na nové vytvoření systému při změně těchto
omezení (s možností i uživatelského přístupu k takové modifikaci). Škálovatelné systémy jsou klíčem
k efektivnímu budoucímu praktickému nasazení v systémech, jejichž
požadavky se mění podle potřeb praxe a je přitom minimum časového prostoru na
změny technologie systému.
Navrhovaný
tagger bude vycházet z modelu perceptronu (Collins 2002), který
v procesu učení přidělí váhy jednotlivým pravidlům („kontextům“),
automaticky vybraným z trénovacích dat (v našem případě PZK a
v průběhu projektu i z přidáním dat KVS). Jedná se o nejmodernější
metodu, která slibuje rychlou obrátku při vývoji systému a dosud nejlepší
výsledky. Metoda ovšem bude v prvním roce proto vyžadovat důkladné
testování a evaluaci na českých datech.
Vytvořené moduly taggeru pro češtinu završí navrhovaný projekt, a bude je
možné využít v aplikacích
informačních systémů nejrůznější velikosti (po příslušných modifikacích, integraci do
příslušného systémového software atd.), a to systémů pracujících jak s psaným, tak
mluveným jazykem.
2.4 Časový harmonogram
Časový harmonogram uvádíme pro jednotlivé cíle
projektu zvlášť.
ČASOVÝ ROZVRH ŘEŠENÍ
2.4.1 KVS
·
2004
o konverze vnitřního formátu KVS do SGML (příp. XML) kódování (à KVS 0.0)
o návrh konverzní procedury pro převod KVS morfologických značek do anotačního morfologického schématu PZK
·
2005
o konverze morfologických značek KVS do anotačního morfologického schématu PZK (à KVS 0.5)
o trénování a následné testování taggerů na sloučených datech PZK a KVS 0.5
o odhalování nesrovnalostí v ručních morfologických značkách v KVS 0.5 porovnáním výstupů taggerů již za pomoci první verze nástroje LAW; taggery budou natrénovány na části PZK a části KVS 0.5 a testovány na části KVS 0.5.
o
oprava odhalených nesrovnalostí v rámci ladění
anotačního nástroje à KVS 1.0
·
2006
o
konverze KVS syntakticko-analytických značek do
anotačního syntakticko-analytického schématu PZK (à KVS 1.5)
·
2007
o
trénování a následné testování parserů na sloučených
datech PZK a KVS 1.5
o odhalování nesrovnalostí v ručních syntakticko-analytických značkách v KVS 1.5 porovnáním výstupů parserů; parsery budou natrénovány na části PZK a části KVS 1.5 a testovány na části KVS 1.5.
o
oprava odhalených nesrovnalostí
v syntakticko-analytickém anotování pomocí nástroje TrEd (à
KVS 1.75)
o
vzájemná kontrola a oprava morfologických a
syntakticko-analytických značek v KVS 1.75 pomocí nástroje TrEd à KVS 2.0
·
2008
o návrh metody pro doplnění do PZK těch KVS anotací, které nejsou v PZK doposud zohledňovány
o experimenty doplňování
2.4.2
·
2004
o
vyhodnocení
jednotlivých možností
původního
anotačního nástroje DA; posouzení jejich případného zapracování do nového
nástrojenávrh nástroje
o
shromáždění dosud nerealizovaných požadavků na
anotační nástroj
o
shromáždění aplikačních požadavků
o
výběr vnitřního formátu vstupního souboru
·
2005
o
propojení s morfologickým analyzátorem, s morf. slovníkem
o
zpracování vstupního textu taggery „na vyžádání“
·
realizace návrhu2006
o
zapracování možností pro „libovolné“ lexikální anotování
o
zpracování vstupního textu parsery „na vyžádání“
·
2007
o
propojení nástroje s guesser
o
zajištění jazykové nezávislosti (vzhledem k jazykovému kódování) vst. dokumentu
·
2008
o používání systému, aktualizace
2.4.3
·
2004
o
konverze stávajícího morfologického analyzátoru do
tvaru konečného automatu
o
specifikace editoru pro správu morfologického
slovníku SLED
o
návrh nového systému morfologických vzorů
·
2005
o
zkušební provoz morfologického analyzátoru
o
vytvoření nového editoru morfologického slovníku SLED
·
2006
o
doplnění morfologického analyzátoru o guesser
o
testování editoru SLED, ladění dle zpětné vazby od
uživatelů
·
2007, 2008
o
rutinní
provoz analyzátoru i editoru SLED2008
2.4.4
Nové metody taggingutagování
·
2004
o
Ověřování
progresivních metod tagování na češtinu
§
Výběr
kontextových vzorců pravidel
§
Provádění
experimentů
§
Vyhodnocování
§Vyhodnocování
·
2005
o
Vývoj vstupních
a výstupních modulů, přizpůsobení standardům anotace
o
Reimplementace
pro minimalizaci výpočetních nároků
o
Ladění
heuristických parametrů z hlediska vyvážení přesnosti a výpočetní náročnosti
o
Začlenění
trénovacích dat části I projektu (KVS 1.0), ověření úspěšnosti
·
2006
o
Integrace
morfologické analýzy do jádra tagovacího systému
o
Koordinace
kontextových vzorců a guesseru (viz 2006,
modifikace morf. analyzátoru)
·
2007
o
Vytvoření
škálovatelného modulu pro začlenění v tzv. embedded (zapouzdřených)
systémech (PDA, mobilní zařízení)
o
Modernizace
modulů pro dynamické tagování více jazyků najednou a pro rozpoznání vstupního
jazyka
o
Přetrénování
jednotlivých modulů za použití větších anotovaných dat, vč. 2. etapy KVS (2.0)
·
2008
o
Závěrečná
integrace morfologického analyzátoru, guesseru a taggeru
o
Dokumentace,
testování, evaluace
o
Vytvoření
vzorových postupů pro integraci do aplikací
o
Zveřejnění
výsledků projektu ve formě datových zdrojů a nástrojů na CD/DVD, on-line
přístupu, a prostřednictvím distribuční smlouvy s LDC pro veškeré
potenciální uživatele, uzavření smluv o užití (nebyly-li uzavřeny dříve,
v průběhu projektu)
o
Případné
opravy, úpravy, změny parametrů na základě testování u uživatelů výsledků výzkumu
2.4.5 Souhrn
postupně zveřejňovaných výsledků projektu
Průběžné výsledky projektu
budou publikovány ve sbornících konferencí. Data a nástroje budou zveřejňovány
(vydáním CD ROM) v následujících časových horizontech:
prosinec
2005
·
Korpus
věcného stylu verze 1.0
·
Taggery
přetrénované na sloučených datech PZK 1.0 a KVS 1.0
·
LAW:
nástroj pro lexikální anotaci (Lexical Anotation Workbench)
·
SLED: Slovníkový Editor
·
Morfologický
analyzátor
·
Zkušební
provoz online nástrojů pro veřejný přístup
prosinec
2007
·
Korpus
věcného stylu verze 2.0
·
aktualizace
LAW
·
aktualizace SLED
·
konečná verze
morfologického analyzátoru
·
tagger
verze 1.0
prosinec
2008
·
Korpus
věcného stylu verze 3.0
·
Konečná verze aktualizace LAW včetně dokumentace
·
Konečná verze
SLED včetně dokumentace
·
Tagger
ve škálovatelné (plná, zapouzdřená, „lehká“) verzi
·
Dokumentace,
finální online výzkumná verze s veřejným přístupem
3.1
Vybavení řešitelského pracoviště
Pracoviště navrhovatele se
zaměřuje na oblasti
komputační lingvistiky a automatického zpracování přirozeného jazyka, a to
především tím, že (i) je v něm
integrován a vzájemně posilován výzkum jak jazyka psaného, tak mluveného, (ii)
že výzkum má pevné a originální teoretické základy v oblasti gramatiky i lexika
, ale neztrácí ze zřetele i aspekty aplikační, a (iii)
že jsou ve vzájemné rovnováze jak lingvistické, tak i informatické aspekty
tohoto výzkumu.
Pražský závislostní korpus
(Hajič a kol., 2001), jako hlavní, počítačově-korpusový výstup pracoviště, v sobě odráží všechny tři základní
charakteristiky navrhovatele. Anotace korpusu vycházejí ze solidního
teoretického výzkumu
a šestiletá zkušenost
s anotováním PZK je kromě dat (korpusu KVS) a starších verzí
morfologických nástrojů (analyzátor, taggery) hlavním vstupem navrhovaného projektu. Pracoviště spolunavrhovatele
reprezentují osobnosti,
které se podílely na
anotování Korpusu věcného
stylu (Těšitelová M., 1985) a jejich zkušenosti, třeba i konfrontačního
charakteru ¨(např. odlišný pohled na zachycení některých
jevů), budou
bezpochyby přínosem.
Někteří
členové pracovní
skupiny pracoviště
navrhovatele mají
praktickou zkušenost s návrhem systému pro zodpovídání otázek. TIBAQ (Text-and-Inference Based
Approach to Question Answering; Hajičová a kol., 1995) je systémem pro zodpovídání
otázek kladených v přirozeném
jazyce (češtině), na které hledá odpověď přímo ve zvoleném dokumentu. Tento
systém vznikl v době (80. léta), kdy zájem o co nejpřirozenější komunikaci
člověk-počítač začínal růst a kdy obor počítačová korpusová lingvistika byl
v počátcích. Jak vstupní dokument, tak i vstupní dotaz jsou postupně
zpracovány morfologicky, syntakticky a sémanticky. Každému kroku zpracování
odpovídá jeden samostatný modul, který realizuje tzv. knowledge-based metody;
metody formulované na základě zkušeností jazykovědců, ne na základě pozorování
korpusů. Pomocí inferenčních pravidel se sémantický zápis dotazu
(tektogramatické stromy) „unifikuje“ se sémantickými zápisy vět dokumentu.
Práce na TIBAQ se pozastavila (po několika úvodních experimentech) v době,
kdy se centrum všeobecného zájmu začalo soustřeďovat na korpusy. Obnovení tohoto systému
v kontextu počítačové korpusové lingvistiky počátku 21. století by bylo jistě
přínosné.
Obě
pracoviště, navrhovatele i spolunavrhovatele, poskytují projektu ve všech směrech (propracované jazykové teorie, zkušenosti,
přístrojová kapacita) solidní zázemí pro úspěšnou realizaci všech
vytčených cílů.
3.2 Složení řešitelského týmu
Tvůrčí pracovníci:
Doc. RNDr. Jan Hajič, Dr. se v oborou
počítačového zpracování češtiny hlavně zabývá morfologickým zpracováním češtiny
jak z pohledu analýzy a generování, tak i z pohledu disambiguace
morfologických informací. Je vůdčí osobností projektu Pražského závislostního
korpusu. V projektu se bude věnovat novým metodám tagování. RNDr. Jaroslava Hlaváčová
má bohaté zkušenosti v oblasti korpusové lingvistiky, které získala
v rámci řešení projektu Českého národního korpusu. Zároveň se věnuje i
morfologii češtiny a v projektu bude vyvíjet nový morfologický analyzátor
spolu s editorem morfologického slovníku. RNDr. Jan Králík,
CSc. spolu
s PhDr. Ludmilou Uhlířovou,
CSc. byli členy autorského kolektivu, který
vytvořil Korpus věcného stylu. V projektu se budou se svými kolegy, Mgr. Martin
Bálek (doktorand) a Vít
Michalec (ostatní pracovník), podílet na návrhu jednotlivých konverzních kroků
z pohledů záměrů, kterými bylo anotování KVS vedeno. Mgr. Barbora
Vidová Hladká, PhD. se věnuje problému morf. desambiguace a zároveň vedla skupinu anotátorů
morfologické roviny PZK.
Doktorandi:
Mgr. Silvia Cinková se soutřeďuje na
otázky kolem syntaxe češtiny. V projektu bude realizovat konverzi
syntaktických anotací KVS do anotačního schématu PZK. Mgr. Jiří Mírovský pracuje na statistických modelech morf. disambiguace. V projektu
bude realizovat konverzi morfologických anotací KVS do anotačního schématu PZK a také se bude podílet na experimentech tagování. Mgr. Emil Jeřábek
je v současné
době zaměstnancem
Matematického ústavu AV; velmi výrazně se podílel na
morfologické anotaci PZK a jeho zkušenosti z této aktivity jsou pro řešený projekt
nenahraditelné.
Ostatní pracovníci:
Mgr. Jiří Hana byl členem skupiny
anotátorů morfologické roviny PZK. Zároveň je autorem nástroje pro ruční
anotaci (program DA). V rámci projektu bude jeho úkolem vytvoření nového
anotačního nástroje, ve kterém uplatní jak zkušenosti z anotování, tak i
z vývoje a realizace anotačního nástroje DA. Mgr. Milan Fučík
je správcem počítačové sítě na pracovišti navrhovatele. V projektu bude
zodpovídat za správu počítačového a programového zázemí, které budou potřeby projektu
vyžadovat.
Böhmová, Alena and Jan Hajič,
Eva Hajičová, Barbora Hladká: The Prague Dependency Treebank: Three-Level
Annotation Scenario. Treebanks: Building and Using Syntactically Annotated
Corpora, ed. Anne Abeille, Kluwer Academic Publishers, 2001.
Collins, Michael. Discriminative Training Methods
for Hidden Markov Models. Theory and Experiments with Perceptron Algorithms. EMNLP.
2002.
Hajič, Jan .Disambiguation
of Rich Inflection (Computational Morphology of Czech), MFF UK, 334 pp.,
2002
Hajič, Jan and Eva Hajičová, Barbora Hladká, Petr
Pajas, Jarmila Panevová, Petr Sgall. Prague Dependency Treebank 1.0 - CD
ROM,ISBN:1-58563-212-0. Linguistic Data Consortium, 2001.
Hajič, Jan: Morphological Tagging: Data vs.
Dictionaries. In: Proceedings of the 1st NAACL Coneference, Seattle, WA,
USA, p. 94-101, 2000
Hajičová Eva a kol. Text-and-Inference Based
Approach to Question Answering, 1995.
Hajičová,Eva a
Jarmila Panevová, Petr Sgall: K nové úrovni bohemistické práce: Využití
anotovaného korpusu, 1. část Slovo a slovesnost, 63, 2002, 161-177; 2. část Slovo a slovenost
63, 2002, 241-262
Hlaváčová, Jaroslava:
Technical Insights into the Birth of a Corpus. Proc. TSD 1998,
Brno 1998, pp. 55-60, 1998.
Hladká, Barbora. Czech
Language Tagging. PhD Thesis, Faculty of Mathematics and Physics. 2000.
Těšitelová, Marie a kol.
Kvantitativní charakteristiky současné češtiny. Academia, 1985.