List B

1 Současný stav úrovně poznáníMOTIVACE

Aplikace typu komunikace člověk-počítač musí být navrženy tak, aby práce s nimi byla pro uživatele co nejpohodlnější. Komunikace by měla pokud možno probíhat v přirozeném jazyce, nebo ještě lépe v mateřském jazyce uživatele. V případě komunikace uživatele s počítačem v rámci vyhledávání informací v elektronických textových kolekcích (jakými jsou např. elektronické informační systémy, ať už oborové nebo všeobecné) by vyhledávací procedury měly přijímat dotaz uživatele zformulovaný v přirozeném jazyce. Schopnost počítače komunikovat v přirozeném jazyce by se tedy ~~měla~~ musí opírat o co nejpodrobnější znalosti tohoto jazyka ~~komunikace~~. Jedním z nejdůležitějších zdrojů „informací“ o struktuře přirozeného jazyka pro počítačové zpracování jsou bezpochyby anotované korpusy, umožňující přenos dozsaženého poznání o o jazycece do světa aplikací tím, že se na jejich základě budují pomocí metod strojového učení (zejména statistických, ale i jiných) nástroje na praktické zpracování jazyka.

Korpusem přitom rozumíme (elektronickou) sbírku textů nejrůznějších stylů v podobě, kterou potkáváme každý den na stránkách novin, knih, v e-mailech, ale také které slyšíme ve formě mluveného jazyka v televizi či v běžném rozhovoru. … Anotovaným korpusem rozumíme ~~také~~ sbírku týchž textů~~, ale tentokrát již~~ obohacených~~ých~~ o jazykovědné informace, např. informace z tvarosloví (slovní druhy, morfologické kategorie), z větné stavby (podmět, přísudek, …), případně dalšíaj. ~~Takto vložené informace označujeme jako anotace.~~ Bez existence textových korpusů vznikají lingvistické teorie (a co hůře, i systémy na automatickou analýzu jazyka) ~~teorie~~ často na příkladech osamocených vět, které se více méně rodí v hlavách jazykovědců, nereflektují kvalitativní ani kvantitativní charakteristiky jazyka vyskytujícího se v praxi a tedy dávají vesměs špatné výsledky, v praxi obvykle nepoužitelné.. Přítomnost realistického datového materiálu je výzvou pro otestování těchto teorií. Na druhou stranu anotace, resp. strategie anotování, jsou hmatatelným výsledkem lingvistických teorií.

Metody strojového učení klasifikované jako tzv. supervised (s učitelem) jsou v počítačové lingvistice označovány jako metody korpusové a učitelem je v daném případě anotátor (přeneseně i výsledný anotovaný datový soubor)~~, který do textu vkládá anotace~~. Trénovací data těchto metod jsou výše zmíněné ~~potom~~ anotované korpusy. Korpusové metody ze své podstaty potřebují taková trénovací data, která pokud možno pokrývají všechny možné situace vzhledem k zadání úlohy. ~~Kupříkladu i~~Ideální morfologicky anotovaný korpus by měl obsahovat všechna slova ve všech možných tvarech a ve všech smysluplných kontextech. Ideální korpus neexistuje (a snad ani existovat nemůže) a tím spíše platí: čím více trénovacích dat, tím lépe.

V předkládaném projektu se zaměříme na zpracování českého tvarosloví (jazykové morfologie), jako základu pro aplikace pracující primárně s textem, jakými jsou právě fulltextové informační systémy. Důležitost takového morfologického zpracování textů je vhodné ilustrovat opět na příkladu vyhledávacích procedur. Základním (a dosud nejvíce používaným) způsobem, jak zjistit, zda dokument obsahuje informace, po kterých se táže uživatel prostřednictvím zadaného dotazu, je srovnání, zda a v jaké míře dokument obsahuje slova vyskytující se v dotazu. V jazycích s bohatou flexí, mezi které také čeština patří, se většina slov může vyskytovat v mnoha různých slovních tvarech. Při analýze vstupního dokumentu se slovnímu tvaru přiřadí jeho základní forma ~~v podobě~~ (lemmatu). Toto přiřazování je realizováno diesambiguační procedurou, tzv. ~~taggingem~~tagováním, která z dané množiny lemmat a morfologických charakteristik (značek) vygenerovaných morfologickou analýzou vybere právě jednu dvojici ([lemma, značka)] na základě větného kontextu. Obecně je morfologická analýza nutným základem jakékoli automatické lingvistické aplikace, ať už je to automatický překlad, již zmíněné vyhledávání informací v dokumentech, rozpoznávání a generování mluvené řeči pro automatické informační systémy, tvorba nových (výkladových, překladových, specializovaných) slovníků nebo jazykové modelování v rozpoznávání mluvené řeči a v systémech digitalizace tištěných dokumentů (tzv. OCR systémy). Nejčastěji používané a rovněž nejúspěšnější taggovací (Hajič 2002, Hladká, 2000)…) procedury jsou založené na korpusových metodách, a tedy vyžadují velké množství anotovaných dat (viz výše)..

Znamená to, že k tomu, aby mohly vybírat kontextově správné lemma a značku musí se nejdříve učit z morfologicky ručně anotovaného korpusu co největšího objemu (vzhledem k reálným možnostem).

~~Jedna z perspektiv, která se po přípravě většího množství anotovaných českých dat a tím i vylepšení korpusových metod otvírá, je v dalším rozvíjení systému~~ ~~TIBAQ~~ (Text-and-Inference Based Approach to Question Answering; Hajičová a kol., 1995). TIBAQ je systémem pro zodpovídání otázek kladených v přirozeném jazyce (češtině), na které sám hledá odpověď přímo ve zvoleném dokumentu. Tento systém vznikl v době (80. léta), kdy zájem o co nejpřirozenější komunikaci člověk-počítač začínal růst a kdy obor počítačová korpusová lingvistika byl v počátcích. Jak vstupní dokument, tak i vstupní dotaz jsou postupně zpracovány morfologicky, syntakticky a sémanticky. Každému kroku zpracování odpovídá jeden samostatný modul, který realizuje tzv. knowledge-based metody; metody formulované na základě zkušeností jazykovědců, ne na základě pozorování korpusů. Pomocí inferenčních pravidel se sémantický zápis dotazu (tektogramatické stromy) „unifikuje“ se sémantickými zápisy vět dokumentu. Práce na TIBAQ se pozastavila (po několika úvodních experimentech) v době, kdy se centrum všeobecného zájmu začalo soustřeďovat na korpusy. Obnovení systému bude spočívat v uvedení systému do „původního“ stavu; rozvíjení si klade za cíl některé knowledge-based moduly systému nahradit moduly založenými na korpusových metodách a zároveň obohatit systém současným morfologickým slovníkem, který pokrývá skoro „všechny“ slovní tvary.

2 Formulace věcného obsahu a cílůCÍLE projektu

2.1 Vymezení problému a cílů projektu

Projekt je zaměřen na posílení počítačového morfologického zpracování češtiny prostřednictvím dat a softwarových nástrojů. Větší množství anotovaných dat přispěje ke zvýšení úspěšnosti korpusových metod. Nástroje budou umožňovat přípravu nových dat, editaci již existujících dat, zpracování textů morfologickou analýzouu s pohodlným, uživatelskýmch rozhraním (pro případné doplňky do morfologického slovníku) a zejména integrované zpracování textů taggovacími procedurami, které pak budou umožňovat žádané technologické změny ve způsobu, jakým se postupuje při indexaci fulltextových databázi pro přesné vyhledávání.

Cíle projektu formulujeme v následujících čtyřech bodech:

1. Korpus věcného stylu ve formátu Pražského závislostního korpusu.

2. Nástroj pro lexikální anotaci

3. Modifikace morfologického analyzátoru a editor pro správu morfologického slovníku

4. Nové metody tagování~~taggingu~~, automatického přiřazování morfologických informací

2.2 Významnost řešení pro praxi nebo společenskou potřebu

Moduly morfologického analyzátoru a taggeru mají přímý dopad na budoucí aplikace, resp. doplnění stávajících informačních systémů. V moderních informačních systémech založených na jazykově inteligentních metodách vyhledávání (v zahraničí viz např. AskJeeves.com, u nás např. systém ASPI, nebo vyhledávání na centrum.cz) nebo v systémech pro vyhledávání v mluvených textech snižuje kvalitní tagger výrazně náklady na tzv. předzpracování textu, při kterém se významově odlišují slova textu pro jeho indexaci. Zároveň takový tagger slouží pro zpracování uživatelských dotazů a umožňuje zvýšit přesnost vyhledávání bez nutnosti žádat o rozlišení významu konečného uživatele.

Tagger a morfologický analyzátor je možno za určitých předpokladů a po určitých modifikacích využít i pro zvýšení přesnosti aplikací rozpoznávání mluvené řeči, a to jak interaktivně, tak i v dávkovém režimu (rozpoznávání audioarchívů). Vlastní vývoj (modifikace) současných systémů rozpoznávačů bud probíhat mimo rámec tohoto projektu, ale výsledky tohoto projektu takové modifikace vůbec umožní.

Průběžné výsledky projektu budou publikovány ve sbornících konferencí, případně časopisecky. Hlavním výsledkem však budou zejména nástroje vytvořené metodami strojového učení na základě připravených dat pro všeobecné použití odbornou veřejností z privátního i veřejného sektoru. Předpokládá se i zájem o samotná anotovaná data pro vlastní vývoj nástrojů subjekty, které ~~dávaji~~dávají přednost vlastnímu vývoji softwarových nástrojů. Zároveň plánujeme shrnout výsledky projektu v publikaci s pracovním názvem „Morfologie v praxi“, která by populární formou prezentovala manuály (dokumentace) k ručnímu morfologickému anotování dat a k ovládání nástrojů, které jsou k anotaci potřeba.

V části Časový rozvrh řešení uvádíme časové horizonty pro zveřejnění jednotlivých verzí dat a nástrojů (vydáním CDROM/online/DVD) tak, jak budou vznikat v průběhu řešení projektu.

2.3 Strategie a metody~~Editor pro správu morfologického slovníku~~

VĚCNÝ OBSAH PROJEKTU

Strategie a metody uvádíme pro jednotlivé cíle projektu zvlášť.

2.3.1

1. Korpus věcného stylu ve formátu Pražského závislostního korpusu

V roce 2001 byla publikována první verze Pražského závislostního korpusu (PZK), jako datová základna pro vytváření prakticky orientovaných nástrojů pro automatickou počítačovou analýzu češtiny.. S odkazem na zkušenosti získané během šestileté práce nad PZK a s odkazem na současné trendy informačních technologií vyžadujících jazykové (před)zpracování dat není na přípravu anotovaných korpusů (trénovacích dat) úplně od začátku (tedy od „surových“ textů) prostor – z pohledu času i finančních prostředků. Pokud by ovšem byla k dispozici anotovaná česká data, která by odpovídala koncepci nastavené v rámci projektu PZK, nabízí se možnost (polo)automatickou konverzí tato data převést do požadované podoby. V našem případě se jedná o ~~Tuto eventualitu nezmiňujeme náhodou, protože k dispozici je~~ Korpus věcného stylu – anotovaný korpus českých textů.

Korpus věcného stylu (KVS) vznikl v 60.-70. letech minulého století v Ústavu pro jazyk český pod vedením dr. Marie Těšitelové. KVS je korpusem textů o celkovém objemu 550 000 slov anotovaných na morfologické (~~tvarosloví)~~a a syntakticko-analytické ~~(větná stavba)~~ rovině. V době vzniku KVS existovaly ještě další dva anotované korpusy - Brown Corpus of Standard American English a Lancaster-Oslo/Bergen Corpus of Britisch English. Oba dva korpusy byly v té době objemu dvojnásobného oproti KVS, ale jejich anotace zachycovaly pouze morfologické informace, ne informace o větné stavbě. V tomto kontextu je na místě zdůraznit ojedinělost KVS. Bohužel politická situace tehdejšího Československa nedovolila, aby se KVS dostal do podvědomí světové korpusové lingvistiky, počítačová a korpusová lingvistika „si musela“ počkat až na PZK.

KVS se svým vnitřním formátem i anotačními schématy liší od PZK standardu. Tyto odlišnosti však nebrání tomu, aby byl KVS konvertován do „PZK“ formátu. Název Korpus věcného stylu (bez další číselné specifikace) ponecháváme pro označení původního korpusu; v rámci konverzí jednotlivé verze číslujeme. Pro konverze jsme se rozhodli hlavně z těchto důvodů:

· 550 000 slov představuje z pohledu korpusových metod strojového učení nezanedbatelný objem dat (PZK má na morfolloigické rovině celkem anotováno 1 800 000 slov)..

· Poloautomatická konverze jednoho anotačního schématu do druhého je jistě levnější a rychlejší (vzhledem k lidskému úsilí, času, finančním prostředkům) než ruční anotace.

· Anotační schémata KVS a PZK se neliší nijak výrazně, přesto v KVS jsou součástí anotací charakteristiky, které v PZK nejsou zohledněny. Tento fakt dává prostor pro vývoj korpusové metody, která by tyto charakteristiky doplňovala do PZK na základě natrénování na KVS.

· PZK obsahuje písemné texty publicistického, ekonomického a populárně vědeckého stylu. KVS obsahuje písemné a mluvené texty (celkem 180 textů) stylu publicistického (33% textů), administrativního (11% textů) a vědeckého (56% textů). Mluvené texty (psaná podoba rozhlasových reportáží a rozhovorů, televizních komentářů a zpráv, proslovených přednášek) představuje třetinu celkového objemu a pro češtinu reprezentují vůbec první morfologicky i syntakticky anotovaný mluvený datový materiál.

2.3.2

2. Nástroj pro lexikální anotaci

Během morfologického anotování PZK byly texty nejdříve zpracovány morfologickou analýzou. Každý soubor byl anotován dvěma anotátory, jejichž anotace se automaticky porovnaly a rozdíly byly ručně vyhodnoceny. K výběru lemmat a značek se používal nástroj DA, který vytvořil Jiří Hana (mj. sám se podílel na anotování). Nástroj DA svoji funkci plnil velmi dobře, ale protože byl „šitý na míru“ potřebám pouze morfologického anotování, časem se objevila zadání, která nebylo možné v DA realizovat.

Nový anotační nástroj bude koncipován tak, aby byl univerzálním (co do volby anotačního schématu) nástrojem pro libovolnou anotaci slov, kdy jednotlivé anotace budou výsledkem výběru z nějaké množiny možností.

Primárně bude nástroj nastaven na anotaci morfologickou s anotačním schématem PZK a s doplňky užitečnými pro morfologické anotování. Například bude-li daný text již syntakticky anotován, dají se závislosti ze závislostního stromu použít jako nápovědy pro morfologické anotace využitím pravidel o shodě v rodě, čísle, pádu, o předložkových vazbách, aj.Slovník morfologické analýzy nemůže obsahovat všechna slova, která se vůbec kdy vyskytla. Z tohoto důvodu bude nástroj umožňovat přímo přístup do slovníku tak, aby anotátor mohl vložit morfologickou analýzu pro ni neznámého slova či případně analýzu opravit. Je-li text anotován více anotátory, je zajímavé a užitečné výsledky porovnávat. Podobně je i přínosné porovnání ruční anotace s anotacemi přiřazenými automaticky. Tyto aspekty spolu s vyhodnocovacími statistikami budou součástí nástroje.

Anotační fáze nad PZK byla dostatečně dlouhá a natolik různorodá, že uplatnění získaných zkušeností při návrhu anotačního nástroje směřuje k vytvoření opravdu kvalitního „asistenta“ pro kontrolu a zvýšení kvality anotovaného korpusu a v konečném důsledku zvýšení kvality výsledných, prakticky orientovaných nástrojů (viz níže). ~~- asistenta jazykovědce, asistenta lexikografa, asistenta školáka.~~ Nový nástroj rovněž umožní flexibilní anotaci menších, doménově orientovaných korpusů (např. pro právo a zákony, lékařství apod.), které se mohou ukázat jako nebytný doplněk současných anotovaných korpusů v případě specializovaných aplikací. I tyto nástroje budou dány k dispozici veřejnosti.

2.3.3

3. Modifikace morfologického analyzátoru a Eeditor pro správu morfologického slovníku

Naším cílem je vytvořit nový morfologický analyzátor založený na konečných automatech, pomocí něhož bude možno snadněji a rychleji reagovat na případné budoucí změny anotačních schémat, což současná verze neumožňuje. Morfologický analyzátor porovnává slova libovolného textu s hesly morfologického slovníku a podle nich přiřazuje slovům možné hodnoty morfologických kategorií.

Základem morfologické analýzy je tedy morfologický slovník, který obsahuje "všechny" slovní tvary, které se mohou v jazyce vyskytnout spolu s hodnotami morfologických kategorií. "Všechny" je v uvozovkách proto, že je to maximalistický limit, kterého prakticky nelze dosáhnout.

Nový analyzátor bude navíc obsahovat tzv. guesser - nástroj, který je schopen odhadnout hodnoty morfologických kategorií neznámých slov, tedy slovních tvarů, které se v morfologickém slovníku (dosud) nevyskytují.

~~Základem morfologické analýz~~a ~~je tzv.~~ ~~morfologický~~ ~~slovník~~, který obsahuje "všechny" slovní tvary, které se mohou v jazyce vyskytnout spolu s hodnotami morfologických kategorií. "Všechny" je v uvozovkách proto, že je to maximalistický limit, kterého prakticky nelze dosáhnout. Proto je potřeba se morfologickému slovníku neustále věnovat, především ho doplňovat o nová slova a jejich tvary. ~~Morfologický analyzátor potom porovnává slova libovolného textu s hesly morfologického slovníku a podle nich přiřazuje slovům možné hodnoty morfologických kategorií.~~ ~~V případě neznámého slova, tedy slovního tvaru, který se v morfologickém slovníku nevyskytuje, je tzv. guesser~~ ~~schopen hodnoty morfologických kategorií neznámého slova odhadnout.~~

Morfologickému slovníku je třeba se neustále věnovat, především ho doplňovat o nová slova a jejich tvary. V současné době obsahuje český morfologický slovník asi 25 milionů slovních tvarů, proto je třeba klást důraz i na způsob uchování dat, aby morfologická analýza probíhala dostatečně rychle. Slovní tvary se pochopitelně nevkládají do slovníku jednotlivě, ale využívá se pravidelného skloňování, časování či stupňování podle vzorů. Na aktualizaci morfologického slovníku je třeba mít specializovaný editor, který usnadňuje uživateli práci. Editor musí znát všechny vzory, generovat podle zadaného vzoru všechny možné tvary příslušného lemmatu a v neposlední řadě by měl uživateli usnadňovat práci i tím, že bude odhadovat vzory podle tvaru zadaného lemmatu (např. lemma končící na "ovat" bude s největší pravděpodobností sloveso). U lemmat s nepravidelným skloňováním / časováním je třeba zadat do slovníku všechny jeho tvary. Takový editor sice existuje, ale je 14~~...~~ let starý a pracuje pouze pod operačním systémem MS DOS. Je proto nutné vytvořit moderní nástroj využívající současných počítačových i programovacích možností s cílem co nejvíce usnadnit uživateli práci se slovníkem. Použití nástroje přirozeně eliminuje množství chyb, které nutně při jakékoli ruční práci vyvstávají. Nový editor bude mít ještě některá další vylepšení oproti staré verzi: inkrementální vyhledávání slov, vyhledávání podle různých kritérií (podle vzoru, předpony, slovního druhu, ...), dávkové zpracování množiny zadaných hesel.

Vytvořený morfologický analyzátor bude k dispozici pro uživatele jednak jako samostatný modul, jednak bude integrován do výsledného taggeru (viz dále, též časový harmonogram).

2.3.4

~~|4.~~ Nové metody ~~taggingu~~tagování

Tagování je proces, při kterém se automaticky rozhodne, která z možných interpretací tvaroslovných charakteristik slova v kontextu celé věty (nebo jiného delšího úseku textu nebo promluvy) je správná.

Současný český statistický tagger vychází z práce (Hajič, 2002). Předpokládá se, že tento tagger bude využit v experimentech jako tzv. baseline, tj. pro porovnání úpěšnosti a přesnosti nových metod se současným stavem (state-of-the-art). Je oprávněné se domnívat, že i tento tagger bude dosahovat lepších výsledků po přidání v projektu připravených dat (KVS 1.0, později 2.0).

Náplní projektu bude vývoj nové, efektivnější a přesnější verze českého taggeru (s pracovním označením PESTAG, Perceptronový statistický tagger), která bude i jednoduše škálovatelná, tj. použitelná v systémech s různými omezeními (rychlosti, velikosti), za co nejmenší ztráty přesnosti systému a s minimálními nároky na nové vytvoření systému při změně těchto omezení (s možností i uživatelského přístupu k takové modifikaci). Škálovatelné systémy jsou klíčem k efektivnímu budoucímu praktickému nasazení v systémech, jejichž požadavky se mění podle potřeb praxe a je přitom minimum časového prostoru na změny technologie systému.

Navrhovaný tagger bude vycházet z modelu perceptronu (Collins 2002), který v procesu učení přidělí váhy jednotlivým pravidlům („kontextům“), automaticky vybraným z trénovacích dat (v našem případě PZK a v průběhu projektu i z přidáním dat KVS). Jedná se o nejmodernější metodu, která slibuje rychlou obrátku při vývoji systému a dosud nejlepší výsledky. Metoda ovšem bude v prvním roce proto vyžadovat důkladné testování a evaluaci na českých datech.

Vytvořené moduly taggeru pro češtinu završí navrhovaný projekt, a bude je možné využít v aplikacích informačních systémů nejrůznější velikosti (po příslušných modifikacích, integraci do příslušného systémového software atd.), a to systémů pracujících jak s psaným, tak mluveným jazykem.

2.4 Časový harmonogram

Časový harmonogram uvádíme pro jednotlivé cíle projektu zvlášť.

~~ČASOVÝ ROZVRH ŘEŠENÍ~~

2.4.1 KVS

· 2004

o konverze vnitřního formátu KVS do SGML (příp. XML) kódování (à KVS 0.0)

o návrh konverzní procedury pro převod KVS morfologických značek do anotačního morfologického schématu PZK

· 2005

o konverze morfologických značek KVS do anotačního morfologického schématu PZK (à KVS 0.5)

o trénování a následné testování taggerů na sloučených datech PZK a KVS 0.5

o odhalování nesrovnalostí v ručních morfologických značkách v KVS 0.5 porovnáním výstupů taggerů již za pomoci první verze nástroje LAW; taggery budou natrénovány na části PZK a části KVS 0.5 a testovány na části KVS 0.5.

o oprava odhalených nesrovnalostí v rámci ladění anotačního nástroje à KVS 1.0

· 2006

o konverze KVS syntakticko-analytických značek do anotačního syntakticko-analytického schématu PZK (à KVS 1.5)

· 2007

o trénování a následné testování parserů na sloučených datech PZK a KVS 1.5

o odhalování nesrovnalostí v ručních syntakticko-analytických značkách v KVS 1.5 porovnáním výstupů parserů; parsery budou natrénovány na části PZK a části KVS 1.5 a testovány na části KVS 1.5.

o oprava odhalených nesrovnalostí v syntakticko-analytickém anotování pomocí nástroje TrEd (à KVS 1.75)

o vzájemná kontrola a oprava morfologických a syntakticko-analytických značek v KVS 1.75 pomocí nástroje TrEd à KVS 2.0

· 2008

o návrh metody pro doplnění do PZK těch KVS anotací, které nejsou v PZK doposud zohledňovány

o experimenty doplňování

2.4.2

Nástroj pro lexikální anotaci

· 2004

o vyhodnocení jednotlivých možností původního anotačního nástroje DA; posouzení jejich případného zapracování do nového nástroje~~návrh nástroje~~

o shromáždění dosud nerealizovaných požadavků na anotační nástroj

o shromáždění aplikačních požadavků

o výběr vnitřního formátu vstupního souboru

· 2005

o propojení s morfologickým analyzátorem, s morf. slovníkem

o zpracování vstupního textu taggery „na vyžádání“

· ~~realizace návrhu~~2006

o zapracování možností pro „libovolné“ lexikální anotování

o zpracování vstupního textu parsery „na vyžádání“

· 2007

o propojení nástroje s guesser

o zajištění jazykové nezávislosti (vzhledem k jazykovému kódování) vst. dokumentu

· 2008

o používání systému, aktualizace

2.4.3

Editor pro správu morfologického slovníkuModifikace morfologického analyzátoru a editor pro správu morfologického slovníku

· 2004

o konverze stávajícího morfologického analyzátoru do tvaru konečného automatu

o specifikace editoru pro správu morfologického slovníku SLED

o návrh nového systému morfologických vzorů

· 2005

o zkušební provoz morfologického analyzátoru

o vytvoření nového editoru morfologického slovníku SLED

· 2006

o doplnění morfologického analyzátoru o guesser

o testování editoru SLED, ladění dle zpětné vazby od uživatelů

· 2007, 2008

o rutinní provoz analyzátoru i editoru SLED~~2008~~

2.4.4

Nové metody ~~taggingu~~tagování

· 2004

o Ověřování progresivních metod tagování na češtinu

§ Výběr kontextových vzorců pravidel

§ Provádění experimentů

§ Vyhodnocování

§~~Vyhodnocování~~

· 2005

o Vývoj vstupních a výstupních modulů, přizpůsobení standardům anotace

o Reimplementace pro minimalizaci výpočetních nároků

o Ladění heuristických parametrů z hlediska vyvážení přesnosti a výpočetní náročnosti

o Začlenění trénovacích dat části I projektu (KVS 1.0), ověření úspěšnosti

· 2006

o Integrace morfologické analýzy do jádra tagovacího systému

o Koordinace kontextových vzorců a guesseru (viz 2006, modifikace morf. analyzátoru)

· 2007

o Vytvoření škálovatelného modulu pro začlenění v tzv. embedded (zapouzdřených) systémech (PDA, mobilní zařízení)

o Modernizace modulů pro dynamické tagování více jazyků najednou a pro rozpoznání vstupního jazyka

o Přetrénování jednotlivých modulů za použití větších anotovaných dat, vč. 2. etapy KVS (2.0)

· 2008

o Závěrečná integrace morfologického analyzátoru, guesseru a taggeru

o Dokumentace, testování, evaluace

o Vytvoření vzorových postupů pro integraci do aplikací

o Zveřejnění výsledků projektu ve formě datových zdrojů a nástrojů na CD/DVD, on-line přístupu, a prostřednictvím distribuční smlouvy s LDC pro veškeré potenciální uživatele, uzavření smluv o užití (nebyly-li uzavřeny dříve, v průběhu projektu)

o Případné opravy, úpravy, změny parametrů na základě testování u uživatelů výsledků výzkumu

2.4.5 Souhrn postupně zveřejňovaných výsledků projektu

Průběžné výsledky projektu budou publikovány ve sbornících konferencí. Data a nástroje budou zveřejňovány (vydáním CD ROM) v následujících časových horizontech:

prosinec 2005

· Korpus věcného stylu verze 1.0

· Taggery přetrénované na sloučených datech PZK 1.0 a KVS 1.0

· LAW: nástroj pro lexikální anotaci (Lexical Anotation Workbench)

· SLED: Slovníkový Editor

· Morfologický analyzátor

· Zkušební provoz online nástrojů pro veřejný přístup

prosinec 2007

· Korpus věcného stylu verze 2.0

· aktualizace LAW

· aktualizace SLED

· konečná verze morfologického analyzátoru

· tagger verze 1.0

prosinec 2008

· Korpus věcného stylu verze 3.0

· Konečná verze ~~aktualizace~~ LAW včetně dokumentace

· Konečná verze SLED včetně dokumentace

· Tagger ve škálovatelné (plná, zapouzdřená, „lehká“) verzi

· Dokumentace, finální online výzkumná verze s veřejným přístupem

3 Podmínky pro řešení projektu

3.1 Vybavení řešitelského pracoviště

Pracoviště navrhovatele se zaměřuje na oblasti komputační lingvistiky a automatického zpracování přirozeného jazyka, a to především tím, že (i) je v něm integrován a vzájemně posilován výzkum jak jazyka psaného, tak mluveného, (ii) že výzkum má pevné a originální teoretické základy v oblasti gramatiky i lexika , ale neztrácí ze zřetele i aspekty aplikační, a (iii) že jsou ve vzájemné rovnováze jak lingvistické, tak i informatické aspekty tohoto výzkumu.

Pražský závislostní korpus (Hajič a kol., 2001), jako hlavní, počítačově-korpusový výstup pracoviště, v sobě odráží všechny tři základní charakteristiky navrhovatele. Anotace korpusu vycházejí ze solidního teoretického výzkumu a šestiletá zkušenost s anotováním PZK je kromě dat (korpusu KVS) a starších verzí morfologických nástrojů (analyzátor, taggery) hlavním vstupem navrhovaného projektu. Pracoviště spolunavrhovatele reprezentují osobnosti, které se podílely na anotování Korpusu věcného stylu (Těšitelová M., 1985) a jejich zkušenosti, třeba i konfrontačního charakteru ¨(např. odlišný pohled na zachycení některých jevů), budou bezpochyby přínosem.

Někteří členové pracovní skupiny pracoviště navrhovatele mají praktickou zkušenost s návrhem systému pro zodpovídání otázek. TIBAQ (Text-and-Inference Based Approach to Question Answering; Hajičová a kol., 1995) je systémem pro zodpovídání otázek kladených v přirozeném jazyce (češtině), na které hledá odpověď přímo ve zvoleném dokumentu. Tento systém vznikl v době (80. léta), kdy zájem o co nejpřirozenější komunikaci člověk-počítač začínal růst a kdy obor počítačová korpusová lingvistika byl v počátcích. Jak vstupní dokument, tak i vstupní dotaz jsou postupně zpracovány morfologicky, syntakticky a sémanticky. Každému kroku zpracování odpovídá jeden samostatný modul, který realizuje tzv. knowledge-based metody; metody formulované na základě zkušeností jazykovědců, ne na základě pozorování korpusů. Pomocí inferenčních pravidel se sémantický zápis dotazu (tektogramatické stromy) „unifikuje“ se sémantickými zápisy vět dokumentu. Práce na TIBAQ se pozastavila (po několika úvodních experimentech) v době, kdy se centrum všeobecného zájmu začalo soustřeďovat na korpusy. Obnovení tohoto systému v kontextu počítačové korpusové lingvistiky počátku 21. století by bylo jistě přínosné.

Obě pracoviště, navrhovatele i spolunavrhovatele, poskytují projektu ve všech směrech (propracované jazykové teorie, zkušenosti, přístrojová kapacita) solidní zázemí pro úspěšnou realizaci všech vytčených cílů.

3.2 Složení řešitelského týmu

Tvůrčí pracovníci:

Doc. RNDr. Jan Hajič, Dr. se v oborou počítačového zpracování češtiny hlavně zabývá morfologickým zpracováním češtiny jak z pohledu analýzy a generování, tak i z pohledu disambiguace morfologických informací. Je vůdčí osobností projektu Pražského závislostního korpusu. V projektu se bude věnovat novým metodám tagování. RNDr. Jaroslava Hlaváčová má bohaté zkušenosti v oblasti korpusové lingvistiky, které získala v rámci řešení projektu Českého národního korpusu. Zároveň se věnuje i morfologii češtiny a v projektu bude vyvíjet nový morfologický analyzátor spolu s editorem morfologického slovníku. RNDr. Jan Králík, CSc. spolu s PhDr. Ludmilou Uhlířovou, CSc. byli členy autorského kolektivu, který vytvořil Korpus věcného stylu. V projektu se budou se svými kolegy, Mgr. Martin Bálek (doktorand) a Vít Michalec (ostatní pracovník), podílet na návrhu jednotlivých konverzních kroků z pohledů záměrů, kterými bylo anotování KVS vedeno. Mgr. Barbora Vidová Hladká, PhD. se věnuje problému morf. desambiguace a zároveň vedla skupinu anotátorů morfologické roviny PZK.

Doktorandi:

Mgr. Silvia Cinková se soutřeďuje na otázky kolem syntaxe češtiny. V projektu bude realizovat konverzi syntaktických anotací KVS do anotačního schématu PZK. Mgr. Jiří Mírovský pracuje na statistických modelech morf. disambiguace. V projektu bude realizovat konverzi morfologických anotací KVS do anotačního schématu PZK a také se bude podílet na experimentech tagování. Mgr. Emil Jeřábek je v současné době zaměstnancem Matematického ústavu AV; velmi výrazně se podílel na morfologické anotaci PZK a jeho zkušenosti z této aktivity jsou pro řešený projekt nenahraditelné.

Ostatní pracovníci:

Mgr. Jiří Hana byl členem skupiny anotátorů morfologické roviny PZK. Zároveň je autorem nástroje pro ruční anotaci (program DA). V rámci projektu bude jeho úkolem vytvoření nového anotačního nástroje, ve kterém uplatní jak zkušenosti z anotování, tak i z vývoje a realizace anotačního nástroje DA. Mgr. Milan Fučík je správcem počítačové sítě na pracovišti navrhovatele. V projektu bude zodpovídat za správu počítačového a programového zázemí, které budou potřeby projektu vyžadovat.

4 Reference

Böhmová, Alena and Jan Hajič, Eva Hajičová, Barbora Hladká: The Prague Dependency Treebank: Three-Level Annotation Scenario. Treebanks: Building and Using Syntactically Annotated Corpora, ed. Anne Abeille, Kluwer Academic Publishers, 2001.

Collins, Michael. Discriminative Training Methods for Hidden Markov Models. Theory and Experiments with Perceptron Algorithms. EMNLP. 2002.

Hajič, Jan .Disambiguation of Rich Inflection (Computational Morphology of Czech), MFF UK, 334 pp., 2002

Hajič, Jan and Eva Hajičová, Barbora Hladká, Petr Pajas, Jarmila Panevová, Petr Sgall. Prague Dependency Treebank 1.0 - CD ROM,ISBN:1-58563-212-0. Linguistic Data Consortium, 2001.

Hajič, Jan: Morphological Tagging: Data vs. Dictionaries. In: Proceedings of the 1st NAACL Coneference, Seattle, WA, USA, p. 94-101, 2000

Hajičová Eva a kol. Text-and-Inference Based Approach to Question Answering, 1995.

Hajičová,Eva a Jarmila Panevová, Petr Sgall: K nové úrovni bohemistické práce: Využití anotovaného korpusu, 1. část Slovo a slovesnost, 63, 2002, 161-177; 2. část Slovo a slovenost 63, 2002, 241-262

Hlaváčová, Jaroslava: Technical Insights into the Birth of a Corpus. Proc. TSD 1998, Brno 1998, pp. 55-60, 1998.

Hladká, Barbora. Czech Language Tagging. PhD Thesis, Faculty of Mathematics and Physics. 2000.

Těšitelová, Marie a kol. Kvantitativní charakteristiky současné češtiny. Academia, 1985.