CZE
UFAL

Návrh projektu (minimálně 3 strany textu ve struktuře dle návodu)

1. Stručné shrnutí současného stavu

Význam metod automatického zpracování jazyka se stále zvětšuje. V ustavičně rostoucím objemu dat a informací se dnes člověk sám může už jen stěží orientovat. Proto je zapotřebí sofistikovaných automatických metod na vyhledávání informací v dokumentech psaných přirozeným jazykem, na jejich třídění a případně i další zpracování, např. automatický překlad do jiných jazyků. Poslední dobou se také klade velký důraz na pohodlí uživatele při ovládání složitých počítačových systémů, konkrétně na využívání přirozeného jazyka při komunikaci člověka s počítačem.
K tomu všemu je samozřejmě nutné mít k dispozici jednak přesné a podrobné teoretické zpracování jazyka, jednak adekvátní technologické zázemí, kam patří mj. dobře specifikované datové formáty pro uložení jazykových slovníků a korpusů, a také softwarové nástroje a knihovny funkcí, které práci s takovými komplexními daty umožní.
Pro češtinu již existuje několik jazykových zdrojů, namátkou uveďme Český národní korpus, starší slovníky převedené do elektronické podoby a vybavené vyhledávacími systémy a Pražský závislostní korpus.
Každý z uvedených datových zdrojů ovšem používá vlastní datový formát, což je překážkou jejich efektivního propojení. Další jazykové zdroje dosud nejsou v elektronické podobě.
Pražský závislostní korpus používá formát CSTS, založený na standardu SGML. Formát CSTS vznikl původně pro účely Českého národního korpusu, později byl však rozšířen, aby umožnil zachytit morfologickou, povrchově syntaktickou a dnes i tektogramatickou anotaci. Tento formát trpí řadou závažných problémů. Již samotné použití jazyka SGML jej paradoxně činí těžko zpracovatelným obecnými nástroji (žádný volně šiřitelný parser nepodporuje SGML standard kompletně), a nutnost zpracovávat jej nástroji specificky určenými pro CSTS jej tudíž činí těžko rozšiřitelným - většinou je pro rozšíření potřeba upravit příslušné nástroje. Během anotačních prací v rámci PDT1.0 a připravovaného PDT2.0 se proto používal jednoúčelový formát, navržený pro potřeby anotačního nástroje pracujícího se stromy.
Z dalších používaných reprezentací lingvistické anotace zmiňme tzv. Annotation Graphs. Jedná se o formální rámec pro reprezentaci lingvistických anotací, jejichž společným rysem je přítomnost časové či jinak sousledné osy. Formát umožňuje tzv. stand-off anotaci textových i audiovizuálních dat, reprezentovanou v XML. Zkušenosti ukazují, že tento formát je vhodný jen pro úlohy určitého typu a snaha o jeho nasazení i v dalších oblastech zpracování jazykových dat přináší uživatelům značné nepohodlí.
Pro uchovávání korpusů se ve světě používá např. formát TEI, založený původně rovněž na SGML, nověji však přepracovaný do XML. Formát TEI je určen pro uchovávání textových dat s ohledem na jejich použití v knihovnách, muzeích, vydavatelstvích, vědě a výzkumu. Přestože obsahuje i některé prvky určené k uchování lingvistické anotace nad daným textem (zejm. prostřednictvím obecného mechanismu struktur rysů), jedná se o formát, který nebyl primárně zaměřen na zaznamenání tohoto typu informací, což má bohužel mnoho nepříjemných důsledků v praxi. Není ovšem vyloučeno, že by TEI mohlo posloužit jako jeden ze základů pro stand-off anotaci v novém formátu. Přehled některých dalších anotačních formátů používaných v lingvisticky orientovaných projektech lze nalézt např. na stránce http://www.ldc.upenn.edu/annotation/. V současné době neposkytuje žádný známý datový formát struktury, které by umožnily sjednotit a provázat různorodé elektronické jazykové zdroje.
Navržení vhodné datové reprezentace a sjednocení zmíněných jazykových zdrojů má šanci stát se standardem pro vytváření budoucích aplikací v oblasti zpracování přirozeného jazyka.
Základem nejrůznějších metod automatického zpracování přirozeného jazyka je morfologická analýza textů, tedy přiřazení hodnot morfologických (tvaroslovných) kategorií běžným slovním tvarům (pád, rod, číslo podstatným jménům, osoba, čas slovesům, apod.). Bez této primární analýzy nelze přistoupit k dalšímu zpracování, jako je např. syntaktická analýza potřebná pro automatický překlad nebo rozpoznávání mluvené řeči. Také pro fulltextové vyhledávání v dokumentech nebo jejich třídění podle zadaných kritérií je třeba znát nejen všechny tvary klíčových slov, ale i případné další vztahy mezi jednotlivými slovy (např. vztahy derivační nebo sémantické), aby výsledek vyhledávání či třídění byl úplný.
K tomu je potřeba mít morfologický slovník, který obsahuje všechny tvary všech slov v jazyce s jejich morfologickými hodnotami, doplněný o syntaktické, derivační a případně i další vztahy. Tohoto cíle však nelze reálně dosáhnout, protože slov je příliš mnoho, nová vznikají, mění se významy a slovní vazby, a v neposlední řadě se v českých textech objevují i slova cizí, často s nejednotným pravopisem. Taková neznámá slova se dosud analyzují pomocí tzv. guesseru, což je nástroj, který na základě začátku a hlavně konce slovního tvaru odhaduje, o jaký slovní druh by se mohlo jednat a jaké možné morfologické značky by slovu mohly být přiřazeny. Setkáváme se však i s takovými případy, kdy určitý slovní tvar ve slovníku přítomen je, ale nehodí se na konkrétní výskyt v textu. Jde např. o příjmení mající tvar obecného podstatného nebo přídavného jména, nebo příjmení použité nikoliv jako jméno osoby, ale jako jméno firmy. Problémová jsou především vlastní jména, ale potíže mohou nastat i u jiných slov, vyskytujících se ve speciálním kontextu.
V zahraniční literatuře se pro tuto kategorii slov používá označení "named entities"; český, dosud ne zcela zavedený termín je "pojmenované entity". Jsou to jedno- nebo víceslovné výrazy, mezi které v užším smyslu patří především jména osob, organizací, geografické názvy, názvy uměleckých artefaktů atd. V širším smyslu sem řadíme také
  • časové údaje, především data (např. 6.7.1415 n.l.),
  • zkratky a zkratková slova,
  • číselné výrazy, výrazy matematické povahy,
  • výrazy obsahující fyzikální, měnové nebo jiné jednotky (ať už vyjádřené slovem, zkratkou, nebo speciálním symbolem),
  • odkazy do strukturovaných dokumentů (např. do zákonů a vyhlášek).
Tyto jazykové výrazy se většinou skládají z více slov, ale oproti obecným víceslovným jednotkám mají tu výhodu, že se většinou vyskytují v kompaktní ustálené posloupnosti, a proto není tak obtížné je v textu odhalit, na rozdíl např. od frazémů, které mohou být modifikovány dalšími větnými členy a jejichž slovosled není pevně daný. Odhalení však nestačí, je třeba je v textu správně označit. V současné době se každý slovní tvar zpracovává jako samostatná jednotka a dosud nebyl pro češtinu navržen uspokojivý systém, který by s víceslovnými pojmenovanými entitami uměl zacházet jako s jedinou samostatnou jednotkou. Takové zachycení by měl umožnit nový systém pro ukládání dat.

2. Formulace věcného obsahu a cílů

2.1.Vymezení problému a cílů projektu

Projekt se soustředí na vytvoření integrovaného systému pro ukládání a využívání jazykových dat a jeho použití při aktualizaci morfologického slovníku češtiny, zejména jeho rozšíření o pojmenované entity.
Projekt má dva hlavní cíle:

2.2 Významnost řešení pro praxi nebo společenskou potřebu

Jednotný formát zásadním způsobem usnadní předávání jazykových dat mezi akademickou lingvistickou komunitou, což povede k větší efektivitě jazykovědného výzkumu. Předpokládáme, že o nově vypracovaný formát bude zájem i v zahraničí.
Rozpoznání pojmenovaných entit pak významně přispěje k lepším výsledkům morfologické analýzy, a potažmo i dalších navazujících aplikací zpracování češtiny, zejména v existujících i nových systémech pro vyhledávání na WWW, při získávání informací z textových dat (data mining) a v neposlední řadě i při strojovém překladu.
V teoretické oblasti pomohou výsledky zpracování pojmenovaných entit při zkoumání sémantiky přirozeného jazyka. Zpracovaný seznam s typologií může být použit i v české verzi hierarchického sémantického systému WordNet.

2.3 Předpokládaný metodický postup řešení

I. Integrace jazykových zdrojů
Nejprve bude nutné navrhnout obecný formát založený na technologii XML umožňující zachycení a propojení textových a slovníkových dat jednotným způsobem. Formální popis navrženého formátu se uskuteční pomocí jazyků XML Schemas a RelaxNG. Hlavní důraz bude kladen na možnost reprezentace mnohovrstevné lingvistické anotace. Nový formát bude navržen tak, aby byl schopen reprezentovat i nově pojaté zpracování pojmenovaných entit. Návazně budou do nové podoby převedeny významné stávající lingvistické zdroje a budou vytvořeny nástroje umožňující s touto reprezentací efektivně pracovat i ve velkých objemech (PDT1.0 obsahuje cca 0.5GB dat, do budoucna je však potřeba počítat i s objemy řádově vyššími, zejména s ohledem na rostoucí požadavky ze strany metod zpracování jazyka založených na strojovém učení).
Navržená datová reprezentace musí umožňovat využití metody stand-off anotace, kdy jsou anotovaná data oddělena od samotné anotace. Na podobném principu budou odděleny jednotlivé vrstvy anotace. Unifikovaný formát odkazů umožní jak vzájemné propojení anotačních vrstev (rovin), tak provázání anotace s anotačními slovníky (morfologický slovník, valenční slovník, apod.). Některé jazykové jevy (např. pojmenované entity, jejichž podrobné zpracování tvoří druhou část tohoto projektu) jsou přítomny na všech rovinách zpracování jazyka. Je důležité, aby tyto jevy byly na všech anotačních rovinách zpracovány jednotně.
Ze společného základu budou odvozena dedikovaná schémata, určená pro specifické anotace, spadající především do následujících základních tříd:
  • anotace lineárního typu (např. morfologická a slovně sémantická anotace)
  • anotace strukturního typu (např. povrchově syntaktická anotace, hloubkově syntaktická - tektogramatická - anotace)
  • anotační slovníky (morfologický slovník, valenční slovník, apod.)
  • Při návrhu dílčích schémat bude kladen důraz především na jejich monotonickou rozšiřitelnost, jakož i jednotnost v přístupu k technickým jevům společným pro většinu anotací (řešení ambiguity, alternativ na úrovni anotačních jednotek i celých struktur).
V druhé fázi budou do navrženého formátu převedeny významné stávající datové zdroje, jež byly dosud k dispozici v nejednotných nebo proprietárních formátech. Zejména půjde o Pražský závislostní korpus, a to nejen ve verzi PDT 1.0 s morfologickou a povrchově syntaktickou anotací, ale i o další verzi PDT (PDT 2.0) s navazující tektogramatickou anotací, která bude k dispozici během prvního roku řešení projektu. Do systému bude zahrnut též Pražský závislostní korpus arabštiny (PADT), Pražský česko-anglický závislostní korpus (PCEDT) a existující anotační slovníky (mj. valenční slovník PDT ValLex).
Současně budou vyvíjena obecná aplikační rozhraní a robustní nástroje pro práci s takto pojatými anotačními schématy a s anotacemi založenými na stand-off principu obecně. Budou vytvořeny nástroje určené k efektivnímu automatickému zpracování anotovaných dat, umožňující mj. též indexaci, vyhledávání, porovnávání různých verzí a slučování změn. Aplikační rozhraní systému umožní, aby do něj byly následně vkládány rozšiřující uživatelsky definované moduly určené ke komputačně-lingvistickým výpočtům, trénování statistických metod, apod. Tyto nástroje budou navrženy a implementovány tak, aby umožnily efektivní zpracování anotovaných dat i ve velkých objemech (v řádu desítek GB).
Nový formát by měl být navržen tak, aby umožňoval uchování a následné zpracování i těch jazykových zdrojů, které dosud nebyly převedeny do elektronické podoby. Za tím účelem bychom chtěli digitalizovat určitou část slovní kartotéky Ústavu pro jazyk český, která je zatím pouze v lístkovém archivu, a převést ji do nového formátu.
V neposlední řadě budou v rámci projektu přepracovány či upraveny v současné době používané anotační nástroje (zejm. editor stromových struktur TrEd) tak, aby umožňovaly práci s datovými zdroji založenými na XML schématech vyvinutých v rámci projektu.
II. Pojmenované entity
V první fázi bude nutno provést analýzu typů pojmenovaných entit. Budeme vycházet ze zahraničních pramenů, kde je problém již řešen (především pro angličtinu). Dá se očekávat, že čeština bude vykazovat určitá specifika, která bude nutno vzít v úvahu.
Po vypracování typologie českých pojmenovaných entit se bude muset provést revize stávajícího morfologického slovníku, používaného pro morfologickou analýzu Českého národního korpusu, PDT a dalších. Vytipujeme všechny pojmenované entity, zpracujeme je podle vytvořené typologie a vytvoříme jejich seznam.
Podle typologie budeme vyvíjet robustní systém pro detekci a klasifikaci pojmenovaných entit na základě kombinace symbolických (pravidlových a slovníkových) a statistických metod.
Současně se bude pracovat na ruční anotaci vybraných textů, aby bylo na čem pozdější výsledky automaticky testovat.
Vytvořený detekční systém se bude testovat na ručně anotovaných datech a posléze se vyhodnotí. V případě, že se systém osvědčí, můžeme ještě vytvořit nástroj pro automatické přidávání pojmenovaných entit do seznamu, včetně jejich automatické klasifikace.
Uvádíme stručný seznam pojmenovaných entit, kterým je třeba věnovat zvláštní pozornost, neboť v současné době působí nejčastější problémy při zpracování češtiny:
Číslovky
Číslovky patří mezi kategorie slov, které jsou otevřené, to znamená, že nelze vytvořit jejich úplný seznam. Přesto je třeba je při analýze vždy správně rozeznat (jde především o číslovky určité). Není možné zahrnout do slovníku číslovky vyjadřující všechna čísla, navíc existuje často velké množství možností, jak určitou číslovku zapsat (dvacet dva, dvacet dvě, dvacetdva, dvaadvacet, ...). Ne všechny z těchto možností jsou vždy spisovné, ale všechny se vyskytují v textech, a proto je třeba je všechny (včetně nespisovných) umět rozeznat.
Data
Při běžné morfologické analýze se výraz "6. 7. 1415" rozpozná jako posloupnost pěti slovních tvarů: "6", ".", "7", ".", "1415". Přitom je každému zřejmé, že se jedná o datum, které by se rozdělovat na jednotlivé části nemělo.
Příjmení
Velký problém dělají česká příjmení, která mají tvar obecného slova – substantiva, adjektiva, nebo, což je pro analýzy nejhorší, slovesa, např. Kohoutek, Zelený, Dohnal. Je rozumné zahrnout přímo do slovníku jen ta nejběžnější. Vzhledem k tomu, že téměř každé podstatné jméno může být i příjmením, je třeba umět další příjmení rozpoznávat automaticky podle větného kontextu.
Slovní spojení
Pro správnou analýzu je zapotřebí obohatit slovník o nejběžnější slovní spojení, která se vyskytují vždy pohromadě. Na rozdíl od frazémů, které je většinou možno modifikovat dalšími větnými členy, nám půjde o slovní spojení, mezi jejichž komponenty nelze vložit žádné další slovo, např. New York, Rio de Janeiro, Petr Veliký. U těchto spojení je potom třeba uvažovat různé varianty skloňování, které, hlavně u cizích slov, ne vždy logicky odpovídá českému pravopisu. Nemá smysl pracovat se spojením "Rio de Janeiro" jako se třemi slovy, zvláště když se skloňování takových spojení často neřídí žádnými pravidly – můžeme se setkat s výrazy "v Rio de Janeiro", "v Riu de Janeiro", "v Riu de Janeiru", nebo dokonce i "v Rio de Janeiru". Takové chování slovních spojení velmi komplikuje následnou syntaktickou analýzu i další zpracování textů, je tedy třeba automaticky rozpoznat, že se jedná o jedinou slovní jednotku v určitém pádě, kterému ne nutně musí odpovídat pády jednotlivých součástí slovního spojení. Podobně se chovají cizí vlastní jména ve spojení s příjmením – "se Stanley Fischerem", ale "se Stanleyem Turrentinem" – příklady jsou z Českého národního korpusu.

2.4 Přibližný časový rozvrh

1. rok
2. rok
3. rok
4. rok
5. rok
Průběžně

3. Podmínky pro řešení projektu

3.1.Vybavení řešitelského pracoviště

Pracoviště navrhovatele se specializuje na matematickou lingvistiku, zejména na automatické zpracování přirozeného jazyka. K tomu má vytvořené zázemí v podobě sehraného týmu odborníků jak z oblasti jazykovědy, tak i z oblasti matematiky a informatiky. Teorie i jejich aplikace zde vypracované a implementované jsou vysoce ceněny nejen mezi českými odborníky, ale i v zahraničí.
Pracoviště spolunavrhovatele se zabývá základním i aplikovaným výzkumem všech oblastí českého jazyka.
Obě pracoviště poskytnou projektu kvalitní zázemí pro řešení – propracované lingvistické teorie, zkušenosti i přístrojové vybavení.

3.2.Personální podmínky

RNDr. Jaroslava Hlaváčová se v oboru automatického zpracování přirozeného jazyka zabývá v současné době především morfologií češtiny. Má také zkušenosti s Českým národním korpusem, na jehož vytváření se dlouho aktivně podílela. V projektu se zaměří na obohacení stávajícího českého morfologického slovníku o pojmenované entity.
Ing. Zdeněk Žabokrtský je autorem anotačního schématu a SW nástrojů v lexikografickém projektu VALLEX. Má zkušenosti i s cizojazyčnými daty (PENN Treebank, německé korpusy NEGRA/TIGER. V projektu se bude zabývat vývojem softwarových nástrojů a koordinací jednotlivých činností souvisejících se zpracováním pojmenovaných entit.
Mgr. Petr Pajas a Mgr. Jan Štěpánek pracovali na značkování analytické roviny PDT a automatickém testování konzistence anotovaných dat. Oba jsou experti na XML. V projektu se budou zabývat analýzou stávajících jazykových zdrojů a následným návrhem a implementací nových struktur jazykových dat. Mgr. Daniel Zeman se dlouhodobě zabývá automatickou syntaktickou analýzou české věty s využitím statistických metod. V projektu bude pracovat na návrhu nových datových struktur pro české jazykové zdroje.
Doktorandi Mgr. Pavel Květoň a Mgr. Václav Honetschläger se zabývají statistickými i pravidlovými metodami morfologické desambiguace a v projektu budou testovat metody automatické detekce pojmenovaných entit.
Doktorandky Magda Razimová a Mgr. Marie Mikulová mají autorský podíl na přípravě manuálu pro značkování PDT a zkušenosti s ručním anotováním. V rámci projektu se budou podílet na vypracování typologie pojmenovaných entit. Povedou také tým ručních anotátorů, který budeme rekrutovat ze studentů lingvistických a informatických oborů MFF a FF UK.
Mgr. Milan Fučík je správcem počítačové sítě na pracovišti navrhovatele. V projektu bude zodpovídat za správu počítačového a programového zázemí. Doc. RNDr. Karel Oliva, Dr., je ředitelem ÚJČ AV ČR. Jeho užší odbornou specializací je matematická lingvistika, zejména v oblasti syntaktického zpracování psaného textu. Má dále rozsáhlé zkušenosti v práci s jazykovými korpusy. Kromě koordinace práce se v projektu bude věnovat vymezení možných syntaktických pozic pojmenovaných entit v českém textu.
PhDr. Jarmila Bachmannová, CSc., je zástupkyní ředitele a vědeckou tajemnicí ÚJČ AV ČR. V projektu se bude věnovat především otázkám digitalizace stávajících jazykových zdrojů v majetku ÚJČ AV ČR a jejich konverzi do formátu, který bude v rámci projektu nově vyvinut.
Ing. Jana Klímová, Ph.D., je odbornicí na českou slovotvorbu. V projektu se bude věnovat derivačním vztahům pojmenovaných entit ke slovům běžné slovní zásoby.
Doktorand PhDr. Pavel Štěpán se specializuje na onomastiku (místní a pomístní jména, vlastní jména). Bude se proto v projektu věnovat zejména analýze vzniku, postavení a užití pojmenovaných entit.
Petr Berdych je správcem programového vybavení a počítačové sítě ÚJČ AV ČR. V projektu bude zodpovědný za stav a údržbu počítačů.
Hlavní řešitel
Jaroslava Hlaváčová Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta Univerzity Karlovy
Malostranské nám. 25
118 00 Praha 1
tel.: +420-221 914 360, fax: +420-221 914 309
e-mail: hlava at ufal dot mff dot cuni dot cz
Spoluřešitel

Ústav pro jazyk český
Akademie věd ČR
Letenská 4/123
118 51 Praha 1