N�vrh projektu
(minim�ln� 3 strany textu ve struktu�e dle n�vodu)
1. Stru�n� shrnut� sou�asn�ho stavu
V�znam metod automatick�ho zpracov�n� jazyka se st�le zv�t�uje. V�ustavi�n� rostouc�m objemu dat a informac� se dnes �lov�k s�m m��e u� jen st�� orientovat. Proto je zapot�eb� sofistikovan�ch automatick�ch metod na vyhled�v�n� informac� v�dokumentech psan�ch p�irozen�m jazykem, na jejich t��d�n� a p��padn� i dal�� zpracov�n�, nap�. automatick� p�eklad do jin�ch jazyk�. Posledn� dobou se tak� klade velk� d�raz na pohodl� u�ivatele p�i ovl�d�n� slo�it�ch po��ta�ov�ch syst�m�, konkr�tn� na vyu��v�n� p�irozen�ho jazyka p�i komunikaci �lov�ka s�po��ta�em.
K�tomu v�emu je samoz�ejm� nutn� m�t k�dispozici jednak p�esn� a podrobn� teoretick� zpracov�n� jazyka, jednak adekv�tn� technologick� z�zem�, kam pat�� mj. dob�e specifikovan� datov� form�ty pro ulo�en� jazykov�ch slovn�k� a korpus�, a tak� softwarov� n�stroje a knihovny funkc�, kter� pr�ci s�takov�mi komplexn�mi daty umo�n�.
Pro �e�tinu ji� existuje n�kolik jazykov�ch zdroj�, nam�tkou uve�me �esk� n�rodn� korpus, star�� slovn�ky p�eveden� do elektronick� podoby a vybaven� vyhled�vac�mi syst�my a Pra�sk� z�vislostn� korpus.
Ka�d� z�uveden�ch datov�ch zdroj� ov�em pou��v� vlastn� datov� form�t, co� je p�ek�kou jejich efektivn�ho propojen�. Dal�� jazykov� zdroje dosud nejsou v�elektronick� podob�.
Pra�sk� z�vislostn� korpus pou��v� form�t CSTS, zalo�en� na standardu SGML. Form�t CSTS vznikl p�vodn� pro ��ely �esk�ho n�rodn�ho korpusu, pozd�ji byl v�ak roz���en, aby umo�nil zachytit morfologickou, povrchov� syntaktickou a dnes i tektogramatickou anotaci. Tento form�t trp� �adou z�va�n�ch probl�m�. Ji� samotn� pou�it� jazyka SGML jej paradoxn� �in� t�ko zpracovateln�m obecn�mi n�stroji (��dn� voln� �i�iteln� parser nepodporuje SGML standard kompletn�), a nutnost zpracov�vat jej n�stroji specificky ur�en�mi pro CSTS jej tud� �in� t�ko roz�i�iteln�m - v�t�inou je pro roz���en� pot�eba upravit p��slu�n� n�stroje. B�hem anota�n�ch prac� v r�mci PDT1.0 a p�ipravovan�ho PDT2.0 se proto pou��val jedno��elov� form�t, navr�en� pro pot�eby anota�n�ho n�stroje pracuj�c�ho se stromy.
Z dal��ch pou��van�ch reprezentac� lingvistick� anotace zmi�me tzv. Annotation Graphs. Jedn� se o form�ln� r�mec pro reprezentaci lingvistick�ch anotac�, jejich� spole�n�m rysem je p��tomnost �asov� �i jinak sousledn� osy. Form�t umo��uje tzv. stand-off anotaci textov�ch i audiovizu�ln�ch dat, reprezentovanou v XML. Zku�enosti ukazuj�, �e tento form�t je vhodn� jen pro �lohy ur�it�ho typu a snaha o jeho nasazen� i v dal��ch oblastech zpracov�n� jazykov�ch dat p�in�� u�ivatel�m zna�n� nepohodl�.
Pro uchov�v�n� korpus� se ve sv�t� pou��v� nap�. form�t TEI, zalo�en� p�vodn� rovn� na SGML, nov�ji v�ak p�epracovan� do XML. Form�t TEI je ur�en pro uchov�v�n� textov�ch dat s�ohledem na jejich pou�it� v�knihovn�ch, muze�ch, vydavatelstv�ch, v�d� a v�zkumu. P�esto�e obsahuje i n�kter� prvky ur�en� k uchov�n� lingvistick� anotace nad dan�m textem (zejm. prost�ednictv�m obecn�ho mechanismu struktur rys�), jedn� se o form�t, kter� nebyl prim�rn� zam��en na zaznamen�n� tohoto typu informac�, co� m� bohu�el mnoho nep��jemn�ch d�sledk� v�praxi. Nen� ov�em vylou�eno, �e by TEI mohlo poslou�it jako jeden ze z�klad� pro stand-off anotaci v nov�m form�tu. P�ehled n�kter�ch dal��ch anota�n�ch form�t� pou��van�ch v lingvisticky orientovan�ch projektech lze nal�zt nap�. na str�nce
http://www.ldc.upenn.edu/annotation/. V sou�asn� dob� neposkytuje ��dn� zn�m� datov� form�t struktury, kter� by umo�nily sjednotit a prov�zat r�znorod� elektronick� jazykov� zdroje.
Navr�en� vhodn� datov� reprezentace a sjednocen� zm�n�n�ch jazykov�ch zdroj� m� �anci st�t se standardem pro vytv��en� budouc�ch aplikac� v�oblasti zpracov�n� p�irozen�ho jazyka.
Z�kladem nejr�zn�j��ch metod automatick�ho zpracov�n� p�irozen�ho jazyka je morfologick� anal�za text�, tedy p�i�azen� hodnot morfologick�ch (tvaroslovn�ch) kategori� b�n�m slovn�m tvar�m (p�d, rod, ��slo podstatn�m jm�n�m, osoba, �as sloves�m, apod.). Bez t�to prim�rn� anal�zy nelze p�istoupit k�dal��mu zpracov�n�, jako je nap�. syntaktick� anal�za pot�ebn� pro automatick� p�eklad nebo rozpozn�v�n� mluven� �e�i. Tak� pro fulltextov� vyhled�v�n� v�dokumentech nebo jejich t��d�n� podle zadan�ch krit�ri� je t�eba zn�t nejen v�echny tvary kl��ov�ch slov, ale i p��padn� dal�� vztahy mezi jednotliv�mi slovy (nap�. vztahy deriva�n� nebo s�mantick�), aby v�sledek vyhled�v�n� �i t��d�n� byl �pln�.
K�tomu je pot�eba m�t morfologick� slovn�k, kter� obsahuje v�echny tvary v�ech slov v�jazyce s�jejich morfologick�mi hodnotami, dopln�n� o syntaktick�, deriva�n� a p��padn� i dal�� vztahy. Tohoto c�le v�ak nelze re�ln� dos�hnout, proto�e slov je p��li� mnoho, nov� vznikaj�, m�n� se v�znamy a slovn� vazby, a v�neposledn� �ad� se v��esk�ch textech objevuj� i slova ciz�, �asto s�nejednotn�m pravopisem. Takov� nezn�m� slova se dosud analyzuj� pomoc� tzv. guesseru, co� je n�stroj, kter� na z�klad� za��tku a hlavn� konce slovn�ho tvaru odhaduje, o jak� slovn� druh by se mohlo jednat a jak� mo�n� morfologick� zna�ky by slovu mohly b�t p�i�azeny. Setk�v�me se v�ak i s�takov�mi p��pady, kdy ur�it� slovn� tvar ve�slovn�ku p��tomen je, ale nehod� se na konkr�tn� v�skyt v�textu. Jde nap�. o�p��jmen� maj�c� tvar obecn�ho podstatn�ho nebo p��davn�ho jm�na, nebo p��jmen� pou�it� nikoliv jako jm�no osoby, ale jako jm�no firmy. Probl�mov� jsou p�edev��m vlastn� jm�na, ale pot�e mohou nastat i u jin�ch slov, vyskytuj�c�ch se ve�speci�ln�m kontextu.
V�zahrani�n� literatu�e se pro tuto kategorii slov pou��v� ozna�en� "named entities"; �esk�, dosud ne zcela zaveden� term�n je "pojmenovan� entity". Jsou to jedno- nebo v�ceslovn� v�razy, mezi kter� v�u���m smyslu pat�� p�edev��m jm�na osob, organizac�, geografick� n�zvy, n�zvy um�leck�ch artefakt� atd. V��ir��m smyslu sem �ad�me tak�
- �asov� �daje, p�edev��m data (nap�. 6.7.1415 n.l.),
- zkratky a zkratkov� slova,
- ��seln� v�razy, v�razy matematick� povahy,
- v�razy obsahuj�c� fyzik�ln�, m�nov� nebo jin� jednotky (a� u� vyj�d�en� slovem, zkratkou, nebo speci�ln�m symbolem),
- odkazy do strukturovan�ch dokument� (nap�. do z�kon� a vyhl�ek).
Tyto jazykov� v�razy se v�t�inou skl�daj� z�v�ce slov, ale oproti obecn�m v�ceslovn�m jednotk�m maj� tu v�hodu, �e se v�t�inou vyskytuj� v�kompaktn� ust�len� posloupnosti, a proto nen� tak obt�n� je v�textu odhalit, na rozd�l nap�. od fraz�m�, kter� mohou b�t modifikov�ny dal��mi v�tn�mi �leny a jejich� slovosled nen� pevn� dan�. Odhalen� v�ak nesta��, je t�eba je v�textu spr�vn� ozna�it. V�sou�asn� dob� se ka�d� slovn� tvar zpracov�v� jako samostatn� jednotka a dosud nebyl pro �e�tinu navr�en uspokojiv� syst�m, kter� by s�v�ceslovn�mi pojmenovan�mi entitami um�l zach�zet jako s�jedinou samostatnou jednotkou. Takov� zachycen� by m�l umo�nit nov� syst�m pro ukl�d�n� dat.
2. Formulace v�cn�ho obsahu a c�l�
2.1.Vymezen� probl�mu a c�l� projektu
Projekt se soust�ed� na vytvo�en� integrovan�ho syst�mu pro ukl�d�n� a vyu��v�n� jazykov�ch dat a jeho pou�it� p�i aktualizaci morfologick�ho slovn�ku �e�tiny, zejm�na jeho roz���en� o�pojmenovan� entity.
Projekt m� dva hlavn� c�le:
- Vytvo�en� prost�ed� integruj�c� r�znorod� jazykov� zdroje do propojen�ho celku s�jednotn�m form�tem a ��inn�mi n�stroji na zpracov�n�. To znamen� p�edev��m:
- navrhnout a implementovat obecn� XML sch�mata pro zachycen� textov�ch a slovn�kov�ch dat s�bohatou a mnohovrstevnou lingvistickou anotac�, umo��uj�c� efektivn� odd�len� anotovan�ch dat od samotn� anotace;
- do navr�en�ho form�tu p�ev�st v�znamn� st�vaj�c� datov� zdroje, zejm. Pra�sk� z�vislostn� korpus a n�kter� anota�n� slovn�ky;
- vytvo�it aplika�n� rozhran� a robustn� n�stroje pro pr�ci s�navr�en�mi datov�mi sch�maty, umo��uj�c� zpracov�n� anotovan�ch dat i ve�velk�ch objemech (v���du des�tek GB).
- Zpracov�n� pojmenovan�ch entit v��esk�ch textech. Zat�mco v�oblasti morfologie nebo v�tn� syntaxe se lze op��t o v�sledky pr�ce lingvist�, probl�mu detekce a klasifikace pojmenovan�ch entit v��esk�ch textech se dosud ��dn� projekt systematicky nev�noval. Pro angli�tinu se na �loze rozezn�v�n� pojmenovan�ch entit pracuje ve�v�t��m m���tku a� v�posledn�ch letech, v�t�inou jde ale jen o zjednodu�en� p��stupy bez zohledn�n� a vyu�it� pravidel v�tn� syntaxe. C�lem je tedy:
- vytvo�it teoretick� model pro automatick� zpracov�n� (p�edev��m detekci a klasifikaci) pojmenovan�ch entit v��esk�ch textech;
- navrhnout, implementovat a vyhodnotit softwarov� syst�m, kter� takov� zpracov�n� dok�e realizovat;
- v�sledky anal�zy pojmenovan�ch entit zahrnout do nov� vznikaj�c�ho syst�mu ukl�d�n� jazykov�ch dat.
2.2 V�znamnost �e�en� pro praxi nebo spole�enskou pot�ebu
Jednotn� form�t z�sadn�m zp�sobem usnadn� p�ed�v�n� jazykov�ch dat mezi akademickou lingvistickou komunitou, co� povede k�v�t�� efektivit� jazykov�dn�ho v�zkumu. P�edpokl�d�me, �e o�nov� vypracovan� form�t bude z�jem i v�zahrani��.
Rozpozn�n� pojmenovan�ch entit pak v�znamn� p�isp�je k�lep��m v�sledk�m morfologick� anal�zy, a pota�mo i dal��ch navazuj�c�ch aplikac� zpracov�n� �e�tiny, zejm�na v�existuj�c�ch i nov�ch syst�mech pro vyhled�v�n� na WWW, p�i z�sk�v�n� informac� z�textov�ch dat (data mining) a v�neposledn� �ad� i p�i strojov�m p�ekladu.
V�teoretick� oblasti pomohou v�sledky zpracov�n� pojmenovan�ch entit p�i zkoum�n� s�mantiky p�irozen�ho jazyka. Zpracovan� seznam s typologi� m��e b�t pou�it i v �esk� verzi hierarchick�ho s�mantick�ho syst�mu WordNet.
2.3 P�edpokl�dan� metodick� postup �e�en�
I.�Integrace jazykov�ch zdroj�
Nejprve bude nutn� navrhnout obecn� form�t zalo�en� na technologii XML umo��uj�c� zachycen� a propojen� textov�ch a slovn�kov�ch dat jednotn�m zp�sobem. Form�ln� popis navr�en�ho form�tu se uskute�n� pomoc� jazyk� XML Schemas a RelaxNG. Hlavn� d�raz bude kladen na mo�nost reprezentace mnohovrstevn� lingvistick� anotace. Nov� form�t bude navr�en tak, aby byl schopen reprezentovat i nov� pojat� zpracov�n� pojmenovan�ch entit. N�vazn� budou do nov� podoby p�evedeny v�znamn� st�vaj�c� lingvistick� zdroje a budou vytvo�eny n�stroje umo��uj�c� s touto reprezentac� efektivn� pracovat i ve velk�ch objemech (PDT1.0 obsahuje cca 0.5GB dat, do budoucna je v�ak pot�eba po��tat i s objemy ��dov� vy���mi, zejm�na s ohledem na rostouc� po�adavky ze strany metod zpracov�n� jazyka zalo�en�ch na strojov�m u�en�).
Navr�en� datov� reprezentace mus� umo��ovat vyu�it� metody stand-off anotace, kdy jsou anotovan� data odd�lena od samotn� anotace. Na podobn�m principu budou odd�leny jednotliv� vrstvy anotace. Unifikovan� form�t odkaz� umo�n� jak vz�jemn� propojen� anota�n�ch vrstev (rovin), tak prov�z�n� anotace s�anota�n�mi slovn�ky (morfologick� slovn�k, valen�n� slovn�k, apod.). N�kter� jazykov� jevy (nap�. pojmenovan� entity, jejich� podrobn� zpracov�n� tvo�� druhou ��st tohoto projektu) jsou p��tomny na v�ech rovin�ch zpracov�n� jazyka. Je d�le�it�, aby tyto jevy byly na v�ech anota�n�ch rovin�ch zpracov�ny jednotn�.
Ze�spole�n�ho z�kladu budou odvozena dedikovan� sch�mata, ur�en� pro specifick� anotace, spadaj�c� p�edev��m do n�sleduj�c�ch z�kladn�ch t��d:
- anotace line�rn�ho typu (nap�. morfologick� a slovn� s�mantick� anotace)
- anotace strukturn�ho typu (nap�. povrchov� syntaktick� anotace, hloubkov� syntaktick� - tektogramatick� - anotace)
- anota�n� slovn�ky (morfologick� slovn�k, valen�n� slovn�k, apod.)
- P�i n�vrhu d�l��ch sch�mat bude kladen d�raz p�edev��m na jejich monotonickou roz�i�itelnost, jako� i jednotnost v�p��stupu k�technick�m jev�m spole�n�m pro v�t�inu anotac� (�e�en� ambiguity, alternativ na �rovni anota�n�ch jednotek i cel�ch struktur).
V druh� f�zi budou do navr�en�ho form�tu p�evedeny v�znamn� st�vaj�c� datov� zdroje, je� byly dosud k�dispozici v�nejednotn�ch nebo propriet�rn�ch form�tech. Zejm�na p�jde o�Pra�sk� z�vislostn� korpus, a to nejen ve�verzi PDT 1.0 s�morfologickou a povrchov� syntaktickou anotac�, ale i o dal�� verzi PDT (PDT 2.0) s�navazuj�c� tektogramatickou anotac�, kter� bude k�dispozici b�hem prvn�ho roku �e�en� projektu. Do syst�mu bude zahrnut t� Pra�sk� z�vislostn� korpus arab�tiny (PADT), Pra�sk� �esko-anglick� z�vislostn� korpus (PCEDT) a existuj�c� anota�n� slovn�ky (mj. valen�n� slovn�k PDT ValLex).
Sou�asn� budou vyv�jena obecn� aplika�n� rozhran� a robustn� n�stroje pro pr�ci s�takto pojat�mi anota�n�mi sch�maty a s�anotacemi zalo�en�mi na stand-off principu obecn�. Budou vytvo�eny n�stroje ur�en� k�efektivn�mu automatick�mu zpracov�n� anotovan�ch dat, umo��uj�c� mj. t� indexaci, vyhled�v�n�, porovn�v�n� r�zn�ch verz� a slu�ov�n� zm�n. Aplika�n� rozhran� syst�mu umo�n�, aby do n�j byly n�sledn� vkl�d�ny roz�i�uj�c� u�ivatelsky definovan� moduly ur�en� ke�komputa�n�-lingvistick�m v�po�t�m, tr�nov�n� statistick�ch metod, apod. Tyto n�stroje budou navr�eny a implementov�ny tak, aby umo�nily efektivn� zpracov�n� anotovan�ch dat i ve�velk�ch objemech (v���du des�tek GB).
Nov� form�t by m�l b�t navr�en tak, aby umo��oval uchov�n� a n�sledn� zpracov�n� i t�ch jazykov�ch zdroj�, kter� dosud nebyly p�evedeny do elektronick� podoby. Za t�m ��elem bychom cht�li digitalizovat ur�itou ��st slovn� kartot�ky �stavu pro jazyk �esk�, kter� je zat�m pouze v�l�stkov�m archivu, a p�ev�st ji do nov�ho form�tu.
V neposledn� �ad� budou v�r�mci projektu p�epracov�ny �i upraveny v�sou�asn� dob� pou��van� anota�n� n�stroje (zejm. editor stromov�ch struktur TrEd) tak, aby umo��ovaly pr�ci s�datov�mi zdroji zalo�en�mi na XML sch�matech vyvinut�ch v�r�mci projektu.
II.�Pojmenovan� entity
V�prvn� f�zi bude nutno prov�st anal�zu typ� pojmenovan�ch entit. Budeme vych�zet ze�zahrani�n�ch pramen�, kde je probl�m ji� �e�en (p�edev��m pro angli�tinu). D� se o�ek�vat, �e �e�tina bude vykazovat ur�it� specifika, kter� bude nutno vz�t v��vahu.
Po vypracov�n� typologie �esk�ch pojmenovan�ch entit se bude muset prov�st revize st�vaj�c�ho morfologick�ho slovn�ku, pou��van�ho pro morfologickou anal�zu �esk�ho n�rodn�ho korpusu, PDT a dal��ch. Vytipujeme v�echny pojmenovan� entity, zpracujeme je podle vytvo�en� typologie a vytvo��me jejich seznam.
Podle typologie budeme vyv�jet robustn� syst�m pro detekci a klasifikaci pojmenovan�ch entit na z�klad� kombinace symbolick�ch (pravidlov�ch a slovn�kov�ch) a statistick�ch metod.
Sou�asn� se bude pracovat na ru�n� anotaci vybran�ch text�, aby bylo na �em pozd�j�� v�sledky automaticky testovat.
Vytvo�en� detek�n� syst�m se bude testovat na ru�n� anotovan�ch datech a posl�ze se vyhodnot�. V�p��pad�, �e se syst�m osv�d��, m��eme je�t� vytvo�it n�stroj pro automatick� p�id�v�n� pojmenovan�ch entit do seznamu, v�etn� jejich automatick� klasifikace.
Uv�d�me stru�n� seznam pojmenovan�ch entit, kter�m je t�eba v�novat zvl�tn� pozornost, nebo� v�sou�asn� dob� p�sob� nej�ast�j�� probl�my p�i zpracov�n� �e�tiny:
��slovky
��slovky pat�� mezi kategorie slov, kter� jsou otev�en�, to znamen�, �e nelze vytvo�it jejich �pln� seznam. P�esto je t�eba je p�i anal�ze v�dy spr�vn� rozeznat (jde p�edev��m o ��slovky ur�it�). Nen� mo�n� zahrnout do slovn�ku ��slovky vyjad�uj�c� v�echna ��sla, nav�c existuje �asto velk� mno�stv� mo�nost�, jak ur�itou ��slovku zapsat (dvacet dva, dvacet dv�, dvacetdva, dvaadvacet, ...). Ne v�echny z�t�chto mo�nost� jsou v�dy spisovn�, ale v�echny se vyskytuj� v textech, a proto je t�eba je v�echny (v�etn� nespisovn�ch) um�t rozeznat.
Data
P�i b�n� morfologick� anal�ze se v�raz "6.�7.�1415" rozpozn� jako posloupnost p�ti slovn�ch tvar�: "6", ".", "7", ".", "1415". P�itom je ka�d�mu z�ejm�, �e se jedn� o datum, kter� by se rozd�lovat na jednotliv� ��sti nem�lo.
P��jmen�
Velk� probl�m d�laj� �esk� p��jmen�, kter� maj� tvar obecn�ho slova � substantiva, adjektiva, nebo, co� je pro anal�zy nejhor��, slovesa, nap�. Kohoutek, Zelen�, Dohnal. Je rozumn� zahrnout p��mo do slovn�ku jen ta nejb�n�j��. Vzhledem k tomu, �e t�m�� ka�d� podstatn� jm�no m��e b�t i p��jmen�m, je t�eba um�t dal�� p��jmen� rozpozn�vat automaticky podle v�tn�ho kontextu.
Slovn� spojen�
Pro spr�vnou anal�zu je zapot�eb� obohatit slovn�k o nejb�n�j�� slovn� spojen�, kter� se vyskytuj� v�dy pohromad�. Na rozd�l od fraz�m�, kter� je v�t�inou mo�no modifikovat dal��mi v�tn�mi �leny, n�m p�jde o slovn� spojen�, mezi jejich� komponenty nelze vlo�it ��dn� dal�� slovo, nap�. New York, Rio de Janeiro, Petr Velik�. U t�chto spojen� je potom t�eba uva�ovat r�zn� varianty sklo�ov�n�, kter�, hlavn� u ciz�ch slov, ne v�dy logicky odpov�d� �esk�mu pravopisu. Nem� smysl pracovat se spojen�m "Rio de Janeiro" jako se t�emi slovy, zvl�t� kdy� se sklo�ov�n� takov�ch spojen� �asto ne��d� ��dn�mi pravidly � m��eme se setkat s�v�razy "v�Rio de Janeiro", "v�Riu de Janeiro", "v�Riu de Janeiru", nebo dokonce i "v�Rio de Janeiru". Takov� chov�n� slovn�ch spojen� velmi komplikuje n�slednou syntaktickou anal�zu i dal�� zpracov�n� text�, je tedy t�eba automaticky rozpoznat, �e se jedn� o�jedinou slovn� jednotku v�ur�it�m p�d�, kter�mu ne nutn� mus� odpov�dat p�dy jednotliv�ch sou��st� slovn�ho spojen�. Podobn� se chovaj� ciz� vlastn� jm�na ve�spojen� s�p��jmen�m � "se�Stanley Fischerem", ale "se�Stanleyem Turrentinem" � p��klady jsou z��esk�ho n�rodn�ho korpusu.
2.4 P�ibli�n� �asov� rozvrh
1. rok
- Podrobn� anal�za po�adavk� st�vaj�c�ch zdroj� na datovou reprezentaci.
- N�vrh obecn�ch XML sch�mat propojuj�c�ch anota�n� vrstvy, zachycen� metadat, odkaz�, typov�n�.
- Implementace spodn�ch rovin reprezentace (tokenizace, segmentace, alignment, morfologick� rovina).
- Anal�za pojmenovan�ch entit v��esk�ch textech, srovn�n� s cizojazy�n�mi prameny.
- Vytvo�en� typologie pojmenovan�ch entit.
- Vypracov�n� podrobn� specifikace (anota�n�ho sch�matu) na anotaci �esk�ch pojmenovan�ch entit.
- Ov��ov�n� anota�n�ho sch�matu na mal�m vzorku dat.
2. rok
- N�vrh obecn�ch sch�mat pro anotace strukturn�ho typu (analytick�, tektogramatick� rovina).
- Vytvo�en� n�stroj� pro automatizovan� p�evod ze st�vaj�c�ch form�t�, zejm. z�dosud pou��van�ho form�tu CSTS pro ulo�en� korpus�.
- Anal�za a experimenty s mo�nostmi ukl�d�n� velk�ho mno�stv� XML dat, indexace, paralelizace.
- Vytvo�en� seznamu pojmenovan�ch entit a jejich ��ste�n� automatick� anotace.
- Revize st�vaj�c�ho morfologick�ho slovn�ku s�ohledem na pojmenovan� entity.
- Ru�n� anotace vybran�ch text� (prvn�ch 10 tis�c v�t z PDT).
- V�voj n�stroj� na automatickou detekci a anotaci pojmenovan�ch entit v�textu.
3. rok
- Implementace konkr�tn�ch sch�mat d�l��ch anotac� a anota�n�ch slovn�k�.
- N�vrh a testov�n� aplika�n�ho rozhran� pro zpracov�n� integrovan�ch datov�ch zdroj�.
- Vytvo�en� z�kladn�ch n�stroj� (indexace, vyhled�v�n�, zpracov�n� prost�ednictv�m maker).
- Zah�jen� pr�c� na p�evodu anota�n�ch n�stroj�.
- Pokra�ov�n� ru�n� anotace vybran�ch text� (20 tis�c v�t z PDT).
- Testov�n� automatick�ch metod na ru�n� anotovan�ch textech.
- Vyhodnocen� test�, p��padn� modifikace syst�mu podle dosa�en�ch v�sledk�.
4. rok
- P�evod PDT, PADT, PCEDT a souvisej�c�ch slovn�k� do nov�ho syst�mu.
- Implementace vyhled�vac�ch n�stroj� s u�ivatelsk�m rozhran�m, ur�en�ch pro �ir��, zejm. lingvisticky orientovanou ve�ejnost.
- Propojen� syst�mu s dal��mi existuj�c�mi datov�mi zdroji a n�stroji (v�etn� zahrani�n�ch).
- Vyu�it� automatick�ch metod na detekci a klasifikaci pojmenovan�ch entit pro ozna�kov�n� cel�ho �NK.
5. rok
- Vypracov�n� podrobn� dokumetace k�ob�ma ��stem projektu.
- Souhrnn� publikace v�sledk� ve form� technick� zpr�vy.
- Zve�ejn�n� seznamu pojmenovan�ch entit na Internetu.
- Zve�ejn�n� specifikace XML sch�mat, aplika�n�ch rozhran� syst�mu a vyvinut�ch n�stroj�.
- Vytvo�en� Internetov�ho rozhran� umo��uj�c�ho snadn� p��stup k�integrovan�m zdroj�m.
Pr�b�n�
- Prezentace ��ste�n�ch v�sledk� na �esk�ch i mezin�rodn�ch konferenc�ch a semin���ch.
3. Podm�nky pro �e�en� projektu
3.1.Vybaven� �e�itelsk�ho pracovi�t�
Pracovi�t� navrhovatele se specializuje na matematickou lingvistiku, zejm�na na automatick� zpracov�n� p�irozen�ho jazyka. K�tomu m� vytvo�en� z�zem� v�podob� sehran�ho t�mu odborn�k� jak z�oblasti jazykov�dy, tak i z�oblasti matematiky a informatiky. Teorie i jejich aplikace zde vypracovan� a implementovan� jsou vysoce cen�ny nejen mezi �esk�mi odborn�ky, ale i v�zahrani��.
Pracovi�t� spolunavrhovatele se zab�v� z�kladn�m i aplikovan�m v�zkumem v�ech oblast� �esk�ho jazyka.
Ob� pracovi�t� poskytnou projektu kvalitn� z�zem� pro �e�en� � propracovan� lingvistick� teorie, zku�enosti i p��strojov� vybaven�.
3.2.Person�ln� podm�nky
RNDr. Jaroslava Hlav��ov� se v�oboru automatick�ho zpracov�n� p�irozen�ho jazyka zab�v� v�sou�asn� dob� p�edev��m morfologi� �e�tiny. M� tak� zku�enosti s��esk�m n�rodn�m korpusem, na jeho� vytv��en� se dlouho aktivn� pod�lela. V�projektu se zam��� na obohacen� st�vaj�c�ho �esk�ho morfologick�ho slovn�ku o pojmenovan� entity.
Ing. Zden�k �abokrtsk� je autorem anota�n�ho sch�matu a SW n�stroj� v�lexikografick�m projektu VALLEX. M� zku�enosti i s�cizojazy�n�mi daty (PENN Treebank, n�meck� korpusy NEGRA/TIGER. V projektu se bude zab�vat v�vojem softwarov�ch n�stroj� a koordinac� jednotliv�ch �innost� souvisej�c�ch se zpracov�n�m pojmenovan�ch entit.
Mgr. Petr Pajas a Mgr. Jan �t�p�nek pracovali na zna�kov�n� analytick� roviny PDT a automatick�m testov�n� konzistence anotovan�ch dat. Oba jsou experti na XML. V�projektu se budou zab�vat anal�zou st�vaj�c�ch jazykov�ch zdroj� a n�sledn�m n�vrhem a implementac� nov�ch struktur jazykov�ch dat.
Mgr. Daniel Zeman se dlouhodob� zab�v� automatickou syntaktickou anal�zou �esk� v�ty s�vyu�it�m statistick�ch metod. V�projektu bude pracovat na n�vrhu nov�ch datov�ch struktur pro �esk� jazykov� zdroje.
Doktorandi Mgr. Pavel Kv�to� a Mgr. V�clav Honetschl�ger se zab�vaj� statistick�mi i pravidlov�mi metodami morfologick� desambiguace a v�projektu budou testovat metody automatick� detekce pojmenovan�ch entit.
Doktorandky Magda Razimov� a Mgr. Marie Mikulov� maj� autorsk� pod�l na p��prav� manu�lu pro zna�kov�n� PDT a zku�enosti s�ru�n�m anotov�n�m. V�r�mci projektu se budou pod�let na vypracov�n� typologie pojmenovan�ch entit. Povedou tak� t�m ru�n�ch anot�tor�, kter� budeme rekrutovat ze student� lingvistick�ch a informatick�ch obor� MFF a FF UK.
Mgr. Milan Fu��k je spr�vcem po��ta�ov� s�t� na pracovi�ti navrhovatele. V�projektu bude zodpov�dat za spr�vu po��ta�ov�ho a programov�ho z�zem�.
Doc. RNDr. Karel Oliva, Dr., je �editelem �J� AV �R. Jeho u��� odbornou specializac� je matematick� lingvistika, zejm�na v�oblasti syntaktick�ho zpracov�n� psan�ho textu. M� d�le rozs�hl� zku�enosti v�pr�ci s�jazykov�mi korpusy. Krom� koordinace pr�ce se v�projektu bude v�novat vymezen� mo�n�ch syntaktick�ch pozic pojmenovan�ch entit v��esk�m textu.
PhDr. Jarmila Bachmannov�, CSc., je z�stupkyn� �editele a v�deckou tajemnic� �J� AV �R. V�projektu se bude v�novat p�edev��m ot�zk�m digitalizace st�vaj�c�ch jazykov�ch zdroj� v�majetku �J� AV �R a jejich konverzi do form�tu, kter� bude v�r�mci projektu nov� vyvinut.
Ing. Jana Kl�mov�, Ph.D., je odbornic� na �eskou slovotvorbu. V�projektu se bude v�novat deriva�n�m vztah�m pojmenovan�ch entit ke slov�m b�n� slovn� z�soby.
Doktorand PhDr. Pavel �t�p�n se specializuje na onomastiku (m�stn� a pom�stn� jm�na, vlastn� jm�na). Bude se proto v�projektu v�novat zejm�na anal�ze vzniku, postaven� a u�it� pojmenovan�ch entit.
Petr Berdych je spr�vcem programov�ho vybaven� a po��ta�ov� s�t� �J� AV �R. V�projektu bude zodpov�dn� za stav a �dr�bu po��ta��.