JAZZ Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů Projekt Informační společnosti Grantové agentury Akademie věd ČR

Korpusová vize

9.srpna 2007 Magda, Zdeněk, Jarka

Začneme používat velký korpus SYN2005. Johanka napsala, kde je.

Vezmeme tu nejlepší otagovanou verzi a spustíme na ni Oldřichův rozpoznávač pojmenovaných entit (Oldřich by měl svému nástroji dát jméno.)

Výsledek se uloží do ne-roviny vytvořené v PML, aby se dal prohlížet a aby se v něm daly dělat opravy pomocí ntredu.

Ověří se, jak si rozpoznávač poradil s případy, které jsou sepsané ve zprávě z ÚJČ někdy z jara (má Zdeněk). Ověřovat to bude primárně Oldřich, možná zainteresujeme i Honzu Raaba.

Nalezené opravitelné chyby se budou rovnou v ntredu opravovat pomocí k tomu speciálně napsaných maker. To bude dělat Oldřich a případně i Honza R.

Tímto způsobem se jednak opraví korpusová data, a jednak se získají nástroje k opravování dalších případných zdrojů. Současně se budou dělat zásahy do morfologického slovníku v případech, kdy se narazí na nějaké nesrovnalosti. Zásahy se mohou dělat i do procesu morfologické analýzy - především vytvoření a následně různé úpravy guessru.

Po určité době se korpus znovu otaguje na základě upravené morfologické analýzy (včetně slovníku) a proces hledání chyb a jejich oprav bude pokračovat. Občas (frekvence bude záležet na množství a typu chyb, které se opraví) bude potřeba přetrénovat i tagger.

Než se tohle všecko začne provádět, je třeba

- vymyslet způsob verzování korpusů,
- vymyslet způsob archivace opravných maker - je třeba přesně vědět i pořadí, v jakém se spouštěly,
- zajistit místo, kde se všechno bude ukládat.

Tohle prokonzultuje Zdeněk s Petrem a s Milanem.

Během úprav korpusu se zjistí, zda je ntred schopen pracovat s tak velkým množstvím dat (to je dokonce součástí jazzového projektu). Pokud ne, bude třeba se tím zabývat (Petr, Honza Š.).

Úpravy v korpusu se budou týkat nejenom pojmenovaných entit, ale všeho, na co se narazí. Výsledkem bude "čistý", nebo lépe "stále čistší" korpus, se stále se zmenšujícím počtem chyb v morfologickém značení, navíc označkovaný i na úrovni pojmenovaných entit.

Jarka

Hlavní řešitel
Jaroslava Hlaváčová Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta Univerzity Karlovy
Malostranské nám. 25
118 00 Praha 1
tel.: +420-221 914 360, fax: +420-221 914 309
e-mail: hlava at ufal dot mff dot cuni dot cz

Spoluřešitel

Ústav pro jazyk český
Akademie věd ČR
Letenská 4/123
118 51 Praha 1