Korpusová vize
9.srpna 2007
Magda, Zdeněk, Jarka
Začneme používat velký korpus SYN2005. Johanka napsala, kde je.
Vezmeme tu nejlepší otagovanou verzi a spustíme na ni Oldřichův rozpoznávač pojmenovaných entit (Oldřich by měl svému nástroji dát jméno.)
Výsledek se uloží do ne-roviny vytvořené v PML, aby se dal prohlížet a aby se v něm daly dělat opravy pomocí ntredu.
Ověří se, jak si rozpoznávač poradil s případy, které jsou sepsané ve zprávě z ÚJČ někdy z jara (má Zdeněk). Ověřovat to bude primárně Oldřich, možná zainteresujeme i Honzu Raaba.
Nalezené opravitelné chyby se budou rovnou v ntredu opravovat pomocí k tomu speciálně napsaných maker. To bude dělat Oldřich a případně i Honza R.
Tímto způsobem se jednak opraví korpusová data, a jednak se získají nástroje k opravování dalších případných zdrojů. Současně se budou dělat zásahy do morfologického slovníku v případech, kdy se narazí na nějaké nesrovnalosti. Zásahy se mohou dělat i do procesu morfologické analýzy - především vytvoření a následně různé úpravy guessru.
Po určité době se korpus znovu otaguje na základě upravené morfologické analýzy (včetně slovníku) a proces hledání chyb a jejich oprav bude pokračovat. Občas (frekvence bude záležet na množství a typu chyb, které se opraví) bude potřeba přetrénovat i tagger.
Než se tohle všecko začne provádět, je třeba
- - vymyslet způsob verzování korpusů,
- - vymyslet způsob archivace opravných maker - je třeba přesně vědět i pořadí, v jakém se spouštěly,
- - zajistit místo, kde se všechno bude ukládat.
Tohle prokonzultuje Zdeněk s Petrem a s Milanem.
Během úprav korpusu se zjistí, zda je ntred schopen pracovat s tak velkým množstvím dat (to je dokonce součástí jazzového projektu). Pokud ne, bude třeba se tím zabývat (Petr, Honza Š.).
Úpravy v korpusu se budou týkat nejenom pojmenovaných entit, ale všeho, na co se narazí. Výsledkem bude "čistý", nebo lépe "stále čistší" korpus, se stále se zmenšujícím počtem chyb v morfologickém značení, navíc označkovaný i na úrovni pojmenovaných entit.
Jarka