JAZZ
Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Projekt Informační společnosti Grantové agentury Akademie věd ČR
UFAL
Slíbeno na rok 2007 v původním zadání:
3.rok
- Implementace konkrétních schémat dílčích anotací a anotačních slovníků.
- Návrh a testování aplikačního rozhraní pro zpracování integrovaných datových zdrojů.
- Vytvoření základních nástrojů (indexace, vyhledávání, zpracování prostřednictvím maker).
- Zahájení prácí na převodu anotačních nástrojů.
- Pokračování ruční anotace vybraných textů (20 tisíc vět z PDT).
- Testování automatických metod na ručně anotovaných textech.
- Vyhodnocení testů, případné modifikace systému podle dosažených výsledků.
Upřesnění ve zprávě za loňský (2006) rok pro rok 2007
A. Pojmenované entity
- další vývoj systému pro automatické rozpoznávání entit,
- implementace prostředí pro vizualizaci a anotaci pojmenovaných entit na tekto gramatické rovině v editoru stromů TrEd, případně i pilotní ruční anotace na té to rovině,
- zahájení systematického shromažďování lexikálních zdrojů (rejstříky geografických názvů atd.),
- ruční anotace dalších vět obsahujících pojmenované entity.
B. Jednotný formát
- další experimenty a vyhodncení možností zpracování dat ve formátu PML ve velkých objemech,
- experimenty s PML ve vztahu k relační databázi,
- rozšíření PML formátu o slovníkové a další relační role,
- převod existujících anotačních slovníků do PML,
- návrh a testování aplikačního rozhraní pro zpracování integrovaných datovýchzdrojů,
- práce na PML podpoře v nástrojích (anotační nástroje TrEd s podporou maker a MEdit byly již pro PML upraveny).
Z původního návrhu na další rok (2008):
4.rok
- Převod PDT, PADT, PCEDT a souvisejících slovníků do nového systému.
- Implementace vyhledávacích nástrojů s uživatelským rozhraním, určených pro širší, zejm. lingvisticky orientovanou veřejnost.
- Propojení systému s dalšími existujícími datovými zdroji a nástroji (včetně zahraničních).
- Využití automatických metod na detekci a klasifikaci pojmenovaných entit pro označkování celého ČNK.