EN CZE
UFAL
Registrační číslo GA AV ČR: 1ET101120503
Interní kód MFF: 207-14 / 242083
Předpokládaná doba řešení projektu: 2005 - 2009
Cíl projektu: Navržení a implementace obecného formátu a nástrojů pro jednotné zpracování jazykových dat nejrůznějšího charakteru, systém pro automatické vyhledávání a anotaci "pojmenovaných entit" v českých textech.
Zdůvodnění projektu: DOC, HTML
Charakteristika projektu: Projekt aplikovaného výzkumu "Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů" řeší problém nekompatibility současných jazykových dat určených k lingvistickému výzkumu. Výsledkem bude jednotný systém pro uchovávání a všestranné využívání jazykových zdrojů opatřený robustními nástroji pro efektivní práci s texty. Do nového systému budou převedeny veškeré dostupné jazykové zdroje pro český jazyk. Současně se projekt zabývá detekcí a klasifikací tzv. pojmenovaných entit v českých textech, které zatím nebyly zpracovány a jejichž zahrnutí do jednotného systému dat zlepší výsledky automatického zpracování jazyka, zejména v oblasti vyhledávání informací z velkých textových databází.
Hlavní řešitel
Jaroslava Hlaváčová Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta Univerzity Karlovy
Malostranské nám. 25
118 00 Praha 1
tel.: +420-221 914 360, fax: +420-221 914 309
e-mail: hlava at ufal dot mff dot cuni dot cz
Spoluřešitel

Ústav pro jazyk český
Akademie věd ČR
Letenská 4/123
118 51 Praha 1