Registrační číslo GA AV ČR: 1ET101120503
Interní kód MFF: 207-14 / 242083
Předpokládaná doba řešení projektu: 2005 - 2009
Cíl projektu:
Navržení a implementace obecného formátu a nástrojů pro jednotné zpracování
jazykových dat nejrůznějšího charakteru, systém pro automatické vyhledávání a anotaci "pojmenovaných entit" v českých textech.
Charakteristika projektu:
Projekt aplikovaného výzkumu "Integrace jazykových zdrojů za účelem extrakce
informací z přirozených textů" řeší problém nekompatibility současných
jazykových dat určených k lingvistickému výzkumu. Výsledkem bude jednotný
systém pro uchovávání a všestranné využívání jazykových zdrojů opatřený
robustními nástroji pro efektivní práci s texty. Do nového systému budou
převedeny veškeré dostupné jazykové zdroje pro český jazyk. Současně se
projekt zabývá detekcí a klasifikací tzv. pojmenovaných entit v českých
textech, které zatím nebyly zpracovány a jejichž zahrnutí do jednotného
systému dat zlepší výsledky automatického zpracování jazyka, zejména
v oblasti vyhledávání informací z velkých textových databází.