Registrační číslo GA AV ČR:
1ET101120503
Interní kód MFF: 207-14 /
242083
Předpokládaná doba řešení projektu:
2005 - 2009
Cíl projektu:
Navržení a implementace obecného
formátu a nástrojů pro jednotné zpracování
jazykových dat nejrůznějšího charakteru, systém
pro automatické vyhledávání a anotaci
"pojmenovaných entit" v českých
textech.
Charakteristika projektu:
Projekt aplikovaného výzkumu
"Integrace jazykových zdrojů za účelem extrakce
informací z přirozených textů" řeší problém
nekompatibility současných
jazykových dat určených k lingvistickému
výzkumu. Výsledkem bude jednotný
systém pro uchovávání a všestranné využívání
jazykových zdrojů opatřený
robustními nástroji pro efektivní práci s texty.
Do nového systému budou
převedeny veškeré dostupné jazykové zdroje pro
český jazyk. Současně se
projekt zabývá detekcí a klasifikací tzv.
pojmenovaných entit v českých
textech, které zatím nebyly zpracovány a jejichž
zahrnutí do jednotného
systému dat zlepší výsledky automatického
zpracování jazyka, zejména
v oblasti vyhledávání informací z velkých
textových databází.