PARSEME: Parsing a víceslovné výrazy - k jazykovědné přesnosti a výpočetní efektivitě ve zpracování přirozeného jazyka

 

Tento projekt zvýší podporu evropského multilingválního prostoru a evropského jazykového a kulturního dědictví ze strany informačních technologií. Konkrétně je tento cíl realizován pomocí metod počítačové lingvistiky, zejména z oblasti formální jazykové reprezentace, přesnosti zpracování a zvýšení efektivnosti metod a algoritmů v oblasti zpracování přirozeného jazyka, a to pro jeden ze zásadních a dosud nevyřešených problémů v této oblasti: teoretický popis víceslovných výrazů z hlediska významu a použití v běžné lidské řeči, mluvené i psané. Víceslovné výrazy se velmi často chovají zcela nepředpověditelně (nekompozičně) v tom smyslu, že není možno určit význam celého výrazu z jeho komponent, tj. z jednotlivých slov. K tomu dochází například ve výrazech jako „vysoká škola“ nebo „jet na černo.“ Podstatný pokrok lze zajistit jenom koordinovaným postupem expertů z několika vědních disciplín a zejména současným paralelním zkoumáním většího počtu jazyků. Tak bude možno problémy s určením významu víceslovných výrazů dostatečně zobecnit a následně vyřešit. V projektu COST IC1207 PARSEME se schází experti pro 14 evropských jazyků, kteří se daným problémem budou zabývat z interdisciplinární perspektivy a z hlediska použití mnoha různých přístupů, teoretických i technických. Očekávanými výstupy jsou zejména jazykové zdroje v adekvátní reprezentaci (slovníky s vazbou jak na formu, tak na význam víceslovných frází a termínů), nástroje na jejich tvorbu, zpracování a ověřování, a rovněž soubor doporučení („best practices“) pro další postup v návazných aplikovaných projektech. Výsledkem budou nejen konkrétní publikace a jazykové zdroje, ale i navázané vztahy se zahraničními pracovišti pracujícími na daném problému, znamenající efektivnější pokračování v řešení dané problematiky i po skončení projektu.

Tento projekt je podporován EU, projekt IC1207 (COST) a rovněž MŠMT ČR v programu COST CZ, projekt č. LD14117.