Ústav formální a aplikované lingvistiky (ÚFAL) je jedním ze specializovaných pracovišť Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Jsme tým vědeckých pracovníků, programátorů, pedagogů a studentů, kteří společně pracují na široké škále témat spojených s dynamicky se rozvíjejícím oborem počítačové lingvistiky.
Tradice našeho pracoviště sahá do 60. let 20. století. Díky dlouholetým zkušenostem dosahujeme špičkových výsledků v oboru zpracování přirozeného jazyka (natural language processing, NLP), což dokládá i vysoký počet mezinárodně uznávaných článků a monografií našich pracovníků. Pracujeme také na řadě projektů a aplikací, které v praxi využívají státní i soukromé organizace.
Kromě výzkumných aktivit nabízí ÚFAL také rozsáhlý program výuky jak pro magisterský stupeň (Mgr., MSc.), tak pro doktorské studium v oboru matematická lingvistika. V rámci bakalářského studia zajišťujeme výuku v profilu matematická lingvistika oboru obecná informatika. Součástí výuky jsou také předměty mezinárodního programu LCT zaštítěného Evropskou unií.
Historie ÚFALu je spjata s vývojem funkčního generativního popisu, lingvistické teorie formulované kolektivem prof. Petra Sgalla počátkem 60. let uplynulého století. Funkční generativní popis (FGP), motivovaný potřebami strojového překladu, pohlíží na větu jako na systém vzájemně propojených rovin: fonologické, morfematické, morfonologické, analytické (tj. povrchová syntax) a tektogramatické (hloubková syntax). Na základě této teorie vytvořili pracovníci ÚFALu celou řadu závislostních korpusů (tzv. treebanků), které jsou využívány při řešení nejrůznějších komputačně-lingvistických úloh.
Nejstarším a největším z našich treebanků je Pražský závislostní korpus (Prague Dependency Treebank, PDT), využívaný akademickými pracovišti i jednotlivci po celém světě. Aktuální verze 2.5 byla přizpůsobena současným potřebám výzkumu v oblasti počítačové lingvistiky, při anotaci jsme použili nejnovější technologie. Součástí korpusu jsou softwarové nástroje určené k jeho prohledávání, anotaci i jazykové analýze. Schéma typické věty v PDT:
Na základě FGP jsme vytvořili závislostní korpusy také pro další jazyky, např. angličtinu nebo arabštinu. V rámci PDT poskytujeme i rozšíření zaměřená na další roviny jazyka (např. rovinu diskurzu nebo sentiment analysis).
Vyvíjíme řadu nástrojů pro NLP, např. Treex – kompletní modulární sadu nástrojů pro zpracování češtiny a několika dalších jazyků. Vyzkoušejte Treex online! Vyzkoušet můžete také naši inteligentní kontrolu pravopisu spojenou s o(d)háčkovačem.
Výzkum strojového překladu (machine translation, MT) je jedním ze zásadních témat současné komputační lingvistiky, a tedy i našeho pracoviště. ÚFAL se pravidelně účastní soutěží v MT v rámci workshopu statistického strojového překladu (WMT). Podle posledního hodnocení je náš systém Chiméra v současnosti nejpokročilejším systémem pro anglicko-český překlad na světě, překonává i službu Google Translate.
Chiméra je kombinace dvou odlišných přístupů: statistického systému Moses a našeho lingvisticky orientovaného systému TectoMT, který staví na teorii funkčního generativního popisu a spojuje ji s nejnovějšími metodami strojového učení.
Vyzkoušejte on-line ukázku překladače pro projekt Khresmoi (systém zaměřený na překlad vyhledávacích dotazů z oblasti medicíny).
Řečové dialogové systémy představují kombinací komplexních úloh NLP – vyžadují vysokou kvalitu rozpoznávání mluvené řeči (vstupu od uživatele), pokročilé modely sémantiky a dialogového stavu, na výstupu pak syntézu řeči. Na problematiku dialogových systémů je na ÚFALu zaměřen projekt Vystadial. Cílem tohoto projektu je studovat a zlepšit metody učení statistických modelů používaných v komplexních dialogových systémech. Díky týmu Vystadial můžete hlasově vyhledat dopravní spojení v Praze! Zavolejte našemu dialogovému systému ALEX zdarma: 800 899 998.
Do oblasti dialogových systémů spadá také projekt Companions, ve kterém jsme vytvořili avatara Petru zprostředkovávajícího interakci mezi člověkem a počítačem. Chcete-li si s Petrou povídat, přidejte si v GMailu uživatele czech.companion@gmail.com.
Centrum vizuální historie Malach poskytuje lokální přístup k rozsáhlým digitálním archivům nadace USC Shoah, jež obsahují přes 50 tisíc svědeckých výpovědí pokrývajících historii celého 20. století. ÚFAL se podílel na vývoji nástrojů pro lingvistické zpracování českých dat.
Vytvořili jsme několik jazykových her, které si můžete zahrát online.
ÚFAL v minulosti organizoval řadu mezinárodních konferencí, např. výroční setkání Asociace počítačové lingvistiky (ACL) v roce 2007, konferenci Depling 2013 nebo Machine Translation Marathon v letech 2009 a 2013.
V rámci série přednášek organizovaných na počest profesora Fredericka Jelinka na ÚFALu pravidelně vystupují přední vědci oboru z celého světa. Videozáznamy přednášek i pravidelných pondělních seminářů jsou dostupné online.
Zabýváme se i dalšími úlohami NLP, např. automatickým rozpoznáváním mluvené řeči, automatickým získáváním informací, neurolingvistikou, detekcí postojů nebo aplikacemi pro výuku jazyků.
Jan Cuřín - nyní v IBM, Praha
Martin Čmejrek - nyní v IBM, New York
Jiří Havelka - nyní v IBM, Praha
Magda Hnátková - nyní v Arriba, San Francisco
Pavel Krbec - nyní v CET21, Praha
Pavel Květoň - nyní v IBM, Praha
Martin Majliš - nyní v Amazon, Toronto
Petr Pajas - nyní v Google, Zürich
Petr Podveský - nyní v RWE, Praha
Jan Rouš - nyní v Google, Mountain View
Jiří Semecký - nyní v Google, Zürich
Otakar Smrž - nyní v Seznam, Praha
Jan Štěpánek - nyní v Barclays, Praha