Kdo jsme

Ústav formální a aplikované lingvistiky (ÚFAL) je jedním ze specializovaných pracovišť Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Jsme tým vědeckých pracovníků, programátorů, pedagogů a studentů, kteří společně pracují na široké škále témat spojených s dynamicky se rozvíjejícím oborem počítačové lingvistiky.

Tradice našeho pracoviště sahá do 60. let 20. století. Díky dlouholetým zkušenostem dosahujeme špičkových výsledků v oboru zpracování přirozeného jazyka (natural language processing, NLP), což dokládá i vysoký počet mezinárodně uznávaných článků a monografií našich pracovníků. Pracujeme také na řadě projektů a aplikací, které v praxi využívají státní i soukromé organizace.

Kromě výzkumných aktivit nabízí ÚFAL také rozsáhlý program výuky jak pro magisterský stupeň (Mgr., MSc.), tak pro doktorské studium v oboru matematická lingvistika. V rámci bakalářského studia zajišťujeme výuku v profilu matematická lingvistika oboru obecná informatika. Součástí výuky jsou také předměty mezinárodního programu LCT zaštítěného Evropskou unií.

Čím se zabýváme

Historie ÚFALu je spjata s vývojem funkčního generativního popisu, lingvistické teorie formulované kolektivem prof. Petra Sgalla počátkem 60. let uplynulého století. Funkční generativní popis (FGP), motivovaný potřebami strojového překladu, pohlíží na větu jako na systém vzájemně propojených rovin: fonologické, morfematické, morfonologické, analytické (tj. povrchová syntax) a tektogramatické (hloubková syntax). Na základě této teorie vytvořili pracovníci ÚFALu celou řadu závislostních korpusů (tzv. treebanků), které jsou využívány při řešení nejrůznějších komputačně-lingvistických úloh.

Nejstarším a největším z našich treebanků je Pražský závislostní korpus (Prague Dependency Treebank, PDT), využívaný akademickými pracovišti i jednotlivci po celém světě. Aktuální verze 2.5 byla přizpůsobena současným potřebám výzkumu v oblasti počítačové lingvistiky, při anotaci jsme použili nejnovější technologie. Součástí korpusu jsou softwarové nástroje určené k jeho prohledávání, anotaci i jazykové analýze. Schéma typické věty v PDT:

 

Na základě FGP jsme vytvořili závislostní korpusy také pro další jazyky, např. angličtinu nebo arabštinu. V rámci PDT poskytujeme i rozšíření zaměřená na další roviny jazyka (např. rovinu diskurzu nebo sentiment analysis).

Vyvíjíme řadu nástrojů pro NLP, např. Treex – kompletní modulární sadu nástrojů pro zpracování češtiny a několika dalších jazyků. Vyzkoušejte Treex online! Vyzkoušet můžete také naši inteligentní kontrolu pravopisu spojenou s o(d)háčkovačem.

Strojový překlad

Výzkum strojového překladu (machine translation, MT) je jedním ze zásadních témat současné komputační lingvistiky, a tedy i našeho pracoviště. ÚFAL se pravidelně účastní soutěží v MT v rámci workshopu statistického strojového překladu (WMT). Podle posledního hodnocení je náš systém Chiméra v současnosti nejpokročilejším systémem pro anglicko-český překlad na světě,  překonává i službu Google Translate.

Chiméra je kombinace dvou odlišných přístupů: statistického systému Moses a našeho lingvisticky orientovaného systému TectoMT, který staví na  teorii funkčního generativního popisu a spojuje ji s nejnovějšími metodami strojového učení.

 

Vyzkoušejte on-line ukázku překladače pro projekt Khresmoi (systém zaměřený na překlad vyhledávacích dotazů z oblasti medicíny).

Statistické dialogové systémy

Řečové dialogové systémy představují kombinací komplexních úloh NLP – vyžadují vysokou kvalitu rozpoznávání mluvené řeči (vstupu od uživatele), pokročilé modely sémantiky a dialogového stavu, na výstupu pak syntézu řeči. Na problematiku dialogových systémů je na ÚFALu zaměřen projekt Vystadial. Cílem tohoto projektu je studovat a zlepšit metody učení statistických modelů používaných v komplexních dialogových systémech. Díky týmu Vystadial můžete hlasově vyhledat dopravní spojení v Praze! Zavolejte našemu dialogovému systému ALEX zdarma: 800 899 998.

Do oblasti dialogových systémů spadá také projekt Companions, ve kterém jsme vytvořili avatara Petru zprostředkovávajícího interakci mezi člověkem a počítačem. Chcete-li si s Petrou povídat, přidejte si v GMailu uživatele czech.companion@gmail.com.

Centrum vizuální historie Malach

Centrum vizuální historie Malach poskytuje lokální přístup k rozsáhlým digitálním archivům nadace USC Shoah, jež obsahují přes 50 tisíc svědeckých výpovědí pokrývajících historii celého 20. století. ÚFAL se podílel na vývoji nástrojů pro lingvistické zpracování českých dat.

Hry

Vytvořili jsme několik jazykových her, které si můžete zahrát online.

Pořádání akcí a přednášek

ÚFAL v minulosti organizoval řadu mezinárodních konferencí, např. výroční setkání Asociace počítačové lingvistiky (ACL) v roce 2007, konferenci Depling 2013 nebo Machine Translation Marathon v letech 2009 a 2013.

V rámci série přednášek organizovaných na počest profesora Fredericka Jelinka na ÚFALu pravidelně vystupují přední vědci oboru z celého světa. Videozáznamy přednášek i pravidelných pondělních seminářů jsou dostupné online.

... a mnoho dalšího!

Zabýváme se i dalšími úlohami NLP, např. automatickým rozpoznáváním mluvené řeči, automatickým získáváním informací,  neurolingvistikou, detekcí postojů nebo aplikacemi pro výuku jazyků.

Proč studovat na ÚFALu

  • ÚFAL je mezinárodně uznávaným pracovištěm zabývajícím se moderním a široce uplatnitelným oborem počítačové lingvistiky.
  • Vyučujeme řadu předmětů, které studenty seznámí s naším oborem od úplných základů až po nejnovější výsledky a podrobnosti, zároveň nabízíme možnost podílet se na velkém počtu grantů a na českých i mezinárodních projektech.
  • Sidlíme v samotném historickém centru Prahy, naši zaměstnanci i studenti však mají mnoho příležitostí také k zahraničním cestám. Umožňujeme jim vycestovat v rámci konferencí, workshopů, letních škol nebo na vzdělávacích výměnných pobytů a postgraduálních pobytú, např. na Johns Hopkins University, Baltimore (USA), Sárské univerzitě v Saarbrückenu (D) nebo mnoha dalších uznávaných institucích po celém světě.
  • Máme k dispozici počítačové vybavení pro náročné distribuované výpočty a experimenty.
  • Naši absolventi nacházejí uplatnění v předních firmách v oboru i v širší oblasti informatiky.

Někteří absolventi

Jan Cuřín - nyní v IBM, Praha

Martin Čmejrek - nyní v IBM, New York

Jiří Havelka - nyní v IBM, Praha

Magda Hnátková - nyní v Arriba, San Francisco

Pavel Krbec - nyní v CET21, Praha

Pavel Květoň - nyní v IBM, Praha

Martin Majliš - nyní v Amazon, Toronto

Petr Pajas - nyní v Google, Zürich

Petr Podveský - nyní v RWE, Praha

Jan Rouš - nyní v Google, Mountain View

Jiří Semecký - nyní v Google, Zürich

Otakar Smrž - nyní v Seznam, Praha

Jan Štěpánek - nyní v Barclays, Praha