Co byste mohli chtít vědět o studiu matematické lingvistiky na MFF
Kdo jsme
Ústav formální a aplikované lingvistiky je jeden z ústavů MFF UK. Navazuje na výzkum komputační lingvistiky, který začal na FF UK (a později pokračoval na MFF) už v 60. letech 20. století. Zaměstnává přibližně 50 pracovníků, z nichž přes polovinu jsou studenti doktorského studia.
Ústav se zabývá komputační lingvistikou, což je zpracování přirozeného jazyka (v psané i mluvené podobě) počítači. Důraz je kladen na několikaúrovňovou analýzu textového korpusu češtiny.
Korpus je soubor textů v elektronické podobě, obvykle mluvnicky zpracovaných (např. s doplněnýni informacemi o morfologii nebo větné stavbě), který slouží k tvorbě jazykových aplikací (např. kontrola pravopisu nebo strojový překlad) a k výzkumu.
Čím se zabýváme
A. Korpusová lingvistika
1. Pražský závislostní korpus (Prague Dependency Treebank)
112 uživatelů z celého světa, 2 000 000 anotovaných slov, 3 roviny popisu jazyka, nyní verze 2.0

Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.
2. Prague Arabic Dependency Treebank
3. Prague Czech-English Dependency Treebank
Podle jeho názoru bylo vedení UAL o financování původní transakce informováno nesprávně.
According to his opinion UAL's executives were misinformed about the financing of the original transaction.
B. Strojový překlad
- překlad mezi blízkými jazyky
- překlad čeština-angličtina a angličtina-čeština
C. Rozpoznávání řeči, přístup k velkým řečovým archivům
Multilingual Access to Large Spoken Archives (MALACH)

- archiv nahrávek Survivors of the Shoah Visual History Foundation – výpovědi přeživších holocaust
- (116 000 hodin, 32 jazyků, 52 000 výpovědí)
- digitalizace, katalogizace archivu, tématická klasifikace svědectví
- ve spolupráci s 3 pracovišti z USA a 1 českým
D. ... a mnoho dalšího
např.:- v letech 2000-2004 hlavní podíl na jednom z center národního výzkumu Centru komputační lingvistiky, špičkovém vědeckém pracovišti, jehož pokračování získalo podporu MŠMT i pro léta 2005-2009
- spolupráce s mnoha, zejména zahraničními, pracovišti
- spolupráce s firmami IBM, Microsoft, ASPI systems, Centrum.cz, Skřivánek
- rozvoj teorie popisu přirozeného jazyka (tzv. Funkčni generativní popis, rozvíjen od 60. let 20. století)
- vývoj nástrojů pro anotaci korpusů (morfologický analyzátor, parsery, anotační nástroj TrEd...)
- organizace prestižního XVII International Congress of Linguists v červenci 2003 v Praze
- vydávání časopisu The Prague Bulletin of Mathematical Linguistics (289 odběratelů z 53 zemí na 5 kontinentech)
Co můžeme studentům nabídnout?
- moderní vědní obor
- mezinárodně uznávané pracoviště
- zapojení do běžících projektů – ÚFAL se nyní účastní řešení 26 (českých i zahraničních) grantů – a podporu při jejich řešení
- cestování
- dlouhodobé studijní pobyty na zahraničních univerzitách – Baltimore (USA), Saarbrücken (D), Hamburk (D), Pisa (I) – r. 2004: 3 studenti
- účast na konferencích a workshopech – r. 2004: 14 studentů na 9 konferencích
- letní školy v zahraničí – Baltimore (USA), Trento (I), Vídeň (A), Nancy (F), Edinburgh (GB), ... – r. 2004: 3 studenti
- pracovní pobyty – r. 2004: 4 studenti na University of Saarland, Saarbrücken (D) a Brown University, Providence (USA)
- možnost získání magisterských titulů zároveň na MFF a na některé zahraniční univerzitě – Saarbrücken (D), Bolzano (I), Nancy (F) nebo Amsterdam (NL) – program Erasmus Mundus v oboru "Language and Communication Technology"
- mladý a sympatický kolektiv
- výpočetní techniku s výkonem dostatečným pro náročné lingvistické výpočty
- přednášky předních zahraničních odborníků, např. každoroční jarní školy v sémiotice a lingvistice, které pořádá "dceřiné" Centrum Viléma Mathesia
Co se u nás studuje
Jsme garantem magisterského studijního oboru Matematická lingvistika, I3 (obor magisterského studijního programu Informatika) a doktorského studijního oboru Matematická lingvistika, I-3.Předmět studia
- Formální popis přirozeného jazyka (základy obecné lingvistiky; závislostní a složková syntax; Funkční generativní popis; formální sémantika)
- Jazykové korpusy, strojové učení a stochastické metody
- Automatické zpracování přirozeného jazyka (automatická analýza a generování přirozeného jazyka – morfologie, syntax; analýza a syntéza mluvené řeči; vyhledávání a extrakce informací; strojový překlad)
Studijní plán magisterského oboru
- povinná výuka programu informatika
- povinné předměty oboru I3
- 20 bodů z povinně volitelných lingvistických předmětů (v r. 2004/2005 vyučováno 35 předmětů pokrývajících celou oblast komputační lingvistiky)
- získání bodového limitu 60 bodů
- volitelný projekt (10 bodů + 4 body pro nejlepší řešitele)
- diplomka + státní závěrečná zkouška
Uplatnění našich studentů a pracovníků
- na jakékoliv pozici vyžadující informatické vzdělání
- ve firmách, s nimiž spolupracujeme, zejména IBM Research ČR (viz rovněž bývalé spolupracovníky)
- v doktorském studiu lingvistiky – na ÚFALu program Matematická lingvistika (I3), nebo na jiných univerzitách
- nebo třeba jako ministr školství (Petr Piťha, 1992-1994) :-)


