Co byste mohli chtít vědět o studiu matematické lingvistiky na MFF

Kdo jsme

Ústav formální a aplikované lingvistiky je jeden z ústavů MFF UK. Navazuje na výzkum komputační lingvistiky, který začal na FF UK (a později pokračoval na MFF) už v 60. letech 20. století. Zaměstnává přibližně 50 pracovníků, z nichž přes polovinu jsou studenti doktorského studia.

Ústav se zabývá komputační lingvistikou, což je zpracování přirozeného jazyka (v psané i mluvené podobě) počítači. Důraz je kladen na několikaúrovňovou analýzu textového korpusu češtiny.

Korpus je soubor textů v elektronické podobě, obvykle mluvnicky zpracovaných (např. s doplněnýni informacemi o morfologii nebo větné stavbě), který slouží k tvorbě jazykových aplikací (např. kontrola pravopisu nebo strojový překlad) a k výzkumu.

Čím se zabýváme

A. Korpusová lingvistika

1. Pražský závislostní korpus (Prague Dependency Treebank)
112 uživatelů z celého světa, 2 000 000 anotovaných slov, 3 roviny popisu jazyka, nyní verze 2.0

Příkladová věta z PDT
Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.

2. Prague Arabic Dependency Treebank

Příkladová věta z PADT

3. Prague Czech-English Dependency Treebank

Příkladová česká věta z PCEDT Odpovídající anglická věta
Podle jeho názoru bylo vedení UAL o financování původní transakce informováno nesprávně.
According to his opinion UAL's executives were misinformed about the financing of the original transaction.

B. Strojový překlad

  • překlad mezi blízkými jazyky
  • překlad čeština-angličtina a angličtina-čeština

Schéma překladu

C. Rozpoznávání řeči, přístup k velkým řečovým archivům

Multilingual Access to Large Spoken Archives (MALACH)
Logo VHF

  • archiv nahrávek Survivors of the Shoah Visual History Foundation – výpovědi přeživších holocaust
  • (116 000 hodin, 32 jazyků, 52 000 výpovědí)
  • digitalizace, katalogizace archivu, tématická klasifikace svědectví
  • ve spolupráci s 3 pracovišti z USA a 1 českým

D. ... a mnoho dalšího

např.:
  • v letech 2000-2004 hlavní podíl na jednom z center národního výzkumu Centru komputační lingvistiky, špičkovém vědeckém pracovišti, jehož pokračování získalo podporu MŠMT i pro léta 2005-2009
  • spolupráce s mnoha, zejména zahraničními, pracovišti
  • spolupráce s firmami IBM, Microsoft, ASPI systems, Centrum.cz, Skřivánek
  • rozvoj teorie popisu přirozeného jazyka (tzv. Funkčni generativní popis, rozvíjen od 60. let 20. století)
  • vývoj nástrojů pro anotaci korpusů (morfologický analyzátor, parsery, anotační nástroj TrEd...)
  • organizace prestižního XVII International Congress of Linguists v červenci 2003 v Praze
  • vydávání časopisu The Prague Bulletin of Mathematical Linguistics (289 odběratelů z 53 zemí na 5 kontinentech)

Co můžeme studentům nabídnout?

  • moderní vědní obor
  • mezinárodně uznávané pracoviště
  • zapojení do běžících projektů – ÚFAL se nyní účastní řešení 26 (českých i zahraničních) grantů – a podporu při jejich řešení
  • cestování
    • dlouhodobé studijní pobyty na zahraničních univerzitách – Baltimore (USA), Saarbrücken (D), Hamburk (D), Pisa (I) – r. 2004: 3 studenti
    • účast na konferencích a workshopech – r. 2004: 14 studentů na 9 konferencích
    • letní školy v zahraničí – Baltimore (USA), Trento (I), Vídeň (A), Nancy (F), Edinburgh (GB), ... – r. 2004: 3 studenti
    • pracovní pobyty – r. 2004: 4 studenti na University of Saarland, Saarbrücken (D) a Brown University, Providence (USA)
  • možnost získání magisterských titulů zároveň na MFF a na některé zahraniční univerzitě – Saarbrücken (D), Bolzano (I), Nancy (F) nebo Amsterdam (NL) – program Erasmus Mundus v oboru "Language and Communication Technology"
  • mladý a sympatický kolektiv
  • výpočetní techniku s výkonem dostatečným pro náročné lingvistické výpočty
  • přednášky předních zahraničních odborníků, např. každoroční jarní školy v sémiotice a lingvistice, které pořádá "dceřiné" Centrum Viléma Mathesia

Co se u nás studuje

Jsme garantem magisterského studijního oboru Matematická lingvistika, I3 (obor magisterského studijního programu Informatika) a doktorského studijního oboru Matematická lingvistika, I-3.

Předmět studia

  • Formální popis přirozeného jazyka (základy obecné lingvistiky; závislostní a složková syntax; Funkční generativní popis; formální sémantika)
  • Jazykové korpusy, strojové učení a stochastické metody
  • Automatické zpracování přirozeného jazyka (automatická analýza a generování přirozeného jazyka – morfologie, syntax; analýza a syntéza mluvené řeči; vyhledávání a extrakce informací; strojový překlad)

Studijní plán magisterského oboru

  • povinná výuka programu informatika
  • povinné předměty oboru I3
  • 20 bodů z povinně volitelných lingvistických předmětů (v r. 2004/2005 vyučováno 35 předmětů pokrývajících celou oblast komputační lingvistiky)
  • získání bodového limitu 60 bodů
  • volitelný projekt (10 bodů + 4 body pro nejlepší řešitele)
  • diplomka + státní závěrečná zkouška

Uplatnění našich studentů a pracovníků

  • na jakékoliv pozici vyžadující informatické vzdělání
  • ve firmách, s nimiž spolupracujeme, zejména IBM Research ČR (viz rovněž bývalé spolupracovníky)
  • v doktorském studiu lingvistiky – na ÚFALu program Matematická lingvistika (I3), nebo na jiných univerzitách
  • nebo třeba jako ministr školství (Petr Piťha, 1992-1994) :-)

Content: Markéta Lopatková. Webmasters: Juraj Šimlovič.
Site is valid XHTML 1.0 and valid CSS. Maintained with TED Notepad replacement and Vim text editor.
2007 © Institute of Formal and Applied Linguistics. All Rights Reserved.

Site navigation: