SIS code: 
Semester: 
summer
E-credits: 
summer s.:6
Examination: 
0/2 C
Guarantor: 

Morphological and Syntactic Analysis II (New Language)

Data. Grammars. Lexicons. Language technology in general, and machine translation in particular, needs a lot of resources. For some languages, such as English or Czech, resources are plentiful. For thousands of others, very little can be found.

Consider this scenario. There is a remote developing nation, and it is struck by a natural disaster of enormous scale. Such as the earthquake in Haiti in 2010. Hundreds of foreign rescue teams flood the country, eager to help. But they don't speak the local language. They don't understand signs, they cannot read the desperate text messages from survivors locked under debris. Machine translation technology could help them, but the local language has never been processed before. There are no data, no resources.

In this course we will explore various techniques of obtaining resources for a resource-poor language. It will be a team project. The goal is to acquire or create as many resources as possible for one natural language that we agree upon. Each participant will be responsible for a part of the activities, ranging from downloading corpora from the web to design of grammatical rules and training of parsers. The course New Language can be viewed as an extension of the student projects in Morphological and Syntactic Analysis; nevertheless, there is no formal dependence between the two courses.

Write to Dan Zeman if interested. We will meet approximately once every two weeks to discuss progress.

(And BTW, a team of researchers was able to build an English-Haitian MT system from scratch within less than 5 days, see http://research.microsoft.com/pubs/145627/eamt-05.pdf.)

Morfologická a syntaktická analýza II (Nový jazyk)

Data, gramatiky, slovníky. Jazykové technologie, zejména pak strojový překlad, vyžadují velké množství zdrojů. Pro některé jazyky, jako je angličtina nebo čeština, je zdrojů k dispozici dostatek. Pro tisíce jiných jazyků však nenajdeme téměř nic.

Představte si následující scénář. Kdesi v rozvojovém světě udeřila přírodní katastrofa extrémních rozměrů. Například zemětřesení na Haiti v roce 2010. Do země se valí stovky záchranářských týmů z celého světa a chtějí pomoci. Jenže nerozumí místnímu jazyku. Nepřečtou si cedule, nerozluští zoufalé esemesky od lidí zasypaných troskami. Strojový překlad by mohl pomoci, jenže tímto jazykem se vývojáři nikdy předtím nezabývali. Nejsou data, nejsou specifické nástroje.

V tomto předmětu se budeme zabývat různými metodami získávání zdrojů pro neprozkoumané jazyky. Půjde o týmový projekt. Cílem je získat nebo vytvořit co nejvíce zdrojů (dat i nástrojů) pro jeden přirozený jazyk, na kterém se dohodneme. Každý účastník bude zodpovědný za svůj díl práce, která bude zahrnovat celou škálu činností od stahování korpusů z webu až po návrh gramatických pravidel a trénování parserů. V tomto smyslu předmět Nový jazyk volně navazuje na zápočtové projekty z předmětu Morfologická a syntaktická analýza; žádná formální závislost mezi těmito předměty však není.

Pokud vás takový projekt zajímá, napište Danovi Zemanovi. Budeme se scházet přibližně jednou za čtrnáct dní a synchronizovat další postup.

(A mimochodem, v roce 2010 tým výzkumníků dokázal od nuly vybudovat anglicko-haitský překladový systém za méně než 5 dní, viz http://research.microsoft.com/pubs/145627/eamt-05.pdf.)

Нохчийн – avañe'ẽ – हिन्दी – romaňi čhib – བོད་ཡིག – ລາວ – 臺灣話 – کوردی