Shrnutí

Na základě předchozí spolupráce s týmy Google v Londýně a New Yorku byla uzavřena smlouva na softwarové nástroje vyvinuté na základě korpusu PDT 2.5. Tyto nástroje jsou shrnuty v níže uvedené tabulce.

Smlouva je účinná od roku 2015, s licencí bez časového omezení platnosti.

Softwarové nástroje projektu

# Výsledek (část)  Dokončeno (adaptováno) Odevzdáno Typ Odkaz - software/data
1 MorphoDiTa 31.12.2014 31.12.2014 Software (R) MorphoDiTa (see license conditions) 
2 PDT 2.5 31.12.2014 31.12.2014 Data k pol. (1) PDT2.5g.zip

 

MorphoDiTa (Straková et al., 2014) je software pro vytvoření modelu pro automatickou morfologickou anotaci a značkování (tj. jednoznačné určení tvaroslovných charakteristik každého slova na základě jeho kontextu) českého textu, a to pomocí strojového učení (použitím průměrovaného perceptronu, viz Spoustová et al,. 2009) z dat, v tomto případě na základě úprav pro užití anotovaných dat Pražského závislostního korpusu v. 2.5. MorphoDiTa vznikla úplným přepsáním původního kódu, funkčně je kompatibilní. MorphoDiTa je volně dostupná, modely vyžadují licenci pro komerční použití. 

Data pro tento projekt byla použita z PDT v. 2.5. Jedná se o verzi s úpravami, původní verze byla vydána v roce 2006. Verze 2.5 je volně dostupná pro výzkumné účely, použití pro komerční účely vyžaduje licenci.

Spoustová, Drahomíra. Hajič, Jan, Raab, Jan, Spousta, Miroslav: Semi-supervised Training for the Averaged Perceptron POS Tagger. Proceedings of EACL 2009. ISBN 978-1-932432-16-9, pp. 763-771, 2009

Straková Jana, Straka Milan, Hajič Jan: Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, PA, USA, ISBN 978-1-941643-00-6, pp. 13-18, 2014

Pozn. projekt úspšně odevzdán jako celek do konce roku 2014. Fakturováno a zaplaceno v lednu 2015.

Text konktraktu se z obchodních důvodů nezveřejňuje. Je uložen na Univerzitě Karlově v Praze.