Monday, 5 December, 2016 - 13:30 to 15:00
Room: 

Problémy tvorby a anotácie webových korpusov Aranea

Vladimír Benko

Jedným z vývojových smerov v korpusovej lingvistike je tvorba korpusov pomocou technológie Web as Corpus (WaC) (Baroni et al., 2009), v rámci ktorej sa dáta vo veľkom objeme sťahujú z internetu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel a Pomikálek, 2012), následne sa konvertujú na text, filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, segmentácia na vety, morfosyntaktická anotácia a spracovanie korpusovým manažérom).
Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWAC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer a Bildhauer, 2013).
Naša prednáška uvádza projekt Aranea, v rámci ktorého sa technológia WaC využíva na tvorbu rodiny korpusov veľkého rozsahu pre jazyky používané na Slovensku a v okolitých krajinách a pre hlavné cudzie jazyky vyučované na slovenských univerzitách. Korpusy Aranea v súčasnosti pokrývajú 16 jazykov, pričom všetky sú verejne prístupné cez webové rozhranie korpusového manažéra NoSketch Engine na korpusovom portáli projektu.

http://aranea.juls.savba.sk/

Literatúra
Baroni M., Bernardini, S., Ferraresi A., Zanchetta E. (2009), The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and Evaluation 43 (3), pp. 209–226.
Schäfer, R. – Bildhauer, F. (2013), Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers.
Suchomel V., Pomikálek J. (2012), Efficient Web Crawling for Large Text Corpora. In Adam Kilgarriff, Serge Sharoff. Proceedings of the seventh Web as Corpus Wor-kshop (WAC7). Lyon, 2012. p. 39–43.