Jedným z vývojových smerov v korpusovej lingvistike je tvorba korpusov pomocou technológie Web as Corpus (WaC) (Baroni et al., 2009), v rámci ktorej sa dáta vo veľkom objeme sťahujú z internetu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel a Pomikálek, 2012), následne sa konvertujú na text, filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, segmentácia na vety, morfosyntaktická anotácia a spracovanie korpusovým manažérom).
Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWAC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer a Bildhauer, 2013).
Naša prednáška uvádza projekt Aranea, v rámci ktorého sa technológia WaC využíva na tvorbu rodiny korpusov veľkého rozsahu pre jazyky používané na Slovensku a v okolitých krajinách a pre hlavné cudzie jazyky vyučované na slovenských univerzitách. Korpusy Aranea v súčasnosti pokrývajú 16 jazykov, pričom všetky sú verejne prístupné cez webové rozhranie korpusového manažéra NoSketch Engine na korpusovom portáli projektu.
Literatúra
Baroni M., Bernardini, S., Ferraresi A., Zanchetta E. (2009), The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and Evaluation 43 (3), pp. 209–226.
Schäfer, R. – Bildhauer, F. (2013), Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers.
Suchomel V., Pomikálek J. (2012), Efficient Web Crawling for Large Text Corpora. In Adam Kilgarriff, Serge Sharoff. Proceedings of the seventh Web as Corpus Wor-kshop (WAC7). Lyon, 2012. p. 39–43.