[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2013
Type in proceedings
Status published
Language English
Author(s) Hlaváčová, Jaroslava
Title Special domain data mining through DBpedia on the example of Biology
Czech title Dobývání oborových dat pomocí DBpedie na příkladu biologie
Proceedings 2013: Donovaly, Slovakia: ITAT 2013: ITAT 2013: Information Technologies - Applications and Theory (Workshops, Posters, and Tutorials)
Pages range 2-4
How published print
Supported by 2010-2014 FP7-ICT-2010-6-257528 (Khresmoi) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Wikipedie slouží nejen jako rozsáhlá encyklopedie zasahující do mnoha odvětví, ale v poslední době stále častěji i jako zdroj jazykových dat pro nejrůznější aplikace. Jednotlivé jazykové mutace umožňují získat i paralelní data ve více jazycích. Zařazení článků wikipedie do kategorií potom může sloužit k filtrování jazykových dat. V našem projektu se zabýváme automatickým překladem textů v oboru biologie a lékařství, proto jsme potřebovali větší množství paralelních dat. Jedním ze zdrojů byla právě wikipedie. Pro výběr dat splňujících daná kritéria – tedy dané obory v daných jazycích – jsme využili projektu Dbpedia, který ze stránek wikipedie extrahuje strukturované informace a ve formátu RDF je zpřístupňuje uživatelům. V příspěvku popíšeme postup extrakce dat a problémy, které jsme museli řešit, neboť u otevřeného projektu jako wikipedie, do něhož může přispívat kdokoli, nelze spoléhat na konzistenci.
English abstract Wikipedia is not only a large encyclopedia, but lately also a source of linguistic data for various applications. Individual language versions allow to get the parallel data in multiple languages. Inclusion of Wikipedia articles into categories can be used to filter the language data according to a domain. In our project, we needed a large number of parallel data for training systems of machine translation in the field of biomedicine. One of the sources was Wikipedia. To select the data from the given domain we used the results of the DBpedia project, which extracts structured information from the Wikipedia articles and makes them available to users in RDF format. In this paper we describe the process of data extraction and the problems that we had to deal with, because the open source project like Wikipedia, to which anyone can contribute, is not very reliable concerning consistency.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Peter Vojtáš
ISBN* 978-1490952086
Address* Donovaly, Slovakia
Month* September
Publisher* CreateSpace Independent Publishing Platform
Institution* Slovenská spoločnosť pre umelú inteligenciu
Creator: Common Account
Created: 9/16/13 11:40 AM
Modifier: Almighty Admin
Modified: 2/26/14 12:22 PM
***

Special domain data mining through DBpedia on the ...public2.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Sat Sep 23 21:53:37 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant