Pražský závislostní korpus 2.0

Anglická verze Česká verze

Pražský závislostní korpus 2.0 (PDT 2.0) obsahuje velké množství českých textů doplněných rozsáhlou a provázanou morfologickou (2 milióny slovních jednotek), syntaktickou (1,5 miliónu slovních jednotek) a sémantickou (0,8 miliónu slovních jednotek) anotací; na sémantické rovině jsou navíc anotovány aktuální členění věty a koreferenční vztahy.

PDT 2.0 vychází z dlouhodobé pražské lingvistické tradice, upravené pro současné potřeby výzkumu v oblasti komputační lingvistiky. Samotný korpus využívá nejnovější anotační technologie. K dispozici jsou také softwarové nástroje pro prohledávání korpusu, anotaci dat a jazykovou analýzu. Nechybí ani rozsáhlá dokumentace (v angličtině).

Tato verze se liší od verze na CD-ROM drobnými opravami textu průvodce.

Po roce 2006 bylo vydáno několik nových verzí PDT: PDT 3.0 (2013), PDiT 1.0 (2012), PDT 2.5 (2012).

Pražský závislostní korpus
Copyright © 2006 ÚFAL & CKL