Kapitola 1. Úvod

Obsah

1.1. Co je PDT 2.0
1.2. Historické pozadí projektu
1.3. Vývoj projektu
1.4. O češtině
1.5. Adresářová struktura

Tento průvodce představuje Pražský závislostní korpus, verzi 2.0 (PDT 2.0). Smyslem průvodce je seznámit zájemce v krátkosti s obsahem a základními myšlenkami PDT 2.0. Poskytuje přehled dat a nástrojů, včetně odkazů na podrobnější dokumentaci, tutoriály, formální specifikace a další reference. K dispozici je ve dvou formátech: HTML a PDF.

Webovou stránku PDT 2.0 najdete na http://ufal.mff.cuni.cz/pdt2.0. Můžete navštívit také stránku http://ufal.mff.cuni.cz/pdt2.0update, kde v budoucnu najdete případné opravy dat, nové verze nástrojů apod.

1.1. Co je PDT 2.0

Pražský závislostní korpus (PDT) je probíhající projekt pro ruční anotaci velkého množství českých textů bohatou lingvistickou informací, sahající od morfologie přes syntax až po sémantiku/pragmatiku a ještě dále.

PDT verze 2.0 je následník verze 1.0. PDT verze 1.0 obsahovala ruční anotaci morfologie a povrchové syntaxe (viz http://ufal.mff.cuni.cz/pdt/ nebo webové stránky Linguistic Data Consortium (LDC), http://www.ldc.upenn.edu, katalogové číslo LDC2001T10). Verze 2.0 přidává hloubkovou syntax a sémantiku, aktuální členění, koreferenci a lexikální sémantiku založenou na valenčním slovníku. Verze 2.0 přináší navíc aktualizaci verze 1.0, a to v původním formátu dat pro použití těmi, kdo se starou verzí pracují.

PDT 2.0 obsahuje velké množství českých textů (2 milióny slov) s provázanými anotacemi na úrovni morfologie (2 milióny slov), povrchové syntaxe (1,5 mil. slov) a hloubkové syntaxe a sémantiky (0,8 mil. slov). Korpus využívá nejnovější anotační techniky (oddělené anotace s použitím XML, RelaxNG, viz sekce 3.4 - "Formáty dat" a celá kapitola 3 - "Data").

PDT 2.0 vychází z dlouhodobé pražské lingvistické tradice a je vhodný pro současné potřeby výzkumu v oblasti počítačové lingvistiky (viz také sekce 1.2 - "Historické pozadí projektu"). Obsahuje rovněž softwarové nástroje pro prohledávání korpusu, anotaci dat a jazykovou analýzu. K dispozici je i rozsáhlá dokumentace.

Tato verze PDT završuje desetileté období výzkumu a vývoje v Ústavu formální a aplikované lingvistiky (ÚFAL) a jeho Centra počítačové lingvistiky (viz sekce 1.3 - "Vývoj projektu"). V nedávné době byl projekt doplněn vydáním Pražského arabského závislostního korpusu, http://www.ldc.upenn.edu, katalogové číslo LDC2004T23, a paralelního Pražského česko-anglického závislostního korpusu, http://www.ldc.upenn.edu, katalogové číslo LDC2004T25. První z doplňujících projektů ukazuje, že české specifikace mohou být uzpůsobeny pro typologicky odlišný jazyk, druhý projekt staví na ruční anotaci korpusu Penn Treebank a je určen pro experimenty se strojovým překladem mezi dvěma jazyky, hlavně mezi češtinou a angličtinou.

PDT 2.0 slouží především těmto dvěma cílům:

  • aplikovat teoretické výsledky Pražské lingvistické školy na velké množství skutečných jazykových "příkladů", a tím explicitně ověřit a zachovat teorii závislostně založeného funkčně generativního popisu (FGD) (viz také sekce 1.2 - "Historické pozadí projektu"),

  • umožnit použití metod strojového učení pro vytvoření rozumně spolehlivých nástrojů automatické analýzy a generování jazykových dat.

Zatímco pro dosažení prvního cíle by možná stačilo vybrat pouze několik příkladů pro každý lingvistický jev, druhý cíl nepochybně vyžaduje zpracování velkého množství přirozeně se vyskytujících posloupností vět. Statistiky, získané z takových dat, mohou být ovšem s výhodou použity zpětně pro lingvistický výzkum.

Budoucnost PDT není zatím přesně určena. Zvažováno je několik možných budoucích zaměření (samozřejmě, pokud finanční zdroje dovolí): přidání mluvených dat; přidání hlubší a širší anotace obzvláště pro koreferenci, informační strukturu a diskurz; anotace jiného (hodně odlišného) jazyka; ruční anotace češtiny/angličtiny na dalších paralelních textech s použitím stejné (tektogramatické) reprezentace; a přidání dalších vrstev anotace (reprezentace znalostí založená na obsahu výpovědi).

1.2. Historické pozadí projektu

Pražská škola funkční a strukturní lingvistiky se narozdíl od ostatních evropských škol lingvistického strukturalizmu vyznačuje (kromě jiného) svou otevřeností novým trendům a myšlenkám. Historie Pražské školy se formálně datuje od roku 1926, kdy tak vynikající lingvisté jako Vilém Mathesius, Roman Jakobson a Bohumil Trnka založili Pražský lingvistický kroužek. Výzkum razil cestu v několika směrech. Nejprve ve fonologii, která byla možná první mezinárodně vysoce uznávanou oblastí. Brzy se zde objevily také (s kladným mezinárodním ohlasem) originální příspěvky k jazykové typologii, tvoření slov, funkčnímu rozvrstvení jazyka, k obecným lingvistickým otázkám jako je rozlišení centra a periferie v jazykovém systému a v neposlední řadě také pokusy o systematický popis informační struktury věty (funkční větná perspektiva, aktuální členění).

Činnost Pražského lingvistického kroužku nebyla omezena geograficky. K zásadám Kroužku se otevřeně hlásila řada lingvistů ze zahraničí. Jedním z nich byl Lucien Tesnière, francouzský lingvista, kterého je možno oprávněně nazývat "otcem závislostní syntaxe". Tesnièrův přístup nalezl vysoce kladné přijetí i mimo Kroužek, obzvláště v práci českého syntaktika Vladimíra Šmilauera, jehož Novočeská skladba je neopominutelným zdrojem informací pro všechny, kdo českou syntax studují.

Inspirace Pražské školy nalezla své pokračování také v novém lingvistickém paradigmatu explicitního popisu jazyka, jmenovitě ve funkčně generativním popisu (FGD), navrženém Petrem Sgallem v šedesátých letech dvacátého století a následně rozpracovaném jím samým a jeho spolupracovníky (rozsáhlé pojednání na toto téma nabízí kniha The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, 1986). Systém FGD se vyznačuje třemi typickými vlastnostmi:

  • použitím závislostní syntaxe,

  • zahrnutím hloubkové syntaktické roviny (tektogramatiky) do lingvistického popisu,

  • specifikací formálního popisu informační struktury věty (aktuálního členění) a jeho začleněním do popisu jazyka.

1.3. Vývoj projektu

Projekt vlastně vznikl ve foyer malého hotelu v Dublinu v Irsku na konci března roku 1995, během 7. ročníku konference evropské pobočky ACL. Malá skupina nás se tam tehdy rozhodla usilovat o vytvoření podobného projektu, jakým byl tehdy nedávno vydaný anglický Penn Treebank, ale založeného na pražské závislostní tradici, s úplnou morfologickou analýzou a s vyhlídkou postupného rozšiřování anotace (více historických souvislostí viz sekce 1.2 - "Historické pozadí projektu").

Prvním úkolem bylo finanční zajištění projektu. Měli jsme štěstí a získali jsme současně dva granty od Grantové agentury České republiky a jeden projekt Ministerstva školství, všechny začínající v roce 1996: jeden malý grant pro sepsání specifikace korpusu, jeden meziinstitucionální projekt na podporu Českého národního korpusu (našeho zdroje nezpracovaných textů) a nakonec projekt nazvaný "Laboratoř jazykových dat" pro vlastní provádění anotace.

Teorie vyžadovala tříúrovňové pojetí anotace, s morfologickou, analytickou a tektogramatickou rovinou. Kromě morfologické roviny, jejíž návrh využíval již existující systém tagů pro češtinu, byly pokyny pro anotaci jen kusé a bylo jasné, že jejich dopracování bude muset probíhat současně s anotací tak, jak se budou nacházet nové jevy a problémy. Nicméně již od počátku jsme přijali několik "neporušitelných" principů:

  • morfologická anotace bude prováděna na jednotlivých slovech; nebudeme se pokoušet analyzovat např. složené slovesné tvary,

  • pro anotaci bude přímo použit systém tagů existujícího morfologického slovníku pro češtinu, vyvinutého na ÚFALu,

  • jednotkou anotace povrchové syntaxe (analytické roviny) bude rovněž slovo, se vztahem 1:1 vůči jednotkám morfologické roviny; součástí anotace nebudou "stopy", náhrady elips ani nic podobného,

  • závislostní anotace bude použita nejen pro rovinu hloubkové syntaxe (tektogramatickou rovinu), ale rovněž pro rovinu analytickou,

  • tektogramatická rovina bude obsahovat všechno, co teorie nabízí, tedy aktuální členění, koreferenci a další podrobnou anotaci; v souladu s teorií a cíli hloubkové reprezentace bude umožněno "vkládání" a "mazání" uzlů (ve vztahu k nižším rovinám),

  • funkce členů závislých na slovese (případně i na podstatném či přídavném jméně) bude určována na základě valence.

Formát pro anotovaná data byl vytvořen jakožto rozšíření SGML formátu používaného v Českém národním korpusu, pojmenovaného CSTS. Dalším krokem bylo určení organizace anotace. Začali jsme současnou anotací dvou nižších rovin (morfologie a analytické syntaxe). Anotace tektogramatické roviny musela být odložena až do dokončení dvou nižších rovin. Současně byly vytvářeny nástroje pro anotaci. Jedním z prvních byl Graph, grafický editor stromů, používající náš vlastní formát dat (nazývaný FS), který není založený na SGML, ale je značně obecný a prostorově úsporný.

Anotace morfologické a analytické roviny byla prováděna především pracovníky s lingvistickým vzděláním. Jelikož nebyly k dispozici úplné anotační pokyny, konaly se každý týden schůzky týmu anotátorů, kde byly probírány vzniklé problémy a s okamžitou platností přijímána rozhodnutí o způsobu další anotace. Později byl z řad anotátorů vybrán jeden koordinátor a další dva anotátoři museli být vyčleněni pro řešení technických otázek celého procesu.

Morfologická anotace každého textu byla prováděna dvěma anotátory, tedy dvakrát. Výsledky pak byly porovnávány a slévány do konečné anotace. Aby byla zajištěna co nejvyšší konzistence, celé slévání prováděl jeden anotátor. Anotátoři vybírali z možných lemmat a tagů, nabízených českým morfologickým slovníkem bez jakéhokoliv předzpracování či preference tagů. Na morfologické rovině tak byly ručně anotovány téměř dva milióny slov.

Anotace analytické roviny byla provedena jen jednou, ale s použitím velkého počtu automatických testů konzistence, včetně testů překračujících hranice rovin. Zpočátku jsme nepoužívali žádné automatické předzpracování textů. Později byly závislostní funkce předběžně přiřazovány ručně psanými skripty. V roce 1998 byla pro letní JHU Language Engineering Workshop v Baltimoru sestavena testovací verze korpusu, nazvaná PDT 0.5 (obsahovala přibližně 380 tisíc anotovaných slovních jednotek). Na workshopu byl vytvořen první český parser (data byla zkonvertována pro mírně upravený Collinsův parser lexikalizované angličtiny). Od roku 1999 byla data určená pro anotaci nejprve předzpracována tímto parserem a anotátoři prováděli pouze opravy jeho výstupu, což přineslo přibližně 30% zrychlení anotace. Na analytické rovině tak bylo ručně anotováno přes 1,5 mil. slovních jednotek, čímž se dosáhlo velikosti Penn Treebanku.

Spojení morfologické a analytické roviny byl složitý proces a trval déle než rok. Zahrnoval i rozsáhlé kontroly konzistence dat, závěrečné úpravy anotačních návodů (a jejich překlad do angličtiny), jakož i konečnou přípravu CD-ROM k publikaci v roce 2001 pod názvem Pražský závislostní korpus, verze 1.0. Během tohoto období byl také vytvořen TrEd, nový nástroj pro editaci korpusu, nezávislý na platformě.

Anotace tektogramatické roviny (již s použitím TrEdu) začala v roce 2000, současně se založením Centra komputační lingvistiky, v době, kdy původní finanční zdroje byly vyčerpány. Zpočátku se zdálo příliš náročné plně pokrýt celá plánovaná data (část dat PDT 1.0, cca 50 tis. vět). Anotace byla rozdělena do čtyř oblastí:

  • závislostní struktura ve formě závislostního stromu, včetně sémantického označkování a anotace valence,

  • aktuální členění,

  • koreference (gramatická a část textové),

  • gramatické atributy uzlů ve stromě (neobsažené v předchozích bodech).

Většina úsilí byla zaměřena na první oblast, neboť ostatní oblasti měly být anotovány jen na malé ukázkové části dat. Pomocí ručně psaných pravidel byly stromy analytické roviny předanotovány do té míry, pokud se vztah mezi analytickým a tektogramatickým stromem zdál být jasný. Byl vytvořen základ valenčního slovníku (zatím na papíře), aby byla zajištěna konzistence alespoň u nejfrekventovanějších sloves. Později byla vypracována XML verze valenčního slovníku, PDT-VALLEX, která byla rovněž propojena s editorem TrEd, aby mohli uživatelé pracovat se slovníkem přímo během editace; to také umožnilo přiřazovat správný valenční rámec k výskytům slov v korpusu. Mezitím pokročila práce na anotačních pravidlech a na testovací anotaci koreference a aktuálního členění a nakonec bylo rozhodnuto provést tyto anotace na celých datech. Ještě později, v roce 2004, byla i čtvrtá anotační oblast (přiřazení dalších gramatických informací, zahrnujících dalších 16 atributů u každého tektogramatického uzlu) poloautomaticky rozšířena na celá tektogramaticky anotovaná data, tedy 50 tisíc vět.

Narozdíl od anotování analytické roviny, v případě roviny tektogramatické byl anotační tým rozdělen na malé skupiny, které měly na starost jednotlivé oblasti anotace. To přinášelo i jisté obtíže - informace se někdy nedostaly ke všem, pro koho byly důležité. Po celou dobu pracovalo na projektu až 30 lidí současně. Vše bylo anotováno jen jednou, kromě úvodních testů mezianotátorské shody. Na data byly aplikovány podobné testy konzistence jako pro analytickou rovinu, s použitím složitých mezirovinových testů.

Po dokončení anotačního procesu v roce 2004 začala závěrečná fáze, která trvala rovněž déle než rok. Pro distribuci dat byl vytvořen úplně nový XML formát. Valenční lexikon PDT-VALLEX byl celý ručně zkontrolován a upraven pro slovesa a některé kategorie podstatných jmen (v obou případech jedním člověkem, aby byla zajištěna co největší konzistence). Bylo vytvořeno velké množství mezirovinových testů pro vyhledávání anotačních nekonzistencí, všechny nalezené případy byly ručně opraveny. Byl zvolen redaktor manuálu pro tektogramatické značkování, jehož úkolem bylo přepsat jednotlivé sekce pokynů (celkem přes 800 stran) jasnou formou s jednotnou terminologií tak, aby byl manuál v souladu s konečnou anotací dat. Manuál byl rovněž přeložen do angličtiny. V roce 2006 bylo CD-ROM dokončeno a posláno k publikaci do LDC.

1.4. O češtině

Čeština - jazyk textů zpracovaných v Pražském závislostním korpusu - patří do západní skupiny slovanských jazyků. Česky se mluví především v České republice, kde je čeština jediným úředním jazykem. Čeští rodilí mluvčí žijí rovněž v dalších evropských zemích, zvláště na Slovensku, a desítky tisíc českých mluvčích žijí v USA, Kanadě a Austrálii. Celkem má čeština přes 10 miliónů mluvčích.

Čeština je, podobně jako další slovanské jazyky, vysoce flexivní. Má sedm pádů a čtyři rody (jen pro skloňování podstatných jmen existuje 16 hlavních vzorů) a má volný slovosled (z čistě syntaktického pohledu): slova ve větě mohou být obvykle řazena několika způsoby. Slovosled však ovlivňuje význam věty.

Psaná čeština používá latinskou abecedu rozšířenou o několik písmen s diakritikou. Česká abeceda (celkem 82 znaky) je obsažena ve standardu Unicode; běžně používána jsou i kódování ISO 8859-2 (Latin 2), standardní 8-bitové kódování pro jazyky střední Evropy, a CP1250, jeho protějšek z MS Windows.

Více informací o češtině najdete na http://www.czech-language.cz.

1.5. Adresářová struktura

Tato sekce obsahuje stručný popis adresářové struktury distribuce PDT 2.0, a to až do druhé úrovně zanoření.