English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5Header Image n.6Header Image n.7

Úvod

Korpus PDTSE 1.0 je víceúčelový korpus mluvených anglických dialogů. 145 469 tokenů*, 12 203 vět* a 864 minut spontánních dialogů bylo nahráno, přepsáno a anotováno na několika vzájemně propojených rovinách: zvukový záznam, automatický a doslovný manuální přepis a editovaný přepis odpovídající standardům spisovného jazyka (tzv. rekonstrukce mluvené řeči).

Dialogy

Korpus tvoří dialogy, které byly nahrány v rámci projektu Companions. Tématem dialogů je vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků. Cílem tohoto projektu bylo vytvoření virtuálního společníka, který by si s lidským uživatelem povídal o jeho fotoalbu. Většina rozhovorů byla nahrána na Napier University v Edinburghu pod vedením Davida Benyona z výzkumné skupiny Human-Computer Interaction Team. Některé rozhovory byly nahrávány v nastavení Wizard of Oz; tazatel vystupuje při nahrávání jako virtuální společník na obrazovce počítače, ve skutečnosti však byla tato virtuální postava řízena člověkem ve vedlejší místnosti. Dotazovaný jakožto uživatel systému při nahrávání nevěděl, že jeho virtuální společník je ovládán člověkem, a věřil, že je to opravdu umělá inteligence, která s ním komunikuje. Několik dalších rozhovorů v nastavení Wizard of Oz bylo rovněž nahráno na Ústavu fomální a aplikované lingvistiky na Univerzitě Karlově v Praze. Většina rozhovorů je však vedena jako spontánní konverzace dvou lidí.

Tematicky stejné nahrávky byly pořízeny i v češtině, je tak možné přímé srovnání s českými daty. Česká data obsahuje současně vydávaný korpus PDTSC 1.0 - Pražská databáze mluvené češtiny.

* - Každá nahrávka je opatřena vícenásobnou anotací, přičemž počty vět a tokenů se v každé verzi anotace liší. Celkové počty vět a tokenů jsou proto vypočítány z průměrných hodnot.

Roviny anotace

Korpus PDTSE 1.0 má tři hierarchicky uspořádané roviny.

Audio záznam

Na nejnižší rovině korpusu je uložen zvukový záznam ve formátu Vorbis (Ogg).

Doslovná manuální transkripce

Druhá rovina korpusu (w-rovina) obsahuje doslovný manuální přepis, tj. to, co mluvčí řekl, včetně všech přeřeknutí, zakašlání apod. Transkripce byla vytvořena v nástroji Transcriber. Výstup ve formátu XML byl převeden do formátu PML (Prague Markup Language), který je podmnožinou formátu XML upravenou pro víceúrovňovou lingvistickou anotaci. Transkripce je pomocí XML odkazů propojena s audio soubory.

Rekonstrukce řeči

Nejvyšší rovina (m-rovina) obsahuje editovanou verzi doslovné transkripce, tzv. rekonstrukci řeči. Zvláštnosti mluvené řeči (neplynulosti, přeřeknutí, řečové události jako zakašlání, smích apod.) jsou odstraněny a výsledné věty jsou upraveny tak, aby odpovídaly standardům psaného textu. Pravidla rekonstrukce jsou podrobně popsána v anotačním manuálu. Tento manuál v úvodu zmiňuje další lingvistickou informaci na m-rovině (morfologické značkování a lemmatizace) a další roviny syntaktické anotace (analytickou a tektogramatickou rovinu). Nic z toho však není součástí tohoto vydání korpusu.

Text na m-rovině je rozdělen na segmenty a tokeny. Segmenty odpovídají větám a jsou namapovány na odpovídající úseky tokenů v manuální transkripci na nižší w-rovině. Jednotlivé tokeny v rekonstruované větě jsou pak propojeny s odpovídajícími tokeny v doslovné transkripci. Je zřejmé, že nad jednou doslovnou transkripcí je možné vytvořit několik různých verzí korektního psaného textu, proto byla pro každou transkripci provedena vícenásobná rekonstrukce (dvě nebo tři verze od různých anotátorů).

Prohlížení a prohledávání korpusu

Každá verze rekonstrukce je uložena jako trojice vzájemně propojených souborů. Celou trojici lze prohlížet v anotačním editoru MEd. Všechna data PDTSE 1.0 jsme také převedli do HTML (včetně zvukových stop). Velmi snadno se jimi můžete probírat v našem prohlížeči. Pokud se chcete pouze rychle podívat na data, je toto nejlepší způsob.

Hlavní účel korpusu

Nástroje pro automatické zpracování dat, jako jsou taggery a parsery, jsou navrhovány pro psané texty a na přepisech spontánní mluvené řeči nedávají dobré výsledky. Jedním z možných způsobů, jak se vypořádat se zvláštnostmi mluvené řeči, je naučit počítače převádět výstupy z automatických rozpoznávačů mluvené řeči do standardní podoby psaných textů. Tato data byla vytvořena především jako základ pro tyto experimenty v oblasti strojového učení.