Česká literární bibliografie

Kontaktní osoba: Mgr. Vojtěch Malínek, Ph.D.

Česká literární bibliografie (ČLB) je výzkumnou infrastrukturou, provozovanou při Ústavu pro českou literaturu AV ČR, v. v. i. K jejím hlavním činnostem patří zpracování stejnojmenné bibliografické databáze, která obsahuje bibliografické záznamy textů z kulturní publicistky a odborných textů o české literatuře a literárním životě v českých zemích.

 

Každý bibliografický záznam je popsán metadaty, tj. jmenným a věcným popisem, anotací a případně i odkazem na plný text. Způsob zápisu přitom respektuje obecně rozšířené standardy soudobého knihovnictví a informační vědy (výměnný formát MARC21, katalogizační pravidla RDA atp.). Databáze jsou přístupné na adresách http://biblio.ucl.cas.cz/ (databáze pro období po roce 1945 v systému Aleph) a http://retrobi.ucl.cas.cz/ (digitalizovaná lístková kartotéka pro období 1770-1945 v systému RETROBI). Jednotlivý záznam vypadá např. takto (Aleph) nebo takto (RETROBI). Podrobnější informace o ČLB jsou k dispozici na adrese http://clb.ucl.cas.cz/cs.

 

1) Kategorizace katalogizačních záznamů [sis]

Součástí každého katalogizačního záznamu je věcný popis. Ten je primárně zajišťován pomocí řízeného slovníku - tezauru, děleného dle jednotlivých logických kategorií (osoba, korporace, akce, dílo, chronologický termín, geografický termín, věcný termín). Pro účely věcného popisu je používán tzv. soubor národních autorit, zpracovávaný v kooperačním systému českých knihoven pod vedením Národní knihovny ČR (více o kooperačním systému zde, přímý vstup do báze národních autorit je pak zde).

Systém národních autorit umožňuje provázání jednotlivých hodnot (kategorií) jak horizontálně (nadřazený vs. podřazený pojem), tak vertikálně (příbuzný termín). Zároveň nabízí též možnost odlišit tzv. preferovanou a nepreferovanou hodnotu, používanou např. pro propojení různých variant jmen či synonymních termínů (lingvistika vs. jazykověda atp.). Každé tzv. autoritní heslo pak má přidělen svůj vlastní perzistentní identifikátor (kód národní autority). Vedle hodnot z tezauru/souboru národních autorit může katalogizátor dle potřeby použít libovolnou další - část z nich se při tom může do budoucna stát součástí tezauru (“nová” hesla), část z nich do tezauru přijata nebude (okrajové, jednorázově či zcela ojediněle se vyskytující hesla). Veškeré hodnoty věcného popisu (z tezauru i mimo něj) vytvářejí průběžně aktualizovaný rejstřík. Hodnoty věcného popisu jsou aktuálně přiřazovány výhradně ručně.

Příklad
Tento článek má bibliografický záznam k dispozici zde. K bibliografickému záznamu bylo doplněno následujících devět klíčových slov: Manet, Édouard, - 1832-1883; Nezval, Vítězslav, - 1900-1958; Pražský lingvistický kroužek - 70 let existence (mezinárodní konference) (1996 : Praha, Česko) bohemistika; malířství; překlady z angličtiny; umění  česká poezie; literárněvědné rozbory a interpretace; rozbory díla; studie

 

Varianta a)

Cílem práce je vytvořit automatický systém pro přiřazování klíčových slov katalogizačním záznamům. Systém upozorní bibliografa, která automaticky přiřazená klíčová slova vyžadují ruční revizi.

Varianta b)

Cílem práce je vytvořit automatický systém pro  přiřazování klíčových slov katalogizačním záznamům, a to na základě sémantické analýzy a porovnání plného textu daného dokumentu a existujícího souboru klíčových slov. Systém bibliografovi navrhne doporučená/vhodná klíčová slova, popř. provede srovnání s již existujícím věcným popisem a navrhne jeho úpravu/doplnění.

Data

  • záznamy s věcným popisem (v bázi je cca 575 000 záznamů)
  • hierarchie klíčových slov
  • plné texty vybraných článků (pravděpodobně budou k dispozici plné texty, např. z časopisu Česká literatura, který je v bázi kompletně zpracovaný)

2) Nahrazení základních tvarů slov v textu tvary gramaticky správnými [sis]

V části záznamů ČLB (jde o nejstarší databázově zpracovávané záznamy z počátku 90. let)  se v poli Anotace vyskytuje volný text, ve kterém jsou klíčová slova obvykle v základním tvaru i přesto, že dle kontextu by měla být v jiném tvaru. Tento způsob zápisu byl zvolen s ohledem na možnosti vyhledávání v tehdejším softwaru (zvolený termín je uzavřen ve znacích ). Celkem takto bylo zpracováno přes 200 000 záznamů.

 

Příklad

Článek o <Rais Karel Václav>

O "Halasovské konferenci" (Brno, 2.10.); s výňatky z referátu: <Vlašín Štěpán> a příspěvku: <Kundera Ludvík>.

[Sborníček obsahuje výbor z básní pro děti a z málo známých textů F.H., oddíl Nedoručené dopisy (dopisy Hrubínovi od: <Petiška Eduard>, <Strnadel Josef>, <Munzar Luděk>, <Heřman Zdeněk>, <Sýs Karel>) a oddíl Myšlenky nad dílem (od: <Říha Bohumil>, <Hofmeister Miroslav>, <Kundera Ludvík>, <Hilčr Jindřich>) a báseň od: <Seifert Jaroslav>.]

 

Cílem práce je vytvořit automatický systém, který označené základní tvary převede do gramaticky správných tvarů, popř. upraví zápis jmen na přirozené pořadí jméno+příjmení.

Data

  • položky pole Anotace (úplný soupis zde)

3) Hledání duplicitních kartotéčních lístků [sis]

V ČLB proběhla digitalizace kartotéčních lístků, které byly v době vzniku vytvářeny na psacích strojích, popř. rukou, a kopie vznikaly pomocí průklepového papíru. Stávalo se také, že do kartotéčních lístků byly dopisovány poznámky rukou. Pro každou práci bylo vytvořeno tolik kartotéčních lístků, kolik má práce autorů. Srov. například tato dvojice:

Cílem práce je detekovat lístky, které patří k jedné práci. V řešení je možné použít jak naskenované kartotéční lístky, tak i výstup systému OCR, případně oba zdroje kombinovat.

Data

  • naskenované kartotéční lístky (celkový objem je 1 600 000 lístků)
  • kartotéční lístky zpracované OCR

 

4) Měření a vizualizace podobnosti katalogizačních záznamů [sis]

Při studiu katalogizačního záznamu mohou uživatele zajímat podobné práce.

Cílem práce je měřit a vizualizovat podobnost katalogizačních záznamů na základě metadat, věcných popisů a anotací.

Data

  • záznamy s věcným popisem (v bázi je cca 575 000 záznamů)

5) Vytvoření systému pro poloautomatické dešifrace [sis]

Jedním z častých problémů při bibliografické práci je přiřazení tzv. šifer  konkrétním autorům. Šifry jsou vlastně zkrácenými podobami jména, nejčastěji jen o dvou či třech znacích, které mohou mít vztah/obsahovat písmena ze skutečného jména autora. Nejčastější typ šifry je tzv. iniciálová šifra - např. J. N. pro jméno Jan Novák, existuje ale různé množství dalších kombinací (koncová písmena, vnitřní písmena atp. - pro jméno Jan Novák teoreticky může vzniknout šifra nN, -ová-, Nk., Ja-k, ao atp.). Část šifer dokonce nemá k výchozímu jménu žádný vztah

Cílem práce je navrhnout algoritmus, který by hledal vhodná jména k vybrané šifře.

Data

  • soupis jmen či jejich variant dle potřeby omezený např. na daný časopis, dané období, dané téma