Zde uvádím témata pro studentské práce. Každé z nich je možné upravit podle toho, o jaký druh práce (ročníkový projekt, bakalářská práce, diplomová práce) má student zájem.


Téma pro studentský fakultní grant v aktuální výzvě s termínem 15.11.19

Optické rozpoznávání znaků, tzv. OCR (Optical Character Recognition) je technologie umožňující digitalizaci tištěných textů, např. naskenovaných knih, souborů pdf, dokumentů vyfocených digitálním fotoaparátem. I přes značný pokrok v OCR analýze dokumentů se nedaří dosáhnout dokonalé přesnosti rozpoznávání. Vedle kvantitativního vyhodnocení rozpoznávání se uživatelé (např. knihovníci, kteří digitalizují rozsáhlé fondy knihoven) zabývají ručním vyhodnocením, které provádějí na výběru zpracovaných dat. Cílem projektu je vizualizace informací relevantních k ručnímu vyhodnocení rozpoznávání ve webovém prohlížeči. Takovými informacemi jsou: původní zdroj, výstupy OCR systémů ve formátu hOCR a ruční přepisy (pokud jsou k dispozici). Důraz bude kladen na vizualizaci metadat z formátu hOCR a rozdílů mezi výstupy systémů OCR.

Čapek

Koordinuji projekt vývoje a implementace aplikace Čapek, která umožňuje provádět tavroslovné a větné rozbory on-line, jak můžete vyzkoušet zde (přihlášení guest a Guest1). V projektu nejde pouze o editor, ale i o zpracování rozborů, které od školáků a studentů získáme. Nabízím témata jak implementační, tak experimentální. Směřujeme k moderní multiplatformové aplikaci!

Aktualizace portálu jazykových her LGame

Anotace jazykových dat je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby organizace anotace, zejména ty s přívlastkem crowdsourcing. Patří mezi ně on-line hry, při kterých se hráči primárně baví, ale na pozadí anotují data. Na portálu LGame jsou publikovány tři hry s texty, *PlayCoref*, *Shannon Game* a *Place the Space*. Jejich pravidla jsou formulována nezávisle na jazyce textů. Cílem bakalářské práce je revize všech tří her z pohledu dat, pravidel a implementace a na základě revize návrh a implementace vylepšení. 

Témata ve spolupráci s Českou literární bibliografíí

Česká literární bibliografie (ČLB) je výzkumnou infrastrukturou, provozovanou při Ústavu pro českou literaturu AV ČR, v. v. i. K jejím hlavním činnostem patří zpracování stejnojmenné bibliografické databáze, která obsahuje bibliografické záznamy textů z kulturní publicistky a odborných textů o české literatuře a literárním životě v českých zemích.

Každý bibliografický záznam je popsán metadaty, tj. jmenným a věcným popisem, anotací a případně i odkazem na plný text. Způsob zápisu přitom respektuje obecně rozšířené standardy soudobého knihovnictví a informační vědy (výměnný formát MARC21, katalogizační pravidla RDA atp.). Databáze jsou přístupné na adresách http://biblio.ucl.cas.cz/ (databáze pro období po roce 1945 v systému Aleph) a http://retrobi.ucl.cas.cz/ (digitalizovaná lístková kartotéka pro období 1770-1945 v systému RETROBI). Jednotlivý záznam vypadá např. takto (Aleph) nebo takto (RETROBI). Podrobnější informace o ČLB jsou k dispozici na adrese http://clb.ucl.cas.cz/cs.

1) Kategorizace katalogizačních záznamů

Součástí každého katalogizačního záznamu je věcný popis. Ten je primárně zajišťován pomocí řízeného slovníku - tezauru, děleného dle jednotlivých logických kategorií (osoba, korporace, akce, dílo, chronologický termín, geografický termín, věcný termín). Pro účely věcného popisu je používán tzv. soubor národních autorit, zpracovávaný v kooperačním systému českých knihoven pod vedením Národní knihovny ČR (více o kooperačním systému zde, přímý vstup do báze národních autorit je pak zde).

Systém národních autorit umožňuje provázání jednotlivých hodnot (kategorií) jak horizontálně (nadřazený vs. podřazený pojem), tak vertikálně (příbuzný termín). Zároveň nabízí též možnost odlišit tzv. preferovanou a nepreferovanou hodnotu, používanou např. pro propojení různých variant jmen či synonymních termínů (lingvistika vs. jazykověda atp.). Každé tzv. autoritní heslo pak má přidělen svůj vlastní perzistentní identifikátor (kód národní autority). Vedle hodnot z tezauru/souboru národních autorit může katalogizátor dle potřeby použít libovolnou další - část z nich se při tom může do budoucna stát součástí tezauru (“nová” hesla), část z nich do tezauru přijata nebude (okrajové, jednorázově či zcela ojediněle se vyskytující hesla). Veškeré hodnoty věcného popisu (z tezauru i mimo něj) vytvářejí průběžně aktualizovaný rejstřík. Hodnoty věcného popisu jsou aktuálně přiřazovány výhradně ručně.

Příklad Tento článek má bibliografický záznam k dispozici zde. K bibliografickému záznamu bylo doplněno následujících devět klíčových slov: Manet, Édouard, - 1832-1883; Nezval, Vítězslav, - 1900-1958; Pražský lingvistický kroužek - 70 let existence (mezinárodní konference) (1996 : Praha, Česko) bohemistika; malířství; překlady z angličtiny; umění  česká poezie; literárněvědné rozbory a interpretace; rozbory díla; studie

Varianta a)

Cílem práce je vytvořit automatický systém pro přiřazování klíčových slov katalogizačním záznamům. Systém upozorní bibliografa, která automaticky přiřazená klíčová slova vyžadují ruční revizi.

Varianta b)

Cílem práce je vytvořit automatický systém pro  přiřazování klíčových slov katalogizačním záznamům, a to na základě sémantické analýzy a porovnání plného textu daného dokumentu a existujícího souboru klíčových slov. Systém bibliografovi navrhne doporučená/vhodná klíčová slova, popř. provede srovnání s již existujícím věcným popisem a navrhne jeho úpravu/doplnění.

Data

  • záznamy s věcným popisem (v bázi je cca 575 000 záznamů)
  • hierarchie klíčových slov
  • plné texty vybraných článků (pravděpodobně budou k dispozici plné texty, např. z časopisu Česká literatura, který je v bázi kompletně zpracovaný)

2) Nahrazení základních tvarů slov v textu tvary gramaticky správnými

V části záznamů ČLB (jde o nejstarší databázově zpracovávané záznamy z počátku 90. let)  se v poli Anotace vyskytuje volný text, ve kterém jsou klíčová slova obvykle v základním tvaru i přesto, že dle kontextu by měla být v jiném tvaru. Tento způsob zápisu byl zvolen s ohledem na možnosti vyhledávání v tehdejším softwaru (zvolený termín je uzavřen ve znacích ). Celkem takto bylo zpracováno přes 200 000 záznamů.

Cílem práce je vytvořit automatický systém, který označené základní tvary převede do gramaticky správných tvarů, popř. upraví zápis jmen na přirozené pořadí jméno+příjmení.

Data

  • položky pole Anotace (úplný soupis zde)

3) Hledání duplicitních kartotéčních lístků

V ČLB proběhla digitalizace kartotéčních lístků, které byly v době vzniku vytvářeny na psacích strojích, popř. rukou, a kopie vznikaly pomocí průklepového papíru. Stávalo se také, že do kartotéčních lístků byly dopisovány poznámky rukou. Pro každou práci bylo vytvořeno tolik kartotéčních lístků, kolik má práce autorů. Srov. například tato dvojice:

Cílem práce je detekovat lístky, které patří k jedné práci. V řešení je možné použít jak naskenované kartotéční lístky, tak i výstup systému OCR, případně oba zdroje kombinovat.

Data

  • naskenované kartotéční lístky (celkový objem je 1 600 000 lístků)
  • kartotéční lístky zpracované OCR

4) Měření a vizualizace podobnosti katalogizačních záznamů

Při studiu katalogizačního záznamu mohou uživatele zajímat podobné práce. Cílem práce je měřit a vizualizovat podobnost katalogizačních záznamů na základě metadat, věcných popisů a anotací.

Data

  • záznamy s věcným popisem (v bázi je cca 575 000 záznamů)

5) Vytvoření systému pro poloautomatické dešifrace

Jedním z častých problémů při bibliografické práci je přiřazení tzv. šifer  konkrétním autorům. Šifry jsou vlastně zkrácenými podobami jména, nejčastěji jen o dvou či třech znacích, které mohou mít vztah/obsahovat písmena ze skutečného jména autora. Nejčastější typ šifry je tzv. iniciálová šifra - např. J. N. pro jméno Jan Novák, existuje ale různé množství dalších kombinací (koncová písmena, vnitřní písmena atp. - pro jméno Jan Novák teoreticky může vzniknout šifra nN, -ová-, Nk., Ja-k, ao atp.). Část šifer dokonce nemá k výchozímu jménu žádný vztah

Cílem práce je navrhnout algoritmus, který by hledal vhodná jména k vybrané šifře.

Data

  • soupis jmen či jejich variant dle potřeby omezený např. na daný časopis, dané období, dané téma