Témata pro studenty

Zde uvádím témata pro studentské práce. Každé z nich je možné upravit podle toho, o jaký druh práce (ročníkový projekt, bakalářská, diplomová) má student zájem.

Extrakce informací z textových a zvukových záznamů zasedání Poslanecké sněmovny ČR

Textové záznamy (stenozáznamy) a zvukové záznamy ze zasedání Poslanecké sněmovny ČR jsou k dispozici v digitálním repozitáři PS ČR. V rámci projektu ParCzech ...

Cílem práce bude navrhnout a implementovat systém pro extrakci informací o poslancích z korpusu ParCzech 3.0, např. délka promluv jendotlivých poslanců.

Cíle podrobněji

detailně se seznámit s korpusem ParCzech 3.0
navrhnout minimálně čtyři vlastnosti poslanců, které lze extrahovat z dat (2 ze stenozáznamů, 2 z nahrávek)
navrhnout a implmentovat systém pro extrakci vybraných vlastností. Součástí systému bude i webové rozhraní pro vizualizaci extrahovaných informací. Systém bude implementován tak, aby bylo možné doplnit moduly pro extrakci dalších vlastností.

Literatura

ParlaMint
Hladká Barbora, Kopp Matyáš and Straňák Pavel. Compiling Czech Parliamentary Stenographic Protocols into a Corpus. In Proceedings of the LREC 2020 Workshop on Creating, Using and Linking of Parliamentary Corpora with Other Types of Political Discourse (ParlaCLARIN II), Darja Fiser, Maria Eskevich, Franciska de Jong (eds.), pp. 18–22, 2020.
Kopp Matyáš, Vladislav Stankov, Jan Oldřich Krůza, Pavel Straňák, Ondřej Bojar. ParCzech 3.0: A Large Czech Speech Corpus with Rich Metadata. Text, Speech, and Dialogue. Springer International Publishing, pp. 293-304, 2021.
https://sidih.github.io/agenda/index.html

Témata ve spolupráci s Českou literární bibliografíí

Česká literární bibliografie (ČLB) je výzkumnou infrastrukturou, provozovanou při Ústavu pro českou literaturu AV ČR, v. v. i. K jejím hlavním činnostem patří zpracování stejnojmenné bibliografické databáze, která obsahuje bibliografické záznamy textů z kulturní publicistky a odborných textů o české literatuře a literárním životě v českých zemích.

Každý bibliografický záznam je popsán metadaty, tj. jmenným a věcným popisem, anotací a případně i odkazem na plný text. Způsob zápisu přitom respektuje obecně rozšířené standardy soudobého knihovnictví a informační vědy (výměnný formát MARC21, katalogizační pravidla RDA atp.). Databáze jsou přístupné na adresách http://biblio.ucl.cas.cz/ (databáze pro období po roce 1945 v systému Aleph) a http://retrobi.ucl.cas.cz/ (digitalizovaná lístková kartotéka pro období 1770-1945 v systému RETROBI). Jednotlivý záznam vypadá např. takto (RETROBI). Podrobnější informace o ČLB jsou k dispozici na adrese http://clb.ucl.cas.cz/cs.

1) Kategorizace katalogizačních záznamů

Součástí každého katalogizačního záznamu je věcný popis. Ten je primárně zajišťován pomocí řízeného slovníku - tezauru, děleného dle jednotlivých logických kategorií (osoba, korporace, akce, dílo, chronologický termín, geografický termín, věcný termín). Pro účely věcného popisu je používán tzv. soubor národních autorit, zpracovávaný v kooperačním systému českých knihoven pod vedením Národní knihovny ČR (více o kooperačním systému zde, přímý vstup do báze národních autorit je pak zde).

Systém národních autorit umožňuje provázání jednotlivých hodnot (kategorií) jak horizontálně (nadřazený vs. podřazený pojem), tak vertikálně (příbuzný termín). Zároveň nabízí též možnost odlišit tzv. preferovanou a nepreferovanou hodnotu, používanou např. pro propojení různých variant jmen či synonymních termínů (lingvistika vs. jazykověda atp.). Každé tzv. autoritní heslo pak má přidělen svůj vlastní perzistentní identifikátor (kód národní autority). Vedle hodnot z tezauru/souboru národních autorit může katalogizátor dle potřeby použít libovolnou další - část z nich se při tom může do budoucna stát součástí tezauru (“nová” hesla), část z nich do tezauru přijata nebude (okrajové, jednorázově či zcela ojediněle se vyskytující hesla). Veškeré hodnoty věcného popisu (z tezauru i mimo něj) vytvářejí průběžně aktualizovaný rejstřík. Hodnoty věcného popisu jsou aktuálně přiřazovány výhradně ručně.

Příklad Tento článek má bibliografický záznam k dispozici zde. K bibliografickému záznamu bylo doplněno následujících devět klíčových slov: Manet, Édouard, - 1832-1883; Nezval, Vítězslav, - 1900-1958; Pražský lingvistický kroužek - 70 let existence (mezinárodní konference) (1996 : Praha, Česko) bohemistika; malířství; překlady z angličtiny; umění česká poezie; literárněvědné rozbory a interpretace; rozbory díla; studie

Varianta a)

Cílem práce je vytvořit automatický systém pro přiřazování klíčových slov katalogizačním záznamům. Systém upozorní bibliografa, která automaticky přiřazená klíčová slova vyžadují ruční revizi.

Varianta b)

Cílem práce je vytvořit automatický systém pro přiřazování klíčových slov katalogizačním záznamům, a to na základě sémantické analýzy a porovnání plného textu daného dokumentu a existujícího souboru klíčových slov. Systém bibliografovi navrhne doporučená/vhodná klíčová slova, popř. provede srovnání s již existujícím věcným popisem a navrhne jeho úpravu/doplnění.

Data

záznamy s věcným popisem (v bázi je cca 575 000 záznamů)
hierarchie klíčových slov
plné texty vybraných článků (pravděpodobně budou k dispozici plné texty, např. z časopisu Česká literatura, který je v bázi kompletně zpracovaný)

2) Nahrazení základních tvarů slov v textu tvary gramaticky správnými

V části záznamů ČLB (jde o nejstarší databázově zpracovávané záznamy z počátku 90. let) se v poli Anotace vyskytuje volný text, ve kterém jsou klíčová slova obvykle v základním tvaru i přesto, že dle kontextu by měla být v jiném tvaru. Tento způsob zápisu byl zvolen s ohledem na možnosti vyhledávání v tehdejším softwaru (zvolený termín je uzavřen ve znacích ). Celkem takto bylo zpracováno přes 200 000 záznamů.

Cílem práce je vytvořit automatický systém, který označené základní tvary převede do gramaticky správných tvarů, popř. upraví zápis jmen na přirozené pořadí jméno+příjmení.

Data

položky pole Anotace dle dostupného úplného soupisu

3) Hledání duplicitních kartotéčních lístků

V ČLB proběhla digitalizace kartotéčních lístků, které byly v době vzniku vytvářeny na psacích strojích, popř. rukou, a kopie vznikaly pomocí průklepového papíru. Stávalo se také, že do kartotéčních lístků byly dopisovány poznámky rukou. Pro každou práci bylo vytvořeno tolik kartotéčních lístků, kolik má práce autorů. Srov. například tato dvojice:

Cílem práce je detekovat lístky, které patří k jedné práci. V řešení je možné použít jak naskenované kartotéční lístky, tak i výstup systému OCR, případně oba zdroje kombinovat.

Data

naskenované kartotéční lístky (celkový objem je 1 600 000 lístků)
kartotéční lístky zpracované OCR

4) Měření a vizualizace podobnosti katalogizačních záznamů

Při studiu katalogizačního záznamu mohou uživatele zajímat podobné práce. Cílem práce je měřit a vizualizovat podobnost katalogizačních záznamů na základě metadat, věcných popisů a anotací.

Data

záznamy s věcným popisem (v bázi je cca 575 000 záznamů)

5) Vytvoření systému pro poloautomatické dešifrace

Jedním z častých problémů při bibliografické práci je přiřazení tzv. šifer konkrétním autorům. Šifry jsou vlastně zkrácenými podobami jména, nejčastěji jen o dvou či třech znacích, které mohou mít vztah/obsahovat písmena ze skutečného jména autora. Nejčastější typ šifry je tzv. iniciálová šifra - např. J. N. pro jméno Jan Novák, existuje ale různé množství dalších kombinací (koncová písmena, vnitřní písmena atp. - pro jméno Jan Novák teoreticky může vzniknout šifra nN, -ová-, Nk., Ja-k, ao atp.). Část šifer dokonce nemá k výchozímu jménu žádný vztah

Cílem práce je navrhnout algoritmus, který by hledal vhodná jména k vybrané šifře.

Data

soupis jmen či jejich variant dle potřeby omezený např. na daný časopis, dané období, dané téma

Hodnocení relevance soudních rozhodnutí

Soudní rozhodnutí je dokumentem z právní oblasti, který je rozhodnutím vyššího soudu ve věci sporu, viz např. rozhodnutí Nejvyšší správního soudu. Při rozhodování v právních věcech je identifikace relevantních nebo podobných soudních rozhodnutí velmi důležitou činností. S neustále se rozšiřujícím souborem soudních rozhodnutí je jejich ruční analýza prakticky nemožná, čímž je možné, že některá rozhodnutí jsou přehlížena, nebo naopak přetěžována.

Cílem práce je hodnocení relevance soudních rozhodnutí na základě měření podobnosti textu a chování rozhodnutí z pohledu citací. Cílovým jazykem je čeština.

Datové zdroje

dataset soudních rozhodnutí (https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-3052)
anotovaná data pro rozpoznávání referencí (https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3008)
anotovaná data pro segmentaci textů rozhodnutí (https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-2901)
extrahované reference (https://github.com/czech-case-law-relevance/czech-court-citations-dataset/blob/master/README.md)

Další zdroje

https://www.beck.cz/trestni-zakonik-komentar-d nebo https://obchod.wolterskluwer.cz/cz/obcansky-zakonik-komentar-svazek-v-relativni-majetkova-prava-1-cast.p1688.html
anotace publikované v časopisech (Právní rozhledy, Trestněprávní revue, Obchodněprávní revue, Soudce, Soudní rozhledy, Bulletin advokacie, časopisů je velké množství
zařazení rozhodnutí (publikace) ve sbírkách judikatury publikovaných jednotlivými soudy: pro Nejvyšší soud na https://sbirka.nsoud.cz/, pro Nejvyšší správní soud na https://sbirka.nssoud.cz/, pro Ústavní soud na https://www.usoud.cz/sbirka-nalezu-a-usneseni-us/

Literatura

Čapek

Koordinuji projekt vývoje a implementace aplikace Čapek, která umožňuje provádět tvaroslovné a větné rozbory on-line, jak můžete vyzkoušet zde (přihlášení guest a Guest1). V projektu nejde pouze o editor, ale i o zpracování rozborů, které od školáků a studentů získáme. Nabízím témata jak implementační, tak experimentální. Směřujeme k moderní multiplatformové aplikaci!

Aktualizace portálu jazykových her LGame

Anotace jazykových dat je náročná aktivita ve všech směrech. Proto se hledají alternativní způsoby organizace anotace, zejména ty s přívlastkem crowdsourcing. Patří mezi ně on-line hry, při kterých se hráči primárně baví, ale na pozadí anotují data. Na portálu LGame jsou publikovány tři hry s texty, *PlayCoref*, *Shannon Game* a *Place the Space*. Jejich pravidla jsou formulována nezávisle na jazyce textů. Cílem bakalářské práce je revize všech tří her z pohledu dat, pravidel a implementace a na základě revize návrh a implementace vylepšení.

Institute of Formal and Applied Linguistics

Charles University, Czech Republic
Faculty of Mathematics and Physics

Search form

Extrakce informací z textových a zvukových záznamů zasedání Poslanecké sněmovny ČR

Cíle podrobněji

Literatura

Témata ve spolupráci s Českou literární bibliografíí

1) Kategorizace katalogizačních záznamů

2) Nahrazení základních tvarů slov v textu tvary gramaticky správnými

3) Hledání duplicitních kartotéčních lístků

4) Měření a vizualizace podobnosti katalogizačních záznamů

5) Vytvoření systému pro poloautomatické dešifrace

Hodnocení relevance soudních rozhodnutí

Datové zdroje

Další zdroje

Literatura

Čapek

Aktualizace portálu jazykových her LGame