INTERCOST-Readability

Modelování komplexity českých literárních textů

Feder Fueller mirror

 

Komplexita textu ovlivňuje jeho „jasnost“ (tj. jak dobře mu recipient porozumí a co si z něj zapamatuje) i úspěšnost automatické extrakce informací. Kromě toho se zdá, že by sklon ke komplexnímu nebo naopak jednoduchému vyjadřování mohl být individuálním znakem každého autora. Kvantifikace textové komplexity je proto důležitým prvkem poznání o užívání jazyka a byla by užitečná jednak pro kontrolu srozumitelnosti sdělení u nebeletristických textů, jednak pro design i evaluaci nástrojů na automatickou analýzu nestrukturovaných jazykových dat, a konečně i pro stylometrické úlohy, z nichž nejtypičtější je určování autora daného textu na základě porovnání s texty možných autorů.

Pro textovou komplexitu a porozumění textu již více než sto let vznikají různé metriky, zejména v anglosaských zemích. Bohatou tradici tohoto výzkumu má i němčina a severské jazyky. V němčině existuje velmi vlivný model jasnosti, tzv. Hamburský koncept srozumitelnosti, založený na dvojnásobném hodnocení různých textů: panelem expertů a velkým vzorkem probandů. V češtině však tradici výzkumu textové komplexity nemáme, jakkoli již vznikla řada praktických rádců pro srozumitelný styl vyjadřování, většinou ovšem na sebe vzájemně neodkazujících.

Navrhovaný projekt si klade za cíl

  • Vytvořit český datový soubor podle vzoru Hamburského konceptu srozumitelnosti;
  • Porovnat korelace mezi testem porozumění, subjektivním hodnocením jasnosti u probandů a Hamburskými kritérii na jedné straně, a jednotlivými metrikami jasnosti textu na druhé straně;
  • Adaptovat některou z metrik na češtinu, podle zjištěných korelací;
  • Provést stylometrický experiment s českými texty a porovnat úspěšnost bez jasnosti a s jasností, totéž s vybranými slovanskými jazyky a angličtinou (s původními metrikami).