EVALD 4.0 (Evaluator of Discourse)

Grant:

Automatic Evaluation of Text Coherence in Czech

EVALD 4.0

(Evaluator of Discourse)

(popis v češtině najdete níže)

1 Introduction

EVALD 4.0 (© 2019) is software that serves for automatic evaluation of surface coherence (cohesion) in Czech texts written by native speakers of Czech. The software monitors about 200 language features in mutual interaction from various language fields: spelling, morphology, lexicology, syntax, text syntax (sentence information structure) and text structure (semantic discourse relations, anaphora and coreference).

EVALD 4.0 is a 2019 update of the previous versions of EVALD – EVALD 1.0, EVALD 2.0 and EVALD 3.0.

The input document submitted to EVALD 4.0 is a written text created by a native speaker of Czech who wants to know the level of his or her writing skills in Czech in terms of surface coherence. EVALD software processes the text by internal procedures and then informs the user about the supposed level of surface coherence in the submitted text.

In its assessment, EVALD 4.0 identifies five possible levels of text coherence: 1 (excellent), 2 (very good), 3 (good), 4 (satisfactory) and 5 (unsatisfactory/fail). EVALD 4.0 was trained on authentic texts written by native speakers of Czech (the texts are taken from the corpus Skript2012¹ containing writing samples by students of Czech elementary and secondary schools).²

Firstly, the texts were divided into categories 1 to 5 by teachers (assessors) on the basis of their surface coherence level. Afterwards, the machine learning experiments on the evaluated texts were carried out.

EVALD 4.0 was learning how a human assessor evaluates the texts in order to be able to evaluate new texts itself (to divide them into categories A1 to C2). The software classifies the new texts according to schemes that it has previously learned on the so-called training data, using the Random Forest algorithm, available within the Weka software with open access.

EVALD 4.0 was created in order to evaluate the submitted text by one of the mentioned marks/categories (i.e. 1–5) from the perspective of surface coherence and in this respect to approach human evaluation.³

2 Installation and instruction manual

Please see the documentation tab for instructions how to get and run Evald 4.0.

On-line demo version: https://lindat.mff.cuni.cz/services/evald/

3 Targeted users

EVALD 4.0 can be used e.g. by teachers of Czech at elementary and secondary schools for the evaluation of student essays⁴ in terms of surface text coherence. Software can be particularly useful as an assistant tool for easier and faster evaluation of graduation essays in Czech (e.g. as the first or control phase of the evaluation). EVALD 4.0 can be also used by students who can easily verify their level of coherence in Czech thanks to this software.

Software is available publicly and free of charge, without obtaining a license.

4 Bibliographic reference

Michal Novák, Jiří Mírovský, Kateřina Rysová, Magdaléna Rysová, Eva Hajičová: EVALD 4.0 – Evaluator of Discourse. Data/software, LINDAT/CLARIN digital library, Prague, Czech Republic, http://hdl.handle.net/11234/1-3065, Oct 2019. On-line demo version: https://lindat.mff.cuni.cz/services/evald/

¹ Šebesta, Karel; Goláňová, Hana; Letafková, Jana et al., 2016, AKCES 1, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11234/1-1741. The corpus AKCES 1 contains the same data as the corpus Skript2012 (https://ucnk.ff.cuni.cz/skript.php).

² We gratefully thank to the authors of this corpus for their kind providing of the texts on which EVALD 4.0 could be trained.

³ At the same time, it is necessary to emphasize that the software serves only as an assistant assessment tool and its assessment cannot fully substitute the human evaluation (although the software is able to determine the level of surface coherence in the submitted text with a relatively high probability).

⁴ The software is created for assessing the coherence of authentic writing samples (essays) written by native speakers of Czech. In other words, it is trained to evaluate (prosaic) texts whose content and form (e.g. length) correspond to the common school essays created as a comprehensive piece of writing on a given topic, e.g. during the lessons of Czech at secondary schools or at the highest grades of elementary schools or during the graduation exam of Czech etc. When evaluating a different type of text (e.g. too short texts, poems etc.), the software may not work reliably. The maximum length of the text entered is 8,192 characters.

EVALD 4.0

(Evaluátor diskurzu)

1 Úvod

Počítačový nástroj EVALD 4.0 (© 2019) slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny. Software tedy hodnotí (známkuje) úroveň předloženého textu z hlediska jeho povrchové výstavby – zohledňuje cca 200 jazykových rysů ve vzájemné interakci, a to z oblasti pravopisu, morfologie, slovní zásoby, syntaxe, textové syntaxe (aktuálního členění větného) a výstavby textu (významových diskurzních vztahů a vztahů anafory a koreference).

EVALD 4.0 je aktualizací předchozích verzí softwaru EVALD – EVALD 1.0, EVALD 2.0 a EVALD 3.0.

Vstupním dokumentem, který se předkládá softwaru EVALD 4.0, je psaný text vytvořený člověkem (rodilým mluvčím češtiny), který chce znát úroveň svého písemného vyjadřování v češtině z hlediska povrchové koherence. Software text vyhodnotí vnitřní procedurou a sdělí uživateli předpokládanou úroveň povrchové koherence předloženého textu.

EVALD 4.0 ve svém hodnocení rozlišuje pět možných úrovní koherence textu: 1 (vynikající), 2 (chvalitebný), 3 (dobrý), 4 (dostatečný) a 5 (nedostatečný). Byl trénován na autentických textech rodilých mluvčích češtiny (texty pocházejí z korpusu Skript2012,¹ jedná se o písemné práce studentů středních a žáků základních škol).²

Tyto texty nejprve roztřídili učitelé (hodnotitelé) do kategorií 1–5 na základě toho, jaké úrovně v nich dosahovala povrchová koherence. Poté byly na takto ohodnocených textech provedeny experimenty strojového učení. Software EVALD 4.0 se učil, jak texty hodnotí člověk, aby díky tomu byl posléze sám schopen třídit nové texty do kategorií 1–5 (třídí je podle schémat, která se předtím naučil na tzv. trénovacích datech), s využitím algoritmu Random Forest dostupného v rámci volně přístupného softwaru Weka.

Software EVALD 4.0 byl tedy vytvořen tak, aby předloženému textu přiřadil jednu z uvedených známek/kategorií (tj. 1–5) z hlediska povrchové koherence a přiblížil se přitom lidskému hodnocení.³

2 Instalace a návod k použití

Informace o získání a spuštění softwaru najdete v záložce dokumentace.

Demo verze přístupná on-line: https://lindat.mff.cuni.cz/services/evald/?lang=cs

3 Využití

Software EVALD 4.0 mohou využívat např. učitelé češtiny na základních a středních školách či odborných učilištích při hodnocení slohových prací⁴ z hlediska povrchové koherence. Software může být užitečný zvláště jako pomocný nástroj pro snazší a rychlejší hodnocení maturitních prací (např. jako první nebo kontrolní fáze jejich hodnocení). Software mohou dále využívat studenti, kteří si díky němu mohou ověřovat svoji úroveň češtiny v oblasti koherence textu.

Software je dostupný veřejně a zdarma, bez nutnosti získání licence.

4 Bibliografický údaj

¹ Šebesta, Karel; Goláňová, Hana; Letafková, Jana et al., 2016, AKCES 1, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11234/1-1741. Korpus AKCES 1 obsahuje stejná data jako korpus Skript2012 (https://ucnk.ff.cuni.cz/skript.php).

² Děkujeme tvůrcům tohoto korpusu za laskavé poskytnutí textů, na kterých mohl být software EVALD 4.0 trénován.

³ Zároveň je nutné zdůraznit, že software slouží pouze jako pomocný hodnoticí nástroj a jeho hodnocení nemůže plně nahrazovat hodnocení člověka, jakkoli je software schopen určit úroveň povrchové koherence textu s relativně vysokou pravděpodobností.

⁴ Software je určen pro hodnocení koherence autentických písemných (slohových) prací vytvořených rodilými mluvčími češtiny. Tj. je trénován na hodnocení prozaických textů obsahem a rozsahem (formou) odpovídajících běžné slohové práci vytvořené jako samostatný, ucelený písemný projev na zadané téma, např. při hodinách českého jazyka na středních školách, odborných učilištích (nebo v nejvyšších ročnících základních škol) či při maturitní zkoušce z českého jazyka apod. Při hodnocení jiného typu textů (např. příliš krátkých textů, básní apod.) software nemusí pracovat spolehlivě. Maximální možná délka zadaného textu je 8 192 znaků.

Search form