SIS code: 
Semester: 
winter, summer
Examination: 
zkouška, zápočet
Instructor: 
English version

Zimní semestr

Předmět se učí pod kódem NPFL112 na FSV UK, U Kříže 8, Praha 5 - Jinonice, pátek 9:30 - 10:50, budova C, místnost C420. Kurz je otevřený pro všechny, ale přednost mají studenti přihlášení v programu Certifikát v Digital Humanities. Kapacita kurzu je 22 studentů. POZOR, v ZS tento kurz není na FF namapován na kurz AMLV00046, protože mu chybí výuka statistiky od prof. V. Cvrčka.   

Letní semestr

Předmět se učí v pátek na MFF UK, Malostranské náměstí 25, pod kódem NPFL112 (9:00 - 10:30) a pod kódem AMLV00046, kde je jeho povinnou součástí také statistická přednáška prof. Václava Cvrčka (ÚČNK FFUK) a který trvá 9:00 - 12:10. NPFL112 a AMLV00046 se můžou lišit v počtu kreditů a atestacemi. Pokud je to pro vás důležité, zkontrolujte aktuální situaci v SIS.   

Anotace předmětu

V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a typicky kvantitativní analýze (velkých) dat. Tento trend plnou silou zasáhl i historii a literární vědu, nemluvě o lingvistice a translatologii, které mají dlouhou tradici korpusových a kvantitativních metod. Kromě vědy se datová analýza uplatňuje například v žurnalistice, veřejné správě a poradenství a její zvládnutí vám může pomoci najít zajímavé pracovní uplatnění.

Naučíme vás:
- čistit a strukturovat data do přehledných tabulek,
- odhalovat trendy, pravidelnosti, i extrémní případy,
- základy moderní vizualizace

Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní analytické knihovny rodiny tidyverse, s kterými pracují profesionální datoví analytici na celém světě. Látku vykládáme převážně na datasetech mtcars, diamonds, iris, všeobecně známých v komunitě uživatelů R, ale zařazujeme i případovou studii na lingvistických datech, případně jiných zajímavých datech od studentů, pokud je dostaneme s rozumným předstihem.
 
V závislosti na aktuální cenové politice online školy DataCamp mívají studenti tohoto kurzu bezplatný přístup k jejich výukovým materiálům po celý semestr. Jestli si chcete předem utvořit představu o náplni kurzu, vytvořte si účet na DataCampu a prohlédněte si jejich bezplatný úvodní kurz R!


Předpoklady: angličtina, základy práce s počítačem, frustrační tolerance a disciplína k pravidelné domácí přípravě. Programovat umět nemusíte.

Požadavky pro udělení atestace:

  • aktivní účast na všech hodinách (výjimky na zvážení učitele),
  • včasné odevzdávání domácích úkolů
  • Známkování u zkoušky závisí na vašem celkovém výkonu na DataCampu. 

    Grade C: 30,000 DataCamp XP, active participation (or equivalent: each absence increases your passing limit by 1,000 DataCamp XP), one home assignment submitted in time and approved by the teacher.

    Grade B: 30,000 DataCamp XP, active participation (or equivalent: each absence increases your passing limit by 1,000 DataCamp XP), two home assignments submitted in time and approved by the teacher.

    Grade A: 30,000 DataCamp XP, active participation (or equivalent: each absence increases your passing limit by 1,000 DataCamp XP), three home assignments submitted in time and approved by the teacher.

    Počítají se jenom body získané v daném semestru a z předepsaných kapitol. Pokud je máte už hotové, domluvte se předem s učitelem na alternativních kapitolách podle svého zájmu. 

    Licence pro DataCamp vám platí šest měsíců od jejího založení (pevné datum těsně před začátkem semestru) a nelze ji prodloužit. Univerzita není povinna vám poskytnout další licenci a alternativní zadání nejsou možná. 

Sylabus

- Seznámení s RStudiem. Základní pojmy. Datová analýza jako malý výsek programování.
- Balíčky, funkce, argumenty, parametry
- Vybrané objektové třídy: vektor, faktor, data frame, table, tibble, seznam, matice
- Reporting v RMarkDown
- Agregace dat
- Vizuální gramatika diagramů v knihovně ggplot2.
- Vizuální explorace dat: typy a kombinace veličin, vhodné diagramy a mapování na estetické škály
- Overplotting a jak na něj
- Funkce vyhlazování v ggplot2
- Objekty statistických transformací ("stat_xxx") a jejich souhra s geometrickými objekty ("geom_xxx")
- Koncept "tidy data"
- Data wrangling: hlavní funkce knihoven dplyr a tidyr pro transformace tabulek
- Operace na znakových řetězcích (knihovna stringr)
- Import a export souborů a objektů různých formátů
- Případová studie

Výukové materiály

https://ufal.github.io/R_BEGINNERS_SHORT/ (materiály k letní škole)

Hlavní prameny

Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/
Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly.
Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.

Vedlejší prameny

Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly.
Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter.
Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge.
Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer.
Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins.
Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley.