Na vstupu máte soubor trees.tsv.gz, který obsahuje závislostní stromy na čských větách v následujícím formátu: ID slovaFORMA slovaID rodiče Jednotlivé věty jsou odděleny prázdným řádkem. Vaším úkolem je automaticky rozdělit tyto závislostní stromy na souvislé podstromy (treelety). Výsledných typů treeletů by mělo být pokud možno málo. Přirozené je, že skupinky slov, které se v jazyce často opakují nebo jsou často spolu budou tvořit jeden treelet. Pro odvození použijte Gibbsův sampler se symetrickým dirichletovským priorem menším než jedna. Tím docílíte toho, že se budou upřednostňovat jednoduchá řešení.