Alates 01.01.2017 jõustus autoriõiguse seaduse muudatus, mis võimaldab digitaalse objekti töötlemist teksti- ja andmekaeve eesmärkidel tingimusel, et selline kasutamine ei taotle ärilisi eesmärke (AutÕS § 19 lg 31). Samal ajal hakkas kehtima ka säilituseksemplari seadus, mille järgi on kirjastustel kohustus loovutada raamatukogudele lisaks füüsilistele ka digitaalsed teosed. Seega on uus olukord laiendanud uuema ja mitmekesisema uurimismaterjali kättesaadavust.
Käesolev töö on esimene katse seda materjali kasutades luua teadlaste ja arendajate jaoks vabalt kättesaadav ressurss.
This dataset consists of different types of n-grams (uni-, bi- and trigrams) generated from the newer fiction texts in Estonian. N-grams are presented in token format, i.e. as they appear in the text. The lemma n-grams of the same data are available as well.