Eesti murrete korpus

DOI

Eesti murrete korpus on kõiki eesti murdeid hõlmav elektrooniline andmekogu. Korpus koosneb helisalvestistest, foneetilises transkriptsioonis murdetekstidest, lihtsustatud transkriptsioonis murdetekstidest, morfoloogiliselt märgendatud tekstidest, süntaktiliselt märgendatud tekstidest ja metaandmetest. Selles repositooriumis on kättesaadavaks tehtud morfoloogiliselt märgendatud tekstid XML-formaadis ja nende põhjal koostatud märksõnade ja sõnaliikide sagedusloendid. Muude korpuse osadega saab tutvuda Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu lehel https://murdearhiiv.ut.ee/.

The corpus of Estonian dialects is an electronic database comprising data from all Estonian dialects. The corpus consists of audio recordings, dialect texts in phonetic transcription, dialect texts in simplified transcription, morphologically annotated texts, syntactically annotated texts, and metadata. In this repository, only the morphologically annotated texts in XML format along with frequency lists of lemmas and part-of-speech tags are made available. Other parts of the corpus can be accessed through the University of Tartu Archives of Estonian Dialects and Kindred Languages at https://murdearhiiv.ut.ee/.

Identifier
DOI https://datadoi.ee/handle/33/492
Metadata Access https://datadoi.ee/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:datadoi.ee:33/492
Provenance
Creator Lindström, Liina; Todesk, Triin; Pilvik, Maarja-Liisa
Publisher Tartu Ülikool, eesti ja üldkeeleteaduse instituut
Publication Year 2022
Rights info:eu-repo/semantics/restrictedAccess
OpenAccess false
Contact Tartu Ülikool, eesti ja üldkeeleteaduse instituut
Representation
Language Estonian
Resource Type info:eu-repo/semantics/dataset
Format XML; TXT; HTML; ZIP; text/plain; application/zip; text/html
Discipline Other