Segments textuels - Textual Segments - Hérelles Project

DOI

L’un des objectifs du projet Hérelles est de trouver de nouveaux mécanismes afin de faciliter l’étiquetage (ou sémantisation) des clusters issus des séries temporelles d’images satellite. Pour y parvenir, une solution proposée est d’associer des éléments textuels d’intérêt (adéquation avec la thématique d’étude, et le périmètre spatio-temporel des séries temporelles) aux données satellite. Ce jeu de données présente un corpus thématique préalablement récolté et annoté manuellement ainsi que les résultats d’une méthode d’extraction automatique des éléments textuels d'intérêt. Il comprend les éléments suivants : Le fichier Corpus_Expert_Links.tab présente le corpus thématique utilisé avec les liens vers les documents qui le composent. Ils ont été choisis pour leur richesse en règles et contraintes concernant l’occupation des sols. Le fichier Lisez_Moi définit le protocole d’annotation avec la définition des différents termes employés (segments, règles, …). Le fichier Read_Me est la version anglaise du fichier Lisez_Moi.

Le dossier compressé Corpus_Manually_Annotated.zip contient les documents d’intérêt en version txt et annotés manuellement.
Le dossier compressé Corpus_Extracted_Segments.zip contient les résultats du processus de segmentation automatique sur les documents d’intérêt avec les labels selon les 4 classes (Verifiable, Non-verifiable, Informative and Not pertinent).

Identifier
DOI https://doi.org/10.57745/DWYGMB
Metadata Access https://entrepot.recherche.data.gouv.fr/oai?verb=GetRecord&metadataPrefix=oai_datacite&identifier=doi:10.57745/DWYGMB
Provenance
Creator Holveck, Margaux; Koptelov, Maksim ORCID logo; Roche, Mathieu ORCID logo; Teisseire, Maguelonne ORCID logo
Publisher Recherche Data Gouv
Contributor Teisseire Maguelonne; Entrepôt-Catalogue Recherche Data Gouv
Publication Year 2023
Rights etalab 2.0; info:eu-repo/semantics/openAccess; https://spdx.org/licenses/etalab-2.0.html
OpenAccess true
Contact Teisseire Maguelonne (TETIS, INRAE)
Representation
Resource Type Collection; Dataset
Format text/tab-separated-values; application/zip; application/pdf
Size 682; 171408; 152891; 235988; 216204
Version 2.1
Discipline Computer Science