Descripción del Dataset (ES)
El dataset contiene como observaciones documentos publicados en el
Public Register of Documents del Parlamento Europeo (""). Cada observación representa un documento
específico del Parlamento, identificado por un título, tipo de documento, año de publicación, fecha del documento,
autoridades responsables, conceptos clave (Eurovoc), códigos de directorio y otros metadatos descriptivos.
Además, se incluye una representación tokenizada de los textos y palabras clave extraídas mediante técnicas de
Natural Language Processing (NLP).
Cobertura Temporal
Período de referencia: 1994 - 2024
Dataset inicial: 24,502 documentos
Dataset filtrado: 13,759 documentos (publicados después de 2014, disponibles en idioma inglés)
Public Register of Documents (Parlamento Europeo)
Criterios de Selección
Palabras clave utilizadas en la búsqueda:
“nuclear deterrence”, npt (Tratado de No Proliferación Nuclear), tpnw (Tratado sobre la Prohibición de Armas Nucleares),
“nuclear weapons”.
Idioma: Inglés
Fechas de publicación: Posteriores a 2014
Estructura del Dataset
Campos principales
Title: Título del documento.
Register Reference: Código único del documento en el registro.
Document Type: Tipo de documento (informes, enmiendas, mociones, etc.).
Year: Año de publicación.
Document Date: Fecha del documento.
Authorities: Entidades responsables del documento.
Eurovoc Concept: Conceptos temáticos clasificados según el tesauro de Eurovoc.
Directory Codes y Subject Headings: Clasificaciones específicas del Parlamento Europeo.
File: Enlace o nombre del archivo asociado al documento.
Text, Text_OG y Text_tokenized: Texto completo, versión original, y versión tokenizada del contenido.
Keywords: Palabras clave generadas mediante los algoritmos KeyBERT y TF-IDF.
Tamaño del Dataset: 13,800 documentos filtrados.
Extracción mediante web scraping.
Preprocesamiento y limpieza del texto.
Tokenización para análisis lingüístico.
Identificación de palabras clave con TF-IDF.
Dataset Description (EN)
The dataset contains observations of documents published in the
Public Register of Documents of the European Parliament
Each observation represents a specific document from the Parliament, identified by a title, document type, year of publication,
document date, responsible authorities, key concepts (Eurovoc), directory codes, and other descriptive metadata.
Additionally, it includes a tokenized representation of the texts and keywords extracted using
Natural Language Processing (NLP) techniques.
Temporal Coverage
Reference Period: 1994 - 2024
Initial Dataset: 24,502 documents
Filtered Dataset: 13,759 documents (published after 2014, available in English)
Public Register of Documents (European Parliament)
Selection Criteria
Keywords used in the search:
“nuclear deterrence,” NPT (Non-Proliferation Treaty), TPNW (Treaty on the Prohibition of Nuclear Weapons),
“nuclear weapons.”
Language: English
Publication Dates: After 2014
Dataset Structure
Main Fields
Title: Title of the document.
Register Reference: Unique code of the document in the register.
Document Type: Type of document (reports, amendments, motions, etc.).
Year: Year of publication.
Document Date: Date of the document.
Authorities: Entities responsible for the document.
Eurovoc Concept: Thematic concepts classified using the Eurovoc thesaurus.
Directory Codes and Subject Headings: Specific classifications from the European Parliament.
File: Link or name of the file associated with the document.
Text, Text_OG, and Text_tokenized: Full text, original version, and tokenized version of the content.
Keywords: Keywords generated using KeyBERT and TF-IDF algorithms.
Dataset Size: 13,800 filtered documents.
Data extraction via web scraping.
Text preprocessing and cleaning.
Tokenization for linguistic analysis.
Keyword identification using TF-IDF.