Replication Data for A simplified machine learning workflow for identifying potential singlet fission candidates: benzannulated biphenylenes as a case study

DOI

This dataset contains all the necessary information to reproduce the results presented in the manuscript "Streamlined Machine Learning Protocol for the Discovery of Singlet Fission Materials". It includes a multi-XYZ file with the optimized geometries of all the molecular structures studied, as well as accompanying .csv files that provide the corresponding SMILES strings. The target values were obtained through DFT and TD-DFT calculations performed with Gaussian 16, and molecular descriptors for all systems were generated using AQME. In addition to the computed properties, the dataset contains the predicted values produced by ROBERT, a tool for automating and documenting predictive models in computational chemistry, making it easier to bridge chemical research with modern machine learning techniques. To further support reproducibility and traceability, the dataset also include a PDF report generated by ROBERT, which document two successive rounds of model training and evaluation.

Este conjunto de datos contiene toda la información necesaria para reproducir los resultados presentados en el manuscrito "Streamlined Machine Learning Protocol for the Discovery of Singlet Fission Materials". Incluye un archivo multi-XYZ con las geometrías optimizadas de todas las estructuras moleculares estudiadas, así como archivos .csv que proporcionan las cadenas SMILES correspondientes. Los valores objetivo se obtuvieron mediante cálculos DFT y TD-DFT realizados con Gaussian 16, y los descriptores moleculares para todos los sistemas se generaron utilizando AQME. Además de las propiedades calculadas, el conjunto de datos contiene los valores predichos por ROBERT, herramienta para automatizar y documentar modelos predictivos en química computacional, facilitando la conexión entre la investigación química y las técnicas modernas de aprendizaje automático. Para apoyar aún más la reproducibilidad y la trazabilidad, el conjunto de datos también incluye un informe en PDF generado por ROBERT, que documentan dos rondas sucesivas de entrenamiento y evaluación del modelo.

Aquest conjunt de dades conté tota la informació necessària per reproduir els resultats presentats al manuscrit "Streamlined Machine Learning Protocol for the Discovery of Singlet Fission Materials". Inclou un fitxer multi-XYZ amb les geometries optimitzades de totes les estructures moleculars estudiades, així com fitxers .csv que proporcionen les cadenes SMILES corresponents. Els valors objectiu es van obtenir mitjançant càlculs DFT i TD-DFT realitzats amb Gaussian 16, i els descriptors moleculars per a tots els sistemes es van generar amb AQME. A més de les propietats calculades, el conjunt de dades conté els valors predits per ROBERT, l'eina per automatitzar i documentar models predictius en química computacional, fent més fàcil la connexió entre recerca química i tècniques modernes de machine learning. Per reforçar encara més la reproductibilitat i la traçabilitat, el conjunt de dades també inclou un informe en PDF generats per ROBERT, que documenten dues rondes consecutives d'entrenament i avaluació del model.

Identifier
DOI https://doi.org/10.34810/DATA2473
Related Identifier IsSupplementTo https://doi.org/10.1039/D5TC04137F
Metadata Access https://dataverse.csuc.cat/oai?verb=GetRecord&metadataPrefix=oai_datacite&identifier=doi:10.34810/DATA2473
Provenance
Creator Artigas, Albert ORCID logo
Publisher CORA.Repositori de Dades de Recerca
Contributor Artigas Ruf, Albert; Universitat de Girona; MT(39)
Publication Year 2025
Rights CC BY 4.0; info:eu-repo/semantics/openAccess; http://creativecommons.org/licenses/by/4.0
OpenAccess true
Contact Artigas Ruf, Albert (Universitat de Girona)
Representation
Resource Type Machine-readable text; Dataset
Format chemical/x-xyz; text/tab-separated-values; text/plain; application/pdf
Size 1156121; 309080; 48582; 22842; 30605; 64045; 30359; 15947; 44659; 8755672; 67594; 35874; 9766; 2973159; 2927831; 3134665; 3760489; 3427538; 3480379; 3432812; 3327918; 3370697; 3448413; 3390463; 3249526; 3279672; 3405059; 3338267; 3252662
Version 2.0
Discipline Chemistry; Natural Sciences