Los datos del Atlas Histórico del Español se originan en búsquedas en corpus lingüísticos de acceso abierto con selección y filtrado de los resultados. En particular el proyecto reúne datos lingüísticos de la historia del español con data cronogeográfica. Se trata de listados de ejemplos de estructuras lingüísticas en formato csv que incluyen información sobre fecha, lugar de emisión, contexto de los ejemplos, tipo documental del texto en que se encuentran así como referencia al corpus de origen de donde se han extraído. Los datos con consultables en la web desde la página atlashistorico.uib.es donde los usuarios pueden además descargárselos. La web de consulta permite filtrar los datos y crear mapas dinámicos para su visualización. Tanto en la web como en el repositorio institucional CORA.RDR los datos tienen una licencia CC-BY-NC.
Los datos publicados en el repositorio sirven para crear los mapas dinámicos disponibles en el Atlas Histórico del Español. Se trata de datos extraídos, filtrados y codificados por los autores del capítulo correspondiente a cada rasgo. Durante la labor de codificado, cada uno de los expertos ha revisado todos sus ejemplos y ha descartado aquellos que no fueran válidos. Todos los capítulos utilizan como fuente para sus datos, como mínimo, el Corpus de documentos españoles anteriores a 1900 (CODEA+ 2022), desarrollado por el Grupo de Investigación Textos para la Historia del Español (GITHE) de la Universidad de Alcalá. En los rasgos en los que es necesario utilizar un corpus mayor los autores pueden haber utilizado otras fuentes de textos documentales. La fuente utilizada para cada de uno de los ejemplos cartografiados, así como el identificador del documento, aparece indicada en la columna ID de la tabla de ejemplos de los archivos de datos.