Verrijkt Koninkrijk: Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog in XML en gesemantiseerd

Het bekende seriewerk van dr. L. de Jong, Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog, dat verscheen tussen 1969 en 1991 is voor de historiografie van de Tweede Wereldoorlog van blijvende betekenis. Het CLARIN (Common Language Resources and Technology Infrastructure)-onderzoeksprogramma Verrijkt Koninkrijk had tot doel om het gedigitaliseerde corpus beter doorzoekbaar te maken en te koppelen aan andere relevante bronnen. Een demonstratieomgeving is ontwikkeld om onderzoek te doen naar De Jong's ideeën over verzuiling en groepsidentiteit. Het corpus van De Jong is verrijkt en beschikbaar gemaakt voor verder onderzoek.

Deze dataset bevat de tekst van Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog in XML. Deze documenten zijn het resultaat van OCR die met behulp van XSLT is omgezet in XML.

Dit XML-corpus is verrijkt met behulp van verschillende technieken voor het bewerken van natuurlijke taal. Zinnen, woorden en woordtypen zijn geïdentificeerd met behulp van de FROG toepassing. Persoonsnamen, organisaties en plaatsen zijn geïdentificeerd met behulp van NER-LBJ. Namen zijn vervolgens automatisch gekoppeld aan Wikipedia lemma's.

RDF data in XML van de gesemantiseerde namen, het register en de trefwoorden van het NIOD is ook beschikbaar.


The well known work by dr. Loe de Jong, Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog (The Kingdom of the Netherlands during World War II ), remains the most appealing history of German occupied Dutch society (1940-1945). Published between 1969 and 1991, the volumes still combine the qualities of an authoritative work for a general audience, and an inevitable point of reference for scholars. The CLARIN (Common Language Resources and Technology Infrastructure) project Enriched Kingdom is a combination of a demonstrator project and a resource curation project. In the demonstrator part of the project advanced tools and techniques are applied to gather data on De Jong's perception of the much debated issue of pillarisation and group identity. In the resource curation part of the project the corpus is enriched and made available to the research community for further research.

This dataset contains the text of The Kingdom of the Netherlands during World War II in XML format. For each part a XML-file has been created. These 30 documents are the results of OCR, which was converted using XSLT conversion scripts.

This XML corpus is augmented by numerous Natural Language processing techniques. More specifically, sentence boundaries, words and word types (Part of Speech) have been recognised using the FROG tool. Person names, Named and Geographic Entities were extracted using the NER-LBJ program. Names were automatically linked to Wikipedia lemmas.

RDF data in XML format for the Linked Data version of the semanticized named entities, back of the book terms and the thesaurus of the NIOD is available as well.

Identifier
DOI https://doi.org/10.17026/dans-xg7-u2ax
PID https://nbn-resolving.org/urn:nbn:nl:ui:13-nw8d-1i
Metadata Access https://easy.dans.knaw.nl/oai?verb=GetRecord&metadataPrefix=oai_datacite&identifier=oai:easy.dans.knaw.nl:easy-dataset:52758
Provenance
Creator Doornik, J. van; Boer, V. de; Buitinck, L.; Ribbens, K.; Veken, T.; Grootveld, M.; Marx, M.
Publisher Data Archiving and Networked Services (DANS)
Publication Year 2012
Rights info:eu-repo/semantics/openAccess; License: http://creativecommons.org/publicdomain/zero/1.0; http://creativecommons.org/publicdomain/zero/1.0
OpenAccess true
Representation
Language Dutch; Flemish
Resource Type Dataset
Format XML; FoLia; RDF; application/x-cmdi+xml
Discipline History; Humanities
Spatial Coverage The Netherlands; Nederland