FID Metadata Streaming

DOI

FID Metadaten Streaming implementiert burst mode streaming, d.h. liest ein XML-Dokument als Datenstrom von Standardeingabe und materialisiert Teilbäume des Dokuments, deren Wurzel über den Option --qname ausgewählt werden. Durch diese Technik lassen sich große XML-Dateien ohne nennenswerte Belastung des Arbeitsspeichers verarbeiten.

Die Kommandozeilenanwendung wird mit Maven übersetzt und paketiert. Der Schritt mvn package erzeugt eine .jar-Datei im Verzeichnis target/ die alle Abhängigkeiten (Saxon HE, picacli) enthält.

Stichprobe erstellen (stream-sample)

Für jeden meterialisierten Teilbaum wird anhand der als Parameter übergebenen Wahrscheinlichkeit entschieden, ob er im Datenstrom verbleibt oder nicht.

Beispiel: Stichprobe von ca. 500 aus einer Menge von 50.000 MARC21-Datensätzen ziehen

Die Wahrscheinlichkeit von 0.01 (= 500 / 50.000) sorgt dafür, dass ungefähr 500 Datensätze ausgewählt werden.

java -jar streaming-XXX.jar stream-sample --probability=0.01 --qname={http://www.loc.gov/MARC21/slim}record < /pfad/zur/eingabe > /pfad/zur/ausgabe

Transformieren (stream-transform)

Die materialisierten Teilbäume werden durch eine als Parameter übergebene XSLT Transformation transformiert und zurück in den Ausgabestrom (Standardausgabe) geschrieben.

java -jar streaming-XXX.jar stream-transform --qname={http://www.loc.gov/MARC21/slim}record stylesheet.xsl < /pfad/zur/eingabe > /pfad/zur/ausgabe

Validieren mit XML Schema (stream-validate-xsd)

Die materialisierten Teilbäume werden mit einem als Parameter übergebene XML Schema validiert. Validierungsfehler werden an das Ende des Teilbaums geschrieben.

java -jar streaming-XXX.jar stream-validate-xsd --qname={http://www.loc.gov/MARC21/slim}record MARC21slim.xsd < /pfad/zur/eingabe > /pfad/zur/ausgabe

Zählen (stream-count)

Die materialisierten Teilbäume werden gezählt.

java -jar streaming-XXX.jar stream-count --qname={http://www.loc.gov/MARC21/slim}record < /pfad/zur/eingabe

Identifier
DOI https://doi.org/10.25592/uhhfdm.18293
Related Identifier IsPartOf https://doi.org/10.25592/uhhfdm.18258
Metadata Access https://www.fdr.uni-hamburg.de/oai2d?verb=GetRecord&metadataPrefix=oai_datacite&identifier=oai:fdr.uni-hamburg.de:18293
Provenance
Creator Maus, Davd ORCID logo
Publisher Universität Hamburg
Publication Year 2026
Rights GNU General Public License v3.0 or later; Open Access; https://opensource.org/licenses/GPL-3.0; info:eu-repo/semantics/openAccess
OpenAccess true
Representation
Resource Type Software
Version 1.1
Discipline Other