Netzpublikationen automatisch sammeln

18. Oktober 2023

von Wibke Weigand

Montag 05:17 Uhr 70 elektronische Dissertation der Uni Köln
Dienstag 12:05 Uhr 120 elektronische Zeitschriftenartikel des Karger Verlages
Mittwoch 16:00 Uhr 30 ebooks des Felix Meiner Verlages
Donnerstag 22:45 Uhr 60 Hörbücher des Audio-Verlages

Der Harvester für elektronische Veröffentlichungen hat rund um die Uhr zu tun.

Seit 2006 hat die Deutsche Nationalbibliothek den Auftrag, elektronische Publikationen (sogenannte Netzpublikationen) zu sammeln und zu archivieren. Seitdem wächst die Zahl der verarbeiteten Publikationen. Im Jahr 2010 waren es ca. 500 Dokumente, seit 2020 werden jährlich mehr als 500.000 Dokumente verarbeitet.

Bei jährlich 500.000 Dokumenten gibt es keine Chance für eine Einzelstückbearbeitung. Darum setzt die Deutsche Nationalbibliothek auf Massenablieferungsverfahren. Die ersten großen automatisierten Prozesse wurden für wissenschaftliche Publikationen der Hochschulen (insb. Dissertationen) eingerichtet. Später folgte dann das systematische Einsammeln digitaler Ausgaben von Tageszeitungen. Heutzutage können von digitalen Zeitschriftenausgaben, ebooks, Hörbücher oder Podcasts fast alle Medienformen gesammelt und archiviert werden. Der nächste große Prozess wird die Einrichtung eines Ablieferungsverfahrens für digitale Musikstreamings sein.

Das automatisierte Einsammeln von elektronischen Publikationen (auch Harvesting genannt) geschieht jedoch nicht einfach so. Mit der Professionalisierung der Medienbranche arbeiten sowohl Verlage und Vertriebsplattformen als auch Bibliotheken mit Daten. Diese bibliografischen Daten beschreiben die Publikation – den Autor, den Titel, das Erscheinungsjahr und vieles mehr. Beim Massenablieferungsprozess werden diese bibliographischen Daten zusammen mit dem Sammelobjekt (das ebook) vom Verlag an die Deutsche Nationalbibliothek übermittelt.

Klingt ganz einfach?
Das Angebot der verwendeten Datenformate in der Medienbranche ist beachtlich. eDiss werden per XMDP übermittelt, Zeitschriftenartikel per NISO-JATS, ebooks in der Regel per ONIX und manchmal auch via MARCXML. Und für die zukünftige Sammlung der Musikstreamings hat sich die DNB das in dieser Branche übliche DDEX-Format angeeignet.
Die Bibliothekar*innen der DNB sind Datenmanager. Sie wissen, welche bibliographischen Daten notwendig und hilfreich sind, um eine Publikation zu beschreiben und können das für verschiedene Datenformate der Verlags- und Medienbranche anwenden. Die Bibliothekar*innen sprechen mit den Ablieferer*innen über die im Verlag verwendeten Formate und die sogenannte Erschließungstiefe. Werden Titel und auch Untertitel angegeben? Werden Sänger und Band angegeben oder auch die einzelnen Stimmlagen und Instrumente? Werden bei Zeitschriftenartikel hilfreiche Angaben dazu gemacht, in welchem Heft und welchem Band dieser Artikel erschienen ist?
Und dann muss natürlich auch die Konversion (Übersetzung) in das Datenformat des PICA-ILTIS-Katalogsystems der Deutschen Nationalbibliothek ein optimales Ergebnis bringen.
Die Vorarbeiten sind manchmal aufwändig, ab und zu detailverliebt aber für Datenmanager immer eine spannende Herausforderung.

Wenn dann alles passt – also ONIX auf PICA und die bibliographische Beschreibung auf das zu sammelnde ebook – kann der Harvester seine Arbeit beginnen. Nach erfolgreichen Testimporten wird der Harvester mit einem regelmäßigen Task beauftragt. Dabei ist zumindest dem Harvester egal, ob Montag, Freitag oder Sonntag, ob 5:00 Uhr, 12:00 Uhr oder 17:00 Uhr.

Der nächste Harvestingtask werden die Mitteilungs- und Gemeindeblätter des Linus Wittich Verlages sein – jeden Donnerstagabend wird der Harvester dann fast 400 Ausgaben aus Städten und Gemeinden ganz Deutschlands verarbeiten.

Sammeln, Archivieren, Verzeichnen – ganz automatisch

Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen

In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.