Netzpublikationen automatisch sammeln
Montag 05:17 Uhr 70 elektronische Dissertation der Uni Köln
Dienstag 12:05 Uhr 120 elektronische Zeitschriftenartikel des Karger Verlages
Mittwoch 16:00 Uhr 30 ebooks des Felix Meiner Verlages
Donnerstag 22:45 Uhr 60 Hörbücher des Audio-Verlages
Der Harvester für elektronische Veröffentlichungen hat rund um die Uhr zu tun.
Seit 2006 hat die Deutsche Nationalbibliothek den Auftrag, elektronische Publikationen (sogenannte Netzpublikationen) zu sammeln und zu archivieren. Seitdem wächst die Zahl der verarbeiteten Publikationen. Im Jahr 2010 waren es ca. 500 Dokumente, seit 2020 werden jährlich mehr als 500.000 Dokumente verarbeitet.
Bei jährlich 500.000 Dokumenten gibt es keine Chance für eine Einzelstückbearbeitung. Darum setzt die Deutsche Nationalbibliothek auf Massenablieferungsverfahren. Die ersten großen automatisierten Prozesse wurden für wissenschaftliche Publikationen der Hochschulen (insb. Dissertationen) eingerichtet. Später folgte dann das systematische Einsammeln digitaler Ausgaben von Tageszeitungen. Heutzutage können von digitalen Zeitschriftenausgaben, ebooks, Hörbücher oder Podcasts fast alle Medienformen gesammelt und archiviert werden. Der nächste große Prozess wird die Einrichtung eines Ablieferungsverfahrens für digitale Musikstreamings sein.
Das automatisierte Einsammeln von elektronischen Publikationen (auch Harvesting genannt) geschieht jedoch nicht einfach so. Mit der Professionalisierung der Medienbranche arbeiten sowohl Verlage und Vertriebsplattformen als auch Bibliotheken mit Daten. Diese bibliografischen Daten beschreiben die Publikation – den Autor, den Titel, das Erscheinungsjahr und vieles mehr. Beim Massenablieferungsprozess werden diese bibliographischen Daten zusammen mit dem Sammelobjekt (das ebook) vom Verlag an die Deutsche Nationalbibliothek übermittelt.
Klingt ganz einfach?
Das Angebot der verwendeten Datenformate in der Medienbranche ist beachtlich. eDiss werden per XMDP übermittelt, Zeitschriftenartikel per NISO-JATS, ebooks in der Regel per ONIX und manchmal auch via MARCXML. Und für die zukünftige Sammlung der Musikstreamings hat sich die DNB das in dieser Branche übliche DDEX-Format angeeignet.
Die Bibliothekar*innen der DNB sind Datenmanager. Sie wissen, welche bibliographischen Daten notwendig und hilfreich sind, um eine Publikation zu beschreiben und können das für verschiedene Datenformate der Verlags- und Medienbranche anwenden. Die Bibliothekar*innen sprechen mit den Ablieferer*innen über die im Verlag verwendeten Formate und die sogenannte Erschließungstiefe. Werden Titel und auch Untertitel angegeben? Werden Sänger und Band angegeben oder auch die einzelnen Stimmlagen und Instrumente? Werden bei Zeitschriftenartikel hilfreiche Angaben dazu gemacht, in welchem Heft und welchem Band dieser Artikel erschienen ist?
Und dann muss natürlich auch die Konversion (Übersetzung) in das Datenformat des PICA-ILTIS-Katalogsystems der Deutschen Nationalbibliothek ein optimales Ergebnis bringen.
Die Vorarbeiten sind manchmal aufwändig, ab und zu detailverliebt aber für Datenmanager immer eine spannende Herausforderung.
Wenn dann alles passt – also ONIX auf PICA und die bibliographische Beschreibung auf das zu sammelnde ebook – kann der Harvester seine Arbeit beginnen. Nach erfolgreichen Testimporten wird der Harvester mit einem regelmäßigen Task beauftragt. Dabei ist zumindest dem Harvester egal, ob Montag, Freitag oder Sonntag, ob 5:00 Uhr, 12:00 Uhr oder 17:00 Uhr.
Der nächste Harvestingtask werden die Mitteilungs- und Gemeindeblätter des Linus Wittich Verlages sein – jeden Donnerstagabend wird der Harvester dann fast 400 Ausgaben aus Städten und Gemeinden ganz Deutschlands verarbeiten.
Sammeln, Archivieren, Verzeichnen – ganz automatisch
Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen
In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.
Weitere Beiträge dieser Serie:
- Die Herausforderung eines WebarchivsWas macht das Sammeln von Websites eigentlich so schwierig? Ein kurzer Abriss der Herausforderungen des Webarchivs der DNB.
- Texte erschließen mit KIKI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben. Das ist das Ziel des KI-Projekts.
- In der DNB lesen jede Nacht die MaschinenEin Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt.
- Text für die MaschineMaschinelle Erschließung braucht maschinenlesbare Texte. Die Textbereitstellung sorgt genau dafür und interessiert sich für PDF-Dateien, Pixelmuster und Silbentrennungen.
- Personen verbinden – in Katalog und GNDImmer mehr Publikationen werden mit maschineller Unterstützung ihren Urheber*innen zugeordnet. In diesem Beitrag erfahren Sie, wie die DNB dazu beiträgt.
- Parallelwelten in der Sammlung der DNBWie findet man eine Parallelausgabe, was ist der Parallelabgleich und wofür brauchen wir ihn? Entdecken Sie Parallelwelten in der DNB!
- Das Webarchiv der DNBWebsites archivieren? Was wird da im Webarchiv so gemacht? Was wird gesammelt und wie nutzt man es? Der Beitrag bringt etwas Licht in ein unbekanntes Terrain.