Die Herausforderung eines Webarchivs
Im Webarchiv der DNB gibt es einiges zu entdecken: Aktuell können fast 60.000 Momentaufnahmen von knapp 8.000 deutschen Websites zur Recherche genutzt werden – Tendenz steigend! Websites in Themenbereichen wie z. B. Sport, Geschichte, Musik oder Biologie sind vertreten, der Sieg des Deutsches Teams in der Basketball-Weltmeisterschaft 2023 ist genauso in unserem Webarchiv festgehalten wie Bundestagswahlen oder ähnliches. Ein kleiner Blick auf die deutsche Gesellschaft, was beschäftigt uns …
Wem das Webarchiv allerdings noch gar kein Begriff ist, dem sei der Artikel im Blog vom 19.10.2023 empfohlen. Hier werden die Sammlung, die Funktionen und die Recherche genauer erläutert.
Obwohl wir viele positive Aspekte im Webarchiv herausstellen können, begegnen uns auch große und vielfältige Herausforderungen bei der Arbeit. Und mit Sicherheit gibt es den einen oder anderen Menschen, der sich Fragen stellt wie: Wieso sehen die gespeicherten Websites so aus, wie sie aussehen? Warum finden Nutzende bisher nicht alle deutschen Websites in unserem Archiv? Wieso werden die sozialen Medien nicht archiviert?
Wir starten mit harten Fakten: 17 Mio. Websites sind mit der Domain-Endung .de registriert. Dazu kommen Websites aus anderen Domains wie .org, .com, .biz und weitere, die in Deutschland veröffentlicht wurden und eine deutsche Adresse im Impressum haben. Aktuell erfolgen die meisten Webarchivierungs-Prozesse manuell – diese Masse mit den aktuellen Ressourcen zu verarbeiten ist schlicht und ergreifend nicht möglich.
Nicht nur die Menge der sammelpflichtigen Websites, auch die Charakteristika von Websites allgemein gestalten sich für eine Archivierung schwierig. Websites verändern sich immer wieder, manche mehrmals täglich. Auf einer Website können Dateien unterschiedlicher Formate eingebettet sein, manche Inhalte sind statisch, andere dynamisch. Auf der einen Seite erschwert der Charakter einer Website die Sammlung, auf der anderen müssen wir auch mit Schwierigkeiten und Grenzen der Sammlungstechnik umgehen. Der sogenannte Crawler, der zu einem festgelegten Zeitpunkt eine Momentaufnahme der Website erstellt, stößt auf verschiedene Probleme: Die Cookie- und Datenschutz-Hinweise, die beim Besuch einer Website aufpoppen, halten den Crawler schon von Beginn an davon ab diese Website zu besuchen, oder auch dynamisch generierte Multimediadateien machen eine Momentaufnahme unmöglich. Besonders die Paywall, die vor allem bei Nachrichtenwebsites relevant ist, stellt für den Crawler aktuell noch eine unüberwindbare Schranke dar – selbst wenn der Verlag der DNB ein Nutzerkonto zur Verfügung stellt.
All das führt dazu, dass wir akzeptieren müssen, aktuell nur einen kleinen Teil des deutschen Webs abbilden zu können. Und es führt auch dazu, dass wir in der Qualitätssicherung mit Einbußen zu rechnen haben. Im Allgemeinen kann nur mit großem (manuellen) Aufwand versucht werden, eine annähernd 100%-ige Kopie der Live-Website zu erstellen, die optisch und funktional exakt dem Original entspricht. Mit diesem Problem ist nicht nur die DNB konfrontiert, sondern alle Webarchive weisen zum Teil erhebliche Qualitätslücken auf – aus den oben genannten technischen Gründen. Abbildung 2 zeigt ein Beispiel.
Und während wir uns bemühen, das jetzige Webarchiv zu füllen, zu prüfen und auszubauen, gibt es manche Publikationsformen, die wir wegen fehlender technischer Voraussetzungen noch gar nicht in unsere Sammlung aufnehmen können: Social Media in all ihren Formen, Streaming-Inhalte, Datenbanken… „X“ (ehemals Twitter), Instagram, Facebook & Co. werden sehr häufig nachgefragt und stehen weit oben auf der Agenda für die zukünftige Weiterentwicklung des Webarchivs. Anfang 2023 hat die DNB in einer Initiative zusammen mit dem Science Data Center for Literature einen Teil des deutschsprachigen Twitter archiviert.
Plattformen wie Spotify für Musik oder YouTube und Vimeo für Videos gehören aus den gleichen praktischen Gründen ebenfalls nicht zu unserem Sammelspektrum. Bei Datenbanken ist die originäre Funktion nicht wirklich im Webarchiv abbildbar. Sie sehen in der Regel zuerst einen Suchschlitz und werden zur Eingabe eines gesuchten Begriffes aufgefordert. Das Ergebnis der Datenbankabfrage ist also von einer aktiven Eingabe abhängig, die ein Crawler nicht leisten kann. Diese Seite würde also nur in Form der Startseite abgebildet werden – der Funktion einer Datenbank also überhaupt nicht gleichend.
Sie merken: Es ist nicht so, dass wir nicht wollen. Vielmehr beschränken uns äußere Faktoren sowie die Masse an Webangeboten, deren vollständige Archivierung nicht leistbar ist. In der Zwischenzeit füllen wir das Webarchiv mit weiteren Websites und kümmern uns um eine Qualität “mittlerer Art und Güte“. Wir freuen uns natürlich, wenn Sie den vorhandenen Bestand fleißig nutzen und die exemplarische Vielfalt zu schätzen wissen.
Nutzen Sie dafür gerne die erweitere Katalogsuche mit der Einschränkung der Materialart auf „archivierte Webseiten“ oder nutzen Sie in unseren Lesesälen den direkten Zugang zu unserem Webarchiv. Zögern Sie nicht, bei jeglichen Fragen eine E-Mail an uns zu senden unter np-info@dnb.de oder auch unsere Webseite zu besuchen.
Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen
In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.
- Die Herausforderung eines WebarchivsWas macht das Sammeln von Websites eigentlich so schwierig? Ein kurzer Abriss der Herausforderungen des Webarchivs der DNB.
- Texte erschließen mit KIKI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben. Das ist das Ziel des KI-Projekts.
- In der DNB lesen jede Nacht die MaschinenEin Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt.
- Text für die MaschineMaschinelle Erschließung braucht maschinenlesbare Texte. Die Textbereitstellung sorgt genau dafür und interessiert sich für PDF-Dateien, Pixelmuster und Silbentrennungen.
- Personen verbinden – in Katalog und GNDImmer mehr Publikationen werden mit maschineller Unterstützung ihren Urheber*innen zugeordnet. In diesem Beitrag erfahren Sie, wie die DNB dazu beiträgt.
- Parallelwelten in der Sammlung der DNBWie findet man eine Parallelausgabe, was ist der Parallelabgleich und wofür brauchen wir ihn? Entdecken Sie Parallelwelten in der DNB!
- Das Webarchiv der DNBWebsites archivieren? Was wird da im Webarchiv so gemacht? Was wird gesammelt und wie nutzt man es? Der Beitrag bringt etwas Licht in ein unbekanntes Terrain.
- Netzpublikationen automatisch sammelnDer Harvester für elektronische Veröffentlichungen hat rund um die Uhr zu tun! Kolleg*innen erklären den Weg von digitalen Medienwerken in und durch die DNB.