Das Webarchiv der DNB
Nicht allen Nutzenden scheint bekannt zu sein, dass es in der Deutschen Nationalbibliothek neben zwei architektonisch tollen Standorten, diversen Regalkilometern und vielen Arbeitsplätzen auch ein Webarchiv gibt. Dies soll durch diesen Beitrag geändert werden – mit einer kurzen Einführung.
Seit 2012 sammelt die Deutsche Nationalbibliothek als Ergänzung zu E-Books, gedruckten Werken und vielem anderen auch Websites. Die befinden sich selbstverständlich nicht ausgedruckt in den Regalen, sondern werden in unserem Webarchiv digital gespeichert. Dafür wird zu einem festgelegten Zeitpunkt, mit einem sogenannten Crawler, eine Momentaufnahme der Website erstellt und in unserem Katalog verzeichnet. Das Ganze sieht dann folgendermaßen aus:
In der Regel werden die Websites alle 6 Monate gespeichert, sodass sich nach ein paar Jahren eine gewisse Entwicklung der Website anhand der Momentaufnahmen beobachten lässt. Es können auch vergangene Ereignisse oder Feierlichkeiten abgelesen werden: Jetzt, wo wir gerade das 111. Jubiläum der DNB feiern, können wir gleichzeitig die archivierte DNB-Website von 2012 sehen. Damals wurde das 100jährige Bestehen gefeiert – ein Zeitdokument der DNB:
Im Katalogeintrag lässt sich auch die Zuordnung der Website zu einer oder mehreren unserer thematischen Kollektionen erkennen. So gehört das 100-jährige Jubiläum der DNB beispielsweise zur Kollektion „Behörden und Institutionen des Bundes“ und die Website der „Akademie Schloss Solitude“ zur Kollektion „Kunst und Kultur“ (siehe Katalogeintrag).
Weitere Kollektionen sind neben vielen anderen z.B. Sport, Geschichte oder auch Musik. Neben den thematischen Kollektionen werden für bzw. in Deutschland wichtige Ereignisse ebenfalls in Form von Website-Sammlungen abgebildet. Die Bundestagswahlen gehören genauso dazu wie die Berlinale oder auch der Sieg des Deutschen Teams in der Basketball-Weltmeisterschaft 2023. Während sich die Sammeltätigkeit der DNB insbesondere auf die Bundesebene konzentriert, wird der Bestand durch Kooperationen mit einigen Regionalbibliotheken ergänzt. Die meisten sind auf Landesebene zur Webarchivierung verpflichtet und erstellen regionale Kollektionen, die in das Webarchiv aufgenommen werden. Beispiele hierfür sind die Kollektionen „Webarchiv Thüringen“ oder auch „Webarchiv Hamburg“.
Im Webarchiv gibt es also einiges zu entdecken. Allerdings bleibt diese Entdeckungsreise überwiegend auf die Räumlichkeiten der DNB in Leipzig oder Frankfurt am Main beschränkt – aus urheberrechtlichen Gründen ist der Zugriff in den meisten Fällen nur vor Ort möglich. Die jeweilige Zugriffsberechtigung kann auch am Katalogeintrag erkannt werden (nur im Lesesaal möglich). Zusätzlich zu unserem Webarchiv gibt es die Möglichkeit für Sie in einer separaten Sammlung zu recherchieren. Durch ein sogenanntes „Fenster“ können Nutzende der DNB in unseren Räumlichkeiten im .de-Bestand des Internet Archive recherchieren. Für diese Recherchen nutzen Sie bitte diesen Link.
Nicht nur auf regionaler Ebene sind wir durch Kooperationen aktiv, auch im internationalen Kontext arbeiten wir als Vertreterin Deutschlands bei der Webarchivierung mit. Weltweite Sammlungen, vom International Internet Preservation Consortium (IIPC) initiiert, zu relevanten Themen wie z.B. dem Klimawandel oder der Corona-Pandemie, enthalten auch deutsche Websites, die wir beisteuern. Diese Sammlungen sind weltweit über diesen Link frei zugänglich.
Ja, es gibt vielfältiges zu sehen! Trotzdem möchten wir in diesem Artikel auch nicht verschweigen, dass es noch Entwicklungspotenzial gibt. Unser Bestand an archivierten Websites spiegelt das deutsche Web bisher in einer exemplarischen Vielfalt, im Gegensatz zu einer vollständigen Darstellung. Aktuell können Sie sich in fast 60.000 Momentaufnahmen von knapp 8.000 Websites bewegen und recherchieren. Obwohl damit schon vieles zu nutzen ist, ist es nur ein kleiner Teil der insgesamt über 17 Mio. Websites, die mit der Domain-Endung .de registriert sind. Dazu kommt noch eine große Menge von Websites mit anderen Domain-Endungen wie .com, .org, .biz und viele mehr. Hinzu kommen Herausforderungen bei der Sammlung von Websites allgemein und damit verbundene Qualitätseinbußen. Das werden wir in einem eigenen Artikel thematisieren.
Eine Frage bleibt offen: Wie kann der Bestand des Webarchivs aktiv genutzt werden?
Dazu gibt es zwei Antworten:
Entweder Sie recherchieren 1. über die erweitere Katalogsuche, wählen passende Stichworte und schränken die Materialart auf „archivierte Webseiten“ ein.
Oder Sie nutzen 2. den direkten Zugang zu unserem Webarchiv und recherchieren dort über die Suchfunktion oder schauen sich die thematischen Kollektionen mal genauer an…
Egal für welche Nutzung Sie sich entscheiden, zögern Sie nicht bei jeglichen Fragen eine E-Mail an uns zu senden unter np-info@dnb.de oder auch unsere Webseite zu besuchen.
Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen
In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.
Weitere Beiträge dieser Serie:
- Die Herausforderung eines WebarchivsWas macht das Sammeln von Websites eigentlich so schwierig? Ein kurzer Abriss der Herausforderungen des Webarchivs der DNB.
- Texte erschließen mit KIKI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben. Das ist das Ziel des KI-Projekts.
- In der DNB lesen jede Nacht die MaschinenEin Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt.
- Text für die MaschineMaschinelle Erschließung braucht maschinenlesbare Texte. Die Textbereitstellung sorgt genau dafür und interessiert sich für PDF-Dateien, Pixelmuster und Silbentrennungen.
- Personen verbinden – in Katalog und GNDImmer mehr Publikationen werden mit maschineller Unterstützung ihren Urheber*innen zugeordnet. In diesem Beitrag erfahren Sie, wie die DNB dazu beiträgt.
- Parallelwelten in der Sammlung der DNBWie findet man eine Parallelausgabe, was ist der Parallelabgleich und wofür brauchen wir ihn? Entdecken Sie Parallelwelten in der DNB!
- Das Webarchiv der DNBWebsites archivieren? Was wird da im Webarchiv so gemacht? Was wird gesammelt und wie nutzt man es? Der Beitrag bringt etwas Licht in ein unbekanntes Terrain.
Guten Tag,
vielen Dank für diesen schönen Beitrag!
Es ist gut zu sehen, wie die DNB in der Sache „Digitalisierung“ einen Sprung vorangeht, ohne dass mir das so bewusst war. Gerne mehr von diesen (wunderbar) geschriebenen Texten und Informationen.