Das Webarchiv der DNB

19. Oktober 2023
von Marina Strohm

Nicht allen Nutzenden scheint bekannt zu sein, dass es in der Deutschen Nationalbibliothek neben zwei architektonisch tollen Standorten, diversen Regalkilometern und vielen Arbeitsplätzen auch ein Webarchiv gibt. Dies soll durch diesen Beitrag geändert werden – mit einer kurzen Einführung.

Seit 2012 sammelt die Deutsche Nationalbibliothek als Ergänzung zu E-Books, gedruckten Werken und vielem anderen auch Websites. Die befinden sich selbstverständlich nicht ausgedruckt in den Regalen, sondern werden in unserem Webarchiv digital gespeichert. Dafür wird zu einem festgelegten Zeitpunkt, mit einem sogenannten Crawler, eine Momentaufnahme der Website erstellt und in unserem Katalog verzeichnet. Das Ganze sieht dann folgendermaßen aus:

In der Regel werden die Websites alle 6 Monate gespeichert, sodass sich nach ein paar Jahren eine gewisse Entwicklung der Website anhand der Momentaufnahmen beobachten lässt. Es können auch vergangene Ereignisse oder Feierlichkeiten abgelesen werden: Jetzt, wo wir gerade das 111. Jubiläum der DNB feiern, können wir gleichzeitig die archivierte DNB-Website von 2012 sehen. Damals wurde das 100jährige Bestehen gefeiert – ein Zeitdokument der DNB:

Im Katalogeintrag lässt sich auch die Zuordnung der Website zu einer oder mehreren unserer thematischen Kollektionen erkennen. So gehört das 100-jährige Jubiläum der DNB beispielsweise zur Kollektion „Behörden und Institutionen des Bundes“ und die Website der „Akademie Schloss Solitude“ zur Kollektion „Kunst und Kultur“ (siehe Katalogeintrag).

Weitere Kollektionen sind neben vielen anderen z.B. Sport, Geschichte oder auch Musik. Neben den thematischen Kollektionen werden für bzw. in Deutschland wichtige Ereignisse ebenfalls in Form von Website-Sammlungen abgebildet. Die Bundestagswahlen gehören genauso dazu wie die Berlinale oder auch der Sieg des Deutschen Teams in der Basketball-Weltmeisterschaft 2023. Während sich die Sammeltätigkeit der DNB insbesondere auf die Bundesebene konzentriert, wird der Bestand durch Kooperationen mit einigen Regionalbibliotheken ergänzt. Die meisten sind auf Landesebene zur Webarchivierung verpflichtet und erstellen regionale Kollektionen, die in das Webarchiv aufgenommen werden. Beispiele hierfür sind die Kollektionen „Webarchiv Thüringen“ oder auch „Webarchiv Hamburg“.

Im Webarchiv gibt es also einiges zu entdecken. Allerdings bleibt diese Entdeckungsreise überwiegend auf die Räumlichkeiten der DNB in Leipzig oder Frankfurt am Main beschränkt – aus urheberrechtlichen Gründen ist der Zugriff in den meisten Fällen nur vor Ort möglich. Die jeweilige Zugriffsberechtigung kann auch am Katalogeintrag erkannt werden (nur im Lesesaal möglich). Zusätzlich zu unserem Webarchiv gibt es die Möglichkeit für Sie in einer separaten Sammlung zu recherchieren. Durch ein sogenanntes „Fenster“ können Nutzende der DNB in unseren Räumlichkeiten im .de-Bestand des Internet Archive recherchieren. Für diese Recherchen nutzen Sie bitte diesen Link.

Nicht nur auf regionaler Ebene sind wir durch Kooperationen aktiv, auch im internationalen Kontext arbeiten wir als Vertreterin Deutschlands bei der Webarchivierung mit. Weltweite Sammlungen, vom International Internet Preservation Consortium (IIPC) initiiert, zu relevanten Themen wie z.B. dem Klimawandel oder der Corona-Pandemie, enthalten auch deutsche Websites, die wir beisteuern. Diese Sammlungen sind weltweit über diesen Link frei zugänglich.

Ja, es gibt vielfältiges zu sehen! Trotzdem möchten wir in diesem Artikel auch nicht verschweigen, dass es noch Entwicklungspotenzial gibt. Unser Bestand an archivierten Websites spiegelt das deutsche Web bisher in einer exemplarischen Vielfalt, im Gegensatz zu einer vollständigen Darstellung. Aktuell können Sie sich in fast 60.000 Momentaufnahmen von knapp 8.000 Websites bewegen und recherchieren. Obwohl damit schon vieles zu nutzen ist, ist es nur ein kleiner Teil der insgesamt über 17 Mio. Websites, die mit der Domain-Endung .de registriert sind. Dazu kommt noch eine große Menge von Websites mit anderen Domain-Endungen wie .com, .org, .biz und viele mehr. Hinzu kommen Herausforderungen bei der Sammlung von Websites allgemein und damit verbundene Qualitätseinbußen. Das werden wir in einem eigenen Artikel thematisieren.

Eine Frage bleibt offen: Wie kann der Bestand des Webarchivs aktiv genutzt werden?
Dazu gibt es zwei Antworten:
Entweder Sie recherchieren 1. über die erweitere Katalogsuche, wählen passende Stichworte und schränken die Materialart auf „archivierte Webseiten“ ein.
Oder Sie nutzen 2. den direkten Zugang zu unserem Webarchiv und recherchieren dort über die Suchfunktion oder schauen sich die thematischen Kollektionen mal genauer an…

Egal für welche Nutzung Sie sich entscheiden, zögern Sie nicht bei jeglichen Fragen eine E-Mail an uns zu senden unter np-info@dnb.de oder auch unsere Webseite zu besuchen.

Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen

In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.

Weitere Beiträge dieser Serie:

  • Die Herausforderung eines Webarchivs
    Was macht das Sammeln von Websites eigentlich so schwierig? Ein kurzer Abriss der Herausforderungen des Webarchivs der DNB.
  • Texte erschließen mit KI
    KI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben. Das ist das Ziel des KI-Projekts.
  • In der DNB lesen jede Nacht die Maschinen
    Ein Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt.
  • Text für die Maschine
    Maschinelle Erschließung braucht maschinenlesbare Texte. Die Textbereitstellung sorgt genau dafür und interessiert sich für PDF-Dateien, Pixelmuster und Silbentrennungen.
  • Personen verbinden – in Katalog und GND
    Immer mehr Publikationen werden mit maschineller Unterstützung ihren Urheber*innen zugeordnet. In diesem Beitrag erfahren Sie, wie die DNB dazu beiträgt.
  • Parallelwelten in der Sammlung der DNB
    Wie findet man eine Parallelausgabe, was ist der Parallelabgleich und wofür brauchen wir ihn? Entdecken Sie Parallelwelten in der DNB!
  • Das Webarchiv der DNB
    Websites archivieren? Was wird da im Webarchiv so gemacht? Was wird gesammelt und wie nutzt man es? Der Beitrag bringt etwas Licht in ein unbekanntes Terrain.
*Nachweis Beitragsbild auf der Startseite:DNB

Ein Kommentar zu „Das Webarchiv der DNB“

  1. Jonathan B. sagt:

    Guten Tag,
    vielen Dank für diesen schönen Beitrag!
    Es ist gut zu sehen, wie die DNB in der Sache „Digitalisierung“ einen Sprung vorangeht, ohne dass mir das so bewusst war. Gerne mehr von diesen (wunderbar) geschriebenen Texten und Informationen.

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238