3 Fragen an … Dr. Britta Woldering
In der Serie „3 Fragen an …“ stellen wir regelmäßig Gesichter der Deutschen Nationalbibliothek vor. Heute: Dr. Britta Woldering. Sie leitet das Frankfurter Sachgebiet des Referats Automatische Erschließungsverfahren, Netzpublikationen und berichtet über das Webarchiv der Deutschen Nationalbibliothek.
Liebe Frau Woldering, wie archiviert man denn das Web?
Jeden Tag entsteht im Web eine große Menge Daten: Websites werden ergänzt, verändert, Teile werden gelöscht, neue Websites gehen online, vorhandene werden offline genommen. Manche Websites werden selten verändert, andere ändern sich im Minutentakt, etwa Nachrichtenwebsites. Deshalb steht am Anfang eine Reihe von Entscheidungen, die wir treffen müssen: Welche Websites sollen gesammelt werden? Sollen sie in vollem Umfang oder nur bis zu einer bestimmten Seitentiefe (manche Websites umfassen mehrere tausend Einzelseiten!) gesammelt werden? Wann und wie häufig sollen sie gesammelt werden (täglich, monatlich, halbjährlich)? Mit diesen Angaben werden Web-Crawler konfiguriert. Diese suchen zum festgelegten Zeitpunkt im Web die entsprechenden URLs und legen Kopien der Websites im Webarchiv ab.
Welche Herausforderungen ergeben sich für die Sammlung?
Schon die Auswahl ist eine Herausforderung. Unser Sammelauftrag umfasst das „deutsche Web“: das ist zum einen die .de-Domain, übrigens mit rund 17 Mio. registrierten Domains die größte länderbezogene Top-Level-Domain weltweit. Zum anderen verbirgt sich eine unbekannte Zahl weiterer Websites, deren Inhalte einen Bezug zu Deutschland haben, unter generischen Top-Level-Domains wie .com, .org. Da wir nicht einfach alles sammeln können, haben wir für die Auswahl das Prinzip der „exemplarischen Vielfalt“. Das soll sicherstellen, dass wir sowohl Websites mit großer Reichweite, von wichtigen Institutionen und Organisationen sammeln, aber eben auch solche, die sich Spezialthemen widmen und nur eine geringe Reichweite, eine kleine Zielgruppe haben – beides gehört zur Gegenwart Deutschlands im Web, die wir exemplarisch sammeln und für nachfolgende Generationen erhalten.
Immer mehr Informationen und Aktivitäten des täglichen Lebens werden ins Web verlagert. Vieles, was früher gedruckt wurde, wird inzwischen ausschließlich im Web veröffentlicht. Das Web bietet viele Vorteile: schnelles, unkompliziertes Veröffentlichen statt langer Vorlaufzeiten für Druck und Auslieferung, Aktualisierung von einzelnen Informationsteilen statt Neuauflage einer gesamten Broschüre, Löschen von nicht mehr Aktuellem, von abgelaufenen Veranstaltungsinformationen, nicht mehr gültigen Preisen etc. Zugleich bietet die Multimedialität sehr attraktive Möglichkeiten der Darstellung der Angebote im Web.
Was das Web für die Publizierenden und die Nutzer*innen vorteilhaft macht, ist aus Sicht der Archivierung eine permanente Herausforderung. Die Dynamik und die Volatilität der Angebote im Web: Veränderungen an den Websites werden ohne Ankündigung und ohne Nachvollziehbarkeit vorgenommen, die Sammlung von Websites ist also immer nur eine Momentaufnahme. Die Technologie entwickelt sich permanent weiter und was für Publizierende und User*innen komfortabel ist, ist für die Archivierung eine Herausforderung oder macht sie sogar unmöglich. Ein Beispiel dafür sind eingebettete Videos, die beim Anklicken auf externen Servern gestreamt werden, das ist über Crawler nicht archivierbar. Oder ausführbare Inhalte, die hinter Abfrageformularen und in externen Datenbanken verborgen liegen: Ein Crawler kann keine Nutzer-Interaktion simulieren, sondern nur statische Inhalte kopieren.
Was sind die Fragestellungen der kommenden Jahre, an denen die Deutsche Nationalbibliothek in diesem Bereich arbeitet?
Wir haben viel vor! Wir möchten das Webarchiv ausbauen und deutlich mehr sammeln als die aktuell rund 12.000 Momentaufnahmen pro Jahr. Hierfür planen wir, teil-automatisierte Verfahren für die Auswahl der Websites zu entwickeln, die in unsere Sammlung aufgenommen werden. Die Auswahlkriterien wollen wir gemeinsam mit den potenziellen Webarchiv-Nutzenden entwickeln. Im Zentrum unserer Überlegungen stehen hierbei die Geistes- und Sozialwissenschaften, für deren Forschung Webarchive in Zukunft immer wichtiger werden.
Wir werden uns außerdem mit Fragen der Sammlung von Social Media auseinandersetzen. Social Media und hierbei insbesondere Twitter sind zunehmend Forschungsgegenstand und Forschungsquelle für die Geistes- und Sozialwissenschaften, lässt sich dort doch lebensweltliche Kommunikation in Echtzeit verfolgen.
Beides, sowohl der Ausbau des Webarchivs als auch die Sammlung von Social Media als neuer Medientypus braucht eine leistungsfähige technologische Basis, die in den nächsten Jahren ausgebaut werden soll.
Vielen Dank, liebe Frau Woldering!
Hier geht es zu unseren offenen Stellen.