Der bibliografische Bestand der DNB als Datenquelle für quantitative Studien

7. November 2025
von Maximilian Würz

Im Rahmen des HERMES-Forschungsstudienprogramms unterstützt die DNB Forschungsprojekte auf Basis ihrer Daten und Bestände, die mit Methoden des Text- und Data-Minings bearbeitet werden. Die Förderung richtet sich dabei vor allem an junge technikaffine Forschende aller Fachgebiete, die sich bereits mit Methoden und Instrumenten der Digital Humanities beschäftigt und praktische Erfahrungen auf dem Gebiet gesammelt haben. Im folgenden Blogbeitrag stellt Maximilian Würz seine Studie vor:

Quantitativ ausgerichtete Forschungsarbeiten, die sich mit literarischen Gattungen beschäftigen und dabei zu ergründen versuchen, unter welchen öffentlichen Rahmenbedingungen diese Schreibweisen produziert und verbreitet werden, benötigen in der Regel eine große Menge an statistisch auswertbaren, gattungsspezifischen Metadaten. Je nach Ausrichtung der Analyse können unterschiedliche Informationen von Belang sein: Daten zu Artefakten, welche die beobachteten Gattungen beinhalten, zu den Akteuren, die an deren Entstehung und Verbreitung beteiligt sind oder zu den medialen Kontexten, in welchen sie publiziert und rezipiert werden. Allein aus ökonomischen Gründen ist es sinnvoll, bei solchen Vorhaben möglichst auf bestehende Datenquellen zurückzugreifen und darin vorhandene Informationen zusammenzuführen, statt die benötigten Daten in aufwendigen Verfahren neu zu erheben.

Die von mir im Rahmen des HERMES-Forschungsstudienprogramms ausgefertigte Studie fokussiert auf den bibliografischen Gesamtbestand der Deutschen Nationalbibliothek[1] als Datenquelle für quantitative Forschungsarbeiten und widmet sich dabei der Frage, wie gut dieser als Datenquelle zur Identifikation, Extraktion und Weiterverarbeitung von Metadaten mit expliziten Gattungsbezügen geeignet ist. Anhand des Fallbeispiels der kurzen Erzählformen, welche schriftlich fixierte narrative Kurzprosa wie Kurzgeschichten und ihr nahverwandte Gattungen umfassen, wird analysiert, wie effektiv relevante (d. h. die entsprechenden Textformen enthaltende) Manifestationen von Buchtiteln recherchiert, samt der dazugehörigen Titel- bzw. Metadaten separiert und in neue Zielsysteme integriert werden können. Das konkret ausgegebene Ziel war es dabei, möglichst alle genuin deutschsprachigen Titel, die kurze narrative Prosagattungen enthalten und in einem bestimmten Beobachtungszeitraum (2008-2023) publiziert wurden, zu identifizieren, die dazugehörigen Metadaten in einer festgelegten Form zu exportieren, anzureichern und in eine postgreSQL-Datenbank zu integrieren.

Der herausgearbeitete, technisch dokumentierte Arbeitsprozess umfasste im Wesentlichen drei Schritte: die Identifikation und Extraktion relevanter Datensätze, ihre formale und inhaltliche Bereinigung sowie die Anreicherung und den anschließenden Import der relevanten Datensätze. Im Zuge der Identifikation und Extraktion gerieten verschiedene Online-Schnittstellen und Exportformate in den Fokus, wobei der Bezug gattungsspezifischer Metadaten im Exportformat MARC21-xml über die SRU-Schnittstelle als besonders nutzbringend erkannt wurde. Die Bereinigung widmete sich notwendigen formalen und inhaltlichen Anpassungen an den 22.976 exportierten Datensätzen. Über die Kodierung und Ausführung eines Python-Skripts wurden die einzelnen Bereinigungsschritte umgesetzt und die dabei entfernten Datensätze zur weiteren Reflexion technisch in Exporttabellen dokumentiert[2]. Insgesamt wurden so 381 Einträge entfernt, die aufgrund der reduzierten Zahl an Spalten Duplikate darstellten. Zudem gelöscht wurden 1.402 Datensätze ohne bzw. 172 mit gleichen Einträgen in der Spalte ISBN, 758 Datensätze ohne Verweis auf einen creator, 2.082 Zeilen mit falscher Originalsprache und weitere 1.435 mit abweichendem Gattungsverweis im MARC21-Datenfeld „655 a“. Erhalten blieben demnach 16.857 als relevant identifizierte Datensätze. Es zeigte sich im Zuge der Bereinigung also, dass die von der DNB genutzten Gattungsbegriffe einen hohen Mehrwert als Instrument zur gattungsbezogenen Filterung haben, auch wenn die Verwendungsweise der Begriffe in der bibliografischen Klassifizierungspraxis vom literaturwissenschaftlichen Gattungsverständnis abweicht und dadurch manuelle Nacharbeiten erforderlich sein können.

Im letzten Prozessschritt wurden die in den bereinigten Metadaten enthaltenen Personen- und Körperschaftsnamen mit den Normdaten der GND abgeglichen, mit weiteren demografischen respektive unternehmerischen Daten angereichert und in das Zielsystem importiert. Hierfür waren aufgrund der oftmals divergierenden Namensschreibungen einige vorbereitende Konsolidierungsmaßnahmen notwendig. In der abschließenden Reflexion kommt die Forschungsstudie zu dem Ergebnis, dass sich der bibliografische Gesamtbestand der DNB sehr gut als Ausgangspunkt eines Prozesses zur Identifikation, Extraktion und Weiterverarbeitung gattungsspezifischer Metadaten eignet, auch wenn zur Gewährleistung einer hohen Datenqualität und -validität mitunter manuelle Zwischenschritte unerlässlich sind.


[1] Im Folgenden mit DNB abgekürzt.

[2] Die im Zuge der Forschungsstudie verwendeten Python-Skripte sowie die erstellten Exporttabellen wurden in dem GitHub-Repository kurze-Erzaehlformen hinterlegt. URL: https://github.com/maximilianwuerz/kurze-Erzaehlformen/tree/main.

Maximilian Würz

Maximilian Würz promoviert über die Entstehungsbedingungen und Aneignungspotentiale kurzer Erzählformen im Rahmen des Graduiertenkollegs 2806 „Literatur und Öffentlichkeit“ an der Friedrich-Alexander-Universität Erlangen-Nürnberg. In seiner Forschung fokussiert er mit den Methoden der Digital Humanities auf Gegenwartsliteraturen und das Verhältnis von Literatur und Medien.

HERMES – Humanities Education in Research, Methods, and Data wird gefördert vom Bundesministerium für Forschung, Technologie und Raumfahrt aus Mitteln der Europäischen Union.

*Nachweis Beitragsbild auf der Startseite:HERMES, bearbeitet von Friedrich Quaasdorf

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238