Mit KI durch das Zugangsbuch

9. Juli 2025
von Anna Baryshnikova

Digitalisierung historischer Erwerbungsquellen der DNB

Ich bin Masterstudentin im Studiengang Digital Humanities an der Friedrich-Alexander-Universität Erlangen-Nürnberg und absolviere aktuell ein Praktikum im Bereich Provenienzforschung an der Deutschen Nationalbibliothek (DNB). Im Rahmen dieses Praktikums beschäftige ich mich mit einem besonderen Quellentyp: den historischen Zugangsbüchern der DNB.

Diese handschriftlich geführten Bücher dokumentieren seit Ende des 19. Jahrhunderts die eingegangenen Werke in der Bibliothek. Sie enthalten Zugangsnummern, Erwerbungsdaten, Titelangaben, Autoren und teilweise Vermerke zur Herkunft. Damit bieten sie eine einzigartige Quelle für die Geschichte der Bestandsaufnahme und Erwerbung an der DNB – und sie sind zugleich von hoher Relevanz für die Provenienzforschung. Denn anhand dieser Listen lassen sich nicht nur Erwerbungsketten rekonstruieren, sondern auch Lücken und mögliche verdächtige Zugänge aus der Zeit des Nationalsozialismus identifizieren.

Die Herausforderung: Diese Zugangsbücher sind handschriftlich – meist in deutscher Kurrentschrift – und oft tabellarisch aufgebaut. Eine manuelle Transkription wäre enorm zeitaufwändig. Daher teste ich im Rahmen meines Praktikums die Anwendung maschineller Handschriftenerkennung mittels der Plattform eScriptorium.

Ablauf im eScriptorium

In einem mehrstufigen Prozess werden die Zugangsbücher aufbereitet:

  • Die Scans werden importiert,
  • anschließend mit Layout-Analyse segmentiert (Zeilen, Spalten, Felder),
  • und schließlich mit Handschriftenerkennungsmodellen (HTR) automatisch transkribiert.

Screenshots aus dem laufenden Projekt zeigen die klaren Unterschiede bei der Segmentierungsqualität:

Ein Foto einer Doppelseite eines Zugangsbuches ist zu sehen. Das Bild ist überlegt mit einer Ebene, die die Textsegmente darstellt.
Segmentierungsbeispiel 1
Zwei Bildschirmfotos sind abgebildet: Links ist ein Foto einer Doppelseite eines Zugangsbuches zu sehen. Das Bild ist überlegt mit einer Ebene, die die Textsegmente darstellt. Rechts zu sehen ist die automatisch erkannte Textsegmentierung ohne das Foto des Zugangsbuches.
Segmentierungsbeispiel 2

Grüne und violette Linien markieren die automatisch erkannten Spalten und Zeilen.

Eine Seite des Zugangsbuchs nach erfolgreicher Segmentierung – rechts die Vorschau der erkannten Texteinheiten.

Ich habe in mehreren Tests verschiedene bereits vortrainierte Modelle verglichen, etwa:

  • German Handwriting Model
    für klassische deutsche Schreibschrift (Zenodo #7933463)
  • Bohemian 19th Century Model
    für Registereinträge in deutscher und tschechischer Sprache (Zenodo #11673242)
  • McCATMuS Model
    für multilinguale Handschriften (Zenodo #13788177)
  • Fondue Model
    ein besonders präzises Modell für historische Schriften (Zenodo #14399779)

Besonders überzeugend war in meinen Tests das Fondue-Modell, das auch bei komplexeren Einträgen und leicht abweichender Schriftlage stabile Ergebnisse lieferte.

Auch im Bereich der Segmentierung habe ich verschiedene Modelle evaluiert – u. a. das Vital Records Layout Model – und konnte zeigen, dass bei Listen- und Tabellenstrukturen spezialisierte Segmentierer eine deutlich präzisere Erkennung liefern.

Feintuning eigener Modelle und Ground Truth-Erstellung

Um die Erkennungsgenauigkeit weiter zu verbessern, habe ich auch eigene Modelle für Layout-Segmentierung und Texterkennung trainiert. In einem kontrollierten Prozess mit eScriptorium wird zunächst sogenannte Ground Truth erstellt – also händisch korrekt segmentierte und transkribierte Zeilen, die als Trainingsmaterial dienen. Für das Training eines ersten eigenen Layoutmodells genügten bereits etwa 10 vollständig segmentierte Seiten aus den Zugangsbüchern.

Nach mehreren Trainingsdurchläufen konnte ich mein eigenes Segmentierungsmodell erfolgreich optimieren: Das Modell dnb-seg-Zugangsbücher-M1 erreichte eine Genauigkeit von 97,2 % – deutlich besser als das generische Ausgangsmodell mit nur 59,5 %. Die präzise Segmentierung in tabellarischen Strukturen ist eine entscheidende Voraussetzung für die nachfolgende Texterkennung. Ein gut angepasstes Modell kann auch feine Layoutabweichungen, wie z. B. händische Ergänzungen oder variable Spaltenbreiten, zuverlässig erkennen.

Das Nachtrainieren von Modellen erfordert Zeit und Sorgfalt bei der Ground Truth-Erstellung, eröffnet aber enorme Potenziale für eine nachhaltige und skalierbare Digitalisierung historischer Quellenbestände – insbesondere bei solchen spezialisierten Layouts wie den Zugangsbüchern der DNB.

Auch im Bereich der Texterkennung (HTR) habe ich begonnen, ein eigenes Modell für die Handschriften im Zugangsbuch zu trainieren. Grundlage hierfür ist ein Korpus aus manuell überprüften Zeilentranskriptionen. Bereits mit etwa 2 bis 4 Seiten lassen sich in der Regel erste Trainingsdurchläufe starten. Je nach Schriftbild und Modellarchitektur verbessern sich die Ergebnisse mit wachsendem Trainingsumfang deutlich.

Transkribierungsbeispiel mit FONDUE Modell:

Zwei Bildschirmfotos sind abgebildet: Links ist ein Foto einer Doppelseite eines Zugangsbuches zu sehen. Das Bild ist überlegt mit einer Ebene, die die Textsegmente darstellt. Rechts zu sehen ist der aus den handschriftlichen Einträgen im Zugangsbuch erkannte digitale Text.
Transkribierungsbeispiel mit FONDUE-Modell

Ziel ist es, ein Modell zu entwickeln, das besser auf die konkrete Handschrift, das Layout und die Besonderheiten (z. B. Abkürzungen oder alte Schreibweisen) in den Leipziger Zugangsbüchern abgestimmt ist als generische Modelle. Ein solches spezialisiertes HTR-Modell erlaubt künftig eine genauere und schnellere Volltranskription weiterer Seiten – ein essenzieller Schritt für die automatisierte Erschließung dieser Quelle.FormularbeginnFormularende

Fazit

Der Einsatz von eScriptorium in Kombination mit geeigneten Modellen ermöglicht eine halbautomatische Erfassung und Transkription historischer Zugangsbücher. Dies ist nicht nur ein Gewinn für die Effizienz, sondern eröffnet auch neue Perspektiven für die digitale Erschließung und Analyse von Erwerbungsgeschichte und Provenienzen.

Durch die Möglichkeit, eigene Modelle zu trainieren – sowohl für Layout-Segmentierung als auch für Texterkennung – lässt sich die Qualität der Erkennung gezielt auf die spezifischen Anforderungen historischer Quellen anpassen. Das im Rahmen meines Praktikums entwickelte Segmentierungsmodell für die Zugangsbücher der DNB erzielte eine Genauigkeit von über 97 % und bietet damit die Grundlage für verlässliche Folgeprozesse. Auch das Fine-Tuning eines HTR-Modells zeigt vielversprechende Fortschritte bei der Erkennung der handschriftlichen Einträge.

Das Praktikum zeigt beispielhaft, wie Digital Humanities, Bibliothekspraxis und historische Forschung produktiv zusammenwirken können – und wie KI-basierte Verfahren dabei helfen, die Geschichte der Bibliothek sichtbarer, durchsuchbarer und langfristig besser analysierbar zu machen.

Anna Baryshnikova

Anna Baryshnikova studiert Digital Humanities an der Friedrich-Alexander-Universität Erlangen-Nürnberg und hat in der Deutschen Nationalbibliothek ihr Pflichtpraktikum für das Erreichen ihres Masterabschlusses abgeleistet. Das Praktikum wurde gemeinsam von Konstantin Freybe und Dr. Emily Löffler betreut. Ziel war es, Methoden und Werkzeuge der Digital Humanities für die Provenienzforschung im Haus nutzbar zu machen.

Praktikant*innen willkommen! Studierende, die ein Pflichtpraktikum ableisten müssen und interessiert an Provenienzforschung sind, dürfen sich gerne an die Provenienzforscherin der Deutschen Nationalbibliothek wenden. Wer seine Kenntnisse und Fähigkeiten in den Digital Humanities auf die vielfältigen Bestände und Sammlungen des Hauses anwenden möchte, wendet sich gerne an Konstantin Freybe vom Wissenschaftlichen Dienst.

Konstantin Freybe

Konstantin Freybe ist Mitarbeiter im Wissenschaftlichen Dienst, dessen Aufgabe ganz allgemein formuliert ist, die Sammlungen und Bestände der Deutschen Nationalbibliothek einer wissenschaftlichen Nutzung zuzuführen. Er arbeitet außerdem als Fachreferent in der Inhaltserschließung.

Emily Löffler

Dr. Emily Löffler ist in der Deutschen Nationalbibliothek für die Provenienzforschung verantwortlich.

*Nachweis Beitragsbild auf der Startseite:Anna Baryshnikova

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238