KI und Digital Humanities in Bibliotheken

1. Februar 2023
von Christa Schöning-Walter und Elisabeth Mödden

Ein Erfahrungsaustausch auf Werkstattebene

In der Deutschen Nationalbibliothek in Frankfurt am Main hat im November 2022 ein Workshop zu Anwendungen von Künstlicher Intelligenz und Digital Humanities in Bibliotheken stattgefunden. Der Einsatz innovativer Methoden und Services für die Daten-, Text- und Bildanalyse war Themenschwerpunkt. Teilnehmende aus der Staatsbibliothek zu Berlin (SBB), der Bayerischen Staatsbibliothek (BSB), der ZBW – Leibniz-Informationszentrum Wirtschaft, der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften und der Deutschen Nationalbibliothek (DNB) tauschten sich über Projekte, Ziele und Arbeitsergebnisse aus. Der Workshop war eine Veranstaltung im Rahmen des Netzwerks maschinelle Verfahren in der Erschließung. Die DNB unterstützt damit den Dialog und Informationstransfer zu Themen des digitalen Wandels.

Foto: Stephan Jockel, CC-BY SA 3.0DE

Die dynamische Entwicklung digitaler Technologien eröffnet neue Möglichkeiten, Sammlungen auf- und auszubauen, sie zu erschließen und sie für Forschungsaufgaben zu nutzen. Anwendungen computergestützter Verfahren und digitaler Ressourcen in den Geistes- und Kulturwissenschaften werden als Digital Humanities (DH) bezeichnet. Der Begriff Künstliche Intelligenz (KI) bringt zum Ausdruck, dass Algorithmen zum Einsatz kommen, die bestimmte Aufgaben unterstützen. In Bibliotheken wird KI beispielsweise dafür verwendet, Texte oder Bilder inhaltlich zu klassifizieren, ähnliche Objekte in den oftmals sehr großen Sammlungen zu finden oder Funktionen der semantischen Suche anzubieten.

Heutige KI-Lösungen basieren meistens auf Methoden des maschinellen Lernens. Sie verwenden Trainingsbeispiele, um Modelle für die Vorhersage zu berechnen. Das heißt: Anhand der Strukturen und Muster in den Beispielen werden Regeln für die Einordnung unbekannter Daten, Texte oder Bilder generiert. Die Leistungsfähigkeit und Vielfalt der Methoden hat sich in den letzten Jahren rasant weiterentwickelt.

KI-Lösungen in Bibliotheken

In allen Bibliotheken, die am Workshop teilgenommen haben, sind bereits Verfahren im Einsatz oder in der Erprobung, die nach diesen Prinzipien arbeiten. Bibliotheken entwickeln, evaluieren oder nutzen zum Beispiel KI-Techniken, mit denen inhaltliche Ähnlichkeiten und semantische Zusammenhänge in Texten oder Bildern erkannt werden können. Dazu gehört die Erprobung von Yewno in der Bayerischen Staatsbibliothek. Die BSB testet Yewno Discover als thematische Suchmaschine und Yewno Unearth als Tool zur Unterstützung der Inhaltserschließung und setzt auch für die Bildähnlichkeitssuche auf aktuelle Technologien des maschinellen Lernens. In einem weiteren Projekt arbeitet sie zusammen mit der Universität Passau an Herausforderungen, die sich im Zusammenhang mit dem Aufbau von Webarchiven und der Suche relevanter Websites ergeben. Die zuletzt genannten Arbeiten werden von der Deutschen Forschungsgemeinschaft gefördert.

Foto: DNB, Josephine Kreutzer CC-BY SA 3.0DE

Ein anderes Softwaresystem, das international auf großes Interesse stößt, ist das Open Source-Toolkit annif der Finnischen Nationalbibliothek. Dabei handelt es sich um eine Zusammenstellung erprobter Algorithmen, die sich für die Klassifizierung und Beschlagwortung natürlichsprachlicher Texte eignen. Die Deutsche Nationalbibliothek gehört zu den Bibliotheken, die annif produktiv anwenden. Sie hat das Toolkit in ihre Erschließungsmaschine integriert und prozessiert damit einen großen Teil ihrer Sammlungen. Die modulare Systemarchitektur des Erschließungssystems ermöglicht es, Algorithmen flexibel zu kombinieren und – dem technischen Fortschritt folgend – schrittweise zu erweitern oder auszutauschen. Zurzeit verwendet die DNB das Verfahren Omikuji-Bonsai im Ensemble mit weiteren Analysemethoden, die in annif zur Verfügung stehen. Die ZBW – Leibniz-Informationszentrum Wirtschaft geht ähnliche Wege und nutzt annif bereits seit 2020 als Kernkomponente ihres Systems AutoSE. Annif ist dort der Steckrahmen für eine Kombination verschiedener State-of-the-Art-Modelle mit Eigenentwicklungen der ZBW zur qualitätsgesicherten Erschließung fachwissenschaftlicher Publikationen mit Deskriptoren aus dem Standardthesaurus Wirtschaft (STW). Die TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften will annif ebenfalls einsetzen und bereitet für die Fachzuordnung im TIB-Portal einen Umstieg auf dieses Toolkit vor.

Beteiligung an Forschungs- und Entwicklungsprojekten

Die Staatsbibliothek zu Berlin engagiert sich besonders stark bei der Entwicklung neuer Verfahren für die Dokumentanalyse, Bildanalyse, Inhaltsanalyse und Datenbereitstellung. In einem 2022 gestarteten Projekt mit der Bezeichnung Mensch.Maschine.Kultur, das von der Staatsministerin für Kultur und Medien gefördert wird, will die SBB die Entwicklung KI-basierter Lösungen der Projekte OCR-D und Qurator gezielt weiterführen und in Anwendungen und Dienste umsetzen. Schwerpunkt von OCR-D ist die Texterkennung (Optical Character Recognition, OCR), im Projekt Qurator entstehen Lösungen für die Kuratierung digitaler Inhalte. Dazu gehören Werkzeuge für die Bildähnlichkeitssuche und Bildklassifikation, aber auch die Evaluierung von OCR-Qualität und die automatische Nachkorrektur von OCR-Resultaten oder die Erkennung von Personen, Orten und Organisationen in unstrukturierten Volltexten. Beispiele aktueller Forschungsthemen sind die Layoutanalyse und Texterkennung mithilfe neuronaler Netze. OCR-D wird von der Deutschen Forschungsgemeinschaft gefördert, Qurator vom Bundesministerium für Bildung und Forschung.

Foto: DNB, Josephine Kreutzer CC-BY SA 3.0DE

Die Deutsche Nationalbibliothek will in ihrem Forschungsprojekt „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit KI“ systematisch untersuchen, welche Lösungen zu Fortschritten bei der maschinellen Beschlagwortung  natürlichsprachlicher Texte führen. Verwendet wird die Terminologie der Gemeinsamen Normdatei GND. Die semantischen Konzepte der Normdatei repräsentieren Sachbegriffe, Personen, Körperschaften, Konferenzen, Geografika und Werke. Die Beschlagwortung bewirkt, dass die Texte thematisch eingeordnet und mit anderen Publikationen gleichen Themas vernetzt werden. Die GND enthält mehr als eine Million Terme, die potenziell als Schlagwörter infrage kommen. Es werden also Lösungen für eine sogenannte Extreme Multi-Label Text Classification (XMLC) benötigt. Auch das Projekt der DNB wird von der Staatsministerin für Kultur und Medien im Rahmen der Nationalen Strategie Künstliche Intelligenz gefördert.

Evaluierung modernster Techniken

Für ihre Anwendungen verwenden die Bibliotheken teilweise Techniken, die auch Grundlage moderner Suchmaschinen sind. Die aktuelle Dynamik der KI-Entwicklungen ist Chance und Herausforderung zugleich. Die Deep-Learning-Architektur der Transformermodelle gilt zurzeit als Spitzentechnologie für Anwendungen, die auf die Verarbeitung natürlicher Sprache ausgerichtet sind. Namhafte Produkte sind GPT-3 des Unternehmens OpenAI, das gerade mit ChatGPT für Aufmerksamkeit sorgt, oder die Google-Entwicklung BERT. Diese Sprachmodelle sind mit extrem großen Datenmengen trainiert. Eignen sich Transformermodelle auch für unsere Anwendungsfälle? Und welcher Aufwand ist dafür erforderlich? Um solche Fragen zu beantworten, führen wir im KI-Projekt der DNB zurzeit auch Experimente mit dem Sprachmodell Luminous des Heidelberger KI-Start-up Aleph Alpha durch.

Es geht nicht nur um Technologien

Wann sind die Ergebnisse maschineller Verfahren gut genug? Wie kann die Qualität gemessen werden? Und können KI-Lösungen auch bei der Qualitätssicherung helfen? Diese zentralen Fragen beschäftigen alle beteiligten Bibliotheken und nehmen einen breiten Raum der Arbeiten ein. Ein Beispiel ist das Qualitätssicherungskonzept der ZBW für den Dienst AutoSE, das intellektuelle und maschinelle Maßnahmen kombiniert: Zu den Bausteinen gehören die menschliche Rückkopplung – auch als human in the loop bezeichnet – und automatisierte Maßnahmen zur Qualitätsabschätzung und Optimierung mithilfe neuronaler Netze.

Der digitale Wandel wirft auch neuartige rechtliche und andere Fragen auf. Die Bibliotheken nutzen zunehmend Open Source Software, adaptieren sie für ihre Anwendungen und führen Evaluierungen durch. Eigene Entwicklungen werden wiederum mit der Community geteilt. Welche Lizenzmodelle eignen sich dafür? Können auch Modelle und Daten geteilt werden? Die Experimente erfordern reproduzierbare Abläufe. Für Modellierungen und Teststellungen werden große Datenmengen benötigt. Können Tools wie beispielsweise Data Version Control (DVC) dabei helfen, das Datenmanagement zu bewerkstelligen? Für das maschinelle Lernen sind enorme Rechenleistungen erforderlich. Was bedeutet das für die Skalierung der technischen Infrastruktur? Ist die Anschaffung eigener Grafikprozessoren wirtschaftlich – oder ist eine Zusammenarbeit mit Hochleistungsrechenzentren sinnvoller? Und können Innovationen beschleunigt werden, wenn auch externe Forschungsgruppen an den Experimenten mitwirken? Das sind nur einige Beispiele der begleitenden Themen, die ebenfalls im Workshop beleuchtet wurden.

Mehr über die Themen des Workshops und die Beiträge der beteiligten Bibliotheken finden Sie hier in unserem Wiki des Netzwerks maschinelle Verfahren in der Erschließung.

*Nachweis Beitragsbild auf der Startseite:Stephan Jockel, CC-BY SA 3.0DE

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238