Texte erschließen mit KI

24. Oktober 2023

von Elisabeth Mödden, Christa Schöning-Walter, Maximilian Kähler

Anwendungen der Künstlichen Intelligenz (KI) genießen zurzeit große Aufmerksamkeit, ausgelöst durch die beeindruckenden Fähigkeiten aktueller Sprachmodelle. Chatbots wie beispielsweise ChatGPT machen allgemein sichtbar, welchen Stand die Forschung und Entwicklung im Bereich der Textanalyse und Textgenerierung mittlerweile erreicht hat.

Die Deutsche Nationalbibliothek macht sich die Dynamik solcher Entwicklungen in einem KI-Forschungsprojekt zunutze. Das Ziel: KI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben, damit sie bei Suchanfragen zielgerichtet gefunden werden. Das Projekt startete 2021 und endet im März 2025. Es wird von der Staatsministerin für Kultur und Medien im Rahmen der Nationalen KI-Strategie gefördert.

Warum dieses Projekt?

Die Nutzung der KI für Erschließungsaufgaben ist kein neuer Aufgabenbereich der Bibliothek. Im Gegenteil. Die DNB arbeitet schon seit vielen Jahren daran, maschinelle Prozesse für die Erschließungsaufgaben zu entwickeln und zu erproben. Seit 2012 setzen wir KI-Verfahren produktiv ein, um digitale Publikationen thematisch zu klassifizieren und mit Schlagwörtern anzureichern. Mit der Inbetriebnahme der Erschließungsmaschine EMa im Jahr 2022 wurden diese Prozesse grundlegend erneuert und flexibilisiert. Der modulare Aufbau der EMa ermöglicht es, das Erschließungssystem stetig an den technologischen Fortschritt anzupassen. Die schon implementierten Erschließungsverfahren können also nach Bedarf durch leistungsfähigere Methoden ergänzt oder ersetzt werden. Und das mit geringem Aufwand.

Zu den Erschließungsprozessen, die bereits automatisiert sind, gehört die Beschlagwortung ausgewählter Publikationsgruppen mit dem Vokabular der Gemeinsamen Normdatei (GND). In unserem Projekt führen wir nun eine systematische Evaluierung durch, welche neuen methodischen Ansätze des Maschinellen Lernens und Natural Language Processing dafür genutzt werden können, die Ergebnisse der Beschlagwortung weiter zu verbessern.

Was sind die Ziele des Projekts?

Das Projekt dient in erster Linie dem Transfer innovativer Technologien aus der Forschung und Entwicklung in die bibliothekarische Praxis. Dabei geht es darum, neue KI-Verfahren zu identifizieren, die gute Sucheinstiege generieren. Die Aufgabe der Software: den Inhalt eines Textes durch Verknüpfung mit den Schlagwörtern der GND so umfassend und präzise wie möglich zu beschreiben.

Im Rahmen der Evaluierung messen wir, wie gut die dafür zusammengestellten Korpora deutschsprachiger wissenschaftlicher Publikationen mit den verschiedenen Methoden beschlagwortet werden. Ziel ist ein möglichst hoher Wert des F-Score. Der F-Score ist das harmonische Mittel aus Precision (Genauigkeit) und Recall (Vollständigkeit). Für die Berechnung der statistischen Maße werden die Ergebnisse der maschinellen Beschlagwortung mit dem sogenannten Goldstandard verglichen. Der Goldstandard basiert auf intellektuell vergebenen Schlagwörtern. Evaluierte Methoden, die gute Ergebnisse erzielen, wollen wir später für die Erschließungsmaschine adaptieren und in die Anwendungsprozesse der DNB integrieren.

Wir nutzen hauptsächlich Open-Source-Software und teilen unsere Ergebnisse aktiv mit der Open-Source-Community. Neben dem Technologietransfer geht es in diesem Projekt allerdings auch um den Transfer von Wissen und den Ausbau der eigenen Kompetenzen in diesem wichtigen Bereich. Ein intensiver Informations- und Erfahrungsaustausch mit anderen Institutionen, die sich mit Forschung, Entwicklung und Anwendung von KI beschäftigen, ist selbstverständlich. Dafür nutzen wir das Netzwerk maschinelle Verfahren in der Erschließung. Jährliche Fachtagungen oder Workshops, beispielsweise die Veranstaltung KI und DH in Bibliotheken Ende 2022, dienen der Vernetzung und dem Austausch neuer Erkenntnisse und Lösungen. Die europäischen Nationalbibliotheken arbeiten für diesen Zweck zudem in der AI in Libraries Network Group zusammen.

Aufbau eines KI-Datenlabors

Der Erfolg von KI-Lösungen hängt nicht nur davon ab, geeignete Algorithmen für den jeweiligen Anwendungsbereich zu entdecken. Es müssen noch weitere Faktoren gut zusammenwirken. Dazu gehören klar definierte Ziele, ausreichende fachliche und technische Kompetenzen im Team, ein geeignetes Konzept, erhebliche Rechen- und Speicherkapazitäten sowie große Mengen qualitativ hochwertiger Daten für Experimente zur Evaluierung der Methoden.

In unserem Projekt haben wir ein eigenes KI-Datenlabor mit leistungsstarken Servern und Grafikprozessoren (GPUs) für die Experimente aufgebaut. Die Analyse der Daten im Bestand der DNB und die Selektion geeigneter Ausschnitte für Trainings- und Testzwecke führen wir mit pica-rs durch – einer Eigenentwicklung der DNB. Für die Entwicklungsarbeiten nutzen wir vorwiegend die Programmiersprachen Python und R sowie Jupyterlab, VS-Code und RStudio als Entwicklungsumgebung. Die Optimierung der Hyperparameter erfolgt automatisiert mit Optuna. Die Hyperparameter sind Parameter, die die Konfiguration eines Algorithmus steuern. Sie werden vor dem Training festgelegt und beeinflussen, wie das Modell trainiert wird. Für das äußerst komplexe Datenmanagement und die Versionsverwaltung nutzen wir Tools wie DVC (Data Version Control) und GitLab.

Daten zur Evaluierung der Verfahren

Für das maschinelle Lernen und die Testläufe benötigen wir Daten mit intellektuell vergebenen GND-Schlagwörtern. Etwa 200.000 deutschsprachige Volltexte und eine Million deutschsprachiger Titeldaten erfüllen alle für das Projekt notwendigen Kriterien. Im Durchschnitt sind jeder dieser Publikationen fünf intellektuell vergebene Schlagwörter zugeordnet. Die Gesamtmenge der verfügbaren Volltexte und Titeldaten ist in Trainings-, Validierungs- und Testkorpora aufgeteilt. Diese werden in allen Experimenten konsistent verwendet. Für die Beschlagwortung stehen potenziell mehr als 1,3 Millionen GND-Schlagwörter zur Verfügung. Allerdings sind in den Trainingsdaten nur 375.000 Schlagwörter mit mindestens einer Publikation verknüpft, wobei einige Schlagwörter häufig vergeben sind und viele selten oder nur einmal. Für eine sehr große Menge der GND-Schlagwörter – mehr als 925.000 – gibt es gar keine Trainingsbeispiele.

Für die Auswahl geeigneter Methoden maschinellen Lernens bedeutet das: Die zu analysierenden Texte sind mit einer variablen Anzahl der vorab festgelegten Label verknüpft. Und die Anzahl der Label, die selten oder nie in den Trainingsdaten vorkommen, ist sehr groß. Diese Herausforderung wird als Extreme Multi-Label Classification-Problem (XMLC) bezeichnet. Für dieses Problem werden KI-Lösungen gesucht.

Suche nach passenden Algorithmen

Wie findet man geeignete Algorithmen zur Lösung des XMLC-Problems? Wir haben uns für das Studium der aktuellen wissenschaftlichen Literatur und die Beobachtung von Wettbewerben – beispielsweise der Wikipedia 500K Benchmark – entschieden.

Verfahren, die für unseren Anwendungsbereich geeignet erscheinen, implementieren wir im KI-Labor und evaluieren sie in Test-Pipelines. Dabei definieren wir jeweils die Hyperparameter, trainieren das Modell mit den Trainingsdaten und optimieren die Hyperparameter. Die Leistungsfähigkeit des Modells wird anhand der Testdaten am Goldstandard bewertet. Gegebenenfalls wird dieser Prozess mehrfach wiederholt, um die Leistung des Modells zu verbessern. Wenn das Modell die Testdaten erfolgreich verarbeitet, wird es für unbekannte Publikationen ohne GND-Schlagwörter angewendet. Die dafür vorgeschlagenen GND-Schlagwörter werden anschließend von Fachreferent*innen der Abteilung Inhaltserschließung der DNB intellektuell bewertet. Auf diese Weise haben wir zunächst Verfahren der Omikuji-Familie untersucht. Zurzeit evaluieren wir AttentionXML, ZestXML und DISMEC++.

In Kooperation mit der Firma Aleph Alpha führen wir zudem Experimente mit dem Sprachmodell Luminous durch. In diesem Fall nutzen wir das vortrainierte Sprachmodell als externen Service. Die Experimente verlaufen zweistufig. Im ersten Schritt werden Prompts als Anfrage an das Sprachmodell formuliert, um die Schlüsselwörter eines Textes zu identifizieren. Diese werden in einem zweiten Schritt mit den Schlagwörtern der GND verglichen. Berechnet wird die Kosinus-Ähnlichkeit der Vektoren. Das Schlagwort mit der größten Ähnlichkeit wird jeweils ausgegeben.

Ausblick

Die beschriebenen Experimente sind mit der Erwartung verknüpft, die spezifischen Stärken verschiedener Ansätze zu identifizieren und für die Erschließungsaufgaben der Bibliothek zu nutzen. Und die Erfahrungen und Erkenntnisse aus dem Projekt werden vermutlich auch dazu beitragen, noch weitere Anwendungsszenarien zu entwickeln.

Im Zuge der derzeit besonders rasanten Entwicklung großer Sprachmodelle gibt es aktuell auch Überlegungen, diese Entwicklungen aktiv zu unterstützen. Die Deutsche Nationalbibliothek verfügt über Textsammlungen, die dazu beitragen könnten, die Qualität der Sprachmodelle maßgeblich zu verbessern. In technischer, rechtlicher und auch ethischer Hinsicht ergeben sich dadurch jedoch wieder viele neue Fragen.

Diesen Fragen widmet sich unsere nächste Fachtagung mit dem Titel KI in Bibliotheken: Neue Wege mit großen Sprachmodellen? am 7. und 8. Dezember in Frankfurt am Main.

Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen

In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.