Algorithmen im Einsatz

25. Juni 2025
von Sandro Uhlmann, Frank Busse und Christoph Poley

Automatische Klassifikation und Indexierung an der DNB

Digitale Medienwerke stellen mit etwa zwei Millionen Publikationen jährlich den größten Teil des Neuzugangs in der DNB dar. Deshalb haben wir bereits vor über 15 Jahren damit begonnen, verstärkt automatische Verfahren für die Inhaltserschließung digitaler Publikationen zu nutzen. Wir setzen dabei auf Algorithmen und Open-Source-Frameworks, um die Sammlung thematisch mittels automatischer Klassifikation sowie verbal mittels automatischer Indexierung mit Schlagwörtern zu strukturieren und Medienwerke recherchierbar zu machen.

Der Anwendungsfall der automatischen Klassifikation teilt sich in die Vergabe von DDC-Sachgruppen und DDC-Kurznotationen (DDC, https://www.dnb.de/ddcindnb). Für den Anwendungsfall der automatischen Indexierung verwenden wir die Gemeinsame Normdatei (GND, https://gnd.network) als Vokabular. Unter anderem aufgrund des großen Umfangs des GND-Vokabulars (ca. 1,4 Millionen Schlagwörter) und der Vergabe mehrerer Schlagwörter pro Publikation wird dieser Anwendungsfall im Machine Learning Kontext auch als sogenanntes Extrem-Multilabel-Klassifikationsproblem (XMLC) eingeordnet.

Im produktiven Einsatz sind aktuell zwei unterschiedliche algorithmische Ansätze. Der Ansatz des Supervised Machine Learning eignet sich für jene Teile der Vokabulare, die im Bestand der DNB bereits intellektuell vergeben wurden und für die wir somit über Trainingsmaterial verfügen. Das betrifft die Anwendungsfälle für die Klassifikation und Indexierung gleichermaßen. Da uns jedoch nicht zu allen Schlagwörtern der GND Trainingsmaterial vorliegt, setzen wir bei der Indexierung zusätzlich lexikalisch arbeitende Verfahren ein. Der lexikalische Ansatz kommt im Gegensatz zum überwachten maschinellen Lernen ohne Trainingsmaterial aus und arbeitet mit einem Wörterbuch, das die GND umfasst. Er eignet sich auch zur Vorhersage für seltene oder bisher nicht verwendete Schlagwörter, für die es nur wenige oder keine Trainingsbeispiele gibt.

Die Kombination dieser unterschiedlichen Ansätze zu einem Ensemble hat sich bewährt: Es lassen sich Schwächen einzelner Modelle und Verfahren ausgleichen und individuelle Stärken verschiedener Modelle zu einem präziseren Gesamtergebnis vereinen.

Als Softwarebasis setzen wir die an der Finnischen Nationalbibliothek entwickelte Open-Source-Toolbox Annif (https://github.com/NatLibFi/Annif) ein, die verschiedene maschinelle Lernverfahren und lexikalische Verfahren über einheitliche Schnittstellen bereitstellt. Maschinelle Lernverfahren in der aktuellen Annif-Version 1.3.1 sind TF-IDF, fastText, Omikuji und SVC. Die lexikalischen Verfahren umfassen MLLM, STWFSA und YAKE. Um die Vorteile der Methoden zu kombinieren, verfügt Annif über drei methodisch unterschiedliche Ensemble-Backends, in denen die Einzelergebnisse verschiedener Modelle und Verfahren zusammengeführt werden können.

Für die Aufgaben der Klassifikation haben sich aus dem Annif-Werkzeugkasten die maschinellen Lernverfahren SVC und Omikuji als am besten geeignet erwiesen. SVC ist eine Implementierung eines Support-Vector-Machine-Algorithmus. Der Omikuji-Algorithmus basiert auf einem sogenannten Partitioned-Label-Tree-Ansatz.

Das Omikuji-Verfahren wird auch für die Aufgabe der Indexierung mit GND-Schlagwörtern genutzt, hier kombinieren wir verschiedene Omikuji-Modelle gemeinsam mit dem lexikalischen Ansatz von MLLM. Durch die Nutzung verschiedener Experten-Modelle im Ensemble erreichen wir ein besseres Ergebnis in der Summe als in den Einzelergebnissen der jeweiligen Modelle.

In einem vom Beauftragten der Bundesregierung für Kultur und Medien (BKM) geförderten Forschungsprojekt „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit KI“ (Laufzeit 2021 bis 2025) untersuchen wir zudem, wie wir die Indexierung mit GND-Schlagwörtern durch neuere algorithmische Ansätze wie bspw. Transformer-Architekturen oder anhand großer Sprachmodelle (Large Language Modells) verbessern können. Vielversprechende Ansätze und Verfahren sollen anschließend in den produktiven Betrieb überführt werden.

Mehr über die Automatische Inhaltserschließung und den Einsatz der Algorithmen erfahren Sie in einem kürzlich im Liber Quarterly Journal veröffentlichten und frei zugänglichen Artikel:

Christoph Poley, Sandro Uhlmann, Frank Busse, Jan-Helge Jacobs, Maximilian Kähler, Matthias Nagelschmidt & Markus Schumacher (2025). Automatic Subject Cataloguing at the German National Library. LIBER Quarterly: The Journal of the Association of European Research Libraries, 35(1), 1-29. https://doi.org/10.53377/lq.19422 

*Nachweis Beitragsbild auf der Startseite:Screenshot: DNB CC-BY-SA 3.0 DE

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238