Tagungsbericht: KI in Bibliotheken weiterdenken

26. Februar 2026
von Katrin Heuer, Maximilian Kähler, Elisabeth Mödden, Christoph Poley, Helene Schlicht
Elisabeth Mödden begrüßt als Tagungsorganisatorin die Teilnehmenden. Foto: DNB, Josephine Kreutzer

Seit 2019 lädt das „Netzwerk maschinelle Verfahren in der Erschließung“ jährlich zu einer Fachveranstaltung zu zentralen Themen der automatischen Erschließung ein, die alternierend als Tagung oder Workshop konzipiert ist. Im Januar 2026 fand die bereits siebte Veranstaltung dieser etablierten Reihe in der Deutschen Nationalbibliothek in Frankfurt am Main statt. Schwerpunkt der Konferenz waren aktuelle Entwicklungen im Bereich der Künstlichen Intelligenz und deren Anwendung in der Inhalts- und Formalerschließung. Die Tagung setzte dabei bewusst die Diskussion der Fachveranstaltung 2023 fort und reflektierte sie im Kontext der Fortschritte in der KI-Entwicklung der vergangenen Jahre. Dabei wurden unterschiedliche Aspekte umfassend behandelt – von der Qualität und Verarbeitung von Daten über die Evaluierung von Verfahren bis hin zu Fragen der nachhaltigen Infrastruktur und Betrieb von KI-Systemen.

Zudem gab es zwei Neuerungen in der diesjährigen Durchführung: Zum einen wurde die Tagung erstmalig durch einen Sponsor unterstützt: Die Webstrategy GmbH förderte die Tagung finanziell und leistete damit einen wichtigen Beitrag zu ihrem Erfolg.

Zum anderen fanden am 28. Januar erstmals zwei Pre-Conference-Workshops statt, die den Teilnehmenden vertiefende Einblicke in die an der Deutschen Nationalbibliothek angewandten Verfahren der maschinellen Erschließung boten. In einer Hands-on-Session führten Christoph Poley, Frank Busse, Sandro Uhlmann und Clemens Rietdorf im Workshop „EMa Inside – Daten, Prozesse und Modelle für die automatische Inhaltserschließung“ in die Grundlagen und Anwendungen sowie den produktiven Betrieb des Open-Source-Systems Annif ein. Parallel dazu beleuchteten Maximilian Kähler und Jan-Helge Jacobs in einem weiteren Workshop die zentralen Aspekte der Evaluation automatischer Verfahren zur Inhaltserschließung – sowohl in theoretischer als auch in praktischer Hinsicht.

Der erste Tag der Fachtagung zeichnete sich durch ein vielfältiges und breit gefächertes Programm aus, das sich insbesondere den Themen Datenqualität, der Entwicklung und dem Vergleich von Large Language Models, der Rolle europäischer Hochleistungsrechenzentren sowie der rechtlichen Einordnung und Bewertung menschlicher gegenüber maschineller Erschließung widmete.

Zu Beginn der Tagung begrüßte zunächst der Generaldirektor der Deutschen Nationalbibliothek, Frank Scholze, die Anwesenden. In seiner Einführungsrede ging er vor allem auf drei zentrale Fragen ein, die den Einsatz von Künstlicher Intelligenz in Bibliotheken begleiten: Was sind Potentiale und Grenzen? Welche Voraussetzungen müssen KI-gestützte Verfahren erfüllen, damit sie zuverlässig und nachhaltig in bestehende Infrastrukturen integriert werden können? Und sind rechtliche, ethische und organisatorische Fragen für einen verantwortungsvollen Einsatz geklärt? Gleichzeitig betonte Frank Scholze das langjährige Engagement der DNB im Bereich der automatischen Erschließung von digitalen Publikationen und deren Weiterentwicklung als strategische Maßnahme, die nur in Zusammenarbeit verschiedener Bereiche gelingen kann.

Die anschließende erste Session wurde mit der Keynote von Prof. Dr. Felix Naumann vom Hasso-Plattner-Institut in Potsdam zum Thema Datenqualität eingeleitet. Der Einsatz von Künstlicher Intelligenz bringt viele Ebenen und zum Teil auch neue Anforderungen an Datenqualität mit sich, wie beispielsweise Diversity und Privacy Dimensionen. Um diese Anforderungen zu erfüllen sind einige zum Teil sehr zeitaufwendige Schritte notwendig, wie der Vortragende betonte. Dazu zählt u. a. Data Preparation, also das Säubern, Bereinigen und die Vorbereitung der Daten. Die Datenqualitätsdimensionen Vollständigkeit, Diversität, Korrektheit und Aktualität wurden von Prof. Dr. Naumann aufgegriffen sowie fünf-Facetten ihrer Überprüfbarkeit (Data, Human, Task, System, Source).

In seinem Vortrag zu den Ergebnissen aus vier Jahren KI-Projekt an der DNB berichtete Maximilian Kähler, Mitarbeiter der Deutschen Nationalbibliothek,welche Methoden sich am besten für die Beschlagwortung von deutschen wissenschaftlichen Publikationen mit Deskriptoren aus der Gemeinsamen Normdatei (GND) eignen. Im Ergebnis zeigte sich, dass einerseits bereits existierende Verfahren durch den Einsatz neuer Encoder-(Sprach-)Modelle weiterentwickelt werden und zu besseren Erschließungsergebnissen führen können. Andererseits eröffnet der Einsatz generativer Sprachmodelle völlig neue Ansätze, die das Vokabular besser in der Breite verarbeiten können. Diese neuen Ansätze bringen laut Vortragendem einen qualitativen Sprung, jedoch bleibt die automatische Indexierung ein komplexes Problem, das am besten in der Kombination von verschiedenen Verfahren gelöst werden kann.

Die zweite Session des Tages wurde von Julia Wunderle, wissenschaftliche Mitarbeiterin am Institut für Informatik der Universität Würzburg, in Vertretung von Prof. Dr. Hotho, zum Thema „LLäMmlein und ModernGBERT: Eine neue deutsche LLM-Familie in Forschung und Anwendung“ gehalten. Sie berichtete von der Arbeit des Chair of Data Science-Teams an zwei Sprachmodellfamilien, die für Verständnis- und Klassifikationsaufgaben ausschließlich auf einem öffentlich verfügbaren deutschen Korpus trainiert wurden: LLäMmlein und ModernGBERT 120M, 1B, 7B und 32B. Im Vortrag wurden Aufbau der Datenbasis, die Trainingspipeline und die technischen Herausforderungen beim Training thematisiert. Dieser eigens zur Evaluation entwickelte SuperGLEBer-Benchmark bestätigt die Leistungsfähigkeit insbesondere von ModernGBERT auf einer großen Bandbreite öffentlich verfügbarer Problemstellungen und Testdaten.

Der Vortrag von Robin Jegan, wissenschaftlicher Mitarbeiter am Lehrstuhl für Medieninformatik der Universität Bamberg, befasste sich mit dem Vergleich von Large Language Models und traditionellen Methoden (wie Entscheidungsbäumen oder lexikalischen Verfahren). Er kam zu dem Schluss, dass LLMs klassischen Verfahren in Zusammenfassungen oder Transformationsaufgaben überlegen sind, jedoch durch Halluzinationen und fehlende Reproduzierbarkeit Schwächen aufweisen. Klassische Modelle bleiben hingegen für kleine Datenmengen, eingeschränkte Aufgaben und klar definierte Anwendungsfälle weiterhin relevant.

Dr. Oliver Vettermann aus dem Team für Immaterialgüterrechte des FIZ Karlsruhe leitete mit seinem Vortrag „Don´t be evil – Zum (rechtlichen) Schutz intellektueller Arbeit“ die dritte Session ein. Aus rechtlicher Perspektive näherte sich Dr. Vettermann der intellektuellen Arbeit und ordnete anschließend die Sacherschließung als Teil intellektueller Arbeit ein – als Schöpfungsprozess, wenn sie vom Menschen durchgeführt wird. Die maschinellen Verfahren sind im Gegensatz dazu ein maschinelles Schlussfolgern – ohne intellektuelle Auseinandersetzung. Gleichzeitig betonte der Vortragende die Ansprüche an Richtigkeit und Genauigkeit im Erschließungsprozess, um Urheberschutz und Datenschutz zu gewährleisten.

Zum Abschluss des ersten Tages präsentierte Dr. Christoph Schmidt, Geschäftsfeldleiter „AI4Media“ vom Frauenhofer IAIS mit seiner Keynote „Souveräne und wettbewerbsfähige Große Sprachmodelle aus Europa – und die Rolle hochqualitativer Trainingsdaten“ die zunehmende Bedeutung von integrierten Ökosystemen aus Infrastruktur, Forschung und Industrie für die Entwicklung von wettbewerbsfähigen KI-Modellen aus Europa. Als Beispiele wurden Modelle wie Teuken 7B und GovTeuken vorgestellt, die als Open-Source-Modelle entwickelt wurden. Die Wichtigkeit von Trainingsdaten für die KI-Modelle wurde von Dr. Schmidt hervorgehoben und in diesem Zusammenhang die JQL-Pipeline (Judging Quality Across Languages) zur Filterung von mehrsprachigen Trainingsdatensätzen vorgestellt.

Der zweite Teil der Tagung am 30.01.2026 nahm vor allem die Anwendung maschineller Verfahren im Bereich der Inhaltserschließung / Sacherschließung in den Fokus. Fragen der Integration und des Trainings von KI-Systemen, der Assistenz maschineller Verfahren für die intellektuelle Erschießung, die Bedeutung von Hardware sowie Serviceangebote nationaler Infrastrukturen wurden diskutiert und nahmen damit verschiedene Dimensionen aktueller Entwicklungen in der maschinellen Erschließung auf.

Das Forschungsgebiet Extreme Multi-Label Text Classification (XMTC) wurde im Vortrag „What if we took “Use of Practical AI in Digital Libraries” seriously?“ von Dr. Jennifer D’Souza, NLP Research Group Lead im Projekt Open Research Knowledge Graph an der TIB Hannover am Beispiel der maschinellen Beschlagwortung mit Normdaten der GND ins Zentrum gerückt. Der von Dr. D’Souza organisierte Wettbewerb LLMs4Subjects stellte die Aufgabe das XMTC-Problem durch LLM-basierte Ansätze zu lösen. Die Ergebnisse des Wettbewerbs zeigen, dass es in der maschinellen Inhaltserschließung mit LLMs nicht die eine beste LLM-Lösung gibt, sondern verschiedene Modelle in der Kombination die besten Ergebnisse erzielen und dass klassische Methoden weiterhin Relevanz in der Erschließung besitzen und Vertrauen sowie Nachhaltigkeit eine wichtige Rolle in der Verwendung von LLMs spielen. Sie verwies in diesem Zusammenhang auf transparente Pipelines, wiederverwendbare Modelle, Kosteneffizienz, Qualitätskontrolle sowie die stete Berücksichtigung des Menschen im maschinellen Erschließungsprozess (Human-in-the-loop).

In der zweiten Präsentation „Humans, Machines, and Meaning: Rethinking Subject Indexing in the Age of AI“ stellte Clara Wan Ching Ho vom FID Liguistik der Universitätsbibliothek Johann Christian Senckenberg Frankfurt ihre Ausarbeitungen zur maschinell gestützten Inhaltserschließung vor. Dabei ging sie zunächst auf die Vor- sowie Nachteile von GenAI bzw. LLMs in der Inhaltserschließung ein und schlug anschließend eine kollaborative Zusammenarbeit zwischen Erschließer*innen und AI vor: So kann die Maschine den Erschließenden bspw. helfen durch Dokumente zu navigieren, Statistiken zu kreieren, auf neue (Fach-)Ausdrücke in den Veröffentlichungen hinzuweisen, relevante Schlagwörter zu identifizieren und mittels RAG-Systemen nach relevanten Passagen im Text zu filtern.

Unter dem Titel „Autocat: Automatische Katalogisierung“ berichteten Yves Maurer und Pit Schneider von der KI-unterstützten Erschließung der Nationalbibliothek Luxemburg. Das In-House entwickelte Verfahren „Autocat“ erschließt die digitalen Bestände hinsichtlich der bibliographischen Angaben und des Sachgebietes, da eine manuelle Bearbeitung aufgrund der hohen Exemplarzahl nicht möglich ist. Die automatisierte Erstellung von Metadaten erfolgt über Text- und Bildanalysen durch ein feinabgestimmtes Vision Language Model auf Basis von OpenAI GPT-4o. Der Prozess wurde durch Korrekturen und Bewertungen der maschinellen Ergebnisse durch Erschließer*innen begleitet. Sehr gute Resultate konnten beispielsweise bei der Erfassung des Titels und der Autor*innen erzielt werden. Herausforderungen stellten sich stärker in der Ermittlung von Körperschaften und Sachgruppen.

Die fünfte und letzte Session der Tagung wurde von Tobias Weberndorfer von der TU Wien Bibliothek mit seinen Ausführungen zu „GND; Datenqualität; RAG: zur Datenqualität im Rahmen eines RAG-Systems für die maschinelle Beschlagwortung“ begonnen. In seinem Vortrag stellte Herr Weberndorfer die Bedeutsamkeit von durch Menschen erstellten Sacherschließungsdaten für die Verbesserung von RAG-Systemen vor: als Trainingsdaten des Embeddingmodells sowie als Datenbasis für das Retrieval und den Reranker. Jedoch weisen die Daten zum Teil Eigenheiten oder Fehler auf, sogenannter Noise, die das Datensample beeinträchtigen können. Filterung und Relabelling stellte der Vortragende als mögliche Gegenmaßnahmen vor.

Christoph Poley von der Deutschen Nationalbibliothek sprach in seinem Vortrag „Hardware für die automatische Erschließung am Beispiel der DNB“ über die aktuellen fachlichen Use Cases und die diesen zugrundeliegenden Verfahren für die automatische Erschließung an der DNB. Dabei ging er auf die Produktion, das Modelltraining / Datenmanagement und die Forschung ein, welche unterschiedliche Hardwareanforderungen für die Klassifikation von Sachgruppen und DDC-Kurznotationen sowie der Indexierung mit GND-Deskriptoren benötigen. Er reflektierte die Erfahrungen, Erwartungen und Herausforderungen im Umgang mit der Hardware und plädierte für eine nachhaltige und ressourcenschonende Hardware- und Cloudstrategie als ein Teil einer umfassenden IT- und Bibliotheksstrategie.

In der abschließenden Keynote der Tagung stellte Prof. Dr. Philipp Wieder, stellvertretender Leiter der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), „Nationale Infrastrukturen – Angebote und Perspektiven“ vor. Neben der GWDG wurden das Nationale Hochleistungsrechnen (NHR), das KI-Servicezentrum für sensible und kritische Infrastrukturen (KISSKI) sowie die Nationale Forschungsdateninfrastruktur (NFDI) in ihren Angeboten beschrieben. Insbesondere auf die darin entwickelten Services, wie Text+ LLM-Service, MONAPipe und das Trusted Research Environment wurde näher eingegangen. Auch die Wichtigkeit der Zusammenarbeit zwischen Bibliotheken und Rechenzentren wurde im Vortrag betont, wie sie zum Beispiel in den Projekten Library AI und Library Automation zum Tragen kommen.

Die siebte Fachveranstaltung des Netzwerks maschinelle Verfahren in der Erschließung bot einen umfassenden Einblick in die aktuellen Fragen und Problemstellungen in der Anwendung von Künstlicher Intelligenz in der Erschließung. Die Tagung zeigte, dass KI nicht als Ersatz, sondern als unterstützende Kraft im Erschließungsprozess wirken kann, sofern sie in einer nachhaltigen, transparenten und menschzentrierten Architektur integriert wird. Von der Evaluation von Modellen über die Entwicklung europäischer Open-Source-LLMs bis hin zur Nutzung nationaler Hochleistungsinfrastrukturen wie NHR, KISSKI oder NFDI wurde deutlich: Der Erfolg von KI in Bibliotheken hängt entscheidend von qualitativ hochwertigen Trainingsdaten, robusten Technologien, interdisziplinärer Zusammenarbeit und einer klaren strategischen Ausrichtung ab. Die Veranstaltung unterstrich zudem die Bedeutung von Human-in-the-loop-Ansätzen, der Kombination klassischer und moderner Verfahren sowie der kontinuierlichen Qualitätskontrolle – als Grundlage für verantwortungsvolles und nachhaltiges KI-Engagement in Bibliotheken.

*Nachweis Beitragsbild auf der Startseite:Josephine Kreutzer

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

Schlagwörter

Blog-Newsletter

In regelmäßigen Abständen erhalten Sie von uns ausgewählte Beiträge per E-Mail.

Mit dem Bestellen unseres Blog-Newsletters erkennen Sie unsere Datenschutzerklärung an.

  • ISSN 2751-3238