Erschließungsmaschine gestartet
Die Deutsche Nationalbibliothek (DNB) hat im April 2022 ein neues System zur automatischen Inhaltserschließung in Betrieb genommen. Die sogenannte „Erschließungsmaschine“ wird zur automatischen Vergabe von Sucheinstiegen zunächst für deutschsprachige E-Books, elektronische Zeitschriftenartikel oder auch gedruckte Hochschulschriften eingesetzt.
Neben der intellektuellen ist die automatische Inhaltserschließung seit vielen Jahren Praxis in der DNB. [1] Damit wird ein strukturell gegliederter Zugang zum Bibliotheksbestand ermöglicht, insbesondere um gerade die kontinuierlich wachsenden Mengen an digitalen Medienwerken thematisch such- und auffindbar zu machen. Allein in 2021 wurden knapp 2,3 Millionen Medienwerke neu in die Sammlung aufgenommen davon sind ca. 797.000 gedruckte Publikationen (Monografien, Zeitschriften/Zeitungen oder Hochschulschriften) und ca. 1.363.000 digitale Publikationen (Monografien, E-Paper oder elektronische Zeitschriftenartikel). Die Menge des Zugangs liegt auf dem Niveau der Vorjahre. Der Gesamtbestand ist auf etwa 43,6 Millionen Medienwerke angewachsen.
In einem von April 2019 bis März 2022 durchgeführten Projekt „Erschließungsmaschine“ (kurz EMa) wurde ein neues Erschließungssystem aufgesetzt. Aufbauend auf den Erfahrungen mit den seit 2012 im Einsatz befindlichen Verfahren für die automatische Inhaltserschließung war es Ziel, aktuelle Technologien und neue Verfahren zu erproben und für die DNB anwendbar zu machen. [2] Für die zukünftige Unterstützung neuer Nutzungsszenarien wurde eine modular aufgebaute und flexibel anpassbare Systemarchitektur konzipiert. Damit einher gehen die kontinuierliche Verbesserung der Erschließungsergebnisse und eine bessere Wartbarkeit des Erschließungssystems.
Mit dem neuen Erschließungssystem werden aktuell DDC-Sachgruppen, Schlagwörter aus der Gemeinsamen Normdatei (GND) für deutschsprachige Medienwerke sowie DDC-Kurznotationen der Sachgruppe Medizin (für deutsch- und englischsprachige Medienwerke) vergeben.
Die Erschließungsmaschine wird durch die DNB betrieben und besitzt eine modulare Architektur, die sämtliche Bestandteile als Services integriert.
Im Kern wird Annif eingesetzt, eine Open-Source-Software zur automatischen Klassifizierung und Indexierung, entwickelt an der Finnischen Nationalbibliothek in Helsinki. [3] Annif ist sprachunabhängig und kombiniert verschiedene Verfahren des Text Minings und des maschinellen Lernens. Mit Hilfe von intellektuell erschlossenen Trainingsdokumenten aus dem Bestand der DNB werden mit den in Annif implementierten Algorithmen Modelle trainiert, um die Schlagwörter oder Notationen für Medienwerke zu bestimmen. So können beispielsweise aus einer Menge von etwa 1,3 Millionen GND-Schlagwörtern ausgewählte inhaltlich passende Sachbegriffe oder auch Geografika, Personen, Werke, Kongresse oder Körperschaften automatisch zugeordnet werden.
Zudem laufen folgende im Projekt entwickelte Services in der Produktiv-Umgebung: Ein Service zur Textbereitstellung (1) holt die textuelle Repräsentation eines am Vortag neu in der DNB eingetroffenen digitalen Medienwerkes aus dem Textspeicher sowie die zugehörigen Metadaten aus dem Katalogsystem. Ein Service zur Textsprachenerkennung (2) erkennt die Textsprache, ein Service für Klassifizierung & Indexierung zur Kommunikation mit Annif (3) übergibt deutsch- oder englischsprachige Texte und Metadaten an Annif (4) und erhält von Annif die Ergebnisse der automatischen Verarbeitung zurück. Ein Katalogisierungs-Service (5) arbeitet die Ergebnisse in das Format des Katalogsystems (Format Pica+) um und die EMa-Steuerung schreibt sie an den Datensatz des digitalen Medienwerkes im Katalogsystem, womit sie sofort für die Suche zur Verfügung stehen. Initialisiert, gesteuert und überwacht wird der Prozessablauf über die EMa-Steuerung (6).
Mit der Umsetzung der einzelnen neuen Verfahren als Services können künftig auch weitere Funktionalitäten und Verfahren flexibel kombiniert, ausgetauscht und ergänzt werden. Die stete und aktive Teilhabe am Diskurs und den aktuellen Entwicklungen im Bereich der Künstlichen Intelligenz bildet eine wesentliche Grundlage, um die kontinuierliche Verbesserung der Erschließungsergebnisse für den Bestand der DNB ermöglichen zu können. Die DNB hat hierzu in 2021 auch ein Forschungsprojekt begonnen, gefördert durch die Beauftragte der Bundesregierung für Kultur und Medien im Rahmen der Nationalen KI-Strategie: „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit Künstlicher Intelligenz“.
Literaturangaben
[1] Junger, Ulrike; Scholze, Frank: Neue Wege und Qualitäten – Die Inhaltserschließungspolitik der Deutschen Nationalbibliothek. In: Qualität in der Inhaltserschließung, herausgegeben von Michael Franke-Maier, Anna Kasprzik, Andreas Ledl und Hans Schürmann, Berlin, Boston: De Gruyter Saur, 2021, S. 55–70. https://doi.org/10.1515/9783110691597-004
[2] Mödden, Elisabeth; Schöning-Walter, Christa; Uhlmann, Sandro: Maschinelle Inhaltserschließung in der Deutschen Nationalbibliothek. In: BuB : Forum Buch und Bibliothek – 70 (2018), 1, S. 30–35. https://nbn-resolving.org/urn:nbn:de:0290-opus4-160844
[3] Suominen, Osma; Inkinen, Juho; Lehtinen, Mona: Annif and Finto AI: Developing and Implementing Automated Subject Indexing. JLIS.It, 13(1), 265–282. https://doi.org/10.4403/jlis.it-12740
Dem Foto von Claudia Grote nach zu urteilen, ist es der DNB gelungen, das Helferlein von Daniel Düsentrieb für diese wichtige Aufgabe zu gewinnen. Vertragsbeginn war wohl der 1. April 2022. Meinen Glückwunsch zu dieser Neuerung.
Als gelernter Dokumentar und nach 35 Berufsjahren in der EDV bin ich offen gesagt etwas skeptisch betreffend Nutzen der Erschließung durch ein Programm für ernsthaft suchende Benutzer.
Was man in elektronischen Bibliothekskatalogen antrifft, ist die Tendenz, Anfragende mit ausufernden Trefferlisten zu überfluten, nach denen buchstäblich nicht gefragt wurde. Trennscharfe Suchmöglichkeiten ohne 95 Prozent sachfremden Ballast werden heute anscheinend als nutzlos für Benutzer angesehen. Ich erinnere mich lebhaft an den Versuch, im DNB Katalog festzustellen, ob es eine Dissertation des Urhebers „Vorgrimler“ gibt. Das System meldete weit über hundert „Treffer“, in denen bei Nachprüfung der Autor keineswegs „Vorgrimler“ hieß. Diese generelle Tendenz im Bibliothekswesen, „Benutzer, Du bist doof, der Computer weiß was Du wirklich suchst“ empfinde ich als Schritt in die falsche Richtung.
Les bibliothèques en Afrique ont vraiment besoin de cet outi pareil, surtout les bibliothèques universitaires. Quand et comment pourrons-nous avoir l’opportunité de l’acquérir et en version française?
Dear Marcel SEA,
The core of the cataloguing system consists of Annif, a freely available software tool for automated subject indexing and classification developed by the National Library of Finland. It is language-independent, and you can try it out right away if you like. See https://github.com/NatLibFi/Annif/wiki/Getting-started and http://annif.org/
You can find additional information and discussion in the Annif Users Group at https://groups.google.com/g/annif-users. There is also an English version of this blog post with some technical details of our use of Annif added.
Greetings,
Claudia and Sandro