In der DNB lesen jede Nacht die Maschinen
Ein Blick auf die maschinelle Beschlagwortung
Ein Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt. Der vorliegende Beitrag [1] wirft einen Blick auf die maschinelle Beschlagwortung mit dem Vokabular der Gemeinsamen Normdatei (GND). Ausgehend von den zugrunde liegenden Daten sollen die Verfahren und deren Modellierung vorgestellt sowie Testreihen bis zum Ergebnis im produktiven Einsatz gezeigt werden.
Täglich neue Publikationen und Themen
Mit Blick auf die vergangenen drei Jahre (2020 bis 2022) sind im Durchschnitt jährlich 297.506 neue digitale monografische Publikationen in den Bestand der DNB eingegangen [2]. D.h. täglich, 7 Tage die Woche und 365 Tage im Jahr, werden derzeit im Durchschnitt ca. 815 neue digitale monografische Publikationen den Nutzer*innen zur Verfügung gestellt. Um die Suche nach den täglich neuen und den bereits vorhandenen Publikationen zu strukturieren und das Finden von Themen (bspw. Sachthemen oder Personen) [3] zu ermöglichen, werden die neu hinzukommenden Publikationen tagesaktuell u.a. mit Schlagwörtern der GND [4] maschinell angereichert.
Maschinelle Beschlagwortung an der DNB
Prozesse zur inhaltlichen Erschließung werden in der DNB maschinell und vollautomatisiert bereits seit 2012 durchgeführt [5]. Der vorliegende Beitrag beschreibt die maschinelle Beschlagwortung mit dem Vokabular der GND für deutschsprachige digitale Publikationen. Ausgehend von den zugrunde liegenden Daten sollen die Verfahren und deren Modellierung vorgestellt sowie Testreihen bis zum Ergebnis im produktiven Einsatz gezeigt werden.
Aktuell werden in der DNB v.a. zwei methodische Ansätze zur maschinellen Beschlagwortung (auch Automatische Indexierung) zugrunde gelegt. Beim maschinellen Lernen (auch Assoziative Verfahren) wird ein Modell anhand gekennzeichneter Trainingsdaten erlernt, um so Vorhersagen über unbekannte oder zukünftige Daten treffen zu können. Schlagwörter eines kontrollierten Vokabulars, die intellektuell einer Publikation zugeordnet wurden, werden von einem Algorithmus anhand der in der Publikation befindlichen Wörter (Merkmale) erlernt und das erlernte Modell wird anschließend auf einer neu in den Bestand der DNB eingehenden Publikation (und ihren Merkmalen) angewandt. Beim zweiten Ansatz, den Lexikalischen Verfahren (auch Linguistische Verfahren oder Text Mining), werden Terme (Wörter oder Wortteile) aus einer digitalen Publikation mit den Termen eines verwendeten Vokabulars (bspw. den Schlagwörtern der GND) verglichen. Sind ein Term aus dem Text und ein Term eines Schlagwortes (in ihrer Grundform) identisch, kommt es zu einem Treffer (Match), und das Schlagwort kann der zugrunde gelegten Publikation zugeordnet werden.
Das Vokabular
Die GND enthält aktuell über ca. 9,37 Millionen normierte Schlagwörter in deutscher Sprache, die fortlaufend ergänzt und aktualisiert werden. Für die maschinelle Beschlagwortung werden insgesamt ca. 1,39 Millionen Schlagwörter verwendet (der Teil, der für die Inhaltserschließung redaktionell aufgearbeitet ist). Für Verfahren des maschinellen Lernens ist jedoch von dieser Menge nur jener Teil an Schlagwörtern nutzbar, der über mindestens eine intellektuell zugeordnete Publikation verfügt: Die intellektuell mit Schlagwörtern verknüpften Publikationen stellen das Trainingsmaterial für die maschinellen Lernmodelle dar. Im Bestand der DNB gibt es aktuell ca. 200.000 digitale Publikationen, ca. 710.000 digitale Inhaltsverzeichnisse sowie etwa 275.000 digitale Inhaltstexte, die in deutscher Sprache verfasst und intellektuell mit mindestens einem Schlagwort verknüpft wurden. Zudem können verschiedene Teile der Metadaten wie bspw. der Titel oder der Autor einer Publikation mit in das Training aufgenommen werden.
Die Verwendung der ca. 1,39 Millionen GND-Schlagwörter als Vokabular für die maschinelle Beschlagwortung stellt ein sogenanntes Extreme Multi-Label Classification (XMLC) [6] Problem dar: Neue Textdokumente werden mit feststehenden Labels (bspw. GND-Schlagwörtern) verknüpft. Dabei ist die Anzahl der zu treffenden Labels pro Textdokument nicht beschränkt. Für XMLC-Probleme charakteristisch sind die große Anzahl an Labels sowie die sogenannte „Long-Tail-Charakteristik“ [7]: Ein Großteil der möglichen Labels kommt in den Trainingsdaten selten oder nie vor.
In der folgenden Tabelle wurden die ca. 1,39 Millionen GND-Schlagwörter hinsichtlich ihrer Vergabehäufigkeit analysiert.
Vergabehäufigkeit der GND-Schlagwörter im Bestand der DNB | absolut | relativ |
alle | 1.385.779 | 100% |
x == 0 | 1.166.970 | 84,2% |
1 <= x < 10 | 155.875 | 11,2% |
10 <= x < 100 | 49.976 | 3,6% |
100 <= x < 1.000 | 11.548 | 0,8% |
1.000 <= x < 10.000 | 1.366 | 0,1% |
10.000 <= x | 44 | 0,0% |
Über 1,16 Millionen GND-Schlagwörter sind im Bestand der DNB nicht verknüpft (Zero-Shot-Labels). Zwischen 1mal verknüpft und weniger als 10mal verknüpft sind 155.875 GND-Schlagwörter (Tail-Labels). 1.410 GND-Schlagwörter sind mindestens 1000mal verknüpft (Head-Labels).
Für den Einsatz von lexikalischen Verfahren können prinzipiell alle ca. 1,39 Millionen Schlagwörter der GND verwendet werden.
Die „Erschließungsmaschine“
In einem von 2019 bis 2022 durchgeführten Projekt namens „Erschließungsmaschine“ (kurz EMa) hat die DNB ein neues Erschließungssystem aufgesetzt [8]. Es wurden aktuelle Technologien und neue Verfahren erprobt und eine modulare und flexibel anpassbare Systemarchitektur aufgebaut, in der sämtliche Bestandteile als skalierbare Services integriert sind. Damit einher gehen die kontinuierliche Verbesserung der Erschließungsergebnisse und die Integration neuer Verfahren und Methoden. Mit dem neuen Erschließungssystem werden neben dem Schlagwörtern aus der GND auch DDC-Sachgruppen, DDC-Kurznotationen sowie Sprachencodes nach ISO 639-2 vergeben [9].
Zur maschinellen Klassifizierung und Beschlagwortung wird aktuell Annif [10] eingesetzt, ein Open-Source-Werkzeugkasten, der an der Finnischen Nationalbibliothek in Helsinki entwickelt wird. Annif ist sprachunabhängig und kombiniert verschiedene Verfahren des Text Minings und des maschinellen Lernens unter einheitlichen Schnittstellen. Als maschinelle Lernverfahren sind in Annif [11] TF-IDF, fastText, Omikuji und SVC enthalten, linguistische Verfahren sind MLLM, STWFSA und YAKE. Außerdem gibt es drei sogenannte Ensembles, in denen Einzelergebnisse aus den Verfahren miteinander fusioniert werden können.
Die maschinelle Beschlagwortung im Experiment und in Produktion
Für die maschinelle Beschlagwortung mit dem Vokabular der GND für deutschsprachige digitale Publikationen wird aktuell ein Ensemble aus dem maschinellen Lernverfahren Omikuji und dem linguistischen Verfahren MLLM eingesetzt. Es wurde das Verfahren MLLM mit der gesamten GND, also ca. 1,39 Millionen Schlagwörter, parametrisiert und bereitgestellt. Zudem wurde ein erstes Modell (Omikuji 1) mit ca. 200.000 digitalen Publikationen, ca. 710.000 digitalen Inhaltsverzeichnissen sowie etwa 275.000 digitalen Inhaltstexten in deutscher Sprache sowie Metadaten aus den zugehörigen Titeldaten trainiert. Bei einem zweiten Modell (Omikuji 2) wurden die Trainingsdaten auf den Zeitraum 2013 bis Mai 2023 eingegrenzt, so dass in diesem Modell nur die Trainingsdaten der letzten 10 Jahre berücksichtigt sind.
Für die Gesamtmenge an Trainingsdaten ergibt sich die Verteilung auf die einzelnen Entitätentypen der GND wie folgt:
GND-Entitätentypen | Anzahl unterschiedlicher Schlagwörter in den Trainingsdaten absolut | Anzahl unterschiedlicher Schlagwörter in den Trainingsdaten relativ | Gesamtzahl an Schlagwörtern in den Trainingsdaten absolut | Gesamtzahl an Schlagwörtern in den Trainingsdaten relativ |
Alle | 218.809 | 100% | 9.570.352 | 100% |
Körperschaft | 24.643 | 11,3% | 229.155 | 2,4% |
Konferenz | 1.543 | 0,7% | 9.361 | 0,1% |
Geografikum | 25.434 | 11,6% | 1.193.640 | 12,5% |
Person (individualisiert) | 54.197 | 24,8% | 392.845 | 4,1% |
Sachbegriff | 94.957 | 43,4% | 7.556.527 | 79,0% |
Werk | 18.035 | 8,2% | 188.824 | 2,0% |
Angegeben sind die absolute und relative Häufigkeit der Anzahl unterschiedlicher Schlagwörter in den Trainingsdaten sowie die Gesamtzahl der in den Trainingsdaten vorkommenden Schlagwörter. Unter den verwendeten GND-Entitäten sind die Sachbegriffe mit 43,4 % am häufigsten vorkommend. Auch in der Gesamtzahl sind die Sachbegriffe mit einem Anteil von 79,0 % dominant.
In einem Experiment anhand von 6.970 Testdokumenten (digitale Publikationen deutscher Sprache) ergaben sich folgende Ergebnisse, bei denen für jedes Modell und jede Konfiguration die statistischen Metriken [12] Precision (Nützlichkeit des Ergebnisses), Recall (Vollständigkeit des Ergebnisses), F1-Score (harmonischer Mittelwert aus Precision und Recall), NDCG (Normalized Discounted Cumulation Gain) ausgegeben wurden. Im Experiment werden die 7 GND-Schlagwörter (Limit) mit dem höchsten Konfidenzwert [13] berechnet, vorausgesetzt er übersteigt einen Schwellenwert (Threshold) von 0,055. Abgeglichen werden dabei die maschinell vergebenen Schlagwörter mit intellektuell zugeordneten Schlagwörtern.
Modell | Precision | Recall | F1-Score | NDCG |
Ensemble | 0,4047 | 0,5598 | 0,4162 | 0,5533 |
MLLM | 0,2088 | 0,3953 | 0,2447 | 0,3820 |
Omikuji 1 | 0,3823 | 0,5214 | 0,3865 | 0,5180 |
Omikuji 2 | 0,3875 | 0,4893 | 0,3759 | 0,4924 |
Das Einzelverfahren MLLM bringt einen F1-Wert von 0,2447, das Modell Omikuji 1 einen F1-Wert von 0,3865 und das Modell Omikuji 2 einen F1-Wert von 0,3759. Alle drei kombiniert in einem Ensemble bringen einen gemeinsamen F1-Wert von 0,4162. Es zeigt sich, dass die Fusion der Ergebnisse aus dem lexikalischen Verfahren MLLM und den Modellen des maschinellen Lernverfahrens Omikuji in einem Ensemble zu den besten Ergebnissen führt.
Zudem wurde für jedes Modell auf Basis der insgesamt 6.970 Testdokumente die Precision-Recall-Kurve [14] berechnet und die Fläche “PR AUC” unter dieser ausgegeben.
Das maximale Ergebnis erreicht auch bei dieser Berechnung das Ensemble mit einem PR AUC von 0,4302.
Zudem wurde eine Qualitätsprüfung der von einem Ensemble aus Omikuji und MLLM stammenden Schlagwörter anhand von Stichproben i.S. einer differenzierten Einzelbetrachtung durch die Expert*innen der Inhaltserschließung durchgeführt [15]. Fragestellung: Ist ein maschinell vergebenes Schlagwort für das Retrieval der Publikation „sehr nützlich“, „nützlich“, „wenig nützlich“ oder ist das Schlagwort als Suchbegriff „falsch“? Die Bewertungen werden statistisch ausgewertet, um das Qualitätsniveau zu beobachten und Trends zu erkennen. Für eine Stichprobe von 702 digitalen deutschsprachigen Publikationen haben die Auswertungen zu dem Ergebnis geführt, dass 38 % der Schlagwörter in die Bewertungskategorie „sehr nützlich“ fallen, 30 % sind als „nützlich“ bewertet worden sowie 22 % als „wenig nützlich“. 10 % der maschinell vergebenen Schlagwörter sind als „falsch“ gekennzeichnet worden. Es lässt sich eine positive Entwicklung von den ersten produktiv in der DNB eingesetzten Modellen zur Vergabe von GND-Schlagwörtern im Jahr 2014 bis heute feststellen, da der Anteil an „sehr nützlich“ und „nützlich“ bewerteten Schlagwörtern gestiegen und der Anteil der als „falsch“ bewerteten gesunken ist [16].
In der täglichen Produktion werden ebenfalls regelmäßig die Metriken Precision, Recall und F1 berechnet und eine Qualitätskontrolle der laufenden maschinellen Beschlagwortung durchgeführt. Auf einer Anzahl von 14.457 Testdokumenten (digitale Publikationen deutscher Sprache) erreicht aktuell das Ensemble aus MLLM und Omikuji in Produktion einen F1-Wert von 0,4466 mit einer Precision von 0,3777 und einem Recall von 0,5461.
Professionalisierung durch geeignete Werkzeuge
Für den Betrieb der Erschließungsmaschine ist die Entwicklung von Werkzeugen notwendig, die als Bindeglied zwischen vorhandenen Open-Source-Werkzeugen (z.B. Annif) dienen, Abläufe steuern und mit großen Datenmengen (Textkorpora, Vokabulare) umgehen können. Sie haben den Zweck, manuelle Verarbeitungsschritte zu automatisieren und damit zu professionalisieren.
Solche Werkzeuge umfassen beispielsweise die Vorbereitung, Durchführung und Auswertung von Testreihen („Machine Learning Data Pipeline“ [17]) und den Aufbau einer entsprechenden Arbeits- und Testumgebung. Auch die Realisierung und der Betrieb einer Produktivumgebung zur Automatischen Erschließung ist wie im Bereich der Testumgebung nur mit einem entsprechend hohen Maß an Aufwand und Professionalisierung bei Personal und Ressourcen möglich.
An dieser Stelle soll nicht unerwähnt bleiben, dass auch passende technologische Infrastruktur zum Betrieb der Erschließungsmaschine und aller damit verbundenen Pipelines und Werkzeuge aufgebaut werden musste.
19 Stunden und 35 Minuten
Beispielhaft sei abschließend der Weg einer digitalen Dissertation mit dem Titel „Auswirkungen klimatischer Veränderungen auf die Überhitzung von Gebäuden und Empfehlungen zur Begrenzung sommerlicher Übertemperaturen“, vorgelegt von Mario Vukadinovic am Fachbereich Architektur, Stadtplanung und Landschaftsplanung der Universität Kassel [18], skizziert: Die Hochschulschrift wurde von der Universitätsbibliothek Kassel bereitgestellt und am 04.09.2023 um 11:28 Uhr vom DNB-Harvesting-Prozess eingesammelt. Es wurde automatisiert ein Titeldatensatz im Katalogsystem der DNB angelegt und dabei die mitgelieferten Metadaten (Autor, Titel, Verlag usw.) verwendet. Gleichzeitig erfolgte die Speicherung der im Format PDF vorliegenden digitalen Publikation im Repository der DNB. Am 05.09.2023 um 04:47 Uhr erfolgte die maschinelle Vergabe der GND-Schlagwörter „Bauphysik“, „Anthropogene Klimaänderung“, „Gebäude“, „Klimaänderung“ und „Raumklima“. Vorher wurde bereits maschinell die DDC-Hauptsachgruppe 690 „Hausbau, Bauhandwerk“ vergeben sowie anschließend ebenfalls maschinell die DDC-Kurznotation 693.832 „Wärmeschutz“. Am 05.09.2023 um 07:03 Uhr, nach 19 Stunden, 35 Minuten, stand die Publikation voll erschlossen im Retrieval den Nutzer*innen zur Verfügung.
Weiterhin täglich neue Publikationen und Themen
Weiterhin kommen täglich neu zu erschließende digitale (oder gedruckte) Publikationen in den Bestand der DNB. Mit Blick auf die jahrelange Erfahrung der DNB im Bereich produktiver Anwendung der automatischen Inhaltserschließung für bibliothekarische Problemstellungen ist die Basis für weitere Aktivitäten vorhanden. Zu Ausbau, Weiterentwicklung und Regelbetrieb der Modelle sind jedoch Kapazitäten in Personal und Sachmitteln erforderlich. Gerade die rasanten technologischen Entwicklungen im Bereich der KI lassen auf eine mögliche Zukunft der inhaltlichen Erschließung in Bibliotheken schließen, in der automatisierte Prozesse eine wesentliche Rolle spielen werden. In einem Forschungsprojekt der DNB mit dem Titel „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit KI“ werden ganz aktuell geeignete Methoden und Algorithmen auf ihre Eignung für die maschinelle Erschließung mit der GND untersucht [19]. Die Ergebnisse daraus sollen in die Weiterentwicklung der Erschließungsmaschine einfließen.
Gestern geliefert, heute verfügbar - Automatisierung beim Sammeln und Erschließen
In der Deutschen Nationalbibliothek arbeiten wir verstärkt an Automatisierung und setzen Künstliche Intelligenz #KI für die automatische Erschließung ein. Bei täglich mehr als 6.500 eingehenden digitalen Medienwerken erhalten Nutzer*innen dadurch schnell und effektiv Zugang zu den neuesten Veröffentlichungen. Wie funktioniert das? Die Kolleg*innen unseres Referats Automatische Erschließungsverfahren, Netzpublikationen erklären in dieser Serie den Weg von digitalen Medienwerken mit ihren Metadaten in und durch die DNB bis hin zur Erschließung mit Hilfe von Verfahren der KI.
Weitere Beiträge dieser Serie:
- Die Herausforderung eines WebarchivsWas macht das Sammeln von Websites eigentlich so schwierig? Ein kurzer Abriss der Herausforderungen des Webarchivs der DNB.
- Texte erschließen mit KIKI-Lösungen finden, die den Inhalt gesammelter Publikationen mit Schlagwörtern umfassend und präzise beschreiben. Das ist das Ziel des KI-Projekts.
- In der DNB lesen jede Nacht die MaschinenEin Teil der inhaltlichen Erschließung von Medienwerken wird in der Deutschen Nationalbibliothek (DNB) maschinell und vollautomatisiert durchgeführt.
- Text für die MaschineMaschinelle Erschließung braucht maschinenlesbare Texte. Die Textbereitstellung sorgt genau dafür und interessiert sich für PDF-Dateien, Pixelmuster und Silbentrennungen.
- Personen verbinden – in Katalog und GNDImmer mehr Publikationen werden mit maschineller Unterstützung ihren Urheber*innen zugeordnet. In diesem Beitrag erfahren Sie, wie die DNB dazu beiträgt.
- Parallelwelten in der Sammlung der DNBWie findet man eine Parallelausgabe, was ist der Parallelabgleich und wofür brauchen wir ihn? Entdecken Sie Parallelwelten in der DNB!
- Das Webarchiv der DNBWebsites archivieren? Was wird da im Webarchiv so gemacht? Was wird gesammelt und wie nutzt man es? Der Beitrag bringt etwas Licht in ein unbekanntes Terrain.
[1] Die Autoren danken ihrem Kollegen Maximilian Kähler für wertvolle Beiträge zur Evaluierung und zum Thema Extreme Multi-Label Classification (XMLC).
[2] Im Folgenden unberücksichtigt bleiben bspw. die aktuell 806.733 digitalen Periodika (Ausgaben, Hefte oder Artikel) pro Jahr. Der Gesamtbestand der DNB beträgt derzeit 46,2 Millionen Medienwerke, wovon 12,3 Millionen digitale Medienwerke sind. Deutsche Nationalbibliothek Jahresbericht 2022: Zahlen und Fakten. https://jahresbericht.dnb.de/Webs/jahresbericht/SharedDocs/Downloads/DE/2022statistikenGesamt.html
[3] Jost-Zell, Elke; Köhn, Karen: Schuppenwachtel, Federgeistchen, Tiefseevampir. In: DNB Blog 17.11.2022. https://blog.dnb.de/schuppenwachtel-federgeistchen-tiefseevampir/ und Jost-Zell, Elke: Asterix, Goethe und die Queen. In: DNB Blog 25.01.2022. https://blog.dnb.de/personen-in-der-gemeinsamen-normdatei-gnd/
[4] Gemeinsame Normdatei (GND). https://gnd.network/Webs/gnd/DE/Home/home_node.html
[5] Junger, Ulrike; Scholze, Frank: Neue Wege und Qualitäten – Die Inhaltserschließungspolitik der Deutschen Nationalbibliothek. In: Qualität in der Inhaltserschließung, herausgegeben von Michael Franke-Maier, Anna Kasprzik, Andreas Ledl und Hans Schürmann, Berlin, Boston: De Gruyter Saur, 2021, S. 55–70. https://doi.org/10.1515/9783110691597-004
[6] Einen aktuellen Überblick zum Thema XMLC bieten bspw. Dasgupta, Arpan et al.: Review of Extreme Multilabel Classification. arXiv 2023. https://arxiv.org/abs/2302.05971
[7] Vgl. u.a. Jain, H. et al.: Extreme Multi-label Loss Functions for Recommendation, Tagging, Ranking & Other Missing Label Applications. KDD 2016, p. 935–944. https://doi.org/10.1145/2939672.2939756
[8] Busse, Frank et al.: Erschließungsmaschine gestartet. In: DNB Blog 04.05.2022. https://blog.dnb.de/erschliessungsmaschine-gestartet/
[9] DDC-Sachgruppen https://www.dnb.de/DE/Professionell/DDC-Deutsch/DDCinDNB/ddcindnb_node.html#doc259608bodyText1 DDC-Kurznotationen https://www.dnb.de/DE/Professionell/DDC-Deutsch/DDCinDNB/ddcindnb_node.html#doc259608bodyText3
Sprachencodes nach ISO 639-2 https://www.dnb.de/SharedDocs/Downloads/DE/Professionell/Standardisierung/Standards/iso639.html
[10] http://annif.org/ und Suominen, Osma; Inkinen, Juho; Lehtinen, Mona: Annif and Finto AI: Developing and Implementing Automated Subject Indexing. JLIS.It, 13 (2022), 1, 265–282. https://doi.org/10.4403/jlis.it-12740
[11] Für Details zu den einzelnen Verfahren und den Ensembles in Annif siehe „backends“ unter https://github.com/NatLibFi/Annif/wiki/Getting-started
[12] Zu Evaluierung und den Metriken allgemein siehe bspw. Manning, Christopher D. et al.: An Introduction to Information Retrieval. Cambridge University Press, Cambridge, Mass., 2009. https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-in-information-retrieval-1.html
[13] https://de.wikipedia.org/wiki/Konfidenzintervall
[14] Boyd, K.; Eng, K.H.; Page, C.D.: Area under the Precision-Recall Curve: Point Estimates and Confidence Intervals. In: Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2013. Lecture Notes in Computer Science, vol 8190. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-40994-3_29
[15] Vgl. auch die Vorschläge zur Bewertung der Qualität der automatischen Inhaltserschließung bei Golub, Koraljka et al.: A Framework for Evaluating Automatic Indexing or Classification in the Context of Retrieval. Journal of the Association for Information Science and Technology 67 (1): 3–16. https://doi.org/10.1002/asi.23600.
[16] Siehe die Ergebnisse aus 2013 in Uhlmann, Sandro: Automatische Beschlagwortung von deutschsprachigen Netzpublikationen mit dem Vokabular der Gemeinsamen Normdatei (GND). In: Dialog mit Bibliotheken 2 (2013), S. 26-36. http://d-nb.info/1048376788 sowie aus 2018 in Mödden, Elisabeth; Schöning-Walter, Christa; Uhlmann, Sandro: Maschinelle Inhaltserschließung in der Deutschen Nationalbibliothek. In: BuB: Forum Buch und Bibliothek. – 70 (2018), 1, S. 30-35. https://www.b-u-b.de/fileadmin/archiv/imports/pdf_files/2018/bub_2018_01_030_035.pdf
[17] Siehe hierzu bspw. Huyen, C. (2020). Machine Learning System Design. https://github.com/chiphuyen/machine-learning-systems-design oder Thompson, Simon: Managing Machine Learning Projects: From design to deployment. Shelter Island, NY: Manning Publications, 2023.
[18] https://d-nb.info/1300895667
[19] Projekt „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit Künstlicher Intelligenz“ gefördert durch die Beauftragte der Bundesregierung für Kultur und Medien im Rahmen der Strategie Künstliche Intelligenz der Bundesregierung https://www.dnb.de/DE/Professionell/ProjekteKooperationen/Projekte/KI/ki_node.html