Im Maschinenraum der GND

Alle regelmäßigen Leser*innen dieses Blog wissen inzwischen, Normdaten sind systemkritische Infrastruktur. Sie helfen ebenso zuverlässig dabei, Publikationen in Bibliothekskatalogen zum Klimawandel zu finden, wie im Archivportal D Akten, die in irgendeiner Weise mit der Stadt Ulm verknüpft sind. Das Theatermuseum in Düsseldorf verwendet die GND-Daten, Forschende im NFDI-Konsortium Text+ reichern ihre Forschungsdaten mit GND-IDs an und die Praxisregeln der DFG empfehlen ihre Nutzung. Selbst das “Halluzinieren” von Künstlicher Intelligenz in Large Language Models kann in Verbindung mit Normdaten reduziert werden. GND everywhere!
Aber wie das mit Infrastruktur so ist, oft droht dabei in Vergessenheit zu geraten, dass es engagierte, zuverlässige und versierte Menschen braucht, die tagtäglich dafür sorgen, dass aus dem Hahn sauberes Wasser kommt, die Krankenhäuser funktionieren und der Müll entsorgt wird. Das gilt auch für die Gemeinsame Normdatei (GND). Viele denken jetzt vielleicht an die fleißigen Redakteur*innen, die durchschnittlich über 700 neue Datensätze anlegen. Nicht mitgezählt ihre Korrekturen, Aufarbeitungen und Ergänzungen der über 10 Millionen Datensätze. Doch es gibt neben dieser inhaltlichen Tätigkeit noch die technische Seite der GND-Bereitstellung. Um die geht es in diesem Beitrag. Gemeinsam mit meinem Kollegen Felix Riedel wollen wir heute in den “Maschinenraum der GND” steigen und schauen, welche Arbeiten dort anfallen, die das Getriebe der GND am Laufen halten.
Der Maschinist der GND
Felix Riedel kam mitten im Lockdown 2021 an die Deutsche Nationalbibliothek (DNB). Er ist Bibliothekswissenschaftler und hat schon im Studium begonnen, sich für Metadatenmanagement und Datenanalysen zu interessieren. Das hat seine berufliche Laufbahn geprägt. An der DNB wurde er deshalb als IT-Mitarbeiter eingestellt. Seitdem liegt sein Fokus auf der technischen Unterstützung des Qualitätsmanagements der GND.

Die GND-Daten müssen gut sein
Wenn zum Beispiel das Expertenteam Qualität einen wiederkehrenden Fehler in den Daten korrigieren will, dann landet dieser Vorgang auf seinem Schreibtisch. In einem ersten Schritt sucht Felix Riedel zunächst in allen vorliegenden GND-Daten nach diesem Fehler. Dabei nutzt er meistens ein im Haus entwickeltes Tool (Pica rs). Mit diesem Werkzeug kann er beispielsweise all diejenigen Datensätze identifizieren, bei denen die Angabe zur GND-Systematik fehlt oder bei denen die Quellenangaben nicht hinreichend dokumentiert sind. Als Ergebnis erhält er eine Liste mal mit hundert Datensätzen, manchmal aber auch mit zigtausend Einträgen. Selbstverständlich wird weder er noch ein anderer diese Menge händisch bereinigen können. Jetzt muss Felix Riedel kreativ werden. Wie lässt sich ein kleines Skript schreiben, mit dem zuverlässig die Massenkorrektur an den identifizierten Datensätzen ausgeführt werden kann? Manchmal ist der erste Ansatz nicht gleich der richtige. Unterstützt durch entsprechende Validationsverfahren, arbeitet sich Felix Riedel Stück für Stück voran, bis schließlich der Fehler behoben ist. In den letzten Jahren hat Felix Riedel hier recht viel Erfahrung sammeln können, die er auch entsprechend dokumentiert. In den nächsten Monaten ist geplant, dass diese Dokumentation Teil der Information auf der STA-Dokumentationsplattform wird, damit mehr Menschen von Felix Riedel Erfahrung profitieren können.
Einmal Pica und zurück
Ein anderes Arbeitsfeld ist die Datenkonversion. Die DNB und andere Bibliotheken nutzen für interne Arbeiten mit der GND das Pica-Format. Da dieses Format jedoch nicht von allen Partnern in der Kooperative genutzt wird, müssen die Daten von Pica nach Marc 21 (auch nach Marc XML) und zurück konvertiert werden. Dabei achtet Felix Riedel darauf, dass bei der Konversion die Informationen möglichst vollständig übertragen werden. Die Datenkonversion läuft nicht vollautomatisch ab. Ohne Monitoring können sich Lücken oder Fehler einschleichen. Zum Beispiel kann es passieren, dass bestimmte Pflichtfelder nicht mitkonvertiert werden oder Feldeigenschaften falsch angewandt wurden, was zu Fehlermeldungen führt.
Das Nadelöhr
Sein drittes Arbeitsfeld gilt den Datenimporten. Zum Beispiel hat er den Datenimport von mehreren 10.000 Daten aus der Theaterdatenbank Ulrich in die GND begleitet. So ein Datenimport kommt bei Felix Riedel oft als MarcXML-Datei an. Die Daten konvertiert er in das Pica-Format, damit sie im Approvalsystem der GND validiert werden können. Jetzt bekommt er eine erste Liste mit Fehlermeldungen. Oft sind es drei bis vier kleine Fehler, die sich dann aber durch fast alle Daten ziehen. Diese als Fehlertyp zu identifizieren ist meist intellektuelle Handarbeit. Leider sind es in den vielen unterschiedlichen Datenlieferungen nicht immer dieselben Fehler. Aufgrund der hohen Variabilität der von den Datengebern gelieferten Daten variieren die Fehler entsprechend. Daher gehen die Testdaten zurück an die Datengeber mit der Bitte, den Fehlertyp zu korrigieren. Wenn das geschehen ist, wird der Vorgang mit neuen Testdaten wiederholt, in der Hoffnung, dass sich keine neuen Fehler eingeschlichen haben. Erst wenn die Validierung widerspruchslos bleibt, überführt Felix Riedel die Daten in das Produktivsystem der GND. Ein Vorgang, der für alle Beteiligten manchmal zäh und nervenaufreibend ist. Ein Hinweis von Felix Riedel an die Datengeber: Die Validation springt vor allem auf Formalfehler an. Diese kann man vermeiden, wenn man die Daten, die man in die GND einbringen möchte, so regelkonform wie möglich erstellt. Dabei helfen zum einen die GND-Dokumentation und die Informationsseite zu den Validierungen im öffentlich zugänglichen Wiki der DNB.
Schließlich obliegt es Felix Riedel, die Wünsche aus dem Releaseprozess zur GND-Dokumentation in ein technisches Format zu transponieren. Etwa wenn ein neues Feld in das Datenformat eingefügt werden soll. Hierbei muss Felix Riedel die internationalen Standards und die technischen Abhängigkeiten berücksichtigen. Die eigentliche Umsetzung übernehmen dann jedoch Fachleute aus der IT-Abteilung der DNB.
Felix Riedel mag seine Arbeit. Sie ist abwechslungsreich und bietet ihm viel Gelegenheit, in der Vielfalt der Daten immer neue Lösungen für immer neu auftretende Fehler zu finden. Besonders schätzt er jedoch den direkten Austausch mit den Partnern im GND-Netzwerk. Da kann er mal den Maschinenraum verlassen.







Auch finde den Blick hinter die Kuliss-, ehm, Bürotüren sehr interessant.
Danke dafür!
Vielen Dank für diesen sehr interessanten Blogbeitrag – und dass hier auch so explizit Kollegen „ins Scheinwerferlicht“ gerückt werden, die ansonsten nur hinter den Kulissen tägig sind. Chapeau!