Ein Dashboard für die Gemeinsame Normdatei

19. Oktober 2021
von Ramon Voges und André Wendler

Eine Statistik der Gemeinsamen Normdatei als interaktives Dashboard haben Kolleg*innen der Deutschen Nationalbibliothek programmiert. Sie haben sich gefragt: Wie kann man eine Datenbank mit 9 Millionen Einträgen erfassen und überblicken? Wie kann man sie analysieren, Fehler finden und verbessern? Und wie kann man das gespeicherte Wissen möglichst vielen Personen zugänglich machen?

Diese und ähnliche Fragen waren der Ausgangspunkt für die Arbeit am GND-Dashboard. Die Gemeinsame Normdatei (GND) enthält normierte Bezeichnungen für Personen, Körperschaften, Geografika, Sachschlagworte und weitere Normdaten. Sie stammt ursprünglich aus der Bibliothekswelt. Heute hostet sie die Deutschen Nationalbibliothek (DNB). Kultureinrichtungen, die Normbegriffe der Gemeinsamen Normdatei verwenden, können mit ihrer Hilfe Namen, Institutionen und geografische Orte eindeutig identifizieren.

Seit einigen Jahren nutzen zunehmend auch Museen, Archive und andere Forschungseinrichtungen diese Normdaten. Die Datenbestände und Sammlungen der einzelnen Einrichtungen verbinden sich dadurch immer einfacher miteinander.

Sichtbarkeit

Ende 2018 veranstaltete die Deutsche Nationalbibliothek die erste GND Convention (GNDcon). Sie sollte die Öffnung der Gemeinsamen Normdatei für andere Kultur- und Forschungseinrichtungen voranbringen. Für diese Veranstaltung hat das Deutsche Buch- und Schriftmuseum der Deutschen Nationalbibliothek (DBSM) eine antike Steintrommel mit einem Himmel aus Normdaten versehen. (Vgl. dazu auch den Beitrag „GNDCon 2018“ von Barbara Fischer und Jürgen Kett im „Dialog mit Bibliotheken“ 2019, H. 1, S. 51–53.) Das Exponat machte auf diese Weise anschaulich, wie materielle Objekte – die bisweilen mehrere hundert Kilogramm schwer sein können – durch Daten in einen historischen Zusammenhang gestellt und damit zum Sprechen gebracht werden können.

Über einem Ausstellungsstück aus einem Museum hängen viele kleine Zettel, auf denen die Identifikatoren der Normdaten hängen, die mit dem Objekt verknüpft sind.
Chinesische Steintrommel unter einer Wolke aus GND-Daten.
Foto: Deutsche Nationalbibliothek, Stephan Jockel. CC BY SA 3.0

Weil die GNDcon 2.0 wegen der Covid-19-Pandemie 2021 als rein virtuelle Veranstaltung stattfand, wäre ein materielles Exponat unpassend gewesen. Auf Anregung der Veranstalter berieten deswegen die Teilnehmer*innen des Python Meetups der Deutschen Nationalbibliothek, wie ein digitales Exponat für die GNDcon beschaffen sein könnte. Rasch war die Idee eines interaktiven Dashboards geboren, das die enorme Fülle an Informationen, die in der Gemeinsamen Normdatei gespeichert sind, anschaulich aufbereiten sollte.

Big Data

Wenn Mitarbeitende in Museen oder Bibliotheken mit Datensätzen aus der Gemeinsamen Normdatei arbeiten, suchen sie meistens nach bestimmten Personen, Sachbegriffen oder Institutionen. Sie ergänzen diese vielleicht um neue Informationen oder verknüpfen den Datensatz mit einem anderen, etwa eine Person mit einer Institution, der sie einmal angehörte. Auch Gruppen von Datensätzen können einem begegnen, wie zum Beispiel alle Angehörigen einer bestimmten Institution. Die Gemeinsame Normdatei als ganzes Datenset dürfte allerdings seltener in den Blick geraten.

Wie schwierig es ist, die ganze Gemeinsame Normdatei zu überblicken, zeigen schon wenige Eckdaten. Im Juli 2021 befanden sich 8,95 Millionen Entitäten in der Gemeinsamen Normdatei. Der größte Teil davon waren knapp 5,6 Millionen Personensätze (Tp), gefolgt von ca. 1,5 Millionen Körperschaften (Tb). Ein Gesamtabzug der Daten im Ursprungsformat Pica+ ist derzeit über 5 Gigabyte groß. Dateien dieser Größe kann man nicht einfach öffnen und durchsuchen. Die Data Sciences entwickeln besondere Methoden für die Analyse solcher Datenmengen.

Auf einer geografischen Karte Europas sind die Zentren der Musikproduktion aus dem Jahr 1900 durch unterschiedlich große Punkte dargestellt.
Screenshot des GND-Dashboards. CC 0.

Um die Daten für das GND-Dashboard aufzubereiten, kam ein spezielles Programm zum Einsatz, ein sogenannter Parser. Ein solches Programm, das auf die Verarbeitung von Pica+-Daten spezialisiert ist, hat ein Kollege aus dem Referat „Automatische Erschließungsverfahren und Netzpublikationen“ der Deutschen Nationalbibliothek geschrieben. Mit diesem Tool lässt sich der Gesamtabzug der Gemeinsamen Normdatei in wenigen Minuten verarbeiten. Dabei können einzelne Merkmale ausgefiltert, Daten extrahiert und einfache Statistiken erstellt werden. Als Ergebnis liefert das Tool verhältnismäßig kleine Textdateien im CSV-Format, die viel einfacher weiterverarbeitet werden können, als der Gesamtabzug.

Geschichte statistischer Grafiken

In der Covid-19-Pandemie wurden Dashboards mit Datenanalysen zu Pfeilern der öffentlichen Debatte über die epidemiologischen Maßnahmen. Sie zeigten, wie sich weitverteilte und unübersichtliche Ereignisse als Datendarstellungen erfassen lassen. Bereits seit dem 18. Jahrhundert finden grafische Verfahren zur Darstellung großer numerischer Zusammenhänge Verwendung. Der schottische Ingenieur und Wirtschaftswissenschaftler William Playfair gilt als einer der Erfinder von Balken- und Kreisdiagrammen. Er verwendete sie, um die volkswirtschaftlichen Zusammenhänge seiner Zeit darzustellen. Bis ins 20. Jahrhundert haben darauf spezialisierte Infografiker*innen solche kuratierten Darstellungen für Atlanten, statistische Jahrbücher oder Zeitungsveröffentlichungen produziert.

Eine frühe grafische Darstellung der Importe und Exporte Italiens und Venedigs aus einem Buch von William Playfair von 1801
Der Schotte William Playfair nutzte Infografiken, um volkswirtschaftliche Zusammenhänge darzustellen. Hier vergleicht er Ex- und Importe von Venedig und Italien. Quelle: William Playfair: The Commercial and Political Atlas. 3. Auflage, London 1801, Tafel 17, Public Domain

Mit dem Aufkommen der digitalen Datenverarbeitung seit den 1940er-Jahren und insbesondere dem „Personal Computer“ seit den 1970er-Jahren konnten statistische Darstellungen dann leichter produziert werden. Gleichzeitig wurden immer mehr Daten produziert und erhoben. Mittlerweile ist das Bild der Daten als Öl des 21. Jahrhunderts schon etwas abgegriffen. Es beschreibt aber gut, dass Datensätze heute nicht mehr erhoben, abgeschlossen und dann veröffentlicht werden, sondern dass wir uns oft an die nahezu gleichzeitige Erhebung, Auswertung und Darstellung von Datenströmen, sogenannte Echtzeitdaten, gewöhnt haben. Ein Blick auf die eigene Smartwatch zeigt jederzeit, wie weit man vom täglichen Fitnessziel noch entfernt ist. Börsenkurse stehen nicht mehr am nächsten Tag in der Zeitung, sondern sind in Apps und auf Webportalen jederzeit verfügbar. Wer wissen will, ob es gleich regnen wird, schaut seltener zum Himmel als auf das Regenradar einer Wetter-App.

Heute tragen wir alle enorme Rechenkapazitäten in der Hosentasche mit uns herum. Durch Filter und Facettierung können Nutzer*innen ihre ganz eigenen Fragen an die Daten richten und sie live visualisieren. Dazu gehören allerdings grundlegende Kenntnisse in Statistik und Data Literacy, die noch nicht überall Teil der allgemeinen Bildung geworden sind.

Gemeinsame Normdatei als Dashboard

Für die Gemeinsame Normdatei bietet sich diese interaktive Art der Analyse an, weil sehr unterschiedliche Institutionen und Personengruppen ganz verschiedene Fragen an den Datenbestand haben. Das Dashboard zeigt zunächst einfache, quantitative Daten zur Anzahl einzelner Satzarten und der Verteilung der Katalogisierungslevel innerhalb der Satzarten. Die am häufigsten vorkommenden Relationierungscodes werden dargestellt sowie die Zahl der monatlich neu angelegten Datensätze seit 1972. Die häufigsten Sachbegriffe der jüngsten zehn Tage der Datenbasis erscheinen in Wordclouds.

Verschiedene Sachbegriffe sind unterschiedlich groß und farbig in einer Wordcloud ineinandergewoben. Je größer ein Begriff, desto Häufiger wird er verwendet.
Wordcloud aus Sachbegriffen aus dem Dashboard. Screenshot aus dem Dashboard. CC 0.

Weiterhin gibt es einige Spezialauswertungen, die die Möglichkeiten aggregierter Normdaten tiefer ausschöpfen. Ein Kollege hat die erfassten Wirkungsorte aller GND-Personen ausgewertet. Eine andere Analyse zeigt die Wirkungszentren der Musik zwischen 1400 und 2010, wie sie sich aus einer Kreuzanalyse der in der Deutschen Nationalbibliothek erfassten Musikalien und den damit verbundenen Normdaten ergeben.

Wie geht es weiter?

Eine Auswertung zeigt die am häufigsten in den Titeldaten der Deutschen Nationalbibliothek verlinkten Personen. Unter den Top 10 befindet sich keine Frau. Das ist einerseits ein Abbild der überlieferten, männlich dominierten Kultur. Es muss aber wohl auch als Mahnung an alle Einrichtungen verstanden werden, die Daten in der Gemeinsamen Normdatei erfassen, auf die Sichtbarkeit von Frauen achtzugeben. Von allen Personen mit erfasstem Geschlecht in der Gemeinsamen Normdatei sind nur 28 Prozent als weiblich markiert, 72 Prozent dagegen als männlich. Solche Zahlen deuten auf eine Missrepräsentation von Frauen in der Gemeinsamen Normdatei hin, der wir uns stellen sollten. Die nächste Version des Dashboards wird die Top 10 der verlinkten Personen deshalb getrennt nach Geschlechtern darstellen.

Sämtliche Skripte und Daten des Dashboards sind unter einer offenen Lizenz frei auf dem Code-Portal GitHub verfügbar. Dort können sich alle Nutzer*innen mit Vorschlägen, eigenen Widgets oder Code-Verbesserungen einbringen. Die Daten werden auf absehbare Zeit monatlich aktualisiert.

*Nachweis Beitragsbild auf der Startseite:Deutsche Nationalbibliothek, Stephan Jockel. CC BY SA 3.0

Schreibe einen Kommentar

Kommentare werden erst veröffentlicht, nachdem sie von uns geprüft wurden.
Deine E-Mail-Adresse wird nicht veröffentlicht.

Über uns

Die Deutsche Nationalbibliothek ist die zentrale Archivbibliothek Deutschlands.

Wir sammeln, dokumentieren und archivieren alle Medienwerke, die seit 1913 in und über Deutschland oder in deutscher Sprache veröffentlicht werden.

Ob Bücher, Zeitschriften, CDs, Schallplatten, Karten oder Online-Publikationen – wir sammeln ohne Wertung, im Original und lückenlos.

Mehr auf dnb.de

  • ISSN 2751-3238