It‘s a Kind of Magic!

15. Februar 2024

von Elke Jost-Zell, Anke Meyer-Heß und Katharina Schöneborn

Bibliotheken und der Metadatenaustausch

Tardis montiert vor der Rückseite eines Computers mit Kabeln und Lichtern. — Montage: Anke Meyer, Foto „Server“: Stephan Jockel CC BY-SA 3.0 DE, Foto „Tardis“: Anke Meyer, CC BY-SA 3.0 DE

Die deutsche Bibliothekslandschaft kann man sich als eine große Lego-Bauplatte vorstellen, die aus unzähligen kleinen und großen Steinchen (sprich: Bibliotheken) aller Farben, Arten und Größen besteht. Es gibt Gemeindebibliotheken, Schulbibliotheken, Stadtbibliotheken, Museumsbibliotheken, Landesbibliotheken, Universitätsbibliotheken, Staatsbibliotheken und eine Nationalbibliothek (in Leipzig und Frankfurt) – und damit haben wir nur die öffentlich zugänglichen Institutionen genannt. Eine ganz andere Art von Bibliothek sind Privatbibliotheken – Büchersammlungen von Unternehmen, Vereinigungen oder Privatpersonen, die meist nur für einen bestimmten Personenkreis zugänglich sind.

Alle diese wunderbaren, bunten und vielfältig geformten Bibliotheksbausteine stehen mit ihren Metadaten nicht einsam und isoliert auf der großen Lego-Bauplatte, sondern nutzen die ebenso wunderbare Erfindung des bibliografischen Datenaustauschs.

Datenaustausch: Wie funktioniert das eigentlich und wie tauscht man Metadaten mit- und untereinander so aus, dass dabei keine Dubletten, also unerwünschte Dopplungen, entstehen?

Kurzinfo Dubletten

Screenshot einer Trefferliste im Portal-Katalog der DNB mit der Suche nach Thomas Meyer, https://portal.dnb.de/opac/moveDown?currentResultId=%22Meyer%2C%22+and+%22Thomas%22%26any&categoryId=persons — Meyer ist nicht gleich Meyer: KEINE Dubletten, aber hier wird deutlich wie wichtig eine genaue Unterscheidung ist. – Screenshot: DNB

Dubletten sind etwas extrem Unbeliebtes im weltweiten Bibliothekswesen – ihr Auftauchen sagt uns, dass etwas schief gelaufen ist im Datentransfer, dass ein Fehler aufgetreten ist (oh Schreck!) oder (oh Schreck, oh Schreck!) gleich mehrere! Dies kann ein bibliografischer Datensatz sein, der doppelt im Bibliothekssystem auftaucht, obwohl wir ihn nur einmal brauchen, oder ein geografischer Datensatz, der uns irritiert, weil es eben nur EIN New York an der amerikanischen Ostküste gibt, wenn man die Möglichkeit paralleler Universen außer Acht lässt. Eine Dublette entsteht auch, wenn ein Buch doppelt angeschafft wurde, obwohl nur eines nötig ist, und uns dann Verwaltungsaufwände beschert.

Die einzig akzeptablen Dubletten im Bibliothekswesen sind Mehrfachexemplare kostbarer Bücher – niemand wird betrübt sein, wenn er oder sie in einer vergessenen Ecke des Büchermagazins eine dublette Gutenberg-Bibel oder einen Goethe-Erstdruck entdeckt!

Doch kehren wir zurück zu den Metadaten und bleiben bei dem schönen Beispiel unseres letzten Blogbeitrags Metadaten im Netz – der Schriftstellerin Ursula LeGuin und ihres Buches Das Wort für Welt ist Wald. Um genau nach Le Guin, Ursula K. suchen oder Daten austauschen zu können, muss die Information erst einmal in eine bibliothekarische Datenbank eingegeben werden. In einer idealen Datenbank finden wir das Buch unter allen möglichen Suchbegriffen, wie LeGuin, Wort, Welt und Wald. Bibliothekar*innen sind große Fans der Vision einer idealen Datenbank und arbeiten unermüdlich an ihrer Realisierung.

Zunächst muss die bibliografische Information in ihre Einzelteile zerlegt werden, in sogenannte Datenelemente. Dazu erfassen Bibliothekar*innen in einem bestimmten Datenformat die einzelnen Bestandteile in separaten Datenfeldern. Jedes Datenfeld repräsentiert nur die eine, in ihm hinterlegte Information, z. B. den Nachnamen des Autors oder der Autorin eines Buches. Die Summe aller Datenfelder, also aller Informationen über ein Buch, bibliografisch korrekt aufbereitet, nennt man „Katalogisat“. Dieses findet man zum Beispiel im Katalog der DNB.

Kurzinfo: Datenformat

Wikipedia erklärt uns, „ein Datenformat ist ein Begriff aus der Datenverarbeitung, der festlegt, wie Daten strukturiert und dargestellt werden und wie sie bei ihrer Verarbeitung zu interpretieren sind. Im engeren Sinn benennt/beschreibt das Datenformat das Format einzelner Datenfelder, zum Beispiel im Quelltext eines Computerprogramms […].“[1]

Screenshot der Marc21 Repräsentation des Datensatzes für "Das Wort für Welt ist Wald" http://d-nb.info/954887441/about/marcxml — Screenshot der MARCXML Repräsentation des Datensatzes für „*Das Wort für Welt ist Wald*“ http://d-nb.info/954887441/about/marcxml – Screenshot: DNB

Mustela putorius – ein Pelztier im Bibliothekssystem

Die Bibliothekare der DNB nutzen intern für die Eingabe der bibliografischen Daten das Datenformat Pica 3, ein menschenlesbares Datenformat. Gespeichert werden die Daten nach der Eingabe im Format Pica+, nun nicht mehr ganz so menschenlesbar. Entstanden ist diese Vorgehensweise aus dem Projekt Pica-ILTIS. ILTIS steht hier nicht für das putzige Pelztier aus der Marderfamilie, sondern es ist ein Akronym für Integriertes Literatur- und Tonträger-Informationssystem und „ich gehe in ILTIS“ wird in der DNB bis heute im bibliothekarischen Alltagsjargon synonym für „was sagt denn die Datenbank zu Problem XYZ?“ oder „ich erschließe jetzt Bücher in Pica 3“ benutzt.

In unserem Katalogisat für Das Wort für Welt ist Wald steht in PICA3-Datenfeld 1100 das Erscheinungsjahr 1997, in Feld 2000 die ISBN, die Einbandart und der Preis, in Feld 3000 die Verknüpfung zum Datensatz der Autorin Ursula Le Guin, in Feld 4000 der Buchtitel mit der Verfasserangabe, dem Übersetzungsvermerk etc. Bei einer Katalogsuche kann man später im Suchschlitz bei „Person“ die uns nun schon wohlbekannte Ursula finden, bei „Titel“ die Stichwörter Wort, Welt und Wald, und, wenn es die Ausgabe von 1997 sein soll, gibt man das Jahr 1997 ein. Wer die ISBN kennt, sucht einfach fix mit dieser ultracoolen und sehr nützlichen Internationalen Standard Buchnummer.

Screenshot der Pica3 Repräsentation des Datensatzes für "Das Wort für Welt ist Wald" — Screenshot der Pica3 Repräsentation des Datensatzes für *Das Wort für Welt ist Wald* – Screenshot: DNB

Kurzinfo: Austauschformat

Um unsere sorgfältig erstellten bibliothekarischen Daten mit anderen Institutionen austauschen zu können, wurden die so genannten Austauschformate erfunden.

Ein Austauschformat ist ein Dateiformat, das die Übertragung von Daten von einem Betriebssystem bzw. einem Programm zu einem anderen ermöglicht. Es sollte mit möglichst vielen Anwendungen in möglichst vielen Betriebssystemen verschiedener Generationen kompatibel sein – wie ein Paket, in dem die Metadaten verpackt werden für ihre digitale Reise zwischen den Bibliotheken. Jeder Empfänger kann das Paket öffnen und entscheidet, was er vom Inhalt alles braucht. Da wir nicht wissen, wie eine andere Bibliothek die Daten nutzen möchte, ist es wichtig, den Inhalt möglichst genau und kleinteilig zu liefern. So werden die Vornamen von Autoren in einem anderen Unterfeld weitergeleitet als die Nachnamen. Außerdem gibt es Datenfelder für akademische Titel wie Doktor oder Professor etc. Jede Bibliothek entscheidet selbst, ob sie in ihrem Datenformat die Namensform Ursula Le Guin oder lieber Le Guin, Ursula anzeigt.

MAB und MARC

Von 1973 – 2012 nutzte die Deutsche Nationalbibliothek das von ihr mit initiierte bibliografische Maschinelle Austauschformat für Bibliotheken (MAB) für den Datenaustausch mit anderen Bibliotheken.

Da MAB überwiegend im deutschen Sprachraum Verwendung fand, die Bibliotheken ihre Metadaten aber nicht nur durch die heimischen Bibliothekssysteme flitzen lassen wollten, sondern auch Pakete nach Amerika schicken oder eines aus Frankreich erhalten wollten, stieg die Deutsche Nationalbibliothek 2012 auf das MARC-Format um. MARC bedeutet MAchine Readable Cataloging und wurde 1969 von der Library of Congress in Washington (wir besuchten sie auf unserer Reiseetappe Moderne Metadaten – Zettelkatalog) entwickelt und findet weltweit Anwendung. Die aktuelle, von den Bibliotheken verwendete Version ist MARC 21. Änderungen am Format MARC 21 dürfen die Mitglieder der MARC Steering Group vorschlagen, die aus Vertreter*innen der Library of Congress, der Library and Archives Canada, der British Library und der Deutschen Nationalbibliothek besteht.

Aber wo genau findet der Datenaustausch zwischen den Bibliotheken statt? SO zeit- und mühelos wie die geheimnisvollen Transportwege unserer TARDIS sind die Datenflüsse (noch) nicht, doch dafür gibt es …: Schnittstellen.

Kurzinfo: Schnittstelle

Eine Benutzerin sitzt im Leeseaal der DNB und nutzt den DNB Katalog auf eniem Tablet — Schon gewusst? Auch das ist eine Schnittstelle. Als General User Interface (GUI) bezeichnet man die menschenlesbare Oberfläche von Webseiten – Foto: DNB, Stephan Jockel, CC-BY-SA 3.0DE

Eine Schnittstelle (engl. interface) ist, so informiert uns Wikipedia, „ein Teil eines Systems, das der Kommunikation dient. Der Begriff stammt aus der Naturwissenschaft und bezeichnet die physikalische Phasengrenze zweier Zustände eines Mediums. Er beschreibt bildhaft die Eigenschaft eines Systems als Black Box, von der nur die „Oberfläche“ sichtbar ist; nur über diese ist eine Kommunikation möglich. Zwei benachbarte Black Boxes können nur miteinander kommunizieren, wenn ihre Oberflächen ‚zusammenpassen‘.“[2]

Man könnte also auch sagen, eine Schnittstelle ist überall dort, wo das Deckelchen auf das Töpfchen passt, das Mauskabel in das Notebook und, etwas poetischer, wenn das Buch in der Hand eines Lesers oder einer Leserin liegt.

Schnittstellen in der Bibliothek

In den USA erfand die National Information Standards Organization (NISO) 1984 ein cooles Netzwerkprotokoll namens Z39.50, das die Library of Congress 1990 weiterführte. Z39.50 ist ein Gateway (nein, leider kein lang ersehntes Tor in eine andere Dimension, dorthin kommen wir bisher nur mit der TARDIS …). Diese Datenschnittstelle findet bei Bibliotheken als Standard für die Abfrage in bibliografischen Informationssystemen Verwendung. Sie erlaubt zeitgleiche Sitzungen (simultaneous sessions) zwischen mehreren Datengebern und Datenempfängern und ermöglicht die einheitliche Kommunikation zwischen unterschiedlichen Informationssystemen. Die Übermittlung unterschiedlichster Metadaten wurde durch die Z39.50-Schnittstelle möglich, und auch spezifische Anforderungen konnten erfüllt werden. In einem Bibliotheksportal ist es so z. B. möglich, mit nur einer Suchanfrage eine parallele Suche in mehreren bibliografischen Informationssystemen durchzuführen.

Der Nachfolger von Z39.50 ist SRU (Search/Retrieve via URL), ein http-basiertes Protokoll, das im Rahmen des Projekts Z39.50 International Next Generation (ZING, nicht Star Trek …) entstand und Techniken verwendet, die auf weit über das Bibliothekswesen hinaus verbreiteten Internet-Standards wie URI und XML basieren. Auch diese Weiterentwicklung geht auf unsere Freunde aus der Library of Congress zurück.

Über die SRU-Schnittstelle kann jede*r mithilfe von Suchbegriffen und Suchindizes gezielt in den Metadaten der DNB suchen und diese Daten in eigene Datenbanken übernehmen. Vielleicht haben Sie auch schon eine SRU-Schnittstelle genutzt, ohne es zu wissen – viele Literaturverwaltungsprogramme holen die bibliografischen Daten im Hintergrund über eine solche Schnittstelle.

Basisfunktionen des SRU-Protokolls sind Explain (sozusagen die Anleitung), Search/Retrieve (Suchanfrage) und Sort (Sortierung der Suchergebnisse).

Die Ergebnisse, die man bei einer Abfrage an die SRU-Schnittstelle zurückgeliefert bekommt, stehen dann in einem definierten XML-Format zur Verfügung und „sprechen“ in der Retrievalsprache CQL (Contextual Query Language). Welche Formate und Metadaten man über die Schnittstellen der Deutschen Nationalbibliothek bekommt, zeigt diese Übersicht der verschiedenen Bezugsmöglichkeiten.