Die Deutsche Nationalbibliothek und Text+

13. Februar 2024

von Philippe Genêt, Barbara Fischer, Gianna Iacino

Dieser Beitrag wird die dreifache Rolle der Deutschen Nationalbibliothek (DNB) im Text+ Konsortium und ihre Arbeitsschwerpunkte vorstellen. Die DNB ist nicht nur federführende Institution der Datendomäne Collections sowie eines von deren elf zertifizierten Daten- und Kompetenzzentren, sondern stellt auch in Zusammenarbeit mit den Partnern die Infrastruktur für die Gemeinsame Normdatei (GND) zur Verfügung.

Sammlungen

“Collections” ist eine von drei Datendomänen¹ in Text+ und fokussiert auf Sammlungen geschriebener, gesprochener oder gebärdeter Sprache und auf Texte, die auf Grundlage wissenschaftlicher Kriterien erstellt wurden. Die Koordination der Datendomäne Collections liegt bei der DNB.

Sie verantwortet den Aufbau der verteilten Infrastruktur in der Datendomäne, etwa durch die Vernetzung von elf zertifizierten Daten- und Kompetenzzentren, die jeweils inhaltlich oder auf bestimmte Datentypen spezialisiert sind. Diese Zentren, zu denen auch die DNB selbst gehört, stellen einerseits ein breites Portfolio an text- und sprachbasierten Forschungsdaten zur Verfügung, bieten zum anderen aber auch einen Archivierungsservice² für einschlägige Daten aus Forschungsprojekten an und bringen diese in die Infrastruktur von Text+ ein, wodurch sie eine höhere Sichtbarkeit erhalten und für die Wissenschaftscommunity nachnutzbar werden.³

Ein zentraler Baustein in der Architektur des Projekts ist die Text+ Registry. Dabei handelt es sich um ein Nachweissystem, das die Ressourcen in Text+ auffindbar macht, miteinander vernetzt und die Anschlussfähigkeit an andere Infrastrukturen (z.B. EOSC, OPERAS und natürlich innerhalb der NFDI) gewährleistet. Unter Federführung der DNB wurde in der Datendomäne Collections ein gemeinsames Datenmodell entwickelt, mit dem alle Datenzentren die Sammlungen, die sie in die Text+ Infrastruktur einbringen, einheitlich beschreiben können. Großer Wert wurde dabei auf den Einsatz kontrollierter Vokabulare und Normdaten wie der GND (siehe unten) gelegt, denn sie erhöhen den Grad der Vernetzung und Interoperabilität der Sammlungen untereinander, aber auch zu den lexikalischen Ressourcen und Editionen in der Registry.

Viele der Sammlungen sind auch im Volltext durchsuchbar. Mit der Federated Content Search (FCS, hier der Prototyp) bietet Text+ einen zentralen Sucheinstieg, über den Forschende Volltext- und auch komplexe Suchen in aktuell mehr als 50 Ressourcen gleichzeitig vornehmen können – eine enorme Zeitersparnis bei der Zusammenstellung von Korpora und eine Erweiterung des Suchraums um Quellen, die ohne diese zentrale Suche vielleicht übersehen würden. Ein Beitrag, den die DNB zur FCS bereits geleistet hat, ist das Deutsche Zeitungsportal, dessen 20 Millionen historische Zeitungsseiten nun über die FCS durchsucht werden können. Im nächsten Schritt werden die Titeldaten der DNB und perspektivisch auch umfangreiche Volltextsammlungen wie die freien Online-Hochschulschriften an die FCS angeschlossen.

Rechtliche Aspekte

In den Digital Humanities spielen rechtliche Fragen allgemein eine große Rolle – und so ergeben sich auch innerhalb der Datendomäne Collections vielfältige juristische, zumeist urheberrechtliche Fragestellungen, denn die Datendomäne stellt (auch) Sammlungen mit urheberrechtlich geschützten Texten bereit. Dies gilt insbesondere für den Bestand der DNB selbst. Für die Forschung an diesen Texten müssen oftmals urheberrechtlich relevante Handlungen an den Texten vorgenommen werden. Die DNB steht deshalb vor der Aufgabe, einen Ausgleich zwischen dem Schutz geistigen Eigentums und dem Bedarf an freiem Zugang zu Informationen zu finden. Dies ist vor dem Hintergrund einer sich auf nationaler und europäischer Ebene im Wandel befindlichen Rechtslage oft besonders herausfordernd. Seit Einreichung des Text+ Projektantrags wurde die Digital Single Market (DSM)-Richtlinie⁴ in deutsches Recht umgesetzt, der EU Data Act verabschiedet und die Trilogverhandlungen zu einer europäischen KI-Verordnung erfolgreich abgeschlossen; mit dem Inkrafttreten der Verordnung wird noch in diesem Jahr gerechnet. All diese rechtlichen Entwicklungen können potenziell die Arbeit von Text+ beeinflussen.

Die in der Datendomäne Collections angesiedelte AG Legal and Ethical Aspects verfolgt diese rechtlichen Entwicklungen und positioniert sich zu deren Auswirkungen auf die Arbeit von Collections. Bereits im vergangenen Jahr hat die AG eine Stellungnahme zu den Auswirkungen der auf der Umsetzung der DSM-Richtlinie basierenden Änderungen des deutschen Urheberrechts auf die Arbeit von Text+ verfasst.

Vor dem Hintergrund dieser sich stetig ändernden Gesetzeslage sind vorausschauende, langfristig orientierte Lösungsansätze besonders wichtig. Insbesondere abgeleitete Textformate stehen hierbei im Fokus. Sie können eine Lösung für die rechtskonforme Analyse urheberrechtlich geschützter Texte darstellen. Auch hierzu wird die AG Legal and Ethical Aspects eine Einschätzung verfassen.

Die Gemeinsame Normdatei

Die Gemeinsame Nomdatei (GND) ist mit zehn Millionen Einträgen die umfassendste Normdatei im deutschsprachigen Raum. Sie wird kooperativ von über tausend Einrichtungen erstellt. Die DNB stellt hierfür die Infrastruktur zur Verfügung. Die GND umfasst normierende Beschreibungen und persistente Identifikatoren zu Personen, Geografika, Körperschaften, Werken, Schlagworten sowie Konferenzen und vernetzt diese Entitäten untereinander. Im GND Explorer kann man sowohl einzelne Entitäten recherchieren als auch in unterschiedlichen Ansichten etwas über deren Beziehungen zueinander erfahren.

Die GND wird bedarfsorientiert erstellt. Die Arbeit erfolgt dazu in registrierten GND-Redaktionen, die von GND-Agenturen koordiniert werden. Im Zuge der digitalen Transformation möchten immer mehr Akteure in Kultur- und Forschungsbereichen, wie die NFDI-Konsortien Text+, NFDI4Memory
und NFDI4Objects, ihrerseits aktiv an der GND mitarbeiten. Die DNB unterstützt dies durch einen eigenen Community-Organizing Prozess. Dieser umfasst die Bereiche Information, Outreach, Empowerment und Organisationsentwicklung. Die GND wird von den Bedarfen der an ihr mitwirkenden Communities fortentwickelt und getragen. Es ist ihre Aufgabe, diese zu erkennen, zu spezifizieren und die Communities jeweils bestmöglich in die erweiterte Infrastruktur organisatorisch, technisch und gegebenenfalls in die aktive Gremienarbeit zu integrieren. Dieser Prozess ist für das Konsortium Text+ bereits angelaufen. Hierfür arbeitet die DNB eng mit der Task-Area Infrastructure & Operations zusammen, die von der SUB Göttingen geleitet wird, und wirkt so in alle drei Datendomänen hinein. Die an der DNB entwickelten Prozesse und Instrumente zur Integration neuer Communities sollen auch anderen Konsortien zu Gute kommen. Daher wurden 2023 zwei projektübergreifende Arbeitskreise mit GND-Bezug eingerichtet:

Im Bereich Wissensvermittlung der Arbeitskreis GND Community Empowerment
Im Bereich Kooperation das Projektübergreifende Agenturtreffen

Normdaten für Text+

Abbildung 1: Darstellung der Aufgaben und Voraussetzungen einer GND-Agentur.

Ziel der Text+ GND-Agentur ist es, ein umfassendes Serviceangebot für alle drei Datendomänen anzubieten. Die Aufgaben einer GND-Agentur werden in Abbildung 1 dargestellt. Eine Agentur soll ihre eigene Community identifizieren, formieren und rund um die GND informieren. Dies geschieht im Rahmen des GND-Forum Text+, das bereits dreimal stattgefunden hat.⁵ Dort werden die Forschenden motiviert, die GND zu nutzen, um ihre Forschungsdaten mit GND-IDs anzureichern. Sollten Datensätze in der GND fehlen, können über die GND-Agentur neue Datensätze regelkonform angelegt werden. Diese werden nach ihrer Validierung in die GND eingespielt. Im Fall der GND-Agentur Text+ wurde für das Anlegen neuer Datensätze und deren Einspielen in die GND ein eigener Workflow mit dem Kernstück entityXML entworfen, der nun nach ersten Testläufen für Text+ insgesamt geöffnet wird.

Die Registry der Datensammlungen in Text+ empfiehlt die Verwendung von GND-IDs in den Metadaten zu den Korpora. Zudem sollen auch Editionen und ggf. lexikalische Ressourcen mit der GND verknüpft werden. Die Text+ Community wird noch eigene Kriterien entwickeln müssen, um entscheiden zu können, welchen Aufwand sie dauerhaft für die Pflege der von ihr erstellten GND-Datensätze erbringen kann. Denn die GND und ihre Kooperationspartner müssen über Dekaden die Qualität ihrer Daten verantworten. Das macht eine kontinuierliche Pflege der Daten erforderlich, die nur kooperativ und institutionsgebunden zu leisten ist.

Die DNB bringt also – neben der Leitung der Datendomäne Collections – ihre rechtliche Expertise und ihre Kompetenzen auf dem Gebiet der Normdaten in Text+ ein. Sie übernimmt damit drei wichtige strukturelle Aufgaben, die auch über Text+ hinaus für die NFDI insgesamt von Bedeutung sind.

Philippe Genêt

Koordinator DNB@Text+

Barbara Fischer

Arbeitsstelle für Standardisierung Leitung Kommunikation und Kooperationen

Gianna Iacino

Justiziarin an der Deutschen Nationalbibliothek

*Nachweis Beitragsbild auf der Startseite:Paul Klee, Kunstsammlung Nordrhein-Westfalen

Beiträge mit ähnlichen Inhalten finden Sie unter:

Sammlung