DisKo oder warum wir Diversität feiern sollten
Gendersensible Sprache, Diskussionen zur Anzahl der Geschlechter in der Biologie oder die Frage danach, wie stark die menschliche Identität eigentlich von Kultur geprägt ist – immer wieder trifft man auf das Argument, dass das Neudenken von Gender eigentlich verkompliziere, was von Natur aus einfach sei. Dabei gerät viel zu oft in den Hintergrund, dass Diversität einerseits kein “neumodisches” Phänomen ist und andererseits fröhlich, laut und mindestens so bunt wie der Diversity-Regenbogen in unserem Logo.
DisKo steht in unserem Projekt darum nicht nur für das “Diversitätskorpus”, das wir – Marie Flüh von der Universität Hamburg und Mareike Schumacher von der TU Darmstadt – gemeinsam mit der DNB aufbauen. Darüber hinaus steht es für eine Feier von Diversität und kultureller Vielfalt. In diesem Blogbeitrag möchten wir das Projekt DisKo vorstellen. Wir möchten zeigen, warum es gerade in unserem Forschungsbereich, den digitalen Geisteswissenschaften/digitalen Literaturwissenschaften, besonders wichtig ist, Diversität zu berücksichtigen. Und wir möchten zeigen, wie jede*r sich am Aufbau unseres Diversitätskorpus beteiligen kann.
DisKo – das Diversitätskorpus und was wir damit vorhaben
“Ja, er war sicher wunderbar schön mit seinen fein geschwungenen Purpurlippen, seinen treuherzigen blauen Augen und seinem gewellten Goldhaar. Es lag etwas in seinen Mienen, das sofort Vertrauen hervorrief. Aller Schimmer der Jugend war da, und ebenso all die leidenschaftliche Keuschheit der Jugend. Man fühlte, er hatte sich in seiner Unbeflecktheit vor der Welt bewahrt.”
(Oscar Wilde, 1891, Das Bildnis des Dorian Gray)
Heutigen Leser*innen mag diese Beschreibung des Protagonisten aus Oscar Wildes Dorian Gray für eine männliche Figur recht ungewöhnlich erscheinen. Die fein geschwungenen Purpurlippen und die keusche Unbeflecktheit muten auf den ersten Blick vielleicht feminin an. Deutlich stereotyper erscheint die Sicht des männlichen Protagonisten aus Balzacs Die Lilie im Tal auf eine weibliche Figur:
“Die griechische Nase, die von Phidias hätte gemeißelt sein können, vergeistigte das Oval ihres Gesichts, von den Nasenflügeln liefen feine Linien um die geschweiften Lippen. Ihre Hautfarbe erinnerte an die zarten Blütenblätter weißer Kamelien und ging auf den Wangen in zartes Rosa über.”
(Balzac, 1835, Die Lilie im Tal)
Doch was genau sind eigentlich “typische” oder sogar stereotype Beschreibungen in Romanen oder anderen Erzähltexten? Welche Genderrollen und -eigenschaften sind “typisch männlich” oder “typisch weiblich”? Wann beginnt eine Darstellung, die nicht in ein Binärschema von männlichen Figuren auf der einen und weiblichen Figuren auf der anderen Seite passt? Wird eine binäre Einteilung schon durchbrochen, wenn z.B. einer Figur mit männlichem Vornamen drei Eigenschaften zugeschrieben werden, die in den Augen von Leser*innen eigentlich mit einem anderen Gender assoziiert sind? Oder müssen es fünf sein? Vielleicht zehn oder hundert? Diesen Fragen möchten wir in unserem Projekt auf den Grund gehen – und zwar mithilfe von computergestützten Verfahren der Textanalyse.
DisKo – Warum digital?
In unseren Augen werden genderspezifische Figurencharakterisierungen erst dadurch typisch, dass sie in einer großen Anzahl von Texten mit hoher Frequenz in ähnlichem Zusammenhang genutzt werden. Das bedeutet konkret: Erst, wenn wir z.B. wissen, dass in einem Textkorpus von hunderten oder gar tausenden englischen Romanen des ausgehenden 19. Jahrhunderts in deutlich mehr als der Hälfte aller Nennungen “Purpurlippen” oder “gewelltes Goldhaar” mit Figuren in Zusammenhang stehen, die einen als weiblich geltenden Vornamen tragen (den sie im Verlauf des Textes nicht ändern) und die mit den Pronomen “sie” und “ihr” referenziert werden (was im Verlauf des Textes ebenfalls nicht geändert wird), kann man davon ausgehen, dass diese Eigenschaften “typisch” für Beschreibungen weiblicher Figuren sind. Erst vor diesem Hintergrund könnten wir mit einiger Gewissheit sagen, ob es ungewöhnlich ist, dass Dorian Gray zwar durchgehend mit männlichen Pronomen bezeichnet wird und einen männlichen Vornamen trägt, aber ebenso Purpurlippen hat. Auch Figureneigenschaften wie Goldhaar, Keuschheit und Unbeflecktheit, mit denen die Figur im Roman beschrieben wird, müssten erst auf diese Weise geprüft werden, um zu einem validen Urteil über genderspezifische Figureneigenschaften zu gelangen. Ein solches Vorgehen – also: das Herausarbeiten von Genderrollen und -eigenschaften in einem möglichst großen Textkorpus – wäre ohne digitale Hilfsmittel ein sehr zeitintensives Unterfangen. Da Genderrollen und -eigenschaften in literarischen Texten fast allgegenwärtig sind, stünde man außerdem schnell vor der Herausforderung, die herausgearbeiteten Aspekte in eine strukturierte und interpretierbare Ordnung zu bringen. Zum Glück können große Massen an Daten heute mit digitalen Methoden ausgewertet werden. Das Forschungsfeld, das sich damit beschäftigt und in dem auch wir beide arbeiten, heißt Digital Humanities (DH) oder digitale Geisteswissenschaften. Unser Projekt lässt sich im literaturwissenschaftlichen Teil der Digital Humanities verorten, den sog. Computational Literary Studies oder eben der digitalen Literaturwissenschaft.
Der erste Schritt um in einem Ansatz wie dem, den wir gerade skizziert haben, nicht nur typische Beschreibungen von Männer- und Frauenfiguren, sondern auch Darstellungen nicht-binärer Figuren analysieren zu können, besteht darin, Texte zu einem Korpus zusammen zu stellen, in denen solche Figuren auch vorkommen. In einem nächsten Schritt müssten alle Genderrollen und -eigenschaften markiert werden. Da es länger als ein Menschenleben dauern würde, solche Textmassen zu lesen und die für unsere Forschungsfragen relevanten Kategorien systematisch herauszuarbeiten, ist es hilfreich, sich beim Lesen von Computern unterstützen zu lassen. Mit Methoden des maschinellen Lernens können diese dazu gebracht werden, Figuren unterschiedlicher Gender automatisch zu erkennen. Doch damit das automatische Auslesen funktioniert, müssen Computerprogramme oder Algorithmen trainiert werden. Dieser Trainingsprozess basiert ganz entscheidend auf sog. Trainingsdaten, also Texten, in denen manuell genau vorgegeben wird, was unter männlichen, weiblichen oder diversen Genderrollen zu verstehen ist. In den Schilderungen des männlichen Protagonisten aus Dostojewskis Die Brüder Karamasow fungieren bspw. “Schönheit”, ein “unschuldiger Gesichtsausdruck” und “lüstern” als Beispiel für Figureneigenschaften, während “Mädchen” und “Liebhaber” Exempel für eine weibliche und eine männliche Genderrolle darstellen.
“Ihn reizte nur die auffallende Schönheit des Mädchens, vor allem ihr unschuldiger Gesichtsausdruck, der auf ihn, den immer nur lüsternen Liebhaber körperlicher weiblicher Reize, starken Eindruck machte.”
(Dostojewski, 1880, Die Brüder Karamasow)
Um einen Algorithmus so zu trainieren, dass er männliche, weibliche und diverse Genderrollen und -eigenschaften zuverlässig und korrekt in literarischen Texten erkennt, brauchen sie einiges an entsprechend aufbereiteten Textmassen – umgerechnet auf Bücher haben wir für unseren aktuellen Classifier bspw. eine Textmasse manuell annotiert, die circa 6 vollständigen Romanen entspricht. Um den Computer so zu trainieren, dass auch nicht binär angelegte Figuren in literarischen Texten erkannt werden – für Algorithmen aus unterschiedlichen Gründen eine besonders große Herausforderung –, wollen wir mindestens 70 Erzähltexte aus den letzten 70 Jahren in unserem Diversitätskorpus zusammenführen, in denen nicht nur Männer und Frauen vorkommen, sondern auch neutrale, diverse, queere, trans und non-binäre Charaktere. Von diesen 70 Texten annotieren wir dann die im Hinblick auf non-binäre Genderdarstellungen besonders relevanten Passagen und nutzen sie als Grundlage für einen neuen Gender-Classifier, der auch diverse Figuren in literarischen Texten erkennt.
Sei dabei und feiere die (Gender-)Diversität mit uns!
Im Diversitätskorpus möchten wir nicht nur möglichst viele Erzähltexte berücksichtigen, in denen diverse Genderrollen vorkommen, sondern vor allem die Texte aufnehmen, die tatsächlich gelesen werden. Nur durch die Berücksichtigung der zeitgemäßen Lesepraxis, so unser Standpunkt, erfassen wir Texte, die gesellschaftlich und kulturell relevant sind. Anders ausgedrückt: Wir suchen Texte, die das Potential haben, wirklich etwas zu verändern. Und dafür brauchen wir dich! Kennst du Erzähltexte – Romane, Novellen, Kurzgeschichten – in denen nicht-binäre Figuren vorkommen? Dann reiche die Titel über das Formular auf unserer Webseite ein. Jeder eingereichte Titel wird auf unserer Webseite verzeichnet, sodass du gerne jederzeit wiederkommen und dich über andere Texte informieren kannst, in denen Diversität willkommen geheißen wird!
Du findest unsere Webseite hier: https://msternchenw.de/diversitaets-korpus/ oder trage deine Buchtitel direkt ein: https://public.zenkit.com/f/klZHAjPGg/disko?v=xQoeCRIop
Über das Projekt
“DisKo” ist ein aus dem Digital-Humanities-Call der Deutschen Nationalbibliothek hervorgegangenes Kooperationsprojekt mit der Technischen Universität Darmstadt und der Universität Hamburg. Mehr Informationen unter: https://www.dnb.de/dhdcall. Der nächste Call wird im März ausgeschrieben. Darüber hinaus bietet die Deutsche Nationalbibliothek auch DH-Stipendien: https://www.dnb.de/dhstipendien
Marie Flüh
Marie Flüh ist Literaturwissenschaftlerin mit Schwerpunkten in Digital Humanities und Literaturdidaktik. Sie arbeitet an der Universität Hamburg.
Mareike Schumacher
Mareike Schumacher ist Literatur- und Kulturwissenschaftlerin mit einem Schwerpunkt in Digital Humanities. Sie ist derzeit an der Technischen Universität Darmstadt tätig.