Vor einigen Tagen sorgte Googles Einführung von Gemini 1.5 Pro für Aufsehen. Es bietet zwar standardmäßig ein Kontextfenster von 128.000 Token, doch eine ausgewählte Gruppe von Entwicklern und Geschäftskunden darf es bereits mit einem erweiterten Kontextfenster von bis zu einer Million Token erproben. Die Bezeichnung „revolutionär“ – ein in den letzten anderthalb Jahren allzu häufig strapaziertes Attribut – könnte in diesem Fall tatsächlich einmal zutreffen, wenn man bedenkt, was Google selbst in seinem technischen Bericht über die außerordentliche Leistungsfähigkeit des LLM bei der Suche nach der sprichwörtlichen Nadel im Heuhaufen behauptet. Vorläufig halte ich mich mit einem Urteil zurück, denn Googles Historie in puncto zuverlässiger Leistungseinschätzungen seiner KI-Systeme ist durchwachsen. Sollten sich die Behauptungen jedoch als stichhaltig erweisen, stünde uns eine breite Palette potenzieller, wirtschaftlich überaus attraktiver Anwendungen von LLMs im Alltag bevor. Erinnern Sie sich an die letzte Auseinandersetzung mit Ihrem Partner/Ihrer Partnerin darüber, wer was im Laufe des Tages gesagt hat? Mit Gemini gehört solch ein Disput der Vergangenheit an. Eine Aufzeichnung sämtlicher Tagesinteraktionen ermöglicht die prompte und verlässliche Klärung mit einem einfachen „Wer sagte x?“.
Gerade mit derartigen Anwendungen einhergehende Bequemlichkeit stimmt mich allerdings auch sehr nachdenklich. Haben wir uns erst einmal an solche Vorzüge gewöhnt, befürchte ich, wird es kaum mehr Raum für tiefergehende Diskussionen über Datenschutz und ähnlich gelagerte Themen geben. Daher ist es umso wichtiger, jetzt kreativ über mögliche Zukünfte nachzudenken – um uns auf bevorstehende Realitäten einzustellen. Die bloße Wiederholung von Sam Altmans Presseerklärungen durch Journalist*innen, die Trägheit und oft verfehlte Zielsetzungen der Politik werden uns nicht weiterbringen. Auch wir Wissenschaftler*innen stehen vor dem Problem, dass unsere Forschungsinfrastruktur behäbig ist: Schon die Akquise von Drittmitteln zieht sich Jahre hin. Und die Chance, dass Forschungsergebnisse den Weg an die Öffentlichkeit finden, ist ohnehin eher gering. Deshalb ist jetzt der Moment für kreative Kulturschaffende, sich einzubringen, damit wir Zukünfte simulieren können, denen wir entgegenstreben, und solche, die es zu vermeiden gilt.
Allerdings wurden diese fundamentalen Fragen, die man sich jetzt mit Nachdruck hätte stellen können, leider durch einen gravierenden Fauxpas Googles überschattet. Das Unternehmen hatte die Implementierung einer vernünftigen Diversitätspolitik bei der Generierung von Personenbildern in Gemini komplett vergeigt. Die Bilder von schwarzen Nazi-Führern, die mittlerweile allgegenwärtig sind, haben einen regelrechten Shitstorm losgelöst. Und in der Tat halte ich die Empörung für vollkommen gerechtfertigt, wenngleich aus anderen Gründen, als sie oft in den sozialen Medien angeführt werden. Die Gefahr einer Marginalisierung weißer Männer in unserer westlichen Gesellschaft scheint mir nämlich eher gering. Es ist nicht so, als ob ich als weißer Mann unbedingt noch mehr weiße Männer sehen muss, um mich wohlzufühlen. Mein Problem mit dieser Diversitätspolitik liegt vielmehr darin, dass sie tatsächlich Diversität untergräbt. Angesichts solcher visuellen Absurditäten erscheinen historisch akkurate Darstellungen marginalisierter Persönlichkeiten und Gruppen nahezu lächerlich. Gebt uns doch einfach einen dunkelhäutigen Jesus und asiatische Eisenbahnarbeiter! Helft uns, jene Vorurteile zu erkennen, die dazu führen, dass wir die Stimmen und Perspektiven, die durch die Geschichte hindurch an den Rand gedrängt wurden, übersehen – und bietet doch bitte keinen Anlass, solch essentielle Anfragen an unsere Vorurteile als bloßes Tugendsignal oder übertriebene Political Correctness abzutun.
Ganz generell scheint es mir, als hätten die großen Technologiekonzerne die Komplexität ihrer wohlmeinenden Diversitätspolitiken nicht ganz durchdacht. Nehmen wir beispielsweise Jack Krawczyk, der in einem Tweet bekannt gab, dass Google an der Korrektur von „inaccuracies in some historical image generation depictions“ arbeite. Gleichzeitig betont er das grundlegende Prinzip, die Bildgenerierung so zu gestalten, dass sie die globale Nutzerschaft widerspiegelt, wobei Repräsentation und Bias ernst genommen würden. Demnach wird Google „continue to do this for open ended prompts (images of a person walking a dog are universal!).“ Ich frage mich angesichts solcher Statements: Wie konnte ein so großes Unternehmen wie Google das Problem mit schwarzen Nazi-Führern (und Führerinnen) übersehen? Dies deutet für mich auf eine ziemlich tiefgehende Naivität hin. Die Rede von „offenen Aufforderungen“ bestätigt dies nur. Kulturell neutrale menschliche Aktivitäten gibt es schlichtweg nicht! Darstellungen setzen immer bestimmte Perspektiven voraus und bevorzugen bestimmte Konzeptionen gegenüber anderen. Nehmen wir das Gassigehen: Als regelmäßiger Läufer, der mehrfach mit aggressiven Hunden und verantwortungslosen Hundehaltern konfrontiert wurde, habe ich eine ganz spezielle Sicht auf diese Szene. (Und ja, allein die sprachliche Darstellung dieser Ereignisse wird manchen Leser und manche Leserin ärgern – was natürlich gerade meinen Punkt unterstreicht.) Dabei sind noch nicht einmal fundamentale soziale Parameter wie die Religion berücksichtigt (zum Beispiel die Betrachtung von Hunden als unrein im Islam). Jeder Versuch, der globalen Nutzervielfalt gerecht zu werden, muss unweigerlich eine Auswahl spezifischer Parameter (Rasse oder Körperform?) vornehmen und wiederum bestimmte Werte dafür festlegen (asiatische oder afroamerikanische Partner*innen?) – was unweigerlich zu Diskriminierungswahrnehmungen führt. Glücklicherweise können Hunde nicht sprechen. Sonst würden sie wahrscheinlich ebenfalls Einwände erheben, da die Konzeptualisierung von „Hunde ausführen“ ihre eigene Handlungsfähigkeit herabsetzt … Meiner Meinung nach wäre es daher am besten, wenn multimodale LLMs die in ihrem Trainingsmaterial vorgefundenen Bias schlicht visuell treu wiedergeben würden – um dann durch Dialog zur Reflexion über vertraut erscheinende Bilder anzuregen. KI könnte uns einen Spiegel vorhalten. Bevormundende Umerziehung steht ihr in meinen Augen eher nicht gut.
In diesem Zusammenhang möchte ich auf eine ganz spezifische Möglichkeit hinweisen, wie man LLM in meinen Augen zielführend einsetzen kann, um einen Effekt der „Verfremdung“ zu erreichen, der durchaus zum Nachdenken anregen kann. Im Rahmen unseres Projekts zu narrativen Perspektiven an der Universität München habe ich kürzlich ein GPT modifiziert, das biblische Geschichten, die Benutzer*innen einfügen, aus einer anderen Perspektive nacherzählt. Der Chatbot ist speziell darauf ausgerichtet, Erzählfiguren zu identifizieren, die in der ursprünglichen Erzählung nicht als Fokalisationsinstanzen dienten, durch deren Augen die Leser*innen auf die erzählten Ereignisse blicken. Dieses GPT, „Marginalisierte Biblische Perspektiven“, ist hier frei zugänglich, sofern man über ein OpenAI-Abonnement verfügt. Es ist besser, den Text biblischer Episoden zunächst per Copy & Paste in das Chatfenster hinein zuposten, anstatt direkt die Generierung einer Geschichte zu fordern. Teilweise wird man ein paar Male auf lebhaftes Erzählen bzw. geringere narrative Distanz und historische Plausibilität hinweisen müssen. Selber gut schreiben zu können oder über entsprechendes literaturwissenschaftliches Wissen zu verfügen, hilft also sicherlich, um auf spannende Resultate zu kommen. Selbst fand ich die ersten Experimente zumindest für meine eigene Arbeit durchaus aufschlussreich. Wir freuen uns übrigens, wenn besonders gelungene (oder auch misslungene … ) Nacherzählungen auf Twitter/X mit dem Hashtag #marginalizedperspectives geteilt werden! (Dieser Beitrag wurde zuerst auf Englisch hier veröffentlicht.)
Comments