top of page
  • AutorenbildChristoph Heilig

ChatGPT — ein progressiver, aber phantasieloser Geschichtenerzähler?


Dieser Artikel von Nina Beguš bietet einen faszinierenden Beitrag für alle, die sich für die Erzählkraft von Large Language Models (LLMs) interessieren. Das Abstract offenbart zwei Haupterkenntnisse: Erzählungen von GPT-3.5 und insbesondere GPT-4 sind "more progressive in terms of gender roles and sexuality than those written by humans", zeigen jedoch "less imaginative scenarios and rhetoric than human-authored texts".



Obwohl die Studie viele instruktive Beispiele liefert, fehlt mir aber letztlich die Beobachtung, dass diese beiden Resultate zu großen Teilen schlicht zwei Seiten derselben Medaille sind. Die Studie erwähnt zwar das "intensive value alignment training" auf Seite 2, welches GPT durchlaufen hat. Sie versäumt jedoch, ausreichend darauf hinzuweisen, dass dies wohl der Hauptfaktor für den "moralisierenden" Ton dieser Erzählungen ist (der auf Seite 8 moniert wird). Meine Arbeitshypothese wäre ganz klar, dass dieses Training einen top-down Einfluss ausübt, der von der übergreifenden Botschaft über die Handlung bis hin zu den verschiedenen Parametern der Erzählung reicht.


Fairerweise sollte man anmerken, dass die Studie nur auf eine deskriptive Darstellung des aktuellen GPT-Storytellings abzielt. Aber die meisten Leserinnen und Leser werden wahrscheinlich auch ihre weiterreichenden Implikationen in Betracht ziehen—insbesondere die Frage, ob LLMs menschliche Autorinnen und Autoren im Bereich der Fiktion ersetzen könnten. Um ein umfassendes Verständnis für das kreative Potential der LLMs zu gewinnen, erscheint es notwendig, die Wertausrichtung—die offensichtlich den divergenten Aspekt der Kreativität einschränkt—mit Jailbreaks zu umgehen.


Des Weiteren habe ich ein methodologisches Anliegen, das tatsächlich im erklärten Rahmen der Studie liegt. Die Autorin merkt an (S. 4, Fn. 7), dass die Leistung des aktuellen Modells "subjugated to human prompting skills" sei, was jedoch in diesem Experiment keine Variable wäre. Ich bestreite diese Behauptung. Die Prompts auf Seite 3 werden als "vague and neutral" beschrieben. Während diese Charakterisierung in erster Linie auf die Geschlechtsidentität der Erzählcharaktere gemünzt ist, muss betont werden, dass die eher formelhafte Natur der Prompts zweifellos den Handlungsverlauf und die narrative Konfiguration der produzierten Erzählungen beeinflusst!


Dies wird nicht zuletzt durch die einheitliche Eröffnung der Handlung in allen von GPT generierten Geschichten (S. 8) bestätigt. Das sollte nicht nur ein Kritikpunkt an den erzählerischen Fähigkeiten der KI sein, sondern weist vielmehr auf ein Problem im Studiendesign hin! In diesem Kontext ist auch die Untersuchung der Quellenmaterialien, auf die sich menschliche Geschichtenerzähler stützten, aufschlussreich (S. 15-16). Es gibt verschiedene Gründe, warum menschliche Antworten möglicherweise spezifischer sind, aber ein Faktor ist zweifellos ihre begrenzte Kapazität für divergentes Denken aufgrund einer geringeren Exposition gegenüber dem Pygmalion-Mythos. Das schränkt nämlich die Fähigkeit für abstrakte Interpretation ein. Demgegenüber schafft es GPT (um diesen Prozess mal positiver zu formulieren), auf die abstrakten Prompts auch abstrakte Geschichten zu schreiben, welche aus diesem kulturellen Wissen abstrahierend schöpfen.


Angesichts dessen, was ich bisher ausgeführt habe, finde ich es bedauerlich, dass das Experiment innerhalb von ChatGPT statt im Playground durchgeführt wurde. Letzteres hätte eine Analyse der individuellen Token-Wahrscheinlichkeiten ermöglicht, was ein differenzierteres Verständnis des Einflusses der Aufforderung erlaubt hätte. Vor diesem Hintergrund ist es verwunderlich, dass die Studie zwar schließlich den Playground für Kontrollläufe (S. 23) einsetzt, jedoch nur die Token-Begrenzung und die Temperatur-Einstellungen anpasst. Angesichts der vorherigen Ergebnisse erscheint die Modifikation der "presence penalty" als ein offensichtlicher nächster Schritt. Die Verstärkung dieses Parameters führt nämlich dazu, dass Erzählungen sind schneller thematisch vom Ausgangspunkt fortentwickeln.


Um meinen Punkt konkreter zu veranschaulichen, habe ich meinen eigenen Test im Playground durchgeführt. Mit nur geringen Einstellungsänderungen erhielt ich beim allerersten Versuch das Motiv der "Einsamkeit" – ein Thema, das die Studie als einzigartig für menschlich verfasste Geschichten bezeichnet (S. 6).


Wichtiger ist mir hier aber der Punkt, dass die Anzeige der Wahrscheinlichkeiten (im alten Fenster mit der Funktion des Vervollständigens) meine Vermutungen bezüglich des Einflusses der "neutralen" Aufforderung eindeutig bestätigte. Der anfängliche Story-Output war bemerkenswert suboptimal: "As their relationship grew, the creator/lover …" Es ist jedoch sehr wichtig zu beachten, dass in diesem Kontext des Promots der Studie das Wort "the" nach dem temporalen Nebensatz mit einer Wahrscheinlichkeit von 90% auftritt! Die nächstwahrscheinliche Option war das ebenso allgemeine "human" (mit 9%). Dies wiederum bereitet die Bühne für "creator/" (87%). Und nach dieser Vorbereitung folgt "lover" dann wenig überraschend mit einer Wahrscheinlichkeit von 99,99%.


Um eine differenziertere Erzählung nach dieser Eröffnung hervorzurufen, musste ich die Berufsbezeichnung als "a writer of fiction" spezifizieren und die "presence penalty" auf 2 erhöhen. Dies führte schließlich zu der kreativeren Zeile: "As their relationship grew, the lines between creator and creation began to blur". Erst jetzt hatte das Wort "lines" (3,4%) eine Chance. Dieses kleine Experiment unterstreicht, dass im Bereich der LLMs der Kontext niemals wirklich "neutral" ist. In einer ironischen Wendung weist die Studie von Nina Beguš damit genau das Zusammenspiel zwischen Prompting und Textoutput auf, welches doch ausgeklammert werden sollte. Lektion für die Zukunft? Brauchen wir Prompting-Seminare für Autorinnen und Autoren? Und für Wissenschaftlerinnen und Wissenschaftler? Nein. Neuere Studien (z.B. hier) beginnen, nachzuweisen, was schon längst zu vermuten war: LLMs sind besser darin, herauszufinden, was menschliche Nutzerinnen und Nutzer wollen, als die es selbst sagen könnten. Also am besten gleich auch das Studiendesign den LLMs mit überlassen.


Kommentare


bottom of page