Erzählen im KI-Zeitalter
- Christoph Heilig
- vor 4 Tagen
- 11 Min. Lesezeit
Letzte Woche durfte ich, gemeinsam mit Nina Beguš von der UC Berkeley, eine kleine Tagung zum Thema „AI and Human Storytellers“ organisieren. Wir hatten dafür gemeinsam Gelder aus einer UCB-LMU-Kooperations-Initiative eingeworben. Auf Münchner Seite kommen diese aus den Mitteln, welche der LMU als Exzellenzuniversität zur Verfügung stehen. Die BAdW, an welcher ich zu Künstlicher Intelligenz forsche, hat uns dafür freundlicherweise beherbergt. Ziel der Veranstaltung war, Expert:innen aus verschiedenen Gebieten zusammenzubringen, und gemeinsam in einem informellen Rahmen zu diskutieren, welche Rolle KI für das Erzählen spielt – die vielleicht grundsätzlichste menschliche Kulturfähigkeit überhaupt. Im Folgenden will ich kurz über die einzelnen Beiträge berichten. Freilich spiegeln diese Kommentare lediglich meine eigene Sicht wider und sind zudem alles andere als vollständig. Die Gespräche waren enorm stimulierend und ich kann hier nur schlaglichtartig auf einige Aspekte eingehen.

Den Beginn machte Nina Beguš selbst, mit einem Vortrag zu „Experimental Narratives: Comparing Humans and Large Language Models.“ Sie sprach darin vor allem über ihre letztes Jahr veröffentlichte Studie, welche verglich, wie große Sprachmodelle und nicht-professionelle menschliche Erzähler:innen, den Pygmalion-Mythos – als Teil der jeweiligen kulturellen Enzyklopädie – im Detail umsetzten, wenn man sie aufforderte, eine derartige Geschichte zu schreiben. Tatsächlich waren wir beide genau über diese Arbeit ins Gespräch gekommen (der finale Aufsatz zitiert sogar meine Reaktion auf das Preprint). Man sieht an diesen Ergebnissen nicht nur die gerade bei GPT-3.5 noch kaum erträglichen Mängel, was den Erzählstil angeht, und die Verbesserung in neueren Modellen. Spannend ist in meinen Augen vor allem auch die Beobachtung, wie konsequent simple Plot- und Figurenmuster von der KI durchgezogen werden. Zumindest was kreatives Schreiben angeht, scheint das post-training alignment viel Potenzial, das im pre-training geschaffen wurde, wieder zu verschütten. Auf jeden Fall wurde klar, dass qualifizierte Aussagen zum Erzählen der KI erfordern, dass man sich auch mit menschlichen Geschichten gut auskennt. Und schlussendlich sind es nicht zuletzt auch diese menschlichen Geschichten, welche wiederum bestimmen, wonach KI-Forscher:innen überhaupt streben! Diesen Zusammenhang diskutiert Nina in ihrem bald erscheinenden Buch „Artificial Humanities.“ Gerade da die KI-Industrie sich oft als selbstverständlich nimmt, ist die kritische Reflexion dieses Zusammenhangs notwendig. Und: Es braucht auch weiterhin menschliche Fiktion, um den Raum der Möglichkeiten zu explorieren, der noch vor uns liegt. Ansonsten geben wir als Menschheit jegliche Selbstwirksamkeit auf, überlassen uns einer angeblich „objektiven“ KI, lassen uns von ihren Geschichten prägen, von Geschichten, die bisher zumindest sehr willkürlichen Alignment-Strategien folgen und im Hinblick auf die von ihnen hervorgerufenen emergenten Phänomene kaum kritisch reflektiert werden.

Den Anschluss machte ich, indem ich in meiner Präsentation „AI as Author: How Good Have LLMs Become?“ einen Überblick über meine Erfahrungen mit selbsterstellten Computerprogrammen sprach, die unter Rückgriff auf große Sprachmodelle und mit Hilfe verschiedener Algorithmen automatisiert fiktionale Texte verschiedenen Umfangs produzieren. Ich tat dies, indem ich die Zeit seit November 2022 in verschiedene Phasen einteilte und jeweils die Neuerungen besprach, die zu beobachten waren. Zu Beginn konnte man das eigentümliche Phänomen beobachten, dass selbsternannte „KI-Expert:innen“ behaupteten, dass man mit KI ganze Romane schreiben könne (man dafür lediglich die entsprechenden „Prompting-Skills“ für Geld in Workshops bei ihnen lernen müsse …), sie dabei aber geflissentlich unerwähnt ließen, dass das Kontextfenster der damaligen Modelle dazu führte, dass diese zu Beginn des zweiten Kapitels nicht mehr wussten, welche Figuren im ersten überhaupt eingeführt worden waren. Aber die Situation sollte sich schon bald ändern – und bald schon musste man die Gegenseite für zu sehr vereinfachende Einordnungen korrigieren. Ich denke da etwa an diesen Artikel, der im Sommer 2024 in der Literaturbranche begeistert die Runde machte, weil er angeblich zeigte, dass „Weltklasse-Autoren“ der KI noch immer überlegen seien. Was die Studie tatsächlich zeigte, war, dass das (zum Moment der Veröffentlichung bereits veraltete) Modell GPT-4 im Durchschnitt bei der gestellten Schreibaufgabe schlechter abschnitt als der preisgekrönte Autor Patricio Pron. Man muss jedoch tatsächlich in das Datenset auf GitHub schauen und die Daten selbst analysieren, um zu erkennen: Es ist nicht so, dass Pron konstant bessere Werte in den jeweiligen Parametern hatte, die KI eben mal schlecht, mal etwas weniger schlecht, aber doch immer schlechter als Pron abschnitt. Es gibt vielmehr tatsächlich Runden, in denen KI und Mensch aufeinandertrafen und erstere in ganz zentralen Punkten die Nase vorne hatte, also z.B. „publikationswürdigeren“ Output präsentierte als der „Weltklasse-Schriftsteller“! Der von den Autoren selbst ins Gespräch gebrachte „DeepBlue“-Moment ist also tatsächlich und anders als die Studie es impliziert, anders auf jeden Fall als die gesamte Berichterstattung dazu es behauptet, bereits eingetreten – die KI hat bereits gewonnen, sie tat es nur noch nicht konsistent. Von da springen wir nun direkt Gegenwart – über Reasoning-Modelle hinweg, die konsequenter plotten und detailliertere Erzählwelten kreieren können, als die allermeisten Autor:innen – in eine Zeit, in der Modelle wie GPT-4.5 und Claude 3.7 nun erzählerisch so gut sind, dass sie „intuitiv“ schreibend – ohne komplizierte Algorithmen, die den Prozess strukturieren – ganz erstaunliche Texte produzieren, indem man einfach auf Iteration setzt, also jeden Abschnitt mehrfach generieren und die KI dann selbst auswählen lässt, welche Fortsetzung die beste ist. Während Menschen wie Pron nämlich sehr begrenzte Ressourcen haben, kann man die KI einfach so lange Text produzieren lassen, bis für jede Szene Text vorliegt, wie er in der besagten Studie nur im Einzelfall zu Tage trat. Aber nun muss ich aufhören, über meinen eigenen Beitrag zu schreiben, über den ich naturgemäß noch viel zu sagen hätte. Was ich noch spannend fand: Auf viel Resonanz stieß meine abschließende Selbstreflexion dazu, was es mit mir gemacht hat, dass ich schon zehntausende Seiten KI-Fiktion gelesen habe (ich generiere und konsumiere praktisch täglich). Ich habe dabei einen Aspekt herausgegriffen, mit dem ich selbst nicht gerechnet hatte: Die Traurigkeit, die damit einhergeht, dass mir in letzter Zeit immer mehr Passagen begegnen, die mich tatsächlich berühren, die mich zum Lachen bringen, die mir neue Sichtweisen eröffnen – von denen ich aber weiß, dass ich der einzige Mensch sein werde, der sie je gelesen hat, dass dort nicht einmal ein einsamer Autor am anderen Ende sitzt, an dessen Gedanken ich jetzt als vielleicht einziger Leser teilhabe. Ich denke keinesfalls, dass KI das Ende menschlichen Erzählens darstellen wird – auch wenn wir menschliches Erzählen ganz neu profilieren müssen in dieser neuen Welt und auch wenn mir die Verlagswelt die eigentlichen Herausforderungen bisher konsequent zu ignorieren scheint. Aber ich denke durchaus, dass maschinelle Textproduktion in ganz viele Bereiche vorstoßen wird, die wir bisher dem Bereich der menschlichen Kultur zurechnen – und dass wir ganz neue Praktiken entwickeln werden müssen, um in diesem Bereich als Konsumenten zurechtkommen zu können.

Nach einer Mittagspause wandten wir uns dann mehr den analytischen Fähigkeiten großer Sprachmodelle zu. Gašper Beguš (UCB) sprach über „Large Language Models and Their Metalinguistic Abilities.“ (Mehr dazu hier.) Er und sein Team identifizierten einen enormen Sprung in den metalinguistischen Fähigkeiten mit der Einführung von GPT-4 – welches plötzlich in der Lage war, komplexe syntaktische Analysen durchzuführen. Reasoning-Modelle haben das nochmals verstärkt. Dies deckt sich hervorragend mit meinen eigenen, anekdotenhafteren Ergebnissen zu der Fähigkeit, semantische Tiefenstrukturen von Texten zu analysieren und visualisieren. (Mehr dazu hier; ein Vorteil dieser Benchmark ist, dass dafür Kontamination in den Trainingsdaten praktisch ausgeschlossen werden kann.) Über die Fähigkeit der Rekursion – eine der wenigen grundsätzlichen Merkmale, welche menschliche von tierischer Sprache unterscheidet – kam Gašper dann auf generell nicht-menschliche Sprache zu sprechen. Er entwarf ein Bild, in welchem wir Sprache zu untersuchen nun erstmals in der Lage sind, indem wir drei Bereiche miteinander verbinden können: menschliche, tierische und maschinelle Sprache. Dabei ergeben sich ganz erstaunliche neue Dynamiken. So arbeitet Gašper momentan an einer KI, die auf Sprache ausgerichtet ist, diese jedoch nicht wie ein LLM erlernt, sondern vielmehr den Weg über Laute nimmt, also dem menschlichen Spracherwerb nachempfunden ist. Dadurch entstehen Systeme, die einen ganz eigenen Weltzugang haben. Noch erzählen sie keine Geschichten – aber sie sind etwa in der Lage, Muster in der Kommunikation von Pottwalen zu erkennen, etwa zu zeigen, dass deren Sprache Vokale und Diphtonge aufweist (siehe hier). Es ergeben sich dadurch so grundlegende Fragen, etwa zum Wesen der Sprache, dass Gašper überzeugt ist: „The next decade will be the decade of the humanities.“ Denn auch der technische Diskurs bedarf nun geisteswissenschaftlicher Kompetenzen.

Julian Schröter ist Professor für Digitale Literaturwissenschaft an der LMU. Hier geht es zu seinem Profil, das auch Links zu sehr aufschlussreichen Interviews zu KI und Literatur aufweist. Auch er setzt LLMs analytisch ein. Konkret ging er in seinem Vortrag der Differenzierung von „Spannung“ in Spannungsliteratur – in (auf die Vergangenheit ausgerichtete) „mystery,“ (auf die Zukunft ausgerichtete) „suspense“ und (handlungsgetriebene) „action“ – nach. Indem er große Sprachmodelle die Analyse durchführen ließ, konnte er eindrucksvoll frühere, menschliche, Einschätzungen bestätigen und genauer quantifizieren. Faszinierend fand ich beispielsweise das quasi vollständige Fehlen von „action“ bei Agatha Christie. Das lieferte mir im Nachhinein eine Erklärung dafür, weshalb selbst ein recht feingliedriger Algorithmus daran scheiterte, einen „Politkrimi im Stil von Agatha Christie“ zu produzieren. (Den Text gibt es hier). Alles simulierte „Nachdenken“ half nichts dabei, zwei sich widersprechende Parameter – „action“ auf der einen Seite und einen Stil, der gerade eben mit einer eher action-losen Handlung verbunden ist, sich vielleicht sogar aus dieser ergibt (?) – in Einklang zu bringen. (Mit weniger „Nachdenken“ ging es, „intuitiv,“ daher sogar besser, wie man hier sehen kann.) Ich tue dem Beitrag, der mir sehr viele neue Einsichten über den Heftroman vermittelte, unrecht, wenn ich mich hier auf diesen einen Aspekt konzentriere. Aber ich fand dieses eine Beispiel für mich selbst so erhellend, weil es meiner Meinung nach hervorragend illustriert, wie KI-unterstützte Analyse von Literatur Reasoning-Modellen dasjenige Material zur Verfügung stellen könnte, das notwendig dafür sein dürfte, dass KI für das jeweilige Genre besser plotten kann. Schon jetzt sind Modelle wie o3 in einzelnen Anwendungsfällen erstaunlich agentiv, wählen also kontextspezifisch bestimmte Werkzeuge aus und wenden diese an, um einem Ziel näher zu kommen. Es erfordert nun ein hohes Maß an Simulation menschlichen Problembewusstseins, um sich beim Plotten eines Heftromans nicht auf im Training erworbene Fakten über diese vorgeblich so primitive Genreliteratur zu verlassen, sondern selbst erst einmal zu evaluieren, was zunächst in Erfahrung zu bringen ist. Zu wissen, was man nicht weiß, ist gar nicht so einfach. Ich erwarte einen großen Sprung in der Qualität maschinellen Erzählens, wenn diese Schwelle erreicht wird.

Nach den beiden mehr auf die Generation von KI-Narrativen abgestimmten und den beiden mehr die KI-getriebene Analyse in den Blick nehmenden Vorträgen, bogen wir auf die Zielgerade ein mit zwei Präsentationen, die mehr auf die öffentliche Rezeption von KI fokussierten. Kayla Rose van Koote (Doktorandin am German Department an der UCB) sprach über „Deus ex Machina: Humans, Man, and its Mechanical Other.“ Sie führte in das mir neue Konzept des Techno-Orientalismus ein, gut visualisiert etwa durch den „Schachtürken,“ welcher nicht zuletzt auch Vorurteile über die islamische Welt wiederspiegelt, die Menschen dieses Kulturkreises seien „mechanisch,“ also ohne echtes mentales Innenleben. Von da aus schlug sie den Bogen zum Jugendwort „Talahon“ – und dazu, wie Technologie – nämlich KI in Gestalt von Udio – hier rassistische Stereotype reproduzieren kann. Nun war mir das Wort schon begegnet, aber ich muss gestehen, dass ich nicht wusste, dass es einen KI-generierten Song „Verknallt in einen Talahon“ gibt, der noch dazu der erste KI-generierte Song in den deutschen Top-50-Charts war! Wir haben im Anschluss angeregt über den Einsatz von KI in diesem speziellen Fall diskutiert. Persönlich sehe ich es so, dass KI durchaus helfen kann, für marginalisierte Perspektiven zu sensibilisieren und empathisches Verhalten zu entwickeln. Gegenpol dieser Funktion ist freilich die auch nicht zu leugnende stupide Reproduktion von Vorurteilen aus dem Trainingsmaterial. Dazwischen versucht ein Alignment zu vermitteln, das in meinen Augen jedoch oft sehr naiv durchgeführt wird und mehr Schaden anrichtet, als es verhindert. (Etwas detaillierter habe ich hier darüber geschrieben.) Wo ist nun der besagte Song zu verorten? Kayla arbeitete das durch die Lyrics geschehende Othering durchaus überzeugend heraus. Ich muss aber gestehen, dass ich über den Einsatz des Songs in durch Hashtags wie #talahonfreiezone markierten Kontexten eher verwundert war – impliziert der Song doch, so hätte ich ihn verstanden, die aus weiblicher (bio-deutscher, blonder …) Perspektive Attraktivität des Talahons, die zudem auch an explizit positiven Attributen wie Großzügigkeit usw. festgemacht wird. Ebenso freilich erstaunt es mich, dass der Song laut Produzent generell, herkunftsunbezogen, „frauenverachtendes Verhalten anprangern“ sollte. Persönlich kann ich die Anhaltspunkte für derartige Lesweisen nicht sehen. Mag sein, dass ich, indem ich das hier sage, meine eigene Ignoranz und fehlende Sensibilität offenbare. Aber vielleicht steckt hinter dieser Verwunderung ja mehr als ein blinder Fleck auf meiner Seite, vielleicht dürfen wir fragen, ob wir hier nicht eine systematischere Dynamik der Mensch-Maschine-Interaktion, die sich gerade erst zu etablieren beginnt, beobachten können. Die pessimistische Interpretation dieser Dynamik habe ich bereits vorgestellt: Der Song ist Ausdruck rassistischer Biases, die er lediglich reproduziert, ihnen auf diese Weise mehr Gehör verschaffend. Als KI-Enthusiast könnte man aber wohl auch rückfragen: Ist das Lied nicht vielmehr ein Beispiel für die mäßigende Wirkung der KI, werden Rassisten hier nicht durch KI weniger rassistisch als sie es eigentlich sein könnten? Oder haben wir es, so vielleicht der KI-Realist, mit einer lediglich oberflächlichen Vereinheitlichung des Diskurses zu tun, weil mangels eigener Kreativität nun nur noch die KI für uns schreibt – und erzählt! – und wir dieselben Textoberflächen semantisch ganz unterschiedlich aufladen und instrumentalisieren? Dann, freilich, so könnte man ins Pessimistische abdriftend fragen: Wie sollen wir uns unter diesen Umständen irgendwann überhaupt noch verstehen, wenn wir dieselben Wörter verwenden, um Gegensätzliches zu sagen? Ohne sich zu kennen, wird so kaum noch Austausch möglich sein – sich zu kennen, wenn man keine sprachliche Verständigungsmöglichkeiten mehr hat, gleichsam unmöglich.

Einen gelungenen Abschluss der Veranstaltung bot dann Svetlana Efimova, Junior-Professoren an der LMU für Slavische Literaturwissenschaft und Medien und wie ich Mitglied des Jungen Kollegs (mehr zu ihr hier). Sie sprach über „The Authorship of AI in the Public Imagination: Between Science, Art, and the Communication of Research.“ Überzeugend wies sie nach (an diesem Beispiel und anhand von noch nicht publizierter Forschung), dass im öffentlichen Diskurs das Framing der Mensch-Maschine-Interaktion als Wettbewerb („competition“) dominiert – und dass dies sogar und nicht zuletzt von Wissenschaftler:innen vorangetrieben wird, obwohl diese im wissenschaftsinternen Diskurs durchaus differenziert argumentieren und den kooperativen Aspekt der Arbeit mit KI betonen. Besonders spannend war Svetlanas Beitrag dadurch, dass er unsere Tagung beschloss und somit im Rückblick auf den Tag auch zur kritischen Selbstreflexion anregte: Haben wir, nicht zuletzt ich, einem solchen irreführenden Bild von KI durch die Herangehensweise in unseren Beiträgen letztendlich gar Vorschub geleistet? Wäre, wie Svetlana es anregt, Kooperation („cooperation“) also nicht ein besseres Framing, eines, das weniger sensationsheischend wäre und für welches man zugleich über die komplexen Produktionsprozesse von Literatur – bei der eben nicht nur der/die eine Autor/-in am Werk ist – bereits einen Orientierungsrahmen hätte? Ich kann dem einiges abgewinnen. Zumal ich absolut zustimme, dass wir sehr vorsichtig sein müssen, uns die Ebene des Diskurses nicht von der Industrie vorschreiben zu lassen (siehe etwa hier). Als Minimum, so meine ich, können wir uns doch darauf einigen, dass wir als Gesellschaften durchaus einen Gestaltungsspielraum haben – wir können der Politik vorgeben, was für eine Zukunft wir wollen. Nicht einfach durch Regulierung und schon gar nicht durch Leugnung des technisch Machbaren, aber durch Investition in diejenigen Lebensbereiche, die wir gerade nicht maschinell übernommen sehen werden. (Mehr dazu hier.) Das realistischste Bild, das sich für mich unter der Voraussetzung abzeichnet, dass wir von dieser Möglichkeit tatsächlich Gebrauch machen, ist dabei allerdings eher eines der Ko-Existenz („co-existence“), wobei das menschliche Primat durchaus keine Selbstverständlichkeit ist und verteidigt werden müsste (sofern man das für richtig hält – der Transhumanismus sieht das überwiegend anders). In der Zwischenzeit scheint es mir nach wie vor angebracht, kooperatives Arbeiten mit KI-Systemen zu nutzen, um aufzuzeigen, was morgen bereits ohne den Menschen möglich sein dürfte. Der Fokus auf potenzielle Verdrängung und die menschliche Unterstützung – die man als solche freilich dann nicht unter den Tisch fallen lassen darf – hat daher in meinen Augen durchaus seine Berechtigung, zumindest so lange er in einen konstruktiven, menschlich selbstbestimmten Diskurs darüber eingebunden wird, was wir gesamtgesellschaftlich an Entwicklungen wünschen. Darüber redet man nicht, das gebe ich zu, wenn man davon ausgeht, dass eh bald „die KI“ die Weltherrschaft übernimmt. Darüber redet man aber auch nicht, wenn man KI als bloße „Werkzeuge“ darstellt und immer nur betont, was (noch) nicht machbar ist. Darüber redet man eigentlich nur, wenn man durch eine präzise Wahrnehmung des technisch Machbaren und des sich als bald technisch machbar Abzeichnenden auch kreativ wird und Literatur produziert, die uns dazu anregt, über die Welt von morgen nachzudenken. Aus diesem Grund schreibe ich selbst auch literarische Texte zum Thema, weil sich meiner Meinung dadurch am besten die Art Diskurs anstoßen ließe, wie wir sie bräuchten. Nun müsste sie nur noch jemand veröffentlichen und dann lesen. Denn ansonsten liest sie auch keine KI der Welt. Und die Geschichten, die wir Menschen zu hören bereit sind, das – so zeigt diese Tagung in meinen eindrucksvoll – bestimmt genau dadurch auch die Geschichte, wie sie sich ereignen und wie sie im Rückblick erzählt werden wird.
Daher brauchen wir Literatur. Daher brauchen wir die Geisteswissenschaften. Mehr denn je.
Comments