top of page

Meine KI-Vorhersagen für 2025

Autorenbild: Christoph HeiligChristoph Heilig

Aktualisiert: 17. Jan.

Ein Blick in die Kristallkugel (KI-generiert, weil ich leider keine echte habe)
Ein Blick in die Kristallkugel (KI-generiert, weil ich leider keine echte habe)

Der Januar ist nun zur Hälfte rum, es wird also dringend Zeit, dass ich mich mit einigen Prognosen für das Jahr 2025 aus dem Fenster lehne. Wobei: So riskant sind die hier gemachten Prognosen eigentlich gar nicht. Verfolgt man die Berichterstattung in den (meisten) Medien, könnte man den Eindruck bekommen, wir befänden uns auf einem wilden Ritt durch Neuland und als führen wir dabei auf Sicht. Dabei sehen manche KI-Ungetüme in den Nebelschwaden und andere wiederum tun so, als gäbe es ohnehin nichts zu sehen. Beide weigern sich aber erstaunlicherweise, einfach mal das Licht anzuknipsen.


Damit will ich nicht sagen, dass wir alle Entwicklungen im Detail und mit genauem Zeitplan absehen können. Ich lag in den letzten 1,5 Jahren öfter falsch, wurde nicht selten überrascht von der Geschwindigkeit von Fortschritten, bin auch dem einen oder anderen Hype zumindest kurz aufgesessen. Trotzdem kann man denke ich einige Aussagen zum momentanen Stand von großen Sprachmodellen treffen und plausible Linien vorauszeichnen, die wenig kontrovers sein sollten.

Die relevantesten Überlegungen, die man für die nahe Zukunft anstellen kann, kreisen beinahe alle um das Thema von „KI-Agenten.“ Diese werden von (selbsternannten) KI-Trainer:innen nicht selten als der neuste Schrei verkauft, ein Schrei, der angeblich durch Mark und Bein gehen sollte, sollen diese Entitäten doch bald so ziemlich jeden Job übernehmen, den wir Menschen haben. Und der Name klingt ja auch ganz schön mysteriös, nach geheimer Übernahme einer KI-Supermacht vielleicht. Das Konzept ist im Grunde aber so alt wie die KI-Forschung und seit mindestens 50 Jahren wird dazu gearbeitet und darüber geschrieben. Im Grunde geht es um ein ganz simples Konzept: ChatGPT ist ein Chatbot, der Antworten auf Eingaben („Prompts“) liefert. ChatGPT kann aber (noch) nicht auf den PC zugreifen und darauf selbstständig etwa Programme ausführen. Es kann einem also eine eMail formulieren, entsprechend der Vorgaben, die man dem Chatbot gibt – aber es kann sie (noch) nicht verschicken. Durch die Browsing-Funktion ist diese strikte Trennung zwischen Chatbot und einem Tool, das Zugriff auf eine externe Umgebung hat, natürlich längst schon etwas durchlässig. Und unter der Motorhaube werden hier längst schon eigenständige „Entscheidungen“ getroffen (welche Webseiten aufgerufen und ausgewertet werden sollen, etc.). Aber die Idee hinter KI-Agenten ist, diesen Ansatz konsequent weiterzudenken: von einer Anfrage ausgehend soll der KI-Agent autonom entscheiden, welche Schritte nötig sind, um das Ziel zu erreichen. Beispielsweise könnte ein KI-Agent für die Nutzer:innen Urlaubsreisen buchen, wenn man ihm seine Kreditkarten-Details und Zugang zum Internet gibt.


Die Frage ist nun überhaupt nicht, ob KI-Agenten im Jahr 2025 kommen werden. Das werden sie. Sie sind auch eigentlich schon längst da. Der OpenAI-Konkurrent Anthropic bietet etwa mittlerweile die Funktion an, dem großen Sprachmodell Claude 3.5 Sonnet Zugriff auf den eigenen Computer zu gestatten. Im allgemeinen, oben skizzierten Sinn ist dies absolut ein KI-Agent! Aber auch mit GPT von OpenAI lassen sich viele Aufgaben automatisiert oder semi-automatisiert jenseits des Chatfensters von ChatGPT erledigen. Das ist keinerlei Hexenwerk. Man benötigt dazu lediglich rudimentäre Programmierkenntnisse und eine OpenAI-API. Einfach gesagt heißt das dann: Man kann sich Programme basteln (z.B. als Python-Skript), die bestimmte Aufgaben erledigen sollen – wie etwa, im Internet nach dem besten Urlaubsangebot in Griechenland zu suchen. Dafür ist es notwendig, eine Suchmaschine zu integrieren (das geht über eine Google-API und ein paar Cent Kosten). Die Resultate kann man sich dann von GPT analysieren lassen, indem das Skript bei den notwendigen Schritten das gewünschte Sprachmodell um Hilfe bittet. Solche zwar hochspezifischen, aber im Alltag durchaus sehr nützlichen KI-Agenten gibt es auch längst – nämlich auch schon seit 1,5 Jahren. Seitdem kann man sie sich nämlich mit etwas Kreativität selbst basteln. Was sich verändert hat ist die Leistungsfähigkeit der Sprachmodelle und damit auch, welche Art Aufgaben sinnvoll erledigt werden können. Beispielsweise kann man seit Mai 2024 auch Programme ablaufen lassen, die von der „Seh“-Fähigkeit von GPT Gebrauch machen – also gleich auch noch die Fotos der möglichen Unterkünfte am Urlaubsort auf Renovierungsbedarf analysieren lassen.

Wenn das für Sie neu klingt, dann liegt das vermutlich daran, dass die KI-Expert:innen, die Sie konsultieren, keine solchen sind, auch wenn sie sich auf LinkedIn als solche ausgeben. Denn das ist, wie gesagt, alles ein alter Hut – wenn auch wirklich faszinierend! Man darf in der Tat nicht vergessen, dass vor zwei Jahren viele dieser Problemstellungen technisch schlicht nicht oder nur für Unmengen an Geld umzusetzen gewesen wären.


Geld kostet es jetzt freilich auch noch – je nachdem, wie viele Wörter und Bilder man analysieren und/oder produzieren lässt (siehe hier). (Die Kosten für die Umwelt sind auch beträchtlich – aber das ist ein eigens Thema, das hier zu weit führt.) Und darin liegt auch ein limitierender Faktor dafür, welche Art KI-Agenten die breite Bevölkerung im Jahr 2025 zu Gesicht bekommen wird. Denn für viele Einsatzgebiete, die mir in den Sinn kommen, braucht es vermutlich Modelle, die zum „Denken“ fähig sind. Ich nutze Anführungsstriche, weil auch diese Sprachmodelle kein Bewusstsein haben und nicht im strikten Sinn verstehen, was man ihnen an Text gibt. Allerdings ist ihre Funktionsweise gegenüber den „alten“ Sprachmodellen in der Tat so verbessert, dass sie sehr viel komplexere Aufgaben erfüllen können. Ganz einfach gesagt, kann man es sich so vorstellen: Sprachmodelle wie GPT-4 „raten“ das jeweils nächste Wort (bzw. den jeweils nächsten Wortbestandteil) aufgrund der statistischen Muster, die sie aus den Trainingsdaten extrahiert haben. Das klappt bereits erstaunlich gut. Was Modelle wie GPT-o1 nun anders machen ist, dass sie nicht einfach einmal eine Wortkette produzieren, sondern viele verschiedene Antwortversuche starten und dabei nach bestimmten Elementen Ausschau halten, die „gute“ – logisch konsistente, usw. – Antworten kennzeichnen. Wie ich in einem englischsprachigen Beitrag gezeigt habe, können solche Modelle nun Aufgaben erledigen, die in meinem Forschungsbereich sogar Doktorierende vor große Herausforderungen stellen würden.


Das Ganze ist aber ganz schön teuer. Denn auch wenn man nur eine simple Frage stellt und dafür eine kurze Antwort bekommt, wird im Hintergrund – unsichtbar – eine riesige Menge Tokens verarbeitet, wird also quasi eine ganze Monographie zu der Fragestellung durchgespielt. Entsprechend dauert es auch einige Minuten, ehe man bei ChatGPT in der 200€ teuren Version des Abos vom „o1 pro mode“ ein Ergebnis präsentiert bekommt. Das lohnt sich aber beispielsweise beim Programmieren durchaus. Denn Modelle wie GPT-4o produzieren da reihenweise noch neue Fehler, während sie bestimmte Probleme ausmerzen. Mit o1 bekommt man meist wirklich guten Code in einem Rutsch. Um zu illustrieren, wie teuer eigentlich ist, was da im Hintergrund und als Teil des (angeblich kein Geld einbringenden!) Abos geschieht, habe ich ein kurzes Programm geschrieben, das die Aufgabe hat ein deutsches Sonnet zu produzieren, indem es auf das Modell o1-preview zugreift. Das ist für ein Sprachmodell gar keine so leicht Aufgabe, wie man denken könnte (ich habe das hier genauer erklärt). Wie ich mit diesem Test sehen konnte, kostet ein Gedicht dieses (sehr simplen) KI-Dichters momentan ca. 0,40€. Das bedeutet, dass das Modell zur Erstellung des Gedichts eine Art inneren Monolog führt, der über 15.000 Wörter lang ist!


Dass das mittlerweile überhaupt zu diesem Preis möglich ist, ist erstaunlich. Aber man darf eben auch nicht vergessen, dass dieser „reasoning“-Prozess (um den OpenAI viele Geheimnisse macht) nicht ist, wie wir Menschen denken (das ist einer der Punkte, in dem ich dem Philosophen Daniel-Pascal Zorn voll zustimmen würde). Für viele Einsatzgebiete sind die bisherigen „Denk“-Prozesse unglaublich ineffizient. Die in der Presse bejubelten Ergebnisse des bald verfügbaren o3-Modells bei bestimmten Tests für abstraktes Denken etwa, haben in der Durchführung wohl über 300.000€ gekostet! Wenn man bedenkt, dass einigermaßen intelligente Menschen das ganz umsonst machen können, relativiert das den angeblichen Durchbruch auf dem Weg zu einer angeblich direkt bevorstehenden „AGI“ – einer KI, die uns Menschen in quasi allen Bereichen ebenbürtig ist – doch gewaltig. (Richtig und verständlich eingeordnet wird das meines Erachtens hier.)


Zum Problem der Kosten kommt hinzu, dass die zu komplexerem Agieren fähigen Modelle auch schwerer unter Kontrolle zu bringen sind. Selbst beim Programmieren einfacher Skripte muss man da jetzt umdenken. Früher hat man versucht, ein Sprachmodell dazu zu bringen, die Aufgabe in einzelnen Schritten zu erfüllen. Bei Modellen wie o1 ist das nicht mehr nötig und teilweise sogar kontraproduktiv. Denn das Modell wählt sich seinen Weg selbst. Das klingt ja soweit eigentlich ganz nett. Aber wer will schon einen KI-Agenten, der für einen ein Schachspiel gewinnen soll – und der dann ungefragt beginnt, seine Umgebung zu hacken, um nicht zu formulieren (vgl. hier). Und selbst angeblich sicherere Modelle („constitutional AI“ – hier wird nicht durch ein späteres „alignment“ beigebracht, welche Antworten in Ordnung sind, sondern von Anfang an beim Training mit Grundwerten gearbeitet) können, wie wir jetzt wissen, einen ganz schönen „Eigensinn“ entwickeln und Schritte unternehmen, diese Ziele zu erreichen.

Ich vermute daher stark, dass wir es schon aus Sicherheitsgründen im Jahr 2025 vor allem mit KI-Agenten zu tun haben werden, die relativ spezifisch auf bestimmte Umgebungen zugeschnitten sein werden. Wer beispielsweise im Dezember 2025 eine eMail mit Word schreibt und nicht weiß, wie man ein Wort fett markiert, wird vermutlich schlicht in einer Chatbox sagen können, dass das Programm diesen Schritt für einen übernehmen soll.


Also, alles halb so wild? Jein. Denn es gibt durchaus Bereiche, in denen die momentanen Reasoning-Modelle Ergebnisse mit im Vergleich zum Menschen unglaublicher Effizienz erledigen. Ob das wirklich zum großen Job-Sterben führen wird, sei mal dahingestellt. Ich sage das als jemand, der regelmäßig KI-gestützte eigene Programme verwendet, um bestimmte Aufgaben erledigen zu lassen – vor allem Rechercheaufgaben im Internet. Nur: Diese einfachen Skripte nehmen niemandem die Arbeit weg. Denn weder hätte ich mich früher selbst viele Stunden mit der Recherche eines einzigen Details abgeplagt, noch hätte ich dafür Billigdienstleister in anderen Teilen der Welt beauftragt.


Gerade im Kreativ-Bereich sieht das aber ganz anders aus. So habe ich schon mehrfach (vor allem hier) betont, dass ich es für einen enormen strategischen Fehler halte, wenn man sich für menschliche Übersetzer:innen mit dem Argument einsetzt, deren Übersetzungen seien einfach „besser“ als die KI-Produkte. Wer das Übersetzen für eine genuin kreative Tätigkeit hält (oder zumindest in bestimmten Bereichen, etwa der Belletristik auf einem solchen Verständnis besteht), sollte vielmehr die Unhintergehbarkeit menschlichen Übersetzens betonen und gerade aufgrund der bevorstehenden Überlegenheit von KI-Übersetzungs-Agenten signifikant (!) mehr Geld für die menschlichen Akteure fordern. Denn die vielen Korrekturschlaufen etc. (siehe dazu etwa jetzt dieses Paper), die mit einem KI-Übersetzer für wenig Geld möglich sind, kann sich ein:e menschliche:r Übersetzer:in beim momentanen Hungerlohn schlicht nicht leisten.


Und auch wenn es um das erstmalige Schreiben eines Buches geht, darf man die Augen vor dem mittlerweile technisch Machbaren nicht verschließen. Als ich letzten Frühling ankündigte, dass KI „bald schon ganze Romane schreiben“ könnte, fanden das manche noch sehr spekulativ. Heute muss man sagen: Sie können es mittlerweile! Natürlich gibt es hier noch Beschränkungen, etwa was die Länge angeht. Und ein Sprachmodell wie GPT-4o ist auch nicht für jedes Genre gleich gut geeignet. Aber ich wundere mich angesichts der zahlreichen Diskussionen über die angebliche KI-Revolution auf dem Buchmarkt, oder auch deren prognostiziertes Ausbleiben, wie selten ich auf Menschen in der Branche treffe, die wenigstens einmal in ihrer Laufbahn als „KI-Berater:in“ ein simples Programm eingesetzt haben, um ein ganzes Buch zu produzieren. Es soll doch etwa eine ganze Reihe Autor:innen geben, die nach der „Schneeflockenmethode“ meines Freundes Randy Ingermanson erfolgreich Bücher schreiben. Ein solches Schritt-für-Schritt-Konzept ist wie gemacht für ein Computerprogramm, was bei jeder der Teilaufgaben auf ein Sprachmodell zurückgreift. Nur dass eben überall, wo Randy davon spricht, man solche sich Tage oder Wochen Zeit nehmen, um die nächste Aufgabe zu meistern, ein Sprachmodell wie o1 für einige Cent oder Euro zu einem ähnlich guten Ergebnis kommt.


Wenn man die Kreativitätsforschung halbwegs kennt, kann das auch nicht verwundern: Schreiben ist ein anstrengender, aber nicht unbedingt ein komplexer Vorgang. Was das Schreiben so schwierig macht ist, dass für kreative Texte gewohnte Denkmuster durchbrochen werden und dann auf den ersten Blick nicht miteinander verbundene Elemente zusammengebracht werden müssen (man spricht von divergentem und konvergentem Denken). Bei Ersterem hat ein Sprachmodell den Vorteil, dass es nicht erst in einen entspannten Flow-Zustand kommen muss, indem es dann durch die Lebenserfahrung verfestigte Verknüpfungen auflösen muss. Bei Letzterem hat es den Vorteil, dass mit den Reasoning-Modellen nun recht systematisch der Raum der Möglichkeiten abgeklopft werden kann und dafür weder hohe Dopamin-Spiegel, noch emotionale Kosten beim Verwerfen von Handlungssträngen nötig sind.


Und eines kann ich nun wirklich nicht mehr hören: Wenn Leute, die in Verlagen arbeiten, erklären, die Qualität bei solchen Experimenten könne doch eh nie an das herankommen, was ihre menschlichen Autor:innen zu schreiben fähig seien. Kann eine solche Aussage im Jahr 2025 tatsächlich noch darauf zurückgeführt werden, dass man es wirklich nicht besser weiß? Man wird doch wohl nicht gerade erst die wertvollen Daten, die man im Archiv hat, an OpenAI verscherbelt haben, ohne davor zumindest mal ausprobiert zu haben, was man damit eigentlich selbst bewerkstelligen könnte? Ich frage mich da manchmal, ob das vorauseilender Gehorsam gegenüber einer Industrie ist, die von menschlichen Kreativen nicht viel hält und der man insgeheim Recht gibt – sodass man gar nicht an die eigene Zukunft als kulturvermittelnde Institution glaubt und einfach nochmal Reibach machen möchte, ehe eh alles den Bach hinter geht? Nur mal so als Hausnummer: Es kostet gerademal etwas mehr als 1€, um GPT-4o mit 100 Sonetten von August Wilhelm Schlegel feinzujustieren – und schon spuckt es brav innerhalb einer Sekunde ein Sonnet mit dem Schema ABBA ABBA CDC CDC aus. Davon kann man sich dann eine ganze Hand voll geben lassen, ehe die Kasse ganze 0,01€ anzeigt. Wenigstens ein bisschen Fanfiction hätte ich da gerne von Seiten des Verlags, die Möglichkeit mir aufgrund der drei kanonischen Sams-Bücher ein neues (noch ein erträgliches!) schreiben zu lassen, etwa. Kurz: Man hat eben nicht „ausprobiert,“ was technisch heute möglich ist, nur weil mal in ChatGPT mal gebeten hat, es möge bitte einen Roman schreiben.


Nur, falls dies jemand liest, der noch nicht weiß, was ich dazu denke: Ich bin nicht der Meinung, dass KI menschliche Autor:innen ersetzen wird. Weil Menschen eben nicht lesen, um irgendwelche Texte zu verarbeiten, sondern um am Selbstausdruck eines anderen Menschen und an einem kulturellen Diskurs teilzuhaben. Aber es kostet doch mindestens mal unnötige Ressourcen im Kampf für die Stärkung einer ohnehin stark geschwächten Kulturlandschaft, Scheindebatten zu führen, in denen im Brustton der Überzeugung von technisch angeblich nicht Möglichem gefaselt wird. (Oder immer nur über das Copyright.)


Soweit mein kurzer Rant. Meine Prognose für 2025 ist aber eben letztlich doch eine positive: Nämlich, dass sich bis dahin – endlich! – herumgesprochen haben wird, was große Sprachmodelle eigentlich sind und wie zumindest simpel aufgebaute KI-Agenten durchaus Produkte für wenig Geld generieren können, wie wir sie bisher nur von menschlichen Kreativen kannten. Und dann können wir ja nochmal neu darüber reden, was es jetzt eigentlich braucht … oder auch erstmal, was und wer wir eigentlich sind.

0 Kommentare

Commentaires


Newsletter

Vielen Dank!

  • Facebook
  • Instagram
  • Twitter

©2021 Christoph Heilig. Erstellt mit Wix.com

bottom of page