Zum Inhalt springen

Autoren benutzen KI als Schreibmaschine. Sie sollte Lektor sein.

Bei einem 80.000-Wort-Roman fällt jedes große Sprachmodell auf der Mittelposition unter 56 Prozent Trefferquote. Wer KI Prosa schreiben lässt, hat den falschen Job vergeben, die richtige Rolle ist eine andere.

Autoren benutzen KI als Schreibmaschine. Sie sollte Lektor sein.

Die TACL-Studie “Lost in the Middle” von Liu et al. aus 2024 (arXiv 2307.03172) hat einen Effekt sauber vermessen, der für jeden Roman entscheidend ist: GPT-3.5-Turbo fiel in einem 20-Dokumente-Kontext auf unter 56,1 Prozent Trefferquote, sobald das relevante Dokument in der Mitte stand. Schlechter als das Closed-Book-Ergebnis desselben Modells. Bei Key-Value-Retrieval brachen einzelne Modelle von nahezu hundert Prozent auf unter vierzig Prozent ein. Das Muster ist U-förmig. Anfang und Ende des Kontexts werden stark gewichtet, die Mitte wird systematisch übergangen.

Ein typischer Roman hat 80.000 Wörter. Das ist die Mitte. Genau dort, wo Figurenbögen sich schließen, wo das Versprechen aus Kapitel 3 in Kapitel 27 eingelöst werden muss, schaut das Modell weg.

Warum jeder KI-Roman bis Kapitel 12 funktioniert und dann auseinanderfällt

Die ersten zehntausend Wörter sind das Paradies der Sprachmodelle. Der Kontext ist überschaubar, jede Figur frisch eingeführt, jede Setzung ohne Vorgeschichte. Das Modell schreibt souverän. Wer einmal mit ChatGPT, Claude oder Gemini ein Romanprojekt begonnen hat, kennt das Gefühl: Es läuft. Bis ungefähr Kapitel zwölf.

Dann passieren drei Dinge gleichzeitig. Eine Nebenfigur, die in Kapitel 4 als Schwester eingeführt wurde, wird in Kapitel 14 zur Cousine. Ein Schwur, den die Hauptfigur in Kapitel 7 abgelegt hat, wird in Kapitel 18 sang- und klanglos gebrochen, ohne dass das Modell die Spannung daraus zieht. Eine geographische Setzung verschiebt sich: Die Stadt, in Kapitel 2 am Meer angesiedelt, wird zur Bergregion, weil das letzte Kapitel ein Klettererlebnis verlangt.

Das ist kein Stilproblem. Es ist ein Aufmerksamkeitsproblem, exakt das, was Liu, Lin und Hewitt gemessen haben. Die Information aus Kapitel 4 liegt im Mittelfeld des Kontexts, wenn das Modell Kapitel 14 schreibt. Und das Mittelfeld ist genau die Zone, in der die Trefferquote unter sechsundfünfzig Prozent fällt.

Was Amazon im September 2023 lernen musste

Amazon KDP hat am 18. September 2023 die täglichen Uploads pro Autor auf maximal drei Bücher begrenzt. Das war die Direktreaktion auf eine Flut KI-generierter Titel, die in zwei Kategorien die Bestsellerlisten überrollten: Diätratgeber und Young-Adult-Romane. Beides Genres, in denen Konsistenz über mittlere Distanzen relativ unkritisch ist. Bei Diätratgebern gibt es kaum durchgehende Figurenbögen. Bei Young-Adult-Romanen kaschiert das Genre-Tempo viele Kontinuitätsbrüche.

Das eigentliche Signal liefern die Conversion-Zahlen. Laut Publishers Weekly und Authors Guild erzielen Bücher mit echter narrativer Substanz eine viermal höhere Conversion-Rate als rein KI-generierte Titel. Die Leser kaufen weiter, wenn sie an etwas hängenbleiben. Sie brechen ab, wenn die Figur in Kapitel 14 plötzlich anders heißt als in Kapitel 4.

Der Markt hat das Problem also doppelt gemessen. Einmal als Schwemme an der Spitze der Plattform und einmal als Kaufverhalten am unteren Ende der Conversion-Trichter. Beide Datenpunkte zeigen in dieselbe Richtung: KI-generierte Prosa skaliert in der Produktion, aber nicht in der Bindung.

Sudowrite Muse 1.5 und Novelcrafters Codex denken die Aufgabe neu

Im Juni 2025 hat Sudowrite Muse 1.5 veröffentlicht, ein proprietäres Modell, das gezielt auf Romanen feingestimmt wurde. Die Daten aus Blindtests sind eindeutig: vierzig Prozent längere Szenen als generische Modelle, zwei zu eins Präferenz gegenüber Claude 3.7 Sonnet. Spannender als die Benchmarks ist aber, was Muse 1.5 in einem Reviewtest gezeigt hat: Das Modell referenzierte automatisch die dokumentierte Höhenangst einer Figur in einer späteren Bergszene, ohne dass der Schreibende das im Prompt erwähnt hatte. Die Information lag in der Story Bible, nicht im rohen Manuskripttext.

Novelcrafter geht seit Februar 2025 denselben Weg mit der Codex-Datenbank. Charakternamen, Beziehungen, Weltregeln und Schauplätze lassen sich als strukturierte Einträge pflegen, beim Schreiben spielt das System gezielt die für die aktuelle Szene relevanten Einträge in den Kontext. Nicht das ganze Manuskript. Nur was die Szene braucht.

Der Markt bewegt sich messbar. Weg von “die KI schreibt den Roman” und hin zu “die KI verwaltet das Gedächtnis des Romans”. Das ist keine Wortklauberei. Es ist eine andere Aufgabe, ein anderes Toolset, ein anderer Preisbereich.

Das Kontext-Fenster wird größer. Das Problem auch.

Das naheliegende Gegenargument lautet: Die Kontextfenster wachsen schneller als die Manuskripte. Gemini 2.5 Pro verarbeitet eine Million Tokens, ein 80.000-Wort-Roman passt mit rund hunderttausend Tokens locker hinein. Problem gelöst, oder?

Nein. Chroma Research hat 2024 unter dem Titel “Context Rot” gezeigt, dass Modelle mit ein bis zwei Millionen Token Fenstergröße bereits ab hunderttausend Tokens mit über fünfzig Prozent Performance-Einbruch kämpfen. Kontextgröße und Kontextnutzung sind verschiedene Probleme. Das eine wird durch Speicher gelöst. Das andere durch Aufmerksamkeitsmechanik. Und die Aufmerksamkeitsmechanik in Transformer-Architekturen privilegiert nach wie vor die Ränder des Kontexts.

Du kannst dem Modell den ganzen Roman geben. Es liest nur Anfang und Ende.

Was an die KI gehört, was nicht

Wenn die Diagnose stimmt, dann lässt sich die Arbeitsteilung präzise aufschreiben. Vier Aufgaben, bei denen KI im Mai 2026 wirklich liefert:

Erstens: Kontinuitätsprüfung. Eine Story Bible, die Figurenprofile, Beziehungen, Weltregeln strukturiert sammelt und vom Modell bei jeder Szene gezielt befragt wird, fängt die Brüche auf, die das menschliche Auge nach 80.000 Wörtern nicht mehr sieht.

Szenenredaktion ist die zweite Aufgabe. Ein vom Menschen geschriebener Rohtext, gegengelesen vom Modell mit der Frage “Welche Spannung verspricht der Anfang dieser Szene und löst der Schluss sie ein?”. Das ist der klassische Lektorenblick, den Muse 1.5 strukturell liefern kann.

Drittens: Dialogvariation. Drei Versionen einer Replik in unterschiedlichen Tonlagen, damit der Autor entscheidet, welche zur Figur passt. Hier ist die KI in ihrem natürlichen Habitat: kurze Texte, breiter Kontext, viele Optionen.

Und zuletzt die Recherche-Verdichtung. Historische Setzung, juristische Fakten, geografische Details, was klassisch im Notizbuch landete, wandert in einen strukturierten Codex-Eintrag, den das System beim Schreiben automatisch einspielt.

Drei Aufgaben, die an der Seite des Menschen bleiben:

Die Stimme. Was eine Figur unverkennbar macht, ist die Summe ihrer Eigenheiten. Sie entstehen nicht aus dem Mittel der Trainingsdaten, sondern aus der bewussten Setzung des Autors gegen das Erwartbare.

Der Spannungsbogen. Welche Information wann gegeben wird, welche Frage wann beantwortet wird, ist eine kompositorische Entscheidung über das gesamte Buch hinweg. Genau die Achse, auf der das Modell systematisch wegschaut.

Das Ende. Die Auflösung, die das Versprechen aus Kapitel eins einlöst, lebt davon, dass der Autor beide Punkte gleichzeitig im Kopf hat. Das Modell hat sie nicht.

Der Job war von Anfang an ein anderer

Wer 2026 KI für den falschen Job benutzt, schreibt einen Roman, der bis Kapitel zwölf liest wie geschrieben und ab Kapitel dreizehn wie generiert. Die Diagnose ist mittlerweile sauber gemessen, der Markt hat reagiert, und die Tools, die den richtigen Job machen, existieren mit Namen und Versionsnummer.

Wer regelmäßig Einordnungen lesen will, die zwischen Pauschallob und Pauschalkritik eine konkrete Arbeitsteilung herausarbeiten, findet im KI-Syndikat-Newsletter jede Woche ein Stück, das genau diese Linie zieht.

Die Frage ist nicht, ob KI an deinen Schreibtisch gehört. Sie gehört dahin. Die Frage ist, an welchen Stuhl. Den des Autors hat sie nicht verdient. Den des Lektors, des Kontinuitätswächters und des Recherche-Assistenten hat sie sich erarbeitet.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Aftershoot hat 89 Millionen Bearbeitungsstunden gespart. Aber nicht für dich.

Der Aftershoot Snapshot Report 2025 nennt eine Zahl, die der Fotografenbranche unangenehm sein sollte: 473 Stunden eingesparte Bearbeitungszeit pro aktivem Nutzer. KI hat den Markt nicht demokratisiert. Sie hat ihn bimodal gespalten.

4 Min.

Das Hook-Paradox: KI ist im YouTube-Workflow stark, wo niemand zusieht

55% aller YouTube-Videos verlieren ihre Zuschauer in den ersten 60 Sekunden, zeigt eine Retention-Rabbit-Analyse von über 10.000 Videos. Genau dort versagt KI am deutlichsten, und genau dort entscheidet YouTube über Reichweite und Monetarisierung.

5 Min.

Claude Code: Der Editor ist nicht mehr der Arbeitsplatz

46% der Entwickler nennen Claude Code als ihr meistgeliebtes KI-Tool, GitHub Copilot kommt auf 9%. Die eigentliche Verschiebung passiert nicht im Ranking, sondern dort, wo Code überhaupt entsteht.

7 Min.

Wenn die KI sich erinnert, gehört das Wissen plötzlich nicht mehr dem Unternehmen

Persistentes KI-Gedächtnis ist keine Komfortfunktion, sondern eine neue Asset-Klasse. Sie entsteht zwischen Mitarbeiter und Modell. Und in den AGB von OpenAI, Anthropic und Google gehört sie weder dem Arbeitgeber noch dem Anbieter.

6 Min.

AI-DevOps ist nicht DevOps: Warum deine LLM-App still degradiert

Stanford und UC Berkeley haben gemessen, wie GPT-4 in drei Monaten von 52 auf 10 Prozent ausführbarem Code gefallen ist. Gleicher Modellname, gleicher Provider. Klassisches DevOps-Monitoring sieht das nicht.

7 Min.

Auch auf Deutsch denkt deine KI auf Englisch, und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark trennt GPT-4o auf Deutsch und Englisch eine Lücke von 5,1 Prozentpunkten. Hinzu kommt ein Token-Aufschlag von 50 Prozent. Warum dein deutscher Prompt eine messbare Englisch-Steuer zahlt.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar