Zum Inhalt springen

Prompt Caching ist kein Rabatt. Es ist die Bedingung, unter der Agent-Loops überhaupt rechnen.

Die 90-Prozent-Ersparnis bei Prompt Caching ist eine Single-Call-Metrik. Die wahre ökonomische Wirkung liegt in Agent-Loops, wo Caching die quadratisch wachsenden Token-Kosten in eine lineare Kurve verwandelt.

Prompt Caching ist kein Rabatt. Es ist die Bedingung, unter der Agent-Loops überhaupt rechnen.

Zehn Turns, ein Agent, ein 50.000-Token-Kontext. Ohne Caching summieren sich die Input-Tokens auf rund 522.500. Bei Claude Sonnet 4.6 (3 Dollar pro Million Tokens) sind das 1,57 Dollar. Mit Caching: ein Cache-Write für 0,19 Dollar plus neun Cache-Reads zu je 0,015 Dollar. Macht 0,34 Dollar. Selbe Konversation, 78 Prozent weniger Kosten.

Diese Zahl stammt aus einer Studie von Lumer et al. (PwC, arXiv 2601.06007v2, Januar 2026), die 500 Agent-Sessions ausgewertet hat. Bei Claude Sonnet 4.5 lag die durchschnittliche Ersparnis bei 78,5 Prozent, bei GPT-5.2 bei 79,6 Prozent. Bei 50.000-Token-Kontexten kletterte sie auf 88 bis 89 Prozent.

Du liest das vermutlich als Bestätigung dessen, was Anthropic auf der Pricing-Seite verspricht: bis zu 90 Prozent Ersparnis. Das ist die falsche Lesart.

Die 90-Prozent-Zahl ist eine Single-Call-Metrik

Anthropic vermarktet Prompt Caching als Cost-Optimization-Feature. Cache-Reads kosten 10 Prozent eines normalen Input-Tokens, Cache-Writes 25 Prozent extra. Wer das auf einen einzelnen API-Call anwendet, rechnet das prozentuale Delta zwischen Cache-Hit und Cache-Miss aus und landet bei 90 Prozent. Mathematisch korrekt. Praktisch irreführend.

Der Grund: Single-Call-Workloads sind nicht der Normalfall, an dem heute Geld verbrannt wird. Der Normalfall ist die Agent-Loop. Ein Tool-Use-Cycle, in dem das Modell bei jedem Turn den vollständigen bisherigen Konversationsverlauf wieder als Input bekommt, eine neue Tool-Antwort verarbeitet und einen weiteren Schritt plant.

Die Kostenkurve dieses Setups wächst nicht linear mit der Zahl der Turns. Sie wächst quadratisch. Bei Turn n werden alle Tokens aus den Turns 1 bis n-1 nochmal mitgesendet. Das ist die O(n²)-Falle, und sie ist der eigentliche ökonomische Kontext, in dem Caching gehört.

Die wahre Wirkung: aus quadratisch wird linear

Rechne es konkret nach. Ein Agent mit 50.000 Token Systemprompt und Tool-Definitionen, der zehn Schritte braucht, um eine Aufgabe abzuschließen. Bei jedem Turn kommen vielleicht 500 neue Tokens dazu (Tool-Result, Reasoning). Der akkumulierte Input über zehn Turns:

  • Turn 1: 50.000 Tokens
  • Turn 2: 50.500 Tokens
  • Turn 3: 51.000 Tokens
  • Turn 10: 54.500 Tokens

Summe: rund 522.500 Tokens. Ohne Caching zahlst du dreimal: für die initiale Aufgabe, für den wiederholten Kontext und für den Wiedereintritt in jeden Folge-Turn. Mit Caching schreibst du den 50.000-Token-Prefix einmal in den Cache (Faktor 1,25 auf den Input-Preis) und liest ihn neunmal zurück (Faktor 0,1). Die Kostenkurve wird linear mit der Zahl der Turns, nicht quadratisch.

Bei zwanzig Turns wird der Effekt brutaler. Bei fünfzig Turns trägt nur noch die Linearisierung deine Marge. Wer einen Coding-Agent oder Research-Agent ohne Caching betreibt, baut keine Software, die in Produktion ökonomisch tragfähig ist.

Der TTL-Bug, der einem Anwender 2.530 Dollar gekostet hat

Am 6. März 2026 hat Anthropic den Default-Cache-TTL still von 60 Minuten auf 5 Minuten reduziert. Ohne Announcement, ohne Changelog-Eintrag in der API-Dokumentation. Ein dokumentierter Anwender hat die Konsequenz auf byteiota.com (April 2026) und in GitHub Issue #46829 von anthropics/claude-code öffentlich gemacht: 2.530,88 Dollar zusätzliche Kosten über 119.866 API-Calls in einem Monat. Der Cache-Overhead-Anteil sprang von 1,1 Prozent (Februar, 1-Stunden-TTL) auf 25,9 Prozent (März, 5-Minuten-TTL). Das ist eine effektive Cache-Effizienz-Verschlechterung um 92 Prozent.

Claude-Code-Max-User berichteten gleichzeitig, dass ihr Token-Budget nach 19 Minuten erschöpft war statt nach 5 Stunden. Der Mechanismus dahinter ist trivial: Bei 5 Minuten TTL läuft der Cache zwischen Tool-Aufruf und LLM-Antwort regelmäßig ab. Jeder Cache-Miss erzwingt einen erneuten Cache-Write zum 1,25-fachen Preis. Eine Session, die unter 60 Minuten TTL ein einziges Mal cacht und neun Mal liest, schreibt unter 5 Minuten TTL drei oder vier Mal komplett neu.

Caching ist kein Set-and-Forget-Feature. Provider-Defaults verändern sich still, und die Kosten reagieren nichtlinear. Wer auf Caching baut, muss die Cache-Hit-Rate als Production-Metrik tracken, nicht das API-Bill am Monatsende.

Anthropic hat den 1-Stunden-Cache buchbar gemacht (gegen Aufpreis)

Die Reaktion auf das TTL-Problem kam mit dem Beta-Header extended-cache-ttl-2025-04-11 am 11. April 2025: explizit buchbare 1-Stunden-Caches. Cache-Write kostet dort das Doppelte des Input-Preises (statt 1,25-fach), Cache-Read bleibt bei 0,1-fach. Amazon Bedrock hat die 1-Stunden-TTL im Januar 2026 nachgezogen.

Die Logik dieser Preisstruktur lohnt einen zweiten Blick. Anthropic verlangt für längeren Cache mehr beim Schreiben, nicht beim Lesen. Das ist konsistent mit der Annahme, dass die teure Operation das Vorhalten des Cache-Eintrags ist, nicht der Zugriff. Für lange Agent-Loops mit hoher Read-Frequenz ist der erweiterte TTL trotz höherem Write-Preis ökonomisch dominiert: einmal teurer schreiben, neunmal günstig lesen schlägt fünfmal billiger schreiben, fünfmal günstig lesen.

Diskutiert wird inzwischen Semantic Caching jenseits von Prefix-Match. Also Cache-Hits auf semantisch äquivalente Prompts, nicht nur auf Byte-für-Byte-Identität. Ob das jemals in der Anthropic-API landet, ist offen. Aktuell gilt: Wenn der Prefix sich um ein Byte ändert, hast du keinen Cache.

Das Gegenargument: für RAG ist 90 Prozent real und genug

Ein Workload existiert, bei dem die “nur ein Rabatt”-Lesart stimmt: RAG mit statischem Korpus, der in den Kontext passt. Single-Shot-Queries. Keine Multi-Turn-Konversation.

Die Cache-Augmented-Generation-Bewegung von 2025 hat gezeigt: Bei Korpora unter etwa 200.000 Tokens, die sich nicht stündlich ändern, schlägt vollständiges Context-Stuffing mit gecachtem Kontext klassisches RAG um 15 bis 20 Prozent in der Accuracy. Ohne Embedding-Latenz, ohne Vector-Store-Maintenance. Hier funktioniert die 90-Prozent-Logik direkt: Du cachst dein gesamtes Wissensdokument einmal pro Stunde, jede Query liest es zum 0,1-Faktor.

Aber dieses Argument trägt nur unter drei gleichzeitig erfüllten Bedingungen: erstens ein statischer Korpus, zweitens ein Korpus, der ins Kontextfenster passt, drittens kein Multi-Turn-Agent-Loop. Sobald eine Bedingung kippt (und in Produktionssystemen kippt fast immer eine), flippt die Logik. Aus dem Single-Call-Rabatt wird das O(n²)-Problem, und die 90-Prozent-Zahl wird zur Falle.

Die Production-Trap, die niemand im Code sieht

Anthropic erlaubt maximal vier explizite Cache-Breakpoints pro Request. Das Lookback-Window beträgt 20 Positionen: Findet die API innerhalb der letzten 20 Cache-Einträge keinen Match, ist es ein Cache-Miss. Selbst wenn der Inhalt identisch ist. Jeder Cache-Read refresht den TTL-Timer kostenlos. So weit die Spezifikation.

Der Bug, der Geld kostet, sitzt eine Ebene tiefer. Ein einziges dynamisches Element im Prefix bricht den Cache komplett. Ein Timestamp im Systemprompt. Eine User-ID. Eine Tool-Liste, die bei jedem Request anders sortiert wird. Die API merkt nichts davon, sie sieht nur einen veränderten Prefix und schreibt neu.

Ein dokumentierter Fall: Ein JSON-Serializer hat seine Keys bei jedem Request in unterschiedlicher Reihenfolge ausgegeben. Im Code stand json.dumps(tools). Im API-Wire-Format stand mal {"name": ..., "description": ...}, mal {"description": ..., "name": ...}. Ein 20.000-Token-Cache wurde bei jedem Aufruf invalidiert. Im Code war das nicht zu sehen. In der monatlichen Rechnung war es das Einzige, was zu sehen war.

Das ist die Lehre, die nicht in der Pricing-Doku steht. Caching ist kein Switch. Es ist eine Architektur-Disziplin, die Determinismus im Prefix erzwingt und Nicht-Determinismus ans Ende des Prompts schiebt. Wer die Disziplin nicht hat, zahlt nicht 90 Prozent weniger. Wer sie hat, betreibt Agent-Loops, die in Produktion ökonomisch funktionieren. Der Unterschied ist nicht ein Rabatt, sondern die Frage, ob das System überhaupt baubar ist.

Wer regelmäßig Analysen zur ökonomischen Mechanik von LLM-APIs lesen will (TTL-Verhalten, Cache-Strategien, Provider-Vergleiche im Production-Kontext), findet im KI-Syndikat Newsletter jede Woche eine Einordnung, die unter die Marketing-Zahlen schaut.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Claude Code: Der Editor ist nicht mehr der Arbeitsplatz

46% der Entwickler nennen Claude Code als ihr meistgeliebtes KI-Tool, GitHub Copilot kommt auf 9%. Die eigentliche Verschiebung passiert nicht im Ranking, sondern dort, wo Code überhaupt entsteht.

7 Min.

AI-DevOps ist nicht DevOps: Warum deine LLM-App still degradiert

Stanford und UC Berkeley haben gemessen, wie GPT-4 in drei Monaten von 52 auf 10 Prozent ausführbarem Code gefallen ist. Gleicher Modellname, gleicher Provider. Klassisches DevOps-Monitoring sieht das nicht.

7 Min.

Property-Reihenfolge kostet 27 Prozentpunkte Accuracy. Schema-Design ist keine Nebensache.

Allein die Reihenfolge der Properties in einem JSON-Schema senkt GPT-3.5-Turbos Accuracy auf GSM8K von 76,60 auf 49,25 Prozent. Constrained Decoding garantiert valide Syntax. Den Rest verbockt das Schema selbst.

6 Min.

Function-Calling-Benchmarks messen Genauigkeit. Nicht Zuverlässigkeit.

Auf dem Berkeley Function Calling Leaderboard v4 stagnieren die Top-Modelle bei rund 70 Prozent. OpenAIs Structured Outputs liefern dagegen 100 Prozent Schema-Compliance. Das Delta ist kein Modellproblem, sondern eine Architekturentscheidung.

6 Min.

LangChain hat 2026 ein Problem: Wenn das SDK schon kann, was das Framework versprach

AImultiple-Benchmark 2025: LangChain produziert 53 Prozent mehr Token-Overhead pro Query als Haystack, bei identischem Modell und identischem Retriever. Der Grund, warum LangChain einmal überlegen war, ist genau der Grund, warum es heute Schulden produziert.

7 Min.

Wenn die KI sich erinnert, gehört das Wissen plötzlich nicht mehr dem Unternehmen

Persistentes KI-Gedächtnis ist keine Komfortfunktion, sondern eine neue Asset-Klasse. Sie entsteht zwischen Mitarbeiter und Modell. Und in den AGB von OpenAI, Anthropic und Google gehört sie weder dem Arbeitgeber noch dem Anbieter.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar