Zum Inhalt springen

Gemini 3.1 Pro: Stark in Benchmarks, schwach in der Mitte

Gemini 3.1 Pro erreicht 90,99 Prozent in MMLU-Pro und 80,6 Prozent in SWE-bench Verified. Bei langen Dokumenten verliert das Modell aber 20 bis 50 Prozent Retrieval-Genauigkeit. Was das für die Modellwahl 2026 heißt.

Gemini 3.1 Pro: Stark in Benchmarks, schwach in der Mitte

Gemini 3.1 Pro liefert laut Google DeepMind 90,99 Prozent in MMLU-Pro, 80,6 Prozent in SWE-bench Verified und 112 Tokens pro Sekunde Ausgabegeschwindigkeit. Das Kontextfenster fasst 2 Millionen Tokens. Der Preis liegt bei 2 US-Dollar pro Million Input-Tokens und 12 US-Dollar pro Million Output-Tokens unter 200K Kontext, darüber bei 4 und 18 US-Dollar. Das ist Googles bisher stärkstes Modell, und es ist in den meisten aggregierten Benchmarks konkurrenzfähig.

Es hat aber eine dokumentierte Schwäche, die in der Modellwahl untergeht, wenn man nur auf die Headline-Zahlen schaut. Bei Dokumenten zwischen 10.000 und 100.000 Tokens sinkt die Retrieval-Genauigkeit um 20 bis 50 Prozent. Der Grund ist kein Gemini-spezifischer Bug. Er ist strukturell.

Was das Modell auf dem Papier kann

Die Spitzenwerte sind real. 90,99 Prozent in MMLU-Pro bedeutet, dass Gemini 3.1 Pro auf einem anspruchsvollen Mehrfach-Domänen-Test konsequent Top-Tier-Fähigkeit zeigt. Die 112 Tokens pro Sekunde sind kein Marketing-Wert, sondern eine gemessene Größe aus dem Frühjahr 2026. Und das 2-Millionen-Token-Kontextfenster ist das größte am Markt, größer als alles, was OpenAI oder Anthropic aktuell ausliefern.

Beim Code-Reasoning sieht die Lage anders aus. Gemini 3.1 Pro erreicht in SWE-bench Verified 80,6 Prozent. Claude Opus 4.7 kommt im selben Benchmark auf 87,6 Prozent. Das sind sieben Prozentpunkte Differenz, gemessen an einer Aufgabenklasse, die für Entwickler-Workflows zentral ist. Wer ein Modell vor allem für Code-Generierung evaluiert, muss diesen Abstand kennen.

Auch beim Preis lohnt der Blick auf die Staffelung. Unter 200K Kontext ist Gemini 3.1 Pro mit 2 US-Dollar Input deutlich günstiger als die Frontier-Konkurrenz. Über 200K Kontext steigt der Preis auf 4 US-Dollar Input und 18 US-Dollar Output. Das ist immer noch deutlich unter GPT-5.5, das im selben Bereich bei rund 10 US-Dollar Input und 30 US-Dollar Output liegt (Stand Frühjahr 2026). Bei Long-Context-Tasks ist Gemini 3.1 Pro damit etwa 60 Prozent günstiger als GPT-5.5.

Lost in the Middle: warum das Kontextfenster nicht reicht

Die Schwäche heißt “Lost in the Middle”. Liu et al. haben das Phänomen 2024 in TACL (arXiv 2307.03172) systematisch dokumentiert. Bei Dokumenten zwischen 10.000 und 100.000 Tokens sinkt die Retrieval-Genauigkeit von Transformer-Modellen um 20 bis 50 Prozent. Informationen am Anfang und Ende des Inputs werden zuverlässig gefunden. Informationen in der Mitte werden systematisch unterschätzt.

Das ist kein Bug, sondern eine Eigenschaft der Aufmerksamkeitsverteilung in großen Transformer-Architekturen. Und es betrifft alle Frontier-Modelle, nicht nur Gemini.

Und das 2-Millionen-Token-Fenster löst dieses Problem nicht. Im Gegenteil, die Kapazität wächst, das Aufmerksamkeitsmuster bleibt. Wer ein 800-Seiten-Vertragswerk in einem einzigen Call an Gemini 3.1 Pro gibt und in Seite 412 nach einer Klausel fragt, bekommt mit hoher Wahrscheinlichkeit eine schlechtere Antwort als bei einem Dokument, in dem die Klausel auf Seite 5 oder Seite 800 steht. Das Kontextfenster sagt: Ich kann das alles aufnehmen. Die Aufmerksamkeitsverteilung sagt: Ich verarbeite die Mitte schlechter als die Ränder.

Das Gegenargument: ist das nicht ein altes Problem?

Ein häufiges Gegenargument lautet: Lost in the Middle sei ein Benchmarking-Artefakt aus 2023, moderne Modelle hätten es längst gelöst. Stimmt nicht. Die Liu-Studie ist in der TACL-Version von 2024 aktuell, und unabhängige Tests bei Patronus AI sowie im HELM-Benchmark bestätigen das Muster für GPT-4o, Gemini 1.5 Pro und Claude 3.5 Sonnet bis 2025. Das Phänomen ist persistent.

Was sich verändert hat: Die Kontextfenster sind massiv gewachsen. Gemini 3.1 Pro mit 2 Millionen Tokens, andere Modelle bei 1 Million oder 200K. Das Aufmerksamkeitsmuster ist nicht mit derselben Geschwindigkeit besser geworden. Anders gesagt: Das Fenster wächst schneller als die Fähigkeit, das Fenster gleichmäßig zu nutzen.

Wer Gemini 3.1 Pro für Document Intelligence über mehrere hunderttausend Tokens einsetzt, muss diesen Effekt einpreisen. Sonst zahlst du für ein Kontextfenster, dessen Mitte du nicht zuverlässig adressieren kannst.

Die Preisrechnung, die für Long-Context-Workloads aufgeht

Gerade weil der Long-Context-Bereich technisch nicht trivial ist, lohnt der Blick auf die Wirtschaftlichkeit. Bei großen Volumen ist Gemini 3.1 Pro für Tasks über 200K Kontext rund 60 Prozent günstiger als GPT-5.5. Das ist relevant, sobald ein Unternehmen Document-Intelligence-Pipelines oder RAG über große Korpora aufbaut.

Die Bedingung: Die Pipeline muss das Middle-Penalty-Problem umgehen. In der Praxis heißt das Chunking plus Reranking statt naiver Long-Context-Retrieval. Du brichst das Dokument in kleinere semantische Einheiten, lässt einen Retriever die relevanten Chunks identifizieren und gibst nur diese an Gemini 3.1 Pro. Damit nutzt du den Preis-Vorteil, ohne die Aufmerksamkeitsschwäche zu treffen. Wer dagegen 1,5 Millionen Tokens roh in einen Call wirft und auf das große Fenster vertraut, verbrennt das Geld.

Wann Gemini 3.1 Pro die richtige Wahl ist

Drei Anwendungsmuster sprechen klar für Gemini 3.1 Pro im Mai 2026.

Long-Context-Tasks mit gut konstruiertem Retrieval. Wenn du eine RAG-Pipeline mit Chunking und Reranking betreibst, kombinierst du das große Fenster mit dem niedrigen Preis pro Token. Der Aufmerksamkeits-Bias in der Dokumentmitte spielt keine Rolle, weil du dem Modell ohnehin nur die relevanten Chunks gibst.

Hochvolumige Inferenz mit Latenz-Anforderungen. 112 Tokens pro Sekunde Ausgabegeschwindigkeit sind ein operativer Vorteil bei Anwendungen, in denen Antworten in Sekunden statt zweistelligen Sekunden ankommen müssen. Bei Suche, interaktiven Assistenten und Live-Übersetzungen zählt der Wert.

Allgemeine Wissens- und Mehrfach-Domänen-Aufgaben. Mit 90,99 Prozent in MMLU-Pro liefert das Modell Top-Tier-Reasoning bei deutlich niedrigerem Preis als die Konkurrenz. Wer ein Modell für breite Standardaufgaben sucht und keinen Code-Generator braucht, hat hier ein starkes Preis-Leistungs-Verhältnis.

Wann Gemini 3.1 Pro die falsche Wahl ist

Drei Muster sprechen dagegen.

Reine Code-Generierung als Hauptanwendungsfall. Sieben Prozentpunkte SWE-bench-Differenz zu Claude Opus 4.7, das klingt klein. In Entwicklungs-Pipelines, die Pull Requests automatisieren oder Refactoring-Vorschläge generieren, ist es der falsche Hebel.

Naive Long-Context-Verarbeitung ohne Retrieval-Architektur. Wenn dein Plan lautet “wir kippen das ganze Vertragswerk in einen Call und fragen am Ende”, ist der 2-Millionen-Token-Vorteil kein Vorteil. Du bezahlst für eine Kapazität, die du wegen der Aufmerksamkeitsverteilung nicht stabil nutzen kannst.

Compliance-kritische Drafts in regulierten Branchen. Wer juristische Texte oder Bankenkommunikation generiert, hat bei Claude Opus 4.7 mit Constitutional AI eine andere Verlässlichkeit der Selbst-Constraints. Das ist kein Gemini-Problem im engeren Sinn, aber ein Argument gegen Gemini in diesem spezifischen Slot.

Die eigentliche Erkenntnis

Es gibt 2026 kein “bestes Modell”. Es gibt das beste Modell für eine bestimmte Aufgabenklasse. Gemini 3.1 Pro ist für Long-Context-Workloads mit sauberer Retrieval-Architektur die wirtschaftlich überlegene Wahl. Für reine Code-Generierung ist es Claude Opus 4.7. Für naive Document-Dumps ist keines dieser Modelle die richtige Antwort, weil das Middle-Penalty-Problem alle Frontier-Architekturen betrifft.

Die Modellwahl 2026 ist eine Aufgaben-Wahl. Wer das nicht trennt, kauft die Headline-Benchmarks und merkt im Deployment, dass die Zahlen nicht halten, was die Pressemeldung versprochen hat.

Wer solche Einordnungen regelmäßig sucht, Modellwahl gegen Deployment-Realität gegengerechnet, mit den Zahlen, die in den Marketing-Folien fehlen, findet im KI-Syndikat Newsletter jede Woche eine Analyse, die genau diesen Schritt macht.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Perplexity lässt drei KI-Modelle abstimmen. Das schlägt jeden Einzelanbieter.

Seit dem 6. Februar 2026 beantwortet Perplexitys Model Council Anfragen mit Claude, GPT und Gemini parallel. Eine ACL-Studie aus 2025 zeigt: Voting schlägt das beste Einzelmodell auf Reasoning um 13,2 Prozentpunkte. Wer 'welches Modell?' fragt, hat die falsche Frage gewählt.

5 Min.

NotebookLM: Eigene Dokumente mit KI verstehen (Anleitung)

NotebookLM von Google durchsucht deine eigenen Dokumente per KI, ohne Halluzinationen aus fremden Quellen. Schritt für Schritt erklärt, mit Quellenangaben.

6 Min.

KI-Suchmaschinen: So verändert sich Google

Google AI Mode, Perplexity, ChatGPT Search, die Suche wird intelligent. Was das für dich und dein Unternehmen bedeutet.

4 Min.

Claude, ChatGPT oder Gemini? Der ehrliche Vergleich 2026

ChatGPT, Claude und Gemini im direkten Vergleich: Stärken, Schwächen, Preise und wofür welches Modell wirklich taugt.

7 Min.

Claude Code: Der Editor ist nicht mehr der Arbeitsplatz

46% der Entwickler nennen Claude Code als ihr meistgeliebtes KI-Tool, GitHub Copilot kommt auf 9%. Die eigentliche Verschiebung passiert nicht im Ranking, sondern dort, wo Code überhaupt entsteht.

7 Min.

Wenn die KI sich erinnert, gehört das Wissen plötzlich nicht mehr dem Unternehmen

Persistentes KI-Gedächtnis ist keine Komfortfunktion, sondern eine neue Asset-Klasse. Sie entsteht zwischen Mitarbeiter und Modell. Und in den AGB von OpenAI, Anthropic und Google gehört sie weder dem Arbeitgeber noch dem Anbieter.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar