Zum Inhalt springen

KI verkürzt Forschungszyklen am Anfang, und verlängert sie hinten massiv

2024 wurden über 10.000 wissenschaftliche Paper zurückgezogen, mehr als doppelt so viele wie 2022. KI beschleunigt das Schreiben von Studien. Sie beschleunigt nicht das Prüfen. Genau da liegt das Problem.

KI verkürzt Forschungszyklen am Anfang, und verlängert sie hinten massiv

2024 wurden über 10.000 wissenschaftliche Paper zurückgezogen. Das ist ein neuer Jahresrekord, gegenüber rund 4.600 Rückzügen 2022 mehr als eine Verdopplung. Die Zahl stammt aus den Retraction-Watch-Daten in Nature News. Im selben Zeitraum sind die monatlichen Einreichungen auf arXiv von unter 20.000 vor Mai 2023 auf 24.226 im Oktober 2024 gestiegen, ein Plus von über 20 Prozent in 18 Monaten.

Die übliche Erzählung lautet: KI macht Wissenschaft schneller. Das stimmt für die ersten zwei Drittel des Forschungszyklus. Hypothesen formulieren, Code schreiben, Texte aufsetzen, Literaturübersichten zusammenstellen. Was die Erzählung verschweigt: Die letzten zwei Drittel sind menschlich begrenzt. Peer Review. Reproduktion. Nachträgliche Korrektur. Und genau diese Schritte kollabieren gerade unter dem Output, den die ersten zwei Drittel produzieren.

Drei Tage von Publikation bis Rückzug

Im Februar 2024 hat Frontiers in Cell and Developmental Biology ein Paper über JAK/STAT-Signalwege bei Spermatogonien-Stammzellen veröffentlicht. Das Paper enthielt Midjourney-generierte Abbildungen von anatomisch unmöglichen Ratten mit grotesk übergroßen Genitalien. Die Beschriftungen waren erfundene Buchstabenfolgen: “testtomcels”, “iollotte sserotgomar”, “dissilced”. Die Autoren der Hong Hui Hospital und Jiaotong University in China hatten KI-Nutzung deklariert. Die Abbildungen aber offenbar nicht überprüft.

Veröffentlicht am 13. Februar 2024. Zurückgezogen am 16. Februar 2024. Drei Tage. Aufgefallen ist es nicht den Reviewern, sondern Elisabeth Bik, einer Bildforensikerin, die den Fall in ihrem Science Integrity Digest öffentlich machte. Aus dem Editorial-Bericht ging später hervor, dass ein Reviewer Änderungen verlangt hatte. Die Autoren reagierten nicht. Das Journal publizierte es trotzdem.

Das ist kein Ausreißer, sondern die Spitze einer Pipeline, die strukturell gerade aus den Fugen gerät.

Wiley schreibt 148 Millionen Dollar ab

2021 hat Wiley den Verlag Hindawi für rund 300 Millionen Dollar übernommen. Im Mai 2024 musste Wiley 11.300 Paper aus Hindawi-Journals zurückziehen und 19 Journals komplett schließen. Der finanzielle Schaden laut Wileys eigener Q4-Mitteilung: 104 Millionen Dollar Wertberichtigung plus weitere 44 Millionen Dollar Impairment.

Was hier kollabiert ist, war kein Einzelversagen. Es war ein Geschäftsmodell. Hindawi operierte mit niedrigen Eintrittsbarrieren, schnellen Begutachtungszyklen, Open-Access-Gebühren als Erlösquelle. Genau das Profil, das Paper-Mills systematisch ausnutzen. Und Paper-Mills produzieren mit KI heute Output, der oberflächlich nicht mehr von echter Forschung zu unterscheiden ist. Eine PNAS-Analyse aus 2025 hat dokumentiert, dass Paper-Mill-Artikel sich alle 1,5 Jahre verdoppeln. Die wissenschaftliche Gesamtliteratur verdoppelt sich alle 15 Jahre. Der Faktor zehn ist die ganze Geschichte.

Warum AlphaFold das Bild komplizierter macht, aber nicht widerlegt

Das stärkste Gegenbeispiel ist AlphaFold. DeepMinds Modell hat 214 Millionen Proteinstrukturen vorhergesagt, gegenüber rund 170.000 in 60 Jahren experimentell bestimmten. Demis Hassabis und John Jumper bekamen dafür 2024 den Chemie-Nobelpreis. Wer behauptet, KI verlangsame Wissenschaft, muss erklären, wie ein einzelnes Modell die Datenbasis eines ganzen Feldes um den Faktor 1.260 vergrößern konnte.

Die Erklärung ist einfach, sobald man genau hinschaut, was AlphaFold liefert. Strukturen aus AlphaFold sind Hypothesen, keine experimentellen Befunde. Nature Methods hat das 2023 explizit so formuliert: “AlphaFold predictions are valuable hypotheses and accelerate but do not replace experimental structure determination.” Hassabis selbst sagte nach der Nobelpreis-Verkündung in der MIT Technology Review, KI brauche “Massen an hochwertigen Daten”, und solche Datensätze seien “selten”. Sein eigenes Argument bestätigt das Bottleneck. AlphaFold ist deshalb so erfolgreich, weil davor jahrzehntelang teure Kristallographie-Experimente die Trainingsdaten geliefert haben.

Anders gesagt: AlphaFold beweist, dass KI die Hypothesengenerierung dramatisch beschleunigt. Es beweist nicht, dass das Validierungs-Bottleneck verschwindet. Es beweist genau das Gegenteil. Die 214 Millionen vorhergesagten Strukturen sind so wertvoll, weil Forscher sie experimentell prüfen können, nicht weil sie es nicht müssen.

Das Problem ist nicht KI. Es ist die Asymmetrie.

Peer Review ist ehrenamtlich, langsam und an menschliche Aufmerksamkeit gebunden. Ein gewissenhaftes Review eines Methodik-Papers in den Lebenswissenschaften kostet einen erfahrenen Forscher zwischen zehn und zwanzig Stunden. Diese Zahl skaliert nicht. Du kannst nicht doppelt so viele Reviewer aus dem Hut zaubern, weil es doppelt so viele Submissions gibt.

KI-gestützte Generierung skaliert dagegen linear mit Compute. Ein Paper-Mill, der ein Sprachmodell, ein Bildmodell und ein paar Skripte kombiniert, produziert hundert Drafts pro Tag. Ein Editor, der diese hundert Drafts an Reviewer weiterleiten will, findet die Reviewer nicht. Wer schon mal eine Review-Anfrage abgelehnt hat, kennt die Mathematik aus eigener Erfahrung.

Das Resultat ist die Kombination, die wir gerade beobachten: Submissions wachsen, Review-Kapazität bleibt konstant, also entweder fallen Submissions durch ohne ernsthafte Prüfung, oder sie warten Monate. Beide Optionen sind schlecht. Die erste füllt die Literatur mit unzuverlässigem Output. Die zweite verlangsamt die seriöse Forschung weiter.

Nature hat im Januar 2023 eine KI-Offenlegungspflicht im Methodenteil eingeführt. Science hat im November 2023 nachgezogen. Beides sind Transparenzpflichten, keine Lösungen. Sie helfen nachträglich beim Aufdecken, sie skalieren das Review nicht.

Was das für Entscheidungen außerhalb der Wissenschaft bedeutet

Wer in einem Unternehmen arbeitet, das wissenschaftliche Evidenz konsumiert (Pharma, Medizintechnik, Chemie, Lebensmittel, Energie), ist vom kollabierenden Review-Prozess direkt betroffen. Drei konkrete Konsequenzen.

Erstens: Eine einzelne Publikation in einem mittelmäßigen Journal hat 2026 weniger Aussagekraft als 2020. Wer Investitionsentscheidungen auf einzelnen Studien aufbaut, bekommt jetzt häufiger ein Paper, das in zwei Jahren zurückgezogen wird. Replikationen und Meta-Analysen werden wichtiger, nicht unwichtiger.

Zweitens: Preprints sind nicht plötzlich wertlos, aber das Verhältnis zwischen Preprint und peer-reviewed Paper hat sich verschoben. arXiv-Submissions sind explodiert. Der durchschnittliche Preprint von 2024 wurde von weniger Augen kritisch angeschaut als der durchschnittliche Preprint von 2020. Wer seine Innovationsstrategie auf den neuesten Preprint baut, baut sie auf dünnerem Eis.

Drittens: Die Halbwertszeit “etablierten” Wissens sinkt. Wenn 11.300 Hindawi-Paper auf einmal aus dem Diskurs verschwinden, ist alles, was diese Paper zitiert hat, im selben Schritt schwächer geworden. Literaturübersichten von 2023 enthalten Verweise auf Studien, die 2026 nicht mehr existieren. Das ist ein Wartungsproblem, das die wenigsten Unternehmens-Wissensdatenbanken bisher kennen.

Was die Daten nicht beweisen

10.000 Rückzüge sind viel, aber sie sind im Verhältnis zur Gesamtproduktion immer noch Promille. Die meisten Paper sind weiterhin solide. Die meisten Forscher arbeiten weiter ehrlich und sorgfältig. Wer den Kollaps der gesamten Wissenschaft proklamiert, übertreibt.

Was die Daten beweisen, ist etwas Spezifischeres. Die Pipeline aus Submission, Review und Korrektur ist nicht für die aktuelle Output-Geschwindigkeit gebaut. KI verschiebt das Gleichgewicht weiter, weil sie genau die Schritte beschleunigt, die schon vorher die billigen waren, und nicht die Schritte, die teuer und limitierend sind. Solange diese Asymmetrie bestehen bleibt, wird der Anteil unzuverlässiger Publikationen weiter wachsen, auch wenn die Qualität jeder einzelnen seriösen Studie sich nicht verändert.

Forschungszyklen werden nicht insgesamt schneller. Sie werden vorne schneller und hinten langsamer. Die Daten, die du heute brauchst, werden zunehmend zu einem Zeitpunkt veröffentlicht, an dem du nicht mehr sicher weißt, ob sie in zwei Jahren noch dastehen.

Wer eine ungefilterte Einordnung solcher Entwicklungen sucht, findet im KI-Syndikat Newsletter regelmäßig Analysen, die hinter Schlagzeilen schauen, statt sie zu wiederholen.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Der Fachkräftemangel ist kein Recruiting-Problem. Er ist Mathematik.

Bis 2035 verlieren wir netto 7 Millionen Erwerbspersonen. Das schließt kein Recruiting-Programm. Warum die meisten Unternehmen KI in der falschen Kategorie buchen, und was sich ändert, wenn sie es richtig tun.

7 Min.

KI rettet das Klima, und verlängert die Laufzeit von Kohlekraftwerken

Rechenzentren ziehen so viel Strom, dass US-Versorger geplante Stilllegungen von Kohleblöcken rückgängig machen. Der CO2-Saldo der KI-Klimalösungen ist heute negativ, nicht positiv.

5 Min.

Therapeuten, die Whisper nutzen: Wie der DSGVO-AVV zur Strafanzeige führt

Die Bundespsychotherapeutenkammer hat im Februar 2026 klargestellt: Ein DSGVO-Vertrag mit OpenAI schließt die Strafbarkeitslücke nach §203 StGB nicht. Wer Whisper für Sitzungsprotokolle nutzt, riskiert mehr als ein Bußgeld.

6 Min.

Auch auf Deutsch denkt deine KI auf Englisch, und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark trennt GPT-4o auf Deutsch und Englisch eine Lücke von 5,1 Prozentpunkten. Hinzu kommt ein Token-Aufschlag von 50 Prozent. Warum dein deutscher Prompt eine messbare Englisch-Steuer zahlt.

6 Min.

KI im Executive Coaching: Wenn der Coach KI nutzt und der Coachee plötzlich nicht mehr darf

Eine PLoS-One-Studie zeigt: KI-Coaching erreicht denselben Effekt wie menschliches Coaching. Trotzdem werden CEOs nicht zu KI-Coaches wechseln. Der Grund hat nichts mit Empathie zu tun, sondern mit der Architektur der Logfiles.

6 Min.

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

Eine Harvard-Studie aus Oktober 2024 fand: Apple Watch erkennt Tiefschlaf nur in 50,5 Prozent der Fälle. Trotzdem rollen Samsung und Apple 2026 KI-Coaches auf der Watch aus. Warum aus Korrelationsdaten kein medizinischer Coach wird, sondern nur ein besserer Chatbot.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar