Zum Inhalt springen

Wie entstehen KI-Halluzinationen, und wie vermeidest du sie?

KI erfindet Fakten und Quellen, und klingt dabei absolut überzeugend. Warum das passiert und wie du dich davor schützt.

Wie entstehen KI-Halluzinationen, und wie vermeidest du sie?

Stell dir vor: Du fragst ChatGPT nach einer wissenschaftlichen Studie zum Thema Schlaf und Lernleistung. Es antwortet sofort, mit Autorname, Zeitschrift, Jahreszahl, Seitenzahl. Alles klingt seriös. Du zitierst es in deiner Präsentation.

Später googelst du die Studie. Sie existiert nicht. Die Zeitschrift gibt es, den Autor gibt es, aber dieser Artikel wurde nie geschrieben.

Genau das ist eine KI-Halluzination. Und sie passiert nicht, weil die KI lügt. Sie passiert, weil sie gar nicht weiß, was eine Lüge ist.


Warum KI sich Dinge ausdenkt

Das klingt paradox: Wie kann ein System, das so viel weiß, gleichzeitig so sicher falsche Dinge behaupten?

Die Antwort liegt darin, wie Large Language Models grundsätzlich funktionieren. Ein LLM lernt nicht Fakten wie in einer Datenbank. Es lernt Muster, statistische Zusammenhänge zwischen Wörtern und Sätzen aus riesigen Mengen Text. Wenn du eine Frage stellst, berechnet es Wahrscheinlichkeiten: Welche Wörter kommen nach diesen Wörtern am häufigsten?

Das ist eine geniale Fähigkeit für viele Aufgaben. Aber es bedeutet auch: Das Modell hat kein inneres Konzept von “wahr” oder “falsch”. Es generiert plausible Fortsetzungen, keine verifizierten Fakten.

Ein Zitat sieht für ein Sprachmodell wie jedes andere Zitat aus, das es in Trainingsdaten gesehen hat. Es weiß nicht, ob dieses spezifische Zitat existiert. Es weiß nur, wie Zitate im Allgemeinen aussehen.


Wann passiert es besonders oft?

Nicht jede Anfrage ist gleich riskant. Es gibt aber klare Muster, wann das Modell am wahrscheinlichsten erfindet statt weiß:

Spezifischen Fakten, die selten vorkommen. Nischenstudien, weniger bekannte Personen, genaue Jahreszahlen, Gesetzesparagrafen. Je weniger Trainingsdaten zu einem Thema existieren, desto mehr muss das Modell raten. Juristische Datenbanken sind ein Paradebeispiel: Richtige Zeitschrift, richtiger Autor, falscher Artikel. Vollständig erfunden, undetektiert für jeden, der nicht selbst nachschlägt.

Quellen- und Zitatanfragen. “Nenn mir drei Studien zu…” ist einer der verlässlichsten Wege, Halluzinationen zu provozieren. Das Modell kennt das Format eines Zitats sehr gut, und füllt es einfach aus.

Aktuellen Ereignissen. Modelle haben ein Trainingsdatum. Was danach passiert ist, kennen sie nicht. Aber wenn du fragst, antworten sie trotzdem. GPT-4o hat ein Trainings-Cutoff von Oktober 2023 und beginnt ab da zu spekulieren, ohne das immer deutlich zu machen.

Zahlen und Statistiken. “Wie hoch ist die Arbeitslosenquote in…?” klingt wie eine Faktenfrage. Das Modell gibt eine Zahl, aber die ist oft unzuverlässig.


Drei Strategien, die wirklich helfen

1. Lass die KI ihre Unsicherheit zeigen

Standardmäßig formuliert ein LLM Antworten mit Sicherheit, selbst wenn es unsicher ist. Du kannst das ändern.

Füge deinem Prompt hinzu: “Wenn du dir bei einer Aussage nicht sicher bist, sag das explizit. Schreib ‘Ich bin mir hier nicht sicher’ oder ‘Das solltest du verifizieren’.”

Das hilft nicht immer perfekt, aber es reduziert die Häufigkeit, mit der Modelle falsche Antworten mit falscher Sicherheit liefern.

2. Frag nach Quellen und prüfe sie

Wenn du Fakten benötigst: Bitte das Modell, Quellen zu nennen. Dann prüfe jede einzelne davon. Ja, das kostet Zeit. Aber es ist der einzige zuverlässige Weg.

Noch besser: Nutze Tools, die Quellen direkt einbinden. Perplexity oder ChatGPT Browsing können auf aktuelle, verlinkbare Inhalte zugreifen und sind damit deutlich zuverlässiger bei Faktenfragen als ein Modell, das aus dem Trainingsgedächtnis antwortet.

3. Nutze RAG für deine eigenen Daten

RAG steht für Retrieval-Augmented Generation. Das Prinzip: Du gibst dem Modell nicht nur eine Frage, sondern gleichzeitig die Dokumente, die es zur Beantwortung nutzen soll. So muss es keine Fakten aus dem Training abrufen, sondern liest in den Dokumenten nach.

Praktisch funktioniert das zum Beispiel so: Du lädst ein Dokument hoch und fragst “Was steht hier zu Paragraph 12?” Das Modell antwortet auf Basis des Textes, nicht aus dem Training. Der Unterschied ist grundlegend: Das Modell erfindet nichts, weil es nichts erfinden muss. Die Antwort steht im Dokument, das du mitgegeben hast. Für den Unternehmenseinsatz, etwa als interne Wissensdatenbank, ist das ein zentraler Baustein.


Was du immer doppelt prüfen solltest

Manche Kategorien sind so fehleranfällig, dass es keine Ausnahmen geben sollte:

Zitate und Studienreferenzen schlägst du immer in der Originalquelle nach. Gesetzestexte und Paragrafen prüfst du immer in der offiziellen Quelle. Zahlen und Statistiken gibst du erst weiter, wenn du die Quelle gefunden hast. Bei medizinischen und rechtlichen Aussagen ist Eigenrecherche Pflicht, keine Option.

Das klingt viel. Aber ehrlich gesagt: Diese Kategorien solltest du auch bei Google-Ergebnissen prüfen. KI macht das Problem nur sichtbarer, weil die Antworten so überzeugend formuliert sind.


Der Prompt, der dir hilft

Wenn du mit KI zu Themen arbeitest, bei denen Genauigkeit wichtig ist, probiere diesen Einstieg:

“Antworte nur auf Basis von Dingen, die du mit hoher Sicherheit weißt. Kennzeichne explizit, wenn du dir nicht sicher bist. Erfinde keine Quellen. Wenn du eine Quelle nicht kennst, sag das lieber, als eine zu erfinden.”

Das ist kein Wundermittel. Aber Modelle liefern mit diesem Zusatz bei Faktenfragen messbar häufiger Unsicherheitssignale, statt glatt formulierter, falscher Sicherheit.

Mehr zu effektivem Prompt Engineering und wie du Prompts schreibst, die verlässlichere Ergebnisse liefern, findest du in unserem Grundlagen-Artikel.


Was bleibt trotzdem schwierig

Halluzinationen werden nicht verschwinden. Und hier ist der unbequeme Teil: Die Modelle werden nicht besser darin, sie zu vermeiden, sie werden besser darin, sie überzeugender klingen zu lassen. GPT-4 halluziniert seltener als GPT-3.5, aber seine falschen Aussagen sind schwerer zu erkennen, weil sie präziser und selbstsicherer formuliert sind.

Das bedeutet: Der Fortschritt macht das Problem nicht kleiner, er verschiebt es. Früher klang eine halluzinierte Quelle manchmal holprig. Heute klingt sie wie ein echter Treffer im Archiv.

Wer das versteht, ändert seinen Workflow, nicht bei jeder Anfrage, aber konsequent bei allem, was weiterverwendet wird. Wer es vergisst, landet irgendwann mit einer nicht-existenten Studie in der Präsentation.


Den KI-Syndikat Newsletter bekommst du, wenn du auf dem Laufenden bleiben willst, was sich bei KI-Modellen und ihrer Zuverlässigkeit tut. Kein Spam, nur das Wichtigste.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Prompt Engineering vertiefen: Fortgeschrittene Techniken für Profis

Chain-of-Thought, Few-Shot, Persona-Prompts, JSON-Output: fortgeschrittene Techniken mit Vorher-Nachher-Beispielen und einer Übung für heute Abend.

6 Min.

Reasoning Models sind kein Upgrade, sie sind ein anderes Werkzeug

o3, o4-mini, Claude Extended Thinking: Die meisten nutzen Reasoning Models falsch. Eine Evaluation zeigt, dass o3-pro 14x teurer ist als GPT-4o und trotzdem schlechter abschneidet.

5 Min.

Multimodale KI: Wenn KI hört, sieht und spricht

Was multimodale KI wirklich kann: Text, Bild, Audio und Video in einem System. Konkrete Beispiele, ehrliche Einschätzung, Stand 2026.

4 Min.

10 ChatGPT-Tipps für den Alltag, die die meisten nie ausprobieren

ChatGPT als Suchmaschine zu nutzen ist wie einen Koch als Tellerwäscher einzusetzen. Diese 10 konkreten Prompts zeigen, was wirklich möglich ist, vom Wochenplan bis zum Bewerbungsschreiben.

4 Min.

Was sind Large Language Models? Einfach erklärt

Large Language Models verständlich erklärt: Was ein LLM ist, warum es Fehler macht und was 'Training' wirklich bedeutet, für absolute Einsteiger.

5 Min.

Prompt Caching ist kein Rabatt. Es ist die Bedingung, unter der Agent-Loops überhaupt rechnen.

Die 90-Prozent-Ersparnis bei Prompt Caching ist eine Single-Call-Metrik. Die wahre ökonomische Wirkung liegt in Agent-Loops, wo Caching die quadratisch wachsenden Token-Kosten in eine lineare Kurve verwandelt.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar