Kapitel 13 · Halluzinationen · 9 min

Warum LLMs erfinden

Kalibrierung, falsche Gewissheiten, Gegenmaßnahmen. Der strukturelle Mechanismus hinter der häufigsten Kritik — und was sich dagegen tun lässt.

Die häufigste Kritik

Du stellst einem LLM eine Frage zu einem speziellen Thema. Es antwortet dir mit voller Überzeugung: eine bibliografische Referenz, ein Datum, ein Zitat. Du prüfst nach. Das Buch existiert nicht. Das Datum ist falsch. Das Zitat wurde nie gesagt.

Dieses Phänomen hat einen offiziellen Namen — Halluzination — und es ist wahrscheinlich das Erste, was man LLMs vorwirft. Kein gelegentlicher Bug: eine strukturelle Eigenschaft. Um zu verstehen warum, muss man zurückkommen auf die Art und Weise, wie das Modell trainiert wurde.

Drei Mechanismen, die zusammenwirken

1. Cross-entropy belohnt keine Unsicherheit. Während des Pre-Trainings (Kapitel 06) ist das Ziel, die Log-Wahrscheinlichkeit des korrekten Tokens zu minimieren. An keinem Punkt lernt das Modell, „ich weiß es nicht" zu sagen: Es lernt, immer etwas vorherzusagen, so plausibel wie möglich. Wenn die richtige Antwort nicht in seinen Gewichten steckt, produziert es die plausibelst klingende Zeichenfolge, kein Eingeständnis von Unwissenheit.

2. RLHF belohnt Selbstsicherheit mehr als Ehrlichkeit. Während des Alignments (Kapitel 08) ordnen Menschen die Antworten. Im Schnitt bevorzugen sie eine selbstsichere, gut formulierte Antwort gegenüber einem „ich bin nicht sicher". Das Reward Model lernt diesen Bias, und der LLM lernt, sicher zu wirken — auch wenn er es nicht ist.

3. Keine interne Verifikationsschleife. Ein Mensch, der ein Zitat erfindet, hält inne, zweifelt, prüft nach. Ein LLM, der Token für Token generiert, hat diesen Mechanismus nicht. Er geht voran, ohne externe Kontrolle, und jeder Token erzeugt den nächsten unter derselben Plausibilitätslogik.

Eine Halluzination ist kein Bug. Sie ist das, was passiert, wenn ein System, das darauf trainiert ist, immer plausiblen Text zu produzieren, auf eine Frage trifft, deren Antwort nicht in seinen Gewichten steht.

Das Kalibrierungsproblem

Ein gut kalibriertes Modell ist eines, dessen angegebene Konfidenz der Wahrscheinlichkeit entspricht, korrekt zu sein. Wenn es sagt „ich bin zu 80 % sicher", sollte es etwa 80 % der Zeit recht haben.

Rohe LLMs (vor RLHF) sind erstaunlich gut auf ihren internen Wahrscheinlichkeiten kalibriert. Aber Alignment dekalibriert das Modell: Indem es Selbstsicherheit belohnt, entfernt es das Modell von der statistischen Wahrheit seiner eigenen Vorhersagen.

Das ist es, was den Modus „selbstsicher halluzinieren" erklärt: Es ist nicht so, dass das Modell nicht weiß, dass es nicht weiß. Es ist so, dass das Training es dazu gedrängt hat, diese Unsicherheit zu maskieren.

Das Modell vergibt jedem seiner Statements eine Wahrscheinlichkeit. Eine falsche, aber kohärente Aussage erhält oft einen hohen Score: das ist der strukturelle Mechanismus hinter Halluzinationen — kein punktueller Bug, den ein Patch beheben kann.

Spiel mit ein paar Fragen. Beobachte, wie angegebene Konfidenz und tatsächliche Wahrscheinlichkeit, korrekt zu sein, nicht immer derselben Kurve folgen. Aktiviere + RAG oder + erweitertes Reasoning, um zu sehen, wie Gegenmaßnahmen die Lücke verkleinern.

Vier Familien von Gegenmaßnahmen

Halluzinationen verschwinden nicht durch besseres Alignment. Sie sind strukturell. Um sie in der Praxis zu reduzieren, brauchst du systemische Hebel, nicht nur ein besseres Modell.

1. Das Modell mit Werkzeugen verbinden (Kapitel 11)

Die Regel: Alles, was ein LLM schlecht macht, delegiert man an ein deterministisches System. Eine Ableitung berechnen? Code Interpreter. Einen Börsenkurs abrufen? API. Prüfen, ob eine Datei existiert? File-System-Tool. Das Modell versucht nicht mehr, das Ergebnis zu erraten — es beobachtet es.

Effekt: Halluzinationen in den von Werkzeugen abgedeckten Bereichen fallen auf null. Halluzinationen in anderen Bereichen bleiben.

2. RAG (Kapitel 10)

Anstatt das Modell zu fragen, woran es sich zu einem Thema erinnert, gibt man ihm zuverlässige Quellen zum Antwortzeitpunkt. Bibliografische und faktische Halluzinationen nehmen stark ab, weil das Modell zitieren kann, was es liest, nicht nur, was es sich vorstellt.

Grenze: Wenn die Quellen schlecht oder schlecht abgerufen sind, halluziniert das Modell über deren Inhalt. Und selbst mit guten Quellen kann es überextrapolieren („die Quelle sagt X, also notwendigerweise Y").

3. Erweitertes Reasoning (Kapitel 17)

Ein Modell, das sich Zeit nimmt, seinen Entwurf zu verifizieren, bevor es antwortet, macht weniger Fehler. Reasoning-Modelle (o1, o3, Claude extended thinking) generieren eine unsichtbare Chain of Thought, in der sie neu rechnen, einen Schritt widerlegen, einen anderen Pfad einschlagen können.

Das ist unvollkommen — ein Modell kann auch innerhalb seines Reasonings halluzinieren — aber das einfache Entfalten der Schritte fängt einen erheblichen Teil der Fehler ab.

4. Explizites Fine-Tuning auf Unsicherheit

Der vielversprechendste Forschungsansatz: das Modell auf abstention trainieren. Man zeigt ihm (Frage, Antwort)-Paare, bei denen die richtige Antwort „ich weiß es nicht" oder „ich habe diese Information nicht" lautet, wenn die interne Wahrscheinlichkeit niedrig ist. Das Modell lernt, sein eigenes Konfidenzniveau zu erkennen und zu kommunizieren.

Mehrere Labs arbeiten daran (DeepMind, Anthropic). Es ist noch weit davon entfernt, robust zu sein, aber es ist die einzige Technik, die wirklich an die Wurzel des Problems geht.

Eine Halluzination in der Praxis erkennen

Ein paar nützliche Heuristiken auf der Nutzerseite:

  • Bitte um Quellen. Wenn das Modell seine Quellen nicht zitieren kann oder sie erfindet, behandle die Antwort als verdächtig.
  • Prüfe, was spezifisch ist. Eigennamen, Daten, exakte Zahlen, Zitate sind die Risikozonen. Allgemeine Inhalte sind meist OK.
  • Formuliere die Frage anders um. Ein erfindendes Modell gibt oft konsistente Antworten auf dieselbe umformulierte Frage — aber inkonsistente Antworten auf sehr unterschiedliche Umformulierungen.
  • Frage das Modell nach seinem Konfidenzniveau. Unvollkommen, aber korreliert mit der tatsächlichen Antwortqualität, vor allem bei neueren Modellen.
  • Gegenprüfen mit einem anderen Modell. Halluzinationen sind selten dieselben von einem Modell zum anderen. Eine Antwort, bei der GPT-4 und Claude konvergieren, hat viel größere Chancen, korrekt zu sein.

Was du dir merken solltest

Drei Dinge.

Erstens. Halluzinationen sind kein Defekt des Modells: Sie sind die Konsequenz seines Trainingsziels. Kein oberflächliches Fine-Tuning lässt sie verschwinden.

Zweitens. Die Gegenmaßnahmen, die in Produktion funktionieren, sind systemisch (RAG, Werkzeuge, Reasoning, abstention). Keine ist allein perfekt; kombiniert bringen sie die Halluzinationsrate auf ein für die meisten Fälle akzeptables Niveau.

Drittens. Für den Endnutzer bleibt die beste Verteidigung, nicht blind zu vertrauen, vor allem bei spezifischen Details (Quellen, Daten, Zahlen). Ein LLM, das dir mit voller Überzeugung antwortet, ist kein Beweis dafür, dass es recht hat.

Einen LLM zu fragen „bist du sicher?" ist keine Verifikation. Es ist nur eine weitere Generierung von plausiblem Text.

Aktualisiert am

Warum LLMs halluzinieren (und wie man es abschwächt) · Step by Token