Kapitel 20 · Interpretierbarkeit · 9 min

Was geht wirklich im Inneren vor?

Circuits, polysemantische Neuronen, Sparse Autoencoders. Wie Anthropic und DeepMind die Black Box öffnen.

Eine Black Box, die funktioniert

Ein LLM mit 70 Milliarden Parametern ist ein Objekt, das man trainiert, evaluiert und einsetzt — aber das man nicht wirklich versteht. Man weiß, welche Gewichte es gelernt hat. Man weiß, dass diese Gewichte etwas implementieren. Man weiß nicht, was.

Lange schien das nicht wichtig. Wenn es funktioniert, funktioniert es. Aber je mehr LLMs Entscheidungen mit realen Folgen treffen — medizinischer Code, autonome Agenten, Content-Moderation —, desto dringender wird die Frage: Können wir die Box öffnen?

Das ist Gegenstand der mechanistischen Interpretierbarkeit. Keine Disziplin, die beschreibt, was ein Modell von außen tut (das ist Benchmarking), sondern eine, die versucht, die in den Neuronen implementierten Algorithmen zu reverse-engineeren.

Ein kleines Vokabular für dieses Kapitel

Bevor wir eintauchen, hier die Begriffe, denen wir begegnen werden. Wir werden sie unterwegs ausführen — diese Tabelle ist nur ein Anhaltspunkt, damit du dich nicht verirrst.

Begriff	In einem Satz
Feature	Ein wiederkehrendes Muster in den Aktivierungen des Modells, das sich oft mit einem menschlichen Konzept assoziieren lässt.
Polysemantisch	Ein Neuron, das auf mehrere unverbundene Konzepte feuert. Die Regel in einem LLM.
Monosemantisch	Ein „Feature", das auf ein einziges identifizierbares Konzept antwortet. Das Ziel des Spiels.
Superposition	Das Netzwerk kodiert mehr Konzepte, als es Neuronen hat, indem es sie übereinanderlegt.
Circuit	Ein Teilgraph des Netzwerks, der eine bestimmte Funktion implementiert.
SAE (Sparse Autoencoder)	Die Technik, die Aktivierungen in monosemantische Features zerlegt.
Steering	Das Verhalten des Modells verändern, indem man ein Feature verstärkt oder unterdrückt.

Das Problem: polysemantische Neuronen

Wenn du einen Transformer öffnen und ein bestimmtes Neuron beobachten könntest, würdest du vielleicht hoffen, „das Neuron, das Hunde erkennt" oder „das Neuron, das addieren kann" zu finden. Die Realität ist unordentlicher.

Ein Neuron in einem LLM ist typischerweise polysemantisch: Es aktiviert sich bei mehreren unverbundenen Konzepten. Dasselbe Neuron kann stark auf Erwähnungen von Hunden, auf Verben in der Vergangenheitsform, auf offene Fragen auf Französisch und auf HTML-Tags reagieren. Warum? Weil das Netzwerk viel mehr Konzepte zu repräsentieren hat als Neuronen — es superponiert sie.

Diese Superposition (Elhage et al., 2022) ist eine Schlüsselentdeckung. Sie erklärt, warum die Lupenbetrachtung eines einzelnen Neurons fast nie ein interpretierbares Signal liefert.

Die Lösung: Sparse Autoencoders

Wenn die Konzepte in den Neuronen superponiert sind, dann ist die richtige Basis, sie zu betrachten, nicht der Raum der Neuronen — sondern ein anderer, größerer Raum, in dem jede Dimension einem einzigen Konzept entsprechen würde.

Das ist die Idee der Sparse Autoencoders (SAE). Man lernt eine Projektion der internen Aktivierung des Modells in einen viel größeren Raum (oft 10× oder 100× größer), mit einer Sparsity-Bedingung: nur wenige Dimensionen dürfen gleichzeitig aktiv sein. Das Netzwerk wird gezwungen, jede Aktivierung als Kombination einer kleinen Anzahl von interpretierbaren Features zu repräsentieren.

Anthropic hat 2024 ein wegweisendes Paper veröffentlicht („Scaling Monosemanticity"), das diese Technik auf Claude 3 Sonnet anwendet. Sie haben Millionen von Features extrahiert, einige davon spektakulär: ein Feature für das Konzept der Golden Gate Bridge, eines für Code-Bugs, eines für Schmeichelei, eines für Verrat. Diese Features sind monosemantisch — jedes entspricht einem einzigen, erkennbaren Konzept.

Erkunde es selbst

Bewege den Mauszeiger über ein Neuron, um zu sehen, was es aktiviert. Viele reagieren auf scheinbar unzusammenhängende Konzepte — das ist Polysemantik. Sparse Autoencoders zerlegen diese Aktivierungen in menschlich interpretierbare Features, die Grundlage der mechanistischen Interpretierbarkeit.

Wähle ein Feature und sieh, auf welchen Tokens es in verschiedenen Passagen aufleuchtet. Du wirst bemerken, dass einige Features (wie Negation oder Eigennamen) Sprachen und Kontexte überspannen — das sind robuste Konzepte, die das Modell abstrahiert hat.

Die Circuits: emergente Algorithmen

Über die Features hinaus untersucht die Interpretierbarkeit die Circuits: Teilgraphen des Netzwerks, die eine bestimmte Funktion implementieren. Ein bisschen so, wie man in einem Mikroprozessor den Teilschaltkreis identifizieren würde, der die Addition durchführt.

Das berühmteste Beispiel ist der Induction Head, 2022 von Anthropic entdeckt (Olsson et al.). Das ist ein Mechanismus, der typischerweise in den mittleren Schichten eines Transformers auftaucht und eine einfache Regel implementiert: Wenn das Modell das Muster AB früher im Kontext gesehen hat und nun A wiedersieht, sagt es B voraus.

Es ist eine primitive Form von In-Context Learning (In-Context Learning). Vor diesem Circuit kann das Modell Wiederholungen im Kontext nicht ausnutzen. Danach wird es schlagartig leistungsfähiger — und dieser Übergang fällt mit einem Sprung in den Few-Shot-Benchmarks zusammen.

Mehrere weitere Circuits wurden identifiziert:

Induction Heads — Kopieren von Mustern aus dem Kontext
Bracket Completion — kohärentes Schließen verschachtelter Klammern
Indirect Object Identification — Auflösung von „Maria gab das Buch an Paul" → „an sie" bezieht sich auf Maria
Feature Suppression — ein Head, der ein Feature in bestimmten Kontexten abschaltet

Jeder Circuit ist ein kleiner Algorithmus, den das Netzwerk während des Trainings selbst entdeckt hat.

Warum das für die Sicherheit zählt

Die Interpretierbarkeit ist nicht nur eine wissenschaftliche Kuriosität. Sie ist für viele Forscher der vielversprechendste Weg, leistungsfähige Modelle ernsthaft zu alignieren.

Heute alignieren wir per RLHF und Fine-Tuning: Wir verändern die beobachtbaren Antworten, aber wir wissen nicht, ob das Modell wirklich einen Wert internalisiert hat oder ob es nur an der Oberfläche so tut. Wenn wir die Features und Circuits identifizieren könnten, die zum Beispiel für Täuschungsverhalten oder moralisches Reasoning verantwortlich sind, hätten wir einen viel solideren Hebel.

Anthropic hat gezeigt, dass man ein Modell direkt steuern kann: Indem sie das Feature „Golden Gate Bridge" künstlich verstärkten, machten sie Claude besessen von dieser Brücke — er erwähnte sie zu jeder Frage. Eine spielerische Demonstration, aber derselbe Mechanismus würde es im Prinzip erlauben, ein gefährliches Verhalten chirurgisch zu entfernen, ohne den Rest zu verschlechtern.

Die aktuellen Grenzen

Die mechanistische Interpretierbarkeit ist eine junge Disziplin. Die Schwierigkeiten sind zahlreich:

Die Skala. Ein SAE auf Claude 3 hat 34 Millionen Features extrahiert. Sie zu annotieren, zu benennen, sie eines nach dem anderen zu verstehen, ist gigantisch.
Die Vollständigkeit. Wir finden Features. Wir verfehlen auch welche. Wie viele wichtige Konzepte entgehen uns?
Die Kompositionalität. Ein einzelnes Feature zu verstehen, ist machbar. Zu verstehen, wie 50 Features interagieren, um ein Verhalten zu erzeugen, ist viel schwerer.
Die Generalisierung. Ein in GPT-2 gefundenes Feature überträgt sich nicht mechanisch auf Claude oder Llama. Jedes Modell ist seine eigene Box.

Aber das Tempo der Veröffentlichungen beschleunigt sich. Anthropic, DeepMind, EleutherAI, OpenAI, Apollo Research, Goodfire, Transluce — ganze Teams bilden sich um diese Fragen.

Wenn wir immer leistungsfähigeren Modellen immer wichtigere Entscheidungen anvertrauen wollen, brauchen wir mehr, als sie eine Prüfung bestehen zu lassen. Wir werden nach innen schauen müssen.

Aktualisiert am 10. Mai 2026