Index

Alle Kapitel

Von der Tokenisierung bis zum Alignment. Jedes Kapitel enthält mindestens eine interaktive Visualisierung.

IAnatomie eines Modells

01
Grundlagen
Ein Wort nach dem anderen vorhersagen
Was ist ein Sprachmodell? Warum das Vorhersagen des nächsten Wortes ausreicht, um Intelligenz entstehen zu lassen.
6 min
02
Tokenisierung
Vom Text zu Tokens
Wie Text zu Zahlen wird. BPE, Teilwörter und warum LLMs Schwierigkeiten haben, Buchstaben zu zählen.
8 min
03
Embeddings
Der Raum der Bedeutung
Wörter in einem geometrischen Raum. König − Mann + Frau = Königin, und andere Vektorwunder.
10 min
04
Aufmerksamkeit
Aufmerksamkeit ist alles, was du brauchst
Der Mechanismus, der alles verändert. Wie jedes Token alle anderen betrachtet, um den Kontext zu verstehen.
12 min
05
Architektur
Der vollständige Transformer
Die Teile zusammensetzen: Multi-Head-Attention, Feed-Forward, Normalisierung, Residualverbindungen.
14 min

IITrainieren und Ausrichten

06
Training
Wie es lernt
Loss, Gradientenabstieg, Backpropagation. Und warum Milliarden von Parametern benötigt werden.
10 min
07
Generierung
Das nächste Wort wählen
Temperature, Top-k, Top-p. Die Kunst, eine Wahrscheinlichkeitsverteilung in Text umzuwandeln.
7 min
08
Alignment
Vom Rohmodell zum Assistenten
Fine-Tuning, RLHF, konstitutionelle KI. Wie man ein LLM nützlich und harmlos macht.
9 min

IIIDas Modell im Einsatz

09
Kontext
Was das Modell erinnert
Das Kontextfenster: perfektes, aber begrenztes Gedächtnis. Warum ChatGPT vergisst und was es kostet.
8 min
10
RAG
Deine Dokumente lesen
Wie ein LLM auf Tausende von Seiten zugreift, ohne sie zu memorieren. Embeddings, semantische Suche, injizierter Kontext.
9 min
11
Agenten
Vom antwortenden Modell zum handelnden Modell
Tool-Nutzung, ReAct-Schleife, mehrstufige Aufgaben. Wie ein LLM zu einem Agenten wird, der in der Welt handeln kann.
10 min
12
Prompting
Die Kunst, mit einem LLM zu sprechen
Zero-Shot, Few-Shot, Chain-of-Thought, Self-Consistency. Warum die Formulierung eines Prompts das Ergebnis grundlegend verändert.
8 min
13
Halluzinationen
Warum LLMs erfinden
Kalibrierung, falsche Gewissheiten, Gegenmaßnahmen. Der strukturelle Mechanismus hinter der häufigsten Kritik — und was sich dagegen tun lässt.
9 min

IVWeitergehen

14
Fine-Tuning
Ein Modell spezialisieren ohne alles neu zu trainieren
LoRA, QLoRA, SFT. Wie man ein generalistisches Modell an eine bestimmte Domäne anpasst, indem man 0,1% seiner Parameter trainiert.
9 min
15
Multimodalität
Wenn das Modell Bilder liest
Patch-Embedding, ViT, CLIP. Wie ein Text-Transformer multimodal wird, indem er ein Bild als Gitter von Tokens behandelt.
8 min
16
Evaluierung
Woher wissen wir, dass ein Modell besser ist?
MMLU, HumanEval, LMSYS Arena. Warum die Messung der Intelligenz eines LLM schwierig ist — und warum kein einzelner Benchmark ausreicht.
8 min
17
Schlussfolgern
Denken, bevor man antwortet
Thinking Tokens, erweitertes Schlussfolgern, Denkbudgets. Wie o1/o3-Modelle eine versteckte Gedankenkette generieren, bevor sie antworten.
9 min
18
Inferenz
Warum der 2. Token schneller ist als der 1.
Der KV-Cache und die autoregressive Generierung. Prefill vs. Decode, TTFT, und warum der Cache alles verändert.
8 min
19
Skalierung
Größer, immer besser?
Die Skalierungsgesetze von Kaplan und Chinchilla. Warum GPT-3 unterbelastet war und das optimale Verhältnis von 20 Tokens pro Parameter.
9 min
20
Interpretierbarkeit
Was geht wirklich im Inneren vor?
Circuits, polysemantische Neuronen, Sparse Autoencoders. Wie Anthropic und DeepMind die Black Box öffnen.
9 min
21
Diffusion
Ein Bild erzeugen, indem man Rauschen entfernt
Stable Diffusion, DALL-E, Midjourney. Der umgekehrte Entrauschungs-Prozess, die Rolle von CLIP, und warum U-Net den Transformern weicht.
9 min

Ein Wort nach dem anderen vorhersagen

Vom Text zu Tokens

Der Raum der Bedeutung

Aufmerksamkeit ist alles, was du brauchst

Der vollständige Transformer

Wie es lernt

Das nächste Wort wählen

Vom Rohmodell zum Assistenten

Was das Modell erinnert

Deine Dokumente lesen

Vom antwortenden Modell zum handelnden Modell

Die Kunst, mit einem LLM zu sprechen

Warum LLMs erfinden

Ein Modell spezialisieren ohne alles neu zu trainieren

Wenn das Modell Bilder liest

Woher wissen wir, dass ein Modell besser ist?

Denken, bevor man antwortet

Warum der 2. Token schneller ist als der 1.

Größer, immer besser?

Was geht wirklich im Inneren vor?

Ein Bild erzeugen, indem man Rauschen entfernt