Ein interaktiver Leitfaden zu LLMs
Step by Token
Verstehen, wie große Sprachmodelle funktionieren – eine interaktive Visualisierung nach der anderen.
Inhaltsverzeichnis
21 / 21 · 189 min- 016 min
Ein Wort nach dem anderen vorhersagen
Was ist ein Sprachmodell? Warum das Vorhersagen des nächsten Wortes ausreicht, um Intelligenz entstehen zu lassen.
- 028 min
Vom Text zu Tokens
Wie Text zu Zahlen wird. BPE, Teilwörter und warum LLMs Schwierigkeiten haben, Buchstaben zu zählen.
- 0310 min
Der Raum der Bedeutung
Wörter in einem geometrischen Raum. König − Mann + Frau = Königin, und andere Vektorwunder.
- 0412 min
Aufmerksamkeit ist alles, was du brauchst
Der Mechanismus, der alles verändert. Wie jedes Token alle anderen betrachtet, um den Kontext zu verstehen.
- 0514 min
Der vollständige Transformer
Die Teile zusammensetzen: Multi-Head-Attention, Feed-Forward, Normalisierung, Residualverbindungen.
- 0610 min
Wie es lernt
Loss, Gradientenabstieg, Backpropagation. Und warum Milliarden von Parametern benötigt werden.
- 077 min
Das nächste Wort wählen
Temperature, Top-k, Top-p. Die Kunst, eine Wahrscheinlichkeitsverteilung in Text umzuwandeln.
- 089 min
Vom Rohmodell zum Assistenten
Fine-Tuning, RLHF, konstitutionelle KI. Wie man ein LLM nützlich und harmlos macht.
- 098 min
Was das Modell erinnert
Das Kontextfenster: perfektes, aber begrenztes Gedächtnis. Warum ChatGPT vergisst und was es kostet.
- 109 min
Deine Dokumente lesen
Wie ein LLM auf Tausende von Seiten zugreift, ohne sie zu memorieren. Embeddings, semantische Suche, injizierter Kontext.
- 1110 min
Vom antwortenden Modell zum handelnden Modell
Tool-Nutzung, ReAct-Schleife, mehrstufige Aufgaben. Wie ein LLM zu einem Agenten wird, der in der Welt handeln kann.
- 128 min
Die Kunst, mit einem LLM zu sprechen
Zero-Shot, Few-Shot, Chain-of-Thought, Self-Consistency. Warum die Formulierung eines Prompts das Ergebnis grundlegend verändert.
- 139 min
Warum LLMs erfinden
Kalibrierung, falsche Gewissheiten, Gegenmaßnahmen. Der strukturelle Mechanismus hinter der häufigsten Kritik — und was sich dagegen tun lässt.
- 149 min
Ein Modell spezialisieren ohne alles neu zu trainieren
LoRA, QLoRA, SFT. Wie man ein generalistisches Modell an eine bestimmte Domäne anpasst, indem man 0,1% seiner Parameter trainiert.
- 158 min
Wenn das Modell Bilder liest
Patch-Embedding, ViT, CLIP. Wie ein Text-Transformer multimodal wird, indem er ein Bild als Gitter von Tokens behandelt.
- 168 min
Woher wissen wir, dass ein Modell besser ist?
MMLU, HumanEval, LMSYS Arena. Warum die Messung der Intelligenz eines LLM schwierig ist — und warum kein einzelner Benchmark ausreicht.
- 179 min
Denken, bevor man antwortet
Thinking Tokens, erweitertes Schlussfolgern, Denkbudgets. Wie o1/o3-Modelle eine versteckte Gedankenkette generieren, bevor sie antworten.
- 188 min
Warum der 2. Token schneller ist als der 1.
Der KV-Cache und die autoregressive Generierung. Prefill vs. Decode, TTFT, und warum der Cache alles verändert.
- 199 min
Größer, immer besser?
Die Skalierungsgesetze von Kaplan und Chinchilla. Warum GPT-3 unterbelastet war und das optimale Verhältnis von 20 Tokens pro Parameter.
- 209 min
Was geht wirklich im Inneren vor?
Circuits, polysemantische Neuronen, Sparse Autoencoders. Wie Anthropic und DeepMind die Black Box öffnen.
- 219 min
Ein Bild erzeugen, indem man Rauschen entfernt
Stable Diffusion, DALL-E, Midjourney. Der umgekehrte Entrauschungs-Prozess, die Rolle von CLIP, und warum U-Net den Transformern weicht.