Index

Alle Kapitel

Von der Tokenisierung bis zum Alignment. Jedes Kapitel enthält mindestens eine interaktive Visualisierung.

IAnatomie eines Modells
  1. 01

    Grundlagen

    Ein Wort nach dem anderen vorhersagen

    Was ist ein Sprachmodell? Warum das Vorhersagen des nächsten Wortes ausreicht, um Intelligenz entstehen zu lassen.

    6 min
  2. 02

    Tokenisierung

    Vom Text zu Tokens

    Wie Text zu Zahlen wird. BPE, Teilwörter und warum LLMs Schwierigkeiten haben, Buchstaben zu zählen.

    8 min
  3. 03

    Embeddings

    Der Raum der Bedeutung

    Wörter in einem geometrischen Raum. König − Mann + Frau = Königin, und andere Vektorwunder.

    10 min
  4. 04

    Aufmerksamkeit

    Aufmerksamkeit ist alles, was du brauchst

    Der Mechanismus, der alles verändert. Wie jedes Token alle anderen betrachtet, um den Kontext zu verstehen.

    12 min
  5. 05

    Architektur

    Der vollständige Transformer

    Die Teile zusammensetzen: Multi-Head-Attention, Feed-Forward, Normalisierung, Residualverbindungen.

    14 min
IITrainieren und Ausrichten
  1. 06

    Training

    Wie es lernt

    Loss, Gradientenabstieg, Backpropagation. Und warum Milliarden von Parametern benötigt werden.

    10 min
  2. 07

    Generierung

    Das nächste Wort wählen

    Temperature, Top-k, Top-p. Die Kunst, eine Wahrscheinlichkeitsverteilung in Text umzuwandeln.

    7 min
  3. 08

    Alignment

    Vom Rohmodell zum Assistenten

    Fine-Tuning, RLHF, konstitutionelle KI. Wie man ein LLM nützlich und harmlos macht.

    9 min
IIIDas Modell im Einsatz
  1. 09

    Kontext

    Was das Modell erinnert

    Das Kontextfenster: perfektes, aber begrenztes Gedächtnis. Warum ChatGPT vergisst und was es kostet.

    8 min
  2. 10

    RAG

    Deine Dokumente lesen

    Wie ein LLM auf Tausende von Seiten zugreift, ohne sie zu memorieren. Embeddings, semantische Suche, injizierter Kontext.

    9 min
  3. 11

    Agenten

    Vom antwortenden Modell zum handelnden Modell

    Tool-Nutzung, ReAct-Schleife, mehrstufige Aufgaben. Wie ein LLM zu einem Agenten wird, der in der Welt handeln kann.

    10 min
  4. 12

    Prompting

    Die Kunst, mit einem LLM zu sprechen

    Zero-Shot, Few-Shot, Chain-of-Thought, Self-Consistency. Warum die Formulierung eines Prompts das Ergebnis grundlegend verändert.

    8 min
  5. 13

    Halluzinationen

    Warum LLMs erfinden

    Kalibrierung, falsche Gewissheiten, Gegenmaßnahmen. Der strukturelle Mechanismus hinter der häufigsten Kritik — und was sich dagegen tun lässt.

    9 min
IVWeitergehen
  1. 14

    Fine-Tuning

    Ein Modell spezialisieren ohne alles neu zu trainieren

    LoRA, QLoRA, SFT. Wie man ein generalistisches Modell an eine bestimmte Domäne anpasst, indem man 0,1% seiner Parameter trainiert.

    9 min
  2. 15

    Multimodalität

    Wenn das Modell Bilder liest

    Patch-Embedding, ViT, CLIP. Wie ein Text-Transformer multimodal wird, indem er ein Bild als Gitter von Tokens behandelt.

    8 min
  3. 16

    Evaluierung

    Woher wissen wir, dass ein Modell besser ist?

    MMLU, HumanEval, LMSYS Arena. Warum die Messung der Intelligenz eines LLM schwierig ist — und warum kein einzelner Benchmark ausreicht.

    8 min
  4. 17

    Schlussfolgern

    Denken, bevor man antwortet

    Thinking Tokens, erweitertes Schlussfolgern, Denkbudgets. Wie o1/o3-Modelle eine versteckte Gedankenkette generieren, bevor sie antworten.

    9 min
  5. 18

    Inferenz

    Warum der 2. Token schneller ist als der 1.

    Der KV-Cache und die autoregressive Generierung. Prefill vs. Decode, TTFT, und warum der Cache alles verändert.

    8 min
  6. 19

    Skalierung

    Größer, immer besser?

    Die Skalierungsgesetze von Kaplan und Chinchilla. Warum GPT-3 unterbelastet war und das optimale Verhältnis von 20 Tokens pro Parameter.

    9 min
  7. 20

    Interpretierbarkeit

    Was geht wirklich im Inneren vor?

    Circuits, polysemantische Neuronen, Sparse Autoencoders. Wie Anthropic und DeepMind die Black Box öffnen.

    9 min
  8. 21

    Diffusion

    Ein Bild erzeugen, indem man Rauschen entfernt

    Stable Diffusion, DALL-E, Midjourney. Der umgekehrte Entrauschungs-Prozess, die Rolle von CLIP, und warum U-Net den Transformern weicht.

    9 min
Alle Kapitel · Step by Token