Kapitel 01 · Grundlagen · 6 min

Ein Wort nach dem anderen vorhersagen

Was ist ein Sprachmodell? Warum das Vorhersagen des nächsten Wortes ausreicht, um Intelligenz entstehen zu lassen.

Die große Überraschung

Hier ist das Seltsamste an moderner KI: Alles, was ein großes Sprachmodell tut, basiert auf einer einzigen Fähigkeit — das nächste Wort vorherzusagen.

Du gibst dem Modell einen Satzanfang:

"Der Himmel ist blau, weil…"

Das Modell berechnet, welches der tausenden Wörter, die es kennt, am wahrscheinlichsten als nächstes kommt. Dann wiederholt es das mit dem neu hinzugefügten Wort. Und noch einmal. Und wieder. Das ist alles.

Aus dieser winzigen, mechanischen Operation entsteht alles andere: Übersetzung, Zusammenfassung, Code, Erklärungen zur Quantenphysik, Witze, Gedichte.

Warum es funktioniert

Um das nächste Wort gut vorherzusagen, muss man unglaublich viel über die Welt verstehen.

Betrachte diesen Satz:

"Der Arzt schickte die Krankenschwester nach Hause, weil sie…"

Um zu erraten, was folgt, muss das Modell wissen, dass „sie" sich wahrscheinlich auf die Krankenschwester bezieht (und nicht auf den Arzt) — es muss Grammatik, Kontext und vielleicht sogar die sozialen Konventionen des medizinischen Berufs verstehen.

Wörter vorherzusagen bedeutet, die Welt zu modellieren, die sie hervorgebracht hat.

Das ist der zentrale Gedanke. Ein System zu zwingen, menschlichen Text in großem Maßstab vorherzusagen, zwingt es dazu, implizit zu lernen, wie die Welt funktioniert, in der dieser Text entstanden ist.

Eine Verteilung, kein Wort

Wenn man sagt „das Modell sagt das nächste Wort vorher", ist das eine Vereinfachung. In Wirklichkeit erzeugt es bei jedem Schritt eine Wahrscheinlichkeitsverteilung über sein gesamtes Vokabular: Jeder Token bekommt einen Score, und die Summe ergibt 1.

Um Text zu generieren, muss man dann einen Token aus dieser Verteilung auswählen. Hier wird es interessant: Dasselbe Modell, mit demselben Prompt, kann mit unterschiedlichen Sampling-Strategien sehr verschiedene Texte erzeugen.

In jedem Schritt schlägt das Modell eine Verteilung über alle Tokens des Vokabulars vor. Der höchste Balken ist selten der einzige plausible Kandidat — genau das macht den nächsten Teil eines Textes offen statt mechanisch.

Drei Regler zum Ausprobieren:

Temperatur — dividiert die Logits vor dem Softmax. Bei niedriger Temperatur (0,1–0,3) konzentriert sich die Verteilung auf den wahrscheinlichsten Kandidaten: das Modell wird vorhersehbar, fast deterministisch. Bei hoher Temperatur (1,5–2,0) flacht sie ab: Exotische Optionen werden wieder denkbar.
Top-k — behält nur die k wahrscheinlichsten Kandidaten und eliminiert den langen Schwanz seltener Optionen.
Top-p (Nucleus Sampling) — behält die kleinste Menge, deren kumulierte Wahrscheinlichkeit p übersteigt. Cleverer als Top-k: Wenn ein Schritt eine offensichtliche Antwort hat, kann p auf einen einzigen Kandidaten zuschneiden. Wenn das Modell zwischen 20 ähnlich wahrscheinlichen Optionen schwankt, behält es alle.

Probiere den Prompt Hauptstadt. Die Verteilung ist so stark auf Paris zugespitzt, dass die Temperatur kaum einen Effekt hat: Man muss auf 1,8+ gehen, damit andere Optionen eine Chance haben. Das Modell ist sicher.

Im Gegensatz dazu sind beim Prompt Der Himmel im zweiten Schritt mehrere Fortsetzungen plausibel ( Licht, Farbe, Meer…) — hier verändert die Temperatur das Ergebnis wirklich.

Die Schleife, die alles tut

Alles, was ein LLM tut, steckt in dieser Schleife:

Den Kontext lesen (die bereits vorhandenen Tokens).
Eine Wahrscheinlichkeitsverteilung über den nächsten Token erzeugen.
Einen Token aus dieser Verteilung samplen.
Ihn zum Kontext hinzufügen. Wiederholen.

Das ist mechanisch, repetitiv, langweilig zu beschreiben. Und doch erzeugt diese Schleife, milliardenfach ausgeführt in einem Modell mit hunderten Milliarden Parametern, Dialoge, Beweise und Code, der kompiliert.

Der Plan dieser Website

Der Weg ist in vier Teile gegliedert, vom Mechanischsten zum Ausgereiftesten.

I. Anatomie eines Modells. Wir nehmen die Maschine auseinander. Tokenisierung, Embeddings, Attention, Transformer — wie Text zu einer Sequenz von Vektoren wird, die man transformieren kann.

II. Trainieren und Ausrichten. Wie diese Milliarden Parameter lernen. Loss, Gradient, Sampling, RLHF — vom zufälligen Modell zum nützlichen Assistenten.

III. Das Modell im Einsatz. Was passiert, wenn du einen Prompt an ChatGPT oder Claude schickst. Kontextfenster, RAG, Agenten — die Infrastruktur, die LLMs im Alltag nutzbar macht.

IV. Weitergehen. Die Themen, die die aktuelle Forschung beschäftigen. Fine-Tuning, Multimodalität, erweitertes Reasoning, Skalierungsgesetze, Interpretierbarkeit, Diffusion — um zu verstehen, wohin die Reise geht.

Jedes Kapitel enthält mindestens eine interaktive Visualisierung. Das Ziel ist nicht, Formeln auswendig zu lernen, sondern ein mechanisches Intuitionsgefühl dafür zu entwickeln, was im Inneren vorgeht.

Los geht's.

Aktualisiert am 10. Mai 2026