Chapitre 01 · Fondations · 6 min

Prédire un mot, encore et encore

Qu'est-ce qu'un modèle de langage ? Pourquoi prédire le mot suivant suffit pour faire émerger l'intelligence.

La grande surprise

Voici la chose la plus étrange de l'IA moderne : tout ce que fait un grand modèle de langage repose sur une seule capacité — prédire le mot suivant.

Tu donnes au modèle un début de phrase :

"Le ciel est bleu parce que…"

Le modèle calcule, parmi les milliers de mots qu'il connaît, lequel est le plus probable de venir ensuite. Puis il recommence avec ce nouveau mot ajouté. Et encore. Et encore. C'est tout.

De cette opération minuscule et mécanique émerge tout le reste : la traduction, la synthèse, le code, les explications de physique quantique, les blagues, les poèmes.

Pourquoi ça marche

Pour bien prédire le mot suivant, il faut comprendre énormément de choses sur le monde.

Considère cette phrase :

"Le médecin a renvoyé l'infirmière chez elle parce qu'elle…"

Pour deviner ce qui suit, le modèle doit savoir que "elle" se réfère probablement à l'infirmière (et pas au médecin) — il doit comprendre la grammaire, le contexte, peut-être même les conventions sociales du métier médical.

Prédire des mots, c'est modéliser le monde qui les a produits.

C'est l'idée centrale. Forcer un système à prédire du texte humain à grande échelle, c'est l'obliger à apprendre, en creux, comment fonctionne le monde dans lequel ce texte a été écrit.

Une distribution, pas un mot

Quand on dit "le modèle prédit le mot suivant", c'est un raccourci. En réalité, à chaque étape, il produit une distribution de probabilités sur tout son vocabulaire : chaque token reçoit un score, et la somme fait 1.

Pour générer du texte, il faut ensuite choisir un token dans cette distribution. C'est là que les choses deviennent intéressantes : le même modèle, avec le même prompt, peut produire des textes très différents selon la stratégie d'échantillonnage qu'on utilise.

À chaque étape, le modèle propose une distribution sur tous les tokens du vocabulaire. La barre la plus haute est rarement le seul candidat plausible — c'est ce qui rend la suite du texte ouverte plutôt que mécanique.

Trois leviers à manipuler ci-dessus :

Température — divise les logits avant le softmax. À basse température (0.1–0.3), la distribution se concentre sur le candidat le plus probable : le modèle devient prévisible, presque déterministe. À haute température (1.5–2.0), elle s'aplatit : les options exotiques redeviennent crédibles.
Top-k — ne garde que les k candidats les plus probables, élimine la longue traîne d'options rares.
Top-p (nucleus sampling) — garde le plus petit ensemble dont la masse cumulée dépasse p. Plus malin que top-k : si une étape a une réponse évidente, p peut couper à 1 seul candidat. Si le modèle hésite entre 20 options proches, il les garde toutes.

Essaie le prompt Capitale. La distribution est tellement piquée sur Paris que la température n'a presque pas d'effet : il faut monter à 1.8+ pour que les autres options aient une chance. Le modèle est sûr de lui.

À l'inverse, sur Le ciel au deuxième pas, plusieurs continuations sont plausibles ( lumière, couleur, mer…) — c'est là que la température change vraiment le résultat.

La boucle qui fait tout

Tout ce que fait un LLM tient dans cette boucle :

Lire le contexte (les tokens déjà présents).
Produire une distribution de probabilités sur le prochain token.
Échantillonner un token dans cette distribution.
L'ajouter au contexte. Recommencer.

C'est mécanique, répétitif, ennuyeux à décrire. Et pourtant, exécutée des milliards de fois sur un modèle aux centaines de milliards de paramètres, cette boucle produit des dialogues, des démonstrations, du code qui compile.

Le plan de ce site

Le parcours est organisé en quatre parties, du plus mécanique au plus abouti.

I. Anatomie d'un modèle. On démonte la machine. Tokenisation, embeddings, attention, Transformer — comment du texte devient une séquence de vecteurs qu'on peut transformer.

II. Entraîner et aligner. Comment ces milliards de paramètres apprennent. Loss, gradient, échantillonnage, RLHF — du modèle aléatoire à l'assistant utile.

III. Le modèle en production. Ce qui se passe quand tu envoies un prompt à ChatGPT ou Claude. Fenêtre de contexte, RAG, agents — l'infrastructure qui rend les LLMs utilisables au quotidien.

IV. Aller plus loin. Les sujets qui occupent la recherche actuelle. Fine-tuning, multimodalité, raisonnement étendu, lois d'échelle, interprétabilité, diffusion — pour comprendre où va la suite.

Chaque chapitre contient au moins une visualisation manipulable. Le but n'est pas de te faire mémoriser des formules, mais de te donner une intuition mécanique de ce qui se passe à l'intérieur.

Allons-y.

Mis à jour le 10 mai 2026