Un guide interactif sur les LLMs

Step by Token

Comprendre comment fonctionnent les grands modèles de langage, une visualisation manipulable à la fois.

Table des matières

21 / 21 · 189 min
IIILe modèle en production
  1. 09

    Ce que le modèle se souvient

    La fenêtre de contexte : mémoire parfaite mais bornée. Pourquoi ChatGPT oublie et ce que ça coûte.

    8 min
  2. 10

    Lire tes documents

    Comment un LLM accède à des milliers de pages sans les mémoriser. Embeddings, recherche sémantique, contexte injecté.

    9 min
  3. 11

    Du modèle qui répond au modèle qui agit

    Tool use, boucle ReAct, tâches multi-étapes. Comment un LLM devient un agent capable d'agir dans le monde.

    10 min
  4. 12

    L'art de parler à un LLM

    Zero-shot, few-shot, chain-of-thought, self-consistency. Pourquoi la formulation d'un prompt change radicalement ce qu'un modèle produit.

    8 min
  5. 13

    Pourquoi les LLMs inventent

    Calibration, certitudes fausses, contre-mesures. Le mécanisme structurel derrière la critique la plus fréquente — et ce qu'on peut y faire.

    9 min
IVAller plus loin
  1. 14

    Spécialiser un modèle sans tout réentraîner

    LoRA, QLoRA, SFT. Comment adapter un modèle généraliste à un domaine précis en entraînant 0,1 % de ses paramètres.

    9 min
  2. 15

    Quand le modèle lit des images

    Patch embedding, ViT, CLIP. Comment un Transformer texte devient multimodal en traitant une image comme une grille de tokens.

    8 min
  3. 16

    Comment sait-on qu'un modèle est meilleur ?

    MMLU, HumanEval, LMSYS Arena. Pourquoi mesurer l'intelligence d'un LLM est difficile — et pourquoi aucun benchmark ne suffit.

    8 min
  4. 17

    Penser avant de répondre

    Thinking tokens, raisonnement étendu, budgets de réflexion. Comment les modèles o1/o3 génèrent une chaîne de pensée cachée avant de répondre.

    9 min
  5. 18

    Pourquoi le 2e token est plus rapide que le 1er

    Le KV cache et la génération autoregressive. Prefill vs decode, TTFT, et pourquoi le cache change tout.

    8 min
  6. 19

    Plus grand, toujours meilleur ?

    Les lois d'échelle de Kaplan et Chinchilla. Pourquoi GPT-3 était sous-entraîné, et le ratio optimal de 20 tokens par paramètre.

    9 min
  7. 20

    Qu'est-ce qui se passe à l'intérieur ?

    Circuits, neurones polysémantiques, Sparse Autoencoders. Comment Anthropic et DeepMind ouvrent la boîte noire.

    9 min
  8. 21

    Générer une image en effaçant du bruit

    Stable Diffusion, DALL-E, Midjourney. Le processus inverse de débruitage, le rôle de CLIP, et pourquoi U-Net cède la place aux Transformers.

    9 min
Step by Token