Un guide interactif sur les LLMs
Step by Token
Comprendre comment fonctionnent les grands modèles de langage, une visualisation manipulable à la fois.
Table des matières
21 / 21 · 189 min- 016 min
Prédire un mot, encore et encore
Qu'est-ce qu'un modèle de langage ? Pourquoi prédire le mot suivant suffit pour faire émerger l'intelligence.
- 028 min
Du texte aux tokens
Comment un texte devient des nombres. BPE, sous-mots, et pourquoi les LLMs comptent mal les lettres.
- 0310 min
L'espace du sens
Des mots dans un espace géométrique. Roi − Homme + Femme = Reine, et autres miracles vectoriels.
- 0412 min
Attention is all you need
Le mécanisme qui change tout. Comment chaque token regarde tous les autres pour comprendre le contexte.
- 0514 min
Le Transformer, en entier
Assembler les pièces : multi-head attention, feed-forward, normalisation, connexions résiduelles.
- 0610 min
Comment ça apprend
Loss, gradient descent, backpropagation. Et pourquoi il faut des milliards de paramètres.
- 077 min
Choisir le mot suivant
Temperature, top-k, top-p. L'art de transformer une distribution de probabilités en texte.
- 089 min
Du modèle brut à l'assistant
Fine-tuning, RLHF, constitutional AI. Comment on rend un LLM utile et inoffensif.
- 098 min
Ce que le modèle se souvient
La fenêtre de contexte : mémoire parfaite mais bornée. Pourquoi ChatGPT oublie et ce que ça coûte.
- 109 min
Lire tes documents
Comment un LLM accède à des milliers de pages sans les mémoriser. Embeddings, recherche sémantique, contexte injecté.
- 1110 min
Du modèle qui répond au modèle qui agit
Tool use, boucle ReAct, tâches multi-étapes. Comment un LLM devient un agent capable d'agir dans le monde.
- 128 min
L'art de parler à un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Pourquoi la formulation d'un prompt change radicalement ce qu'un modèle produit.
- 139 min
Pourquoi les LLMs inventent
Calibration, certitudes fausses, contre-mesures. Le mécanisme structurel derrière la critique la plus fréquente — et ce qu'on peut y faire.
- 149 min
Spécialiser un modèle sans tout réentraîner
LoRA, QLoRA, SFT. Comment adapter un modèle généraliste à un domaine précis en entraînant 0,1 % de ses paramètres.
- 158 min
Quand le modèle lit des images
Patch embedding, ViT, CLIP. Comment un Transformer texte devient multimodal en traitant une image comme une grille de tokens.
- 168 min
Comment sait-on qu'un modèle est meilleur ?
MMLU, HumanEval, LMSYS Arena. Pourquoi mesurer l'intelligence d'un LLM est difficile — et pourquoi aucun benchmark ne suffit.
- 179 min
Penser avant de répondre
Thinking tokens, raisonnement étendu, budgets de réflexion. Comment les modèles o1/o3 génèrent une chaîne de pensée cachée avant de répondre.
- 188 min
Pourquoi le 2e token est plus rapide que le 1er
Le KV cache et la génération autoregressive. Prefill vs decode, TTFT, et pourquoi le cache change tout.
- 199 min
Plus grand, toujours meilleur ?
Les lois d'échelle de Kaplan et Chinchilla. Pourquoi GPT-3 était sous-entraîné, et le ratio optimal de 20 tokens par paramètre.
- 209 min
Qu'est-ce qui se passe à l'intérieur ?
Circuits, neurones polysémantiques, Sparse Autoencoders. Comment Anthropic et DeepMind ouvrent la boîte noire.
- 219 min
Générer une image en effaçant du bruit
Stable Diffusion, DALL-E, Midjourney. Le processus inverse de débruitage, le rôle de CLIP, et pourquoi U-Net cède la place aux Transformers.