# Step by Token > Guide interactif francophone (8 langues disponibles) pour comprendre comment fonctionnent les grands modèles de langage (LLMs). 21 chapitres, 189 minutes de lecture, gratuit, avec visualisations manipulables. ## Auteur Dimitri Mérault — https://stepbytoken.com/fr/about ## Chapitres ### Partie I — Anatomie d'un modèle - [01 — Prédire un mot, encore et encore](https://stepbytoken.com/fr/chapters/01-introduction): comment fonctionne un LLM ? Tout part d'une seule tâche : prédire le mot suivant. - [02 — Du texte aux tokens](https://stepbytoken.com/fr/chapters/02-tokenization): tokenization, BPE, sous-mots — comment un LLM transforme du texte en nombres. - [03 — Embeddings](https://stepbytoken.com/fr/chapters/03-embeddings): l'espace géométrique du sens. Roi − Homme + Femme = Reine et autres miracles vectoriels. - [04 — Attention](https://stepbytoken.com/fr/chapters/04-attention): "Attention is all you need" — le mécanisme qui change tout. - [05 — Le Transformer](https://stepbytoken.com/fr/chapters/05-transformer): multi-head attention, feed-forward, normalisation, résiduels — l'architecture en entier. ### Partie II — Entraîner et aligner - [06 — Entraînement](https://stepbytoken.com/fr/chapters/06-training): loss, descente de gradient, backpropagation — sans formules. - [07 — Sampling](https://stepbytoken.com/fr/chapters/07-sampling): temperature, top-k, top-p — choisir le mot suivant. - [08 — Alignement](https://stepbytoken.com/fr/chapters/08-alignment): SFT, RLHF, Constitutional AI — du modèle brut à l'assistant. ### Partie III — Le modèle en production - [09 — Fenêtre de contexte](https://stepbytoken.com/fr/chapters/09-context-memory): pourquoi ChatGPT oublie ? Mémoire parfaite mais bornée. - [10 — RAG](https://stepbytoken.com/fr/chapters/10-rag): Retrieval-Augmented Generation — faire lire des documents à un LLM. - [11 — Agents LLM](https://stepbytoken.com/fr/chapters/11-agents): tool use, ReAct, tâches multi-étapes — du modèle qui répond au modèle qui agit. - [12 — Prompt engineering](https://stepbytoken.com/fr/chapters/12-prompt-engineering): zero-shot, few-shot, chain-of-thought, self-consistency. - [13 — Hallucinations](https://stepbytoken.com/fr/chapters/13-hallucinations): pourquoi les LLMs inventent et comment limiter le risque. ### Partie IV — Aller plus loin - [14 — Fine-tuning](https://stepbytoken.com/fr/chapters/14-fine-tuning): LoRA, QLoRA, SFT — adapter un modèle sans tout réentraîner. - [15 — Multimodalité](https://stepbytoken.com/fr/chapters/15-multimodality): patch embedding, ViT, CLIP — quand un LLM lit des images. - [16 — Évaluation](https://stepbytoken.com/fr/chapters/16-evaluation): MMLU, HumanEval, LMSYS Arena — comment mesurer un LLM ? - [17 — Raisonnement étendu](https://stepbytoken.com/fr/chapters/17-reasoning): thinking tokens, chaîne de pensée cachée — o1, o3, R1. - [18 — KV cache](https://stepbytoken.com/fr/chapters/18-kv-cache): prefill, decode, Time To First Token — pourquoi le 2e token est plus rapide que le 1er. - [19 — Lois d'échelle](https://stepbytoken.com/fr/chapters/19-scaling-laws): Kaplan, Chinchilla — pourquoi GPT-3 était sous-entraîné. - [20 — Interprétabilité mécaniste](https://stepbytoken.com/fr/chapters/20-interpretability): circuits, neurones polysémantiques, Sparse Autoencoders. - [21 — Diffusion](https://stepbytoken.com/fr/chapters/21-diffusion): Stable Diffusion, DALL-E, Midjourney — générer une image en effaçant du bruit. ## Ressources - [Lexique complet (196 termes)](https://stepbytoken.com/fr/lexicon) - [À propos](https://stepbytoken.com/fr/about) - [Sitemap XML](https://stepbytoken.com/sitemap.xml) ## Optional Le contenu est en français (source de vérité) et traduit en 7 langues : anglais, espagnol, italien, portugais, allemand, chinois, japonais. Versions disponibles via le préfixe `/{locale}/` — exemple : `/en/chapters/04-attention` pour l'anglais. Chaque chapitre inclut au moins une visualisation interactive manipulable (D3.js, React Three Fiber). La pédagogie privilégie l'intuition mécanique sur les équations.