# Step by Token

> Guide interactif francophone (8 langues disponibles) pour comprendre comment fonctionnent les grands modèles de langage (LLMs). 21 chapitres, 189 minutes de lecture, gratuit, avec visualisations manipulables.

## Auteur
Dimitri Mérault — https://stepbytoken.com/fr/about

## Chapitres

### Partie I — Anatomie d'un modèle
- [01 — Prédire un mot, encore et encore](https://stepbytoken.com/fr/chapters/01-introduction): comment fonctionne un LLM ? Tout part d'une seule tâche : prédire le mot suivant.
- [02 — Du texte aux tokens](https://stepbytoken.com/fr/chapters/02-tokenization): tokenization, BPE, sous-mots — comment un LLM transforme du texte en nombres.
- [03 — Embeddings](https://stepbytoken.com/fr/chapters/03-embeddings): l'espace géométrique du sens. Roi − Homme + Femme = Reine et autres miracles vectoriels.
- [04 — Attention](https://stepbytoken.com/fr/chapters/04-attention): "Attention is all you need" — le mécanisme qui change tout.
- [05 — Le Transformer](https://stepbytoken.com/fr/chapters/05-transformer): multi-head attention, feed-forward, normalisation, résiduels — l'architecture en entier.

### Partie II — Entraîner et aligner
- [06 — Entraînement](https://stepbytoken.com/fr/chapters/06-training): loss, descente de gradient, backpropagation — sans formules.
- [07 — Sampling](https://stepbytoken.com/fr/chapters/07-sampling): temperature, top-k, top-p — choisir le mot suivant.
- [08 — Alignement](https://stepbytoken.com/fr/chapters/08-alignment): SFT, RLHF, Constitutional AI — du modèle brut à l'assistant.

### Partie III — Le modèle en production
- [09 — Fenêtre de contexte](https://stepbytoken.com/fr/chapters/09-context-memory): pourquoi ChatGPT oublie ? Mémoire parfaite mais bornée.
- [10 — RAG](https://stepbytoken.com/fr/chapters/10-rag): Retrieval-Augmented Generation — faire lire des documents à un LLM.
- [11 — Agents LLM](https://stepbytoken.com/fr/chapters/11-agents): tool use, ReAct, tâches multi-étapes — du modèle qui répond au modèle qui agit.
- [12 — Prompt engineering](https://stepbytoken.com/fr/chapters/12-prompt-engineering): zero-shot, few-shot, chain-of-thought, self-consistency.
- [13 — Hallucinations](https://stepbytoken.com/fr/chapters/13-hallucinations): pourquoi les LLMs inventent et comment limiter le risque.

### Partie IV — Aller plus loin
- [14 — Fine-tuning](https://stepbytoken.com/fr/chapters/14-fine-tuning): LoRA, QLoRA, SFT — adapter un modèle sans tout réentraîner.
- [15 — Multimodalité](https://stepbytoken.com/fr/chapters/15-multimodality): patch embedding, ViT, CLIP — quand un LLM lit des images.
- [16 — Évaluation](https://stepbytoken.com/fr/chapters/16-evaluation): MMLU, HumanEval, LMSYS Arena — comment mesurer un LLM ?
- [17 — Raisonnement étendu](https://stepbytoken.com/fr/chapters/17-reasoning): thinking tokens, chaîne de pensée cachée — o1, o3, R1.
- [18 — KV cache](https://stepbytoken.com/fr/chapters/18-kv-cache): prefill, decode, Time To First Token — pourquoi le 2e token est plus rapide que le 1er.
- [19 — Lois d'échelle](https://stepbytoken.com/fr/chapters/19-scaling-laws): Kaplan, Chinchilla — pourquoi GPT-3 était sous-entraîné.
- [20 — Interprétabilité mécaniste](https://stepbytoken.com/fr/chapters/20-interpretability): circuits, neurones polysémantiques, Sparse Autoencoders.
- [21 — Diffusion](https://stepbytoken.com/fr/chapters/21-diffusion): Stable Diffusion, DALL-E, Midjourney — générer une image en effaçant du bruit.

## Ressources
- [Lexique complet (196 termes)](https://stepbytoken.com/fr/lexicon)
- [À propos](https://stepbytoken.com/fr/about)
- [Sitemap XML](https://stepbytoken.com/sitemap.xml)

## Optional

Le contenu est en français (source de vérité) et traduit en 7 langues : anglais, espagnol, italien, portugais, allemand, chinois, japonais. Versions disponibles via le préfixe `/{locale}/` — exemple : `/en/chapters/04-attention` pour l'anglais.

Chaque chapitre inclut au moins une visualisation interactive manipulable (D3.js, React Three Fiber). La pédagogie privilégie l'intuition mécanique sur les équations.