Chapitre 08 · Alignement · 9 min
Du modèle brut à l'assistant
Fine-tuning, RLHF, constitutional AI. Comment on rend un LLM utile et inoffensif.
Le modèle brut n'est pas un assistant
À la fin du pré-entraînement, ton LLM sait une chose et une seule : continuer du texte de façon plausible. C'est utile, c'est même magique. Mais ce n'est pas un assistant.
Demande à un modèle brut "Comment faire des cookies ?" et il y a de bonnes chances qu'il continue ainsi :
"Comment faire des cookies ? Comment faire des biscuits ? Comment faire des gâteaux ? La recette des cookies est une recette qui demande des cookies, du sucre…"
Pas parce qu'il est bête. Parce qu'il a vu, dans son corpus, beaucoup de pages où une question est suivie d'autres questions ou de bruit. Il fait son boulot : prédire ce qui suit statistiquement, pas ce qui serait utile.
Pour passer du complétiseur à l'assistant, on aligne le modèle.
Trois prompts identiques, deux modèles : à gauche le modèle brut, à droite le même après fine-tuning supervisé et RLHF. Le brut continue le texte ; l'aligné répond — et refuse les requêtes problématiques.
Trois étapes successives
L'alignement moderne se fait en plusieurs phases empilées par-dessus le pré-entraînement.
1. Instruction tuning (SFT)
On ré-entraîne le modèle (en mode supervisé classique) sur un dataset de paires instruction → réponse idéale, écrites par des humains. Quelques dizaines de milliers de paires suffisent. C'est ce qui apprend au modèle :
- à suivre des instructions plutôt qu'à les compléter
- à respecter le format demandé (liste, paragraphe, code…)
- à produire une réponse complète plutôt que de babiller
C'est l'étape qui transforme gpt-3 en gpt-3.5-instruct. La différence est spectaculaire : le modèle commence enfin à répondre.
2. RLHF (Reinforcement Learning from Human Feedback)
Le SFT seul n'est pas suffisant. Il enseigne un style de réponse, mais ne fait pas la fine différence entre une réponse "moyenne" et une réponse "excellente".
D'où le RLHF, en trois sous-étapes :
a) Le modèle génère plusieurs réponses possibles à un même prompt. b) Un humain les classe (A > B > C). c) On entraîne un reward model qui imite les préférences humaines, puis on optimise le LLM via reinforcement learning pour maximiser ce reward.
Le résultat : un modèle qui ne se contente pas de répondre, mais qui répond comme les humains préfèrent que les modèles répondent. Plus poli, plus structuré, moins arrogant, plus utile.
2bis. DPO : PPO en plus simple
Le RLHF tel qu'on vient de le décrire repose sur un algorithme de RL (PPO) qui est lourd à entraîner : reward model séparé, instabilité numérique, coût compute énorme.
En 2023, une équipe de Stanford propose DPO (Direct Preference Optimization). L'idée : court-circuiter le reward model et le RL. On peut, mathématiquement, dériver une simple loss supervisée qui optimise directement le LLM pour qu'il préfère la réponse "gagnante" à la "perdante" sur chaque paire de comparaisons.
Concrètement, à partir des mêmes paires (prompt, réponse_A_meilleure_que_B) qu'utilisait le RLHF classique, DPO entraîne le modèle en une seule passe — comme un fine-tuning supervisé ordinaire. Pas de reward model à part, pas de PPO, pas d'instabilité.
Le résultat est presque indistinguable de PPO-RLHF sur les benchmarks, pour une fraction du coût. Depuis 2024, DPO et ses variantes (IPO, KTO, ORPO) ont largement remplacé le PPO classique chez Llama, Mistral, et la plupart des labs open-source. Anthropic et OpenAI utilisent encore des pipelines plus complexes, mais l'écart se resserre.
Tu lis encore "RLHF" partout. C'est devenu un terme générique. Sous le capot, c'est de plus en plus du DPO.
3. RLAIF / Constitutional AI
Une variante : au lieu d'humains, on utilise un autre modèle (souvent le même) pour fournir le feedback selon une constitution écrite — un ensemble de principes ("ne donne pas d'instructions illégales", "n'invente pas de sources", "explique ton raisonnement quand c'est utile"…). C'est ce qu'on appelle Constitutional AI.
Avantages : scalable (les humains sont chers et lents), reproductible (la constitution est explicite), modifiable (on peut ajuster les principes sans tout réannoter).
C'est le procédé qu'utilise Anthropic pour Claude, et que beaucoup d'autres labos ont adopté depuis.
Ce que l'alignement ne fait pas
Quelques mythes à dissiper.
L'alignement ne change pas les connaissances du modèle. Si le modèle brut ne sait pas que Napoléon est mort à Sainte-Hélène, le RLHF ne le lui apprendra pas. Le RLHF change la manière dont le modèle exprime ce qu'il sait, pas l'étendue de ce qu'il sait.
L'alignement n'est pas une censure simple. Refuser de donner les instructions pour fabriquer une bombe, ce n'est pas un mot-clé sur liste noire : c'est une politique apprise qui généralise à des formulations détournées et qui justifie le refus.
L'alignement n'est pas parfait. Les jailbreaks (prompts qui contournent le RLHF) existent toujours. Les biais du corpus persistent partiellement. Les hallucinations existent toujours, parce que le modèle a parfois plus de récompense à avoir l'air sûr qu'à admettre qu'il ne sait pas.
L'alignement a un coût. Sur certaines tâches techniques, un modèle aligné est moins bon qu'un modèle de base : il refuse de prendre des risques, il ajoute des disclaimers, il devient prudent au-delà du raisonnable. C'est ce qu'on appelle l'alignment tax.
Et les hallucinations dans tout ça ?
L'alignement améliore beaucoup de choses. Il ne corrige pas le fait qu'un LLM, par construction, est entraîné à toujours produire du texte plausible — même quand il n'a pas la réponse. C'est ce qui produit les hallucinations.
Pourquoi le RLHF n'efface pas le problème, et qu'est-ce qui marche en pratique (RAG, outils, raisonnement étendu, fine-tuning sur l'incertitude) ? C'est le sujet du chapitre 13, juste après la partie sur les agents.
La question ouverte
L'alignement résout un problème immédiat : rendre un LLM utile et globalement raisonnable. Il n'épuise pas la question de fond, qu'on appelle parfois alignment with a capital A :
Comment garantir qu'un système beaucoup plus capable qu'un humain agit dans l'intérêt de l'humanité ?
Aujourd'hui, on aligne par feedback humain, parce que les humains restent les meilleurs juges. Quand les modèles deviendront meilleurs que les humains sur les tâches où on veut les juger, ce levier ne suffira plus. C'est un problème ouvert, et l'objet de toute une branche de recherche.
Fin de la partie II
Tu viens de traverser tout le pipeline interne d'un LLM moderne, des octets bruts du texte au comportement aligné :
- 01 — Prédire le mot suivant, encore et encore.
- 02 — Tokeniser le texte.
- 03 — Embarquer chaque token dans un espace de sens.
- 04 — Laisser les tokens s'entre-regarder via l'attention.
- 05 — Empiler les blocs Transformer.
- 06 — Entraîner par descente de gradient.
- 07 — Échantillonner le prochain mot.
- 08 — Aligner sur les préférences humaines.
Aucun de ces mécanismes n'est mystérieux pris isolément. Aucun, à lui seul, ne suffit à expliquer ce que tu vois quand un LLM résume un papier scientifique ou écrit un sonnet : l'intelligence émerge de leur composition à grande échelle.
Le miracle n'est pas dans une seule des pièces. Il est dans la chaîne entière, multipliée par des milliards de paramètres, et entraînée sur des milliers de milliards de tokens.
Et maintenant ?
Le modèle est prêt. Il sait prédire, raisonner, suivre des instructions. Mais entre lui et l'expérience que tu as quand tu utilises ChatGPT ou Claude, il y a encore toute une infrastructure : la fenêtre de contexte qui définit ce dont il se souvient, le RAG qui lui donne accès à tes documents, les agents qui le connectent à des outils.
C'est le sujet de la partie III — Le modèle en production.
Et au-delà, la partie IV — Aller plus loin entre dans les sujets de recherche actuels : fine-tuning, multimodalité, raisonnement étendu, lois d'échelle, interprétabilité, diffusion.
Le pipeline est posé. La suite est tout ce qu'on construit dessus.
Mis à jour le