Chapitre 17 · Raisonnement · 9 min
Penser avant de répondre
Thinking tokens, raisonnement étendu, budgets de réflexion. Comment les modèles o1/o3 génèrent une chaîne de pensée cachée avant de répondre.
La réponse rapide est souvent fausse
Quel est le dernier chiffre de 7¹⁰⁰ ?
Si tu demandes cette question à un LLM classique, il te répondra probablement « 7 » en une fraction de seconde. Logique : 7 commence par 7, 7² = 49, et si on ne réfléchit pas trop, on suppose que ça reste 7. La réponse est fausse — c'est 1.
Mais si tu poses la même question à un modèle de raisonnement comme o1, o3 ou DeepSeek-R1, il hésite. Il « réfléchit » pendant 10, 20, parfois 60 secondes. Et il arrive à la bonne réponse.
La différence n'est pas dans les poids du modèle. C'est dans ce que le modèle est autorisé à faire avant de répondre.
Les thinking tokens
Tout LLM génère des tokens, un à la fois, de gauche à droite. Ce qui distingue les modèles de raisonnement, c'est qu'ils génèrent d'abord une longue séquence de tokens cachés — un monologue interne que l'utilisateur ne voit jamais — avant de produire la réponse finale.
Ces tokens cachés s'appellent les thinking tokens (ou tokens de réflexion).
Le modèle peut y écrire n'importe quoi : des calculs intermédiaires, des hypothèses qu'il infirme, des branches d'exploration abandonnées, des vérifications. C'est un brouillon qu'il efface avant de te montrer le résultat propre.
Ce n'est pas de la magie. C'est juste de la place supplémentaire pour traiter un problème difficile.
Essaie par toi-même
Règle le budget de réflexion sur « Aucun » puis clique sur « Raisonner ». Observe la réponse instantanée. Ensuite, passe le budget sur « Complet » et relance.
Les blocs grisés sont la chaîne de pensée interne — le modèle hypothétise, vérifie, parfois revient en arrière. Ces tokens de pensée coûtent en latence et en prix, mais débloquent des problèmes que le mode direct ne résout pas.
La différence entre les deux n'est pas dans la capacité du modèle — c'est dans le temps de calcul à l'inférence qu'on lui alloue.
Comment ça marche techniquement
Ce n'est pas une architecture différente. C'est le même Transformer, le même mécanisme d'attention, la même génération autoregressive.
Ce qui change, c'est l'entraînement et le décodage. Pendant le fine-tuning, le modèle apprend à produire des traces de raisonnement utiles — des chaînes de pensée qui convergent vers la bonne réponse. On lui montre des milliers de problèmes avec leurs solutions, et il apprend à construire le chemin intermédiaire.
À l'inférence, on lui donne un budget de tokens de pensée — une limite sur combien de tokens cachés il peut générer. Plus le budget est grand, plus il peut explorer. Et au-delà d'un certain budget, la qualité des réponses sur les tâches difficiles cesse d'augmenter significativement.
Un détail important : les thinking tokens sont générés avant la réponse, dans le même flux de tokens. Le modèle ne « réfléchit » pas en parallèle — il réfléchit en série, et ça coûte des tokens comme tout le reste.
Raisonnement étendu vs chain-of-thought
Tu as peut-être vu la technique du chain-of-thought (CoT), où on demande explicitement au modèle « pense étape par étape ». C'est différent, mais apparenté.
| Chain-of-Thought (prompté) | Raisonnement étendu (natif) | |
|---|---|---|
| Qui déclenche | L'utilisateur dans le prompt | Le modèle lui-même |
| Visibilité | Visible dans la réponse | Caché (thinking tokens) |
| Contrôle | On peut guider les étapes | Le modèle choisit son plan |
| Exemples | GPT-4 avec « let's think step by step » | o1, o3, Claude avec extended thinking |
Le CoT prompté améliore aussi les performances — mais le raisonnement natif va plus loin, parce que le modèle n'est pas contraint d'écrire un raisonnement lisible. Il peut explorer des chemins brouillons, faire des calculs qu'il efface, se contredire et se corriger, tout ça dans l'espace caché.
Quand ça vaut le coup
Le raisonnement étendu améliore significativement les performances sur :
- Mathématiques et logique — preuves, problèmes combinatoires, arithmétique exacte
- Code complexe — débogage multi-fichiers, algorithmes non triviaux
- Raisonnement structuré — puzzles, déductions en chaîne
- Planification — tâches qui nécessitent de poser une stratégie avant d'agir
En revanche, pour une question factuelle simple (« quelle est la capitale de la France ? »), du texte créatif, ou une traduction, le raisonnement étendu n'apporte rien — et coûte plus cher.
C'est aussi l'une des contre-mesures les plus efficaces contre les hallucinations (chapitre 13). Un modèle qui prend le temps de vérifier son propre brouillon attrape les erreurs qu'une réponse en un seul jet aurait laissées passer. Pas magique — il peut halluciner dans son raisonnement aussi — mais le simple fait de dérouler les étapes filtre une partie significative des erreurs factuelles.
Le coût, c'est là le vrai frein. Les thinking tokens sont facturés comme les tokens normaux. Un modèle o1 qui génère 1 000 tokens de pensée avant de répondre en 30 tokens consomme en réalité 1 030 tokens. Sur des millions de requêtes, ça compte.
Test-time compute scaling
Ce que les modèles de raisonnement ont mis en évidence, c'est qu'on peut acheter de l'intelligence à l'inférence : plus on alloue de tokens de pensée, plus les réponses s'améliorent sur les tâches difficiles.
C'est ce qu'on appelle le test-time compute scaling — par opposition au scaling habituel qui augmente les paramètres du modèle à l'entraînement.
La courbe est similaire aux lois d'échelle classiques : doubler le budget de réflexion améliore les performances, mais avec des rendements décroissants. À un certain point, penser plus longtemps ne compense plus.
Et c'est une découverte importante : l'intelligence d'un LLM n'est pas une constante fixée par ses poids. Elle dépend aussi du compute qu'on lui donne au moment de répondre.
Un modèle qui réfléchit longtemps sur un problème difficile peut surpasser un modèle plus grand qui répond vite. La vitesse n'est pas toujours une vertu.
Mis à jour le