Chapitre 16 · Évaluation · 8 min

Comment sait-on qu'un modèle est meilleur ?

MMLU, HumanEval, LMSYS Arena. Pourquoi mesurer l'intelligence d'un LLM est difficile — et pourquoi aucun benchmark ne suffit.

Comment savoir si un modèle est bon ?

C'est une question qui semble simple. La réponse est compliquée.

Pour un algorithme de tri, c'est facile : est-ce qu'il trie correctement ? En combien de temps ? Pour un modèle de langage, "bon" peut vouloir dire : précis, honnête, utile, inoffensif, drôle, concis, créatif… et ces qualités ne sont pas toujours dans la même direction.

L'évaluation des LLMs est un domaine de recherche à part entière. Chaque benchmark capture quelque chose de vrai et rate quelque chose d'important.

Les benchmarks automatiques

MMLU — La largeur des connaissances

MMLU (Massive Multitask Language Understanding) teste 57 disciplines académiques : médecine, droit, chimie, histoire, mathématiques, philosophie… Ce sont des QCM à quatre choix, évalués automatiquement.

Score moyen d'un humain bien éduqué : ~90 %. Les meilleurs modèles actuels atteignent 88-89 %.

Ce que ça mesure : la largeur des connaissances stockées dans les paramètres.
Ce que ça rate : la capacité à raisonner sur des situations nouvelles, à admettre l'incertitude, à détecter une question mal posée.

HumanEval — Le code

164 problèmes de programmation Python. Le modèle génère une fonction, les tests unitaires automatiques vérifient qu'elle fonctionne. La métrique standard est pass@k : on génère k propositions par problème (souvent k=1 ou k=10), et on compte une réussite dès qu'au moins une passe les tests. pass@1 mesure la fiabilité, pass@10 la capacité brute.

Ce que ça mesure : la capacité à produire du code fonctionnel sur des problèmes bien définis.
Ce que ça rate : la réalité du développement — comprendre un bug dans un codebase de 50 000 lignes, refactorer, documenter.

MATH & GSM8K — Les mathématiques

MATH : 12 500 problèmes de maths niveau lycée/concours, en LaTeX. GSM8K : 8 500 problèmes arithmétiques en langage naturel.

Ce que ça mesure : le raisonnement mathématique multi-étapes.
Ce que ça rate : la créativité mathématique, la preuve formelle, la découverte.

Le benchmark humain : LMSYS Arena

L'Arena est différente. Des humains anonymes posent n'importe quelle question à deux modèles (affichés sans nom), lisent les deux réponses, et choisissent leur préférence. Le score ELO résulte de des milliers de ces duels.

C'est le seul benchmark qui mesure ce que les humains préfèrent vraiment — dans toute leur subjectivité. Longueur idéale, ton, format, humour, honnêteté perçue.

Ce que ça mesure : la préférence humaine globale.
Ce que ça rate : la précision factuelle (les humains ne savent pas toujours quelle réponse est correcte), les tâches spécialisées, la reproductibilité.

Explore le radar

Voici cinq modèles majeurs comparés sur six benchmarks. Clique sur un modèle pour voir ses scores détaillés, ou sur un benchmark pour comprendre ce qu'il évalue.

Chaque axe est un benchmark. Les modèles ont des profils différents — fort en code, faible en raisonnement long, ou l'inverse. Aucun radar ne donne le verdict final : il faut croiser benchmarks objectifs et préférences humaines pour juger un LLM.

Ce que le radar révèle

Regarde attentivement les patterns :

Pas de modèle dominant. Claude 3.5 Sonnet mène sur HumanEval et BBH. GPT-4o domine Arena et MATH. Llama 3.1 70B est compétitif mais inférieur aux modèles propriétaires sur presque tout.

Arena et benchmarks académiques ne corrèlent pas parfaitement. Un modèle peut être excellent en MMLU et moyen en Arena — et inversement. Les humains apprécient autre chose que la précision académique.

Les benchmarks se saturent. MMLU était difficile en 2020 (GPT-3 : 43 %). En 2024, tous les grands modèles sont entre 82 et 89 %. La différenciation vient ailleurs.

Les problèmes fondamentaux de l'évaluation

Contamination des données

Si les données d'entraînement contiennent les réponses des benchmarks, le modèle a "triché" sans le savoir. C'est un problème sérieux avec les datasets publics comme MMLU.

La solution : des benchmarks privés, mis à jour régulièrement, dont les questions ne circulent pas en ligne. Difficile à maintenir à grande échelle.

Benchmark hacking

Certains labs optimisent leurs modèles sur les benchmarks plutôt que pour les capacités qu'ils sont censés mesurer. Un modèle peut apprendre à reconnaître le format d'une question MMLU sans vraiment comprendre la matière.

C'est le problème de Goodhart : quand une mesure devient un objectif, elle cesse d'être une bonne mesure.

La question de la préférence humaine

L'Arena souffre d'un biais : les humains ont tendance à préférer les réponses longues et formatées (listes à puces, titres, exemples) même quand une réponse courte serait plus utile. Les modèles qui apprennent à optimiser l'Arena deviennent prolixes.

Ce qu'aucun benchmark ne mesure

  • La capacité à détecter une question ambiguë et à demander des clarifications.
  • L'honnêteté : savoir dire "je ne sais pas" au lieu d'inventer.
  • La cohérence sur des conversations longues.
  • Le raisonnement causal sur des situations vraiment nouvelles.
  • L'adaptation au contexte de l'utilisateur.

Ces qualités sont difficiles à mesurer automatiquement — et pourtant ce sont souvent celles qui comptent le plus en pratique.

Vers de nouveaux paradigmes d'évaluation

La recherche explore plusieurs directions :

LLM-as-a-judge : utiliser un LLM puissant pour évaluer les réponses d'un autre. Scalable, mais circulaire — les biais du juge contaminent l'évaluation.

Benchmarks adversariaux : des humains cherchent activement à piéger les modèles. Mesurent la robustesse, pas juste les capacités en conditions normales.

Évaluation par tâches réelles :

  • SWE-Bench — des vrais bugs GitHub à corriger dans des codebases existants. Le modèle reçoit un dépôt, une description de bug, et doit produire un patch qui passe les tests. Beaucoup plus dur que HumanEval.
  • GAIA — questions multi-étapes nécessitant raisonnement, recherche web, manipulation de fichiers. Mesure la capacité agentique.
  • GPQA (Graduate-Level Google-Proof QA) — questions de physique, chimie, biologie au niveau doctoral, conçues pour qu'on ne puisse pas y répondre par recherche Google. Distingue les modèles qui raisonnent de ceux qui récupèrent.
  • ARC-AGI — des puzzles visuels abstraits, conçus pour mesurer le raisonnement général sur des concepts nouveaux. Aucun modèle n'avait passé un seuil humain avant fin 2024.
  • Humanity's Last Exam — questions niveau meilleur chercheur mondial, dans des domaines où les benchmarks classiques sont saturés.

Évaluation continue et automatique : des systèmes qui génèrent en continu de nouvelles questions pour suivre l'évolution des modèles.

La règle d'or

Aucun benchmark unique ne te dira si un modèle est adapté à ton cas d'usage.

La meilleure évaluation reste toujours la même : construis un dataset de tes propres cas d'usage réels, évalue les modèles dessus, et compare sur ce qui compte pour toi — pas sur ce qui compte pour les classements.

Les benchmarks sont des proxies. Le seul vrai test, c'est ton problème.

Mis à jour le

Évaluer un LLM : MMLU, HumanEval, LMSYS Arena · Step by Token