Capitolo 16 · Valutazione · 8 min

Come sappiamo che un modello è migliore?

MMLU, HumanEval, LMSYS Arena. Perché misurare l'intelligenza di un LLM è difficile — e perché nessun benchmark è sufficiente.

Come sapere se un modello e buono?

Sembra una domanda semplice. La risposta e complicata.

Per un algoritmo di ordinamento e facile: ordina correttamente? In quanto tempo? Per un modello linguistico, "buono" puo voler dire: preciso, onesto, utile, innocuo, divertente, conciso, creativo… e queste qualita non vanno sempre nella stessa direzione.

La valutazione degli LLM e un campo di ricerca a se. Ogni benchmark cattura qualcosa di vero e manca qualcosa di importante.

Benchmark automatici

MMLU — L'ampiezza delle conoscenze

MMLU (Massive Multitask Language Understanding) testa 57 discipline accademiche: medicina, diritto, chimica, storia, matematica, filosofia… Sono quiz a scelta multipla con quattro opzioni, valutati automaticamente.

Punteggio medio di un umano istruito: ~90%. I migliori modelli attuali raggiungono 88-89%.

Cosa misura: l'ampiezza delle conoscenze salvate nei parametri.
Cosa manca: la capacita di ragionare su situazioni nuove, ammettere l'incertezza, rilevare una domanda mal posta.

HumanEval — Il codice

164 problemi di programmazione Python. Il modello genera una funzione, i test unitari automatici verificano che funzioni. La metrica standard e pass@k: si generano k proposte per problema (spesso k=1 o k=10), e si conta un successo non appena almeno una passa i test. pass@1 misura l'affidabilita, pass@10 la capacita grezza.

Cosa misura: la capacita di produrre codice funzionante su problemi ben definiti.
Cosa manca: la realta dello sviluppo — capire un bug in un codebase da 50.000 righe, refactorare, documentare.

MATH & GSM8K — La matematica

MATH: 12.500 problemi di matematica livello liceo/olimpiadi, in LaTeX. GSM8K: 8.500 problemi aritmetici in linguaggio naturale.

Cosa misura: il ragionamento matematico multi-step.
Cosa manca: la creativita matematica, la prova formale, la scoperta.

Il benchmark umano: LMSYS Arena

L'Arena e diversa. Umani anonimi fanno qualsiasi domanda a due modelli (mostrati senza nome), leggono le due risposte e scelgono quella preferita. Il punteggio ELO deriva da migliaia di questi duelli.

E l'unico benchmark che misura cio che gli umani preferiscono davvero — in tutta la loro soggettivita. Lunghezza ideale, tono, formato, umorismo, onesta percepita.

Cosa misura: la preferenza umana globale.
Cosa manca: la precisione fattuale (gli umani non sanno sempre quale risposta e corretta), i compiti specializzati, la riproducibilita.

Esplora il radar

Ecco cinque modelli importanti confrontati su sei benchmark. Clicca su un modello per vedere i punteggi dettagliati, o su un benchmark per capire cosa valuta.

Ogni asse è un benchmark. I modelli hanno profili diversi — forte nel codice, debole nel ragionamento lungo, o viceversa. Nessun radar dà il verdetto finale: bisogna incrociare benchmark oggettivi e preferenze umane per giudicare un LLM.

Cosa rivela il radar

Guarda attentamente i pattern:

Nessun modello dominante. Claude 3.5 Sonnet guida su HumanEval e BBH. GPT-4o domina Arena e MATH. Llama 3.1 70B e competitivo ma inferiore ai modelli proprietari quasi ovunque.

Arena e benchmark accademici non correlano perfettamente. Un modello puo essere eccellente in MMLU e medio in Arena — e viceversa. Gli umani apprezzano altro oltre alla precisione accademica.

I benchmark si saturano. MMLU era difficile nel 2020 (GPT-3: 43%). Nel 2024 tutti i grandi modelli sono tra 82 e 89%. La differenziazione arriva altrove.

I problemi fondamentali della valutazione

Contaminazione dei dati

Se i dati di addestramento contengono le risposte dei benchmark, il modello ha "barato" senza saperlo. E un problema serio con dataset pubblici come MMLU.

La soluzione: benchmark privati, aggiornati regolarmente, con domande che non circolano online. Difficile da mantenere su larga scala.

Benchmark hacking

Alcuni lab ottimizzano i modelli sui benchmark invece che per le capacita che dovrebbero misurare. Un modello puo imparare a riconoscere il formato di una domanda MMLU senza capire davvero la materia.

E il problema di Goodhart: quando una misura diventa un obiettivo, smette di essere una buona misura.

La questione della preferenza umana

L'Arena soffre di un bias: gli umani tendono a preferire risposte lunghe e formattate (liste, titoli, esempi) anche quando una risposta breve sarebbe piu utile. I modelli che imparano a ottimizzare l'Arena diventano prolissi.

Cosa nessun benchmark misura

  • La capacita di rilevare una domanda ambigua e chiedere chiarimenti.
  • L'onesta: saper dire "non lo so" invece di inventare.
  • La coerenza su conversazioni lunghe.
  • Il ragionamento causale su situazioni davvero nuove.
  • L'adattamento al contesto dell'utente.

Queste qualita sono difficili da misurare automaticamente — eppure spesso sono quelle che contano di piu in pratica.

Verso nuovi paradigmi di valutazione

La ricerca esplora diverse direzioni:

LLM-as-a-judge: usare un LLM potente per valutare le risposte di un altro. Scalabile, ma circolare: i bias del giudice contaminano la valutazione.

Benchmark avversariali: umani cercano attivamente di mettere in trappola i modelli. Misurano la robustezza, non solo le capacita in condizioni normali.

Valutazione su compiti reali:

  • SWE-Bench — veri bug GitHub da correggere in codebase esistenti. Il modello riceve un repository, una descrizione del bug, e deve produrre una patch che passi i test. Molto piu duro di HumanEval.
  • GAIA — domande multi-step che richiedono ragionamento, ricerca web, manipolazione di file. Misura la capacita agentica.
  • GPQA (Graduate-Level Google-Proof QA) — domande di fisica, chimica, biologia a livello dottorale, pensate perche non si possa rispondere tramite ricerca su Google. Distingue i modelli che ragionano da quelli che recuperano.
  • ARC-AGI — puzzle visivi astratti, pensati per misurare il ragionamento generale su concetti nuovi. Nessun modello aveva superato una soglia umana prima di fine 2024.
  • Humanity's Last Exam — domande al livello dei migliori ricercatori mondiali, in domini in cui i benchmark classici sono saturi.

Valutazione continua e automatica: sistemi che generano continuamente nuove domande per seguire l'evoluzione dei modelli.

La regola d'oro

Nessun singolo benchmark ti dira se un modello e adatto al tuo caso d'uso.

La migliore valutazione resta sempre la stessa: costruisci un dataset dei tuoi casi d'uso reali, valuta i modelli su quello e confronta cio che conta per te — non cio che conta per le classifiche.

I benchmark sono proxy. L'unico vero test e il tuo problema.

Aggiornato il

Valutare un LLM: MMLU, HumanEval, LMSYS Arena · Step by Token