Capitolo 16 · Valutazione · 8 min

Come sappiamo che un modello è migliore?

MMLU, HumanEval, LMSYS Arena. Perché misurare l'intelligenza di un LLM è difficile — e perché nessun benchmark è sufficiente.

Come sapere se un modello e buono?

Sembra una domanda semplice. La risposta e complicata.

Per un algoritmo di ordinamento e facile: ordina correttamente? In quanto tempo? Per un modello linguistico, "buono" puo voler dire: preciso, onesto, utile, innocuo, divertente, conciso, creativo… e queste qualita non vanno sempre nella stessa direzione.

La valutazione degli LLM e un campo di ricerca a se. Ogni benchmark cattura qualcosa di vero e manca qualcosa di importante.

Benchmark automatici

MMLU — L'ampiezza delle conoscenze

MMLU (Massive Multitask Language Understanding) testa 57 discipline accademiche: medicina, diritto, chimica, storia, matematica, filosofia… Sono quiz a scelta multipla con quattro opzioni, valutati automaticamente.

Punteggio medio di un umano istruito: ~90%. I migliori modelli attuali raggiungono 88-89%.

Cosa misura: l'ampiezza delle conoscenze salvate nei parametri.
Cosa manca: la capacita di ragionare su situazioni nuove, ammettere l'incertezza, rilevare una domanda mal posta.

HumanEval — Il codice

164 problemi di programmazione Python. Il modello genera una funzione, i test unitari automatici verificano che funzioni. La metrica standard e pass@k: si generano k proposte per problema (spesso k=1 o k=10), e si conta un successo non appena almeno una passa i test. pass@1 misura l'affidabilita, pass@10 la capacita grezza.

Cosa misura: la capacita di produrre codice funzionante su problemi ben definiti.
Cosa manca: la realta dello sviluppo — capire un bug in un codebase da 50.000 righe, refactorare, documentare.

MATH & GSM8K — La matematica

MATH: 12.500 problemi di matematica livello liceo/olimpiadi, in LaTeX. GSM8K: 8.500 problemi aritmetici in linguaggio naturale.

Cosa misura: il ragionamento matematico multi-step.
Cosa manca: la creativita matematica, la prova formale, la scoperta.

Il benchmark umano: LMSYS Arena

L'Arena e diversa. Umani anonimi fanno qualsiasi domanda a due modelli (mostrati senza nome), leggono le due risposte e scelgono quella preferita. Il punteggio ELO deriva da migliaia di questi duelli.

E l'unico benchmark che misura cio che gli umani preferiscono davvero — in tutta la loro soggettivita. Lunghezza ideale, tono, formato, umorismo, onesta percepita.

Cosa misura: la preferenza umana globale.
Cosa manca: la precisione fattuale (gli umani non sanno sempre quale risposta e corretta), i compiti specializzati, la riproducibilita.

Esplora il radar

Ecco cinque modelli importanti confrontati su sei benchmark. Clicca su un modello per vedere i punteggi dettagliati, o su un benchmark per capire cosa valuta.

Ogni asse è un benchmark. I modelli hanno profili diversi — forte nel codice, debole nel ragionamento lungo, o viceversa. Nessun radar dà il verdetto finale: bisogna incrociare benchmark oggettivi e preferenze umane per giudicare un LLM.

Cosa rivela il radar

Guarda attentamente i pattern:

Nessun modello dominante. Claude 3.5 Sonnet guida su HumanEval e BBH. GPT-4o domina Arena e MATH. Llama 3.1 70B e competitivo ma inferiore ai modelli proprietari quasi ovunque.

Arena e benchmark accademici non correlano perfettamente. Un modello puo essere eccellente in MMLU e medio in Arena — e viceversa. Gli umani apprezzano altro oltre alla precisione accademica.

I benchmark si saturano. MMLU era difficile nel 2020 (GPT-3: 43%). Nel 2024 tutti i grandi modelli sono tra 82 e 89%. La differenziazione arriva altrove.

I problemi fondamentali della valutazione

Contaminazione dei dati

Se i dati di addestramento contengono le risposte dei benchmark, il modello ha "barato" senza saperlo. E un problema serio con dataset pubblici come MMLU.

La soluzione: benchmark privati, aggiornati regolarmente, con domande che non circolano online. Difficile da mantenere su larga scala.

Benchmark hacking

Alcuni lab ottimizzano i modelli sui benchmark invece che per le capacita che dovrebbero misurare. Un modello puo imparare a riconoscere il formato di una domanda MMLU senza capire davvero la materia.

E il problema di Goodhart: quando una misura diventa un obiettivo, smette di essere una buona misura.

La questione della preferenza umana

L'Arena soffre di un bias: gli umani tendono a preferire risposte lunghe e formattate (liste, titoli, esempi) anche quando una risposta breve sarebbe piu utile. I modelli che imparano a ottimizzare l'Arena diventano prolissi.

Cosa nessun benchmark misura

La capacita di rilevare una domanda ambigua e chiedere chiarimenti.
L'onesta: saper dire "non lo so" invece di inventare.
La coerenza su conversazioni lunghe.
Il ragionamento causale su situazioni davvero nuove.
L'adattamento al contesto dell'utente.

Queste qualita sono difficili da misurare automaticamente — eppure spesso sono quelle che contano di piu in pratica.

Verso nuovi paradigmi di valutazione

La ricerca esplora diverse direzioni:

LLM-as-a-judge: usare un LLM potente per valutare le risposte di un altro. Scalabile, ma circolare: i bias del giudice contaminano la valutazione.

Benchmark avversariali: umani cercano attivamente di mettere in trappola i modelli. Misurano la robustezza, non solo le capacita in condizioni normali.

Valutazione su compiti reali:

SWE-Bench — veri bug GitHub da correggere in codebase esistenti. Il modello riceve un repository, una descrizione del bug, e deve produrre una patch che passi i test. Molto piu duro di HumanEval.
GAIA — domande multi-step che richiedono ragionamento, ricerca web, manipolazione di file. Misura la capacita agentica.
GPQA (Graduate-Level Google-Proof QA) — domande di fisica, chimica, biologia a livello dottorale, pensate perche non si possa rispondere tramite ricerca su Google. Distingue i modelli che ragionano da quelli che recuperano.
ARC-AGI — puzzle visivi astratti, pensati per misurare il ragionamento generale su concetti nuovi. Nessun modello aveva superato una soglia umana prima di fine 2024.
Humanity's Last Exam — domande al livello dei migliori ricercatori mondiali, in domini in cui i benchmark classici sono saturi.

Valutazione continua e automatica: sistemi che generano continuamente nuove domande per seguire l'evoluzione dei modelli.

La regola d'oro

Nessun singolo benchmark ti dira se un modello e adatto al tuo caso d'uso.

La migliore valutazione resta sempre la stessa: costruisci un dataset dei tuoi casi d'uso reali, valuta i modelli su quello e confronta cio che conta per te — non cio che conta per le classifiche.

I benchmark sono proxy. L'unico vero test e il tuo problema.

Aggiornato il 10 maggio 2026