Capitolo 16 · Valutazione · 8 min
Come sappiamo che un modello è migliore?
MMLU, HumanEval, LMSYS Arena. Perché misurare l'intelligenza di un LLM è difficile — e perché nessun benchmark è sufficiente.
Come sapere se un modello e buono?
Sembra una domanda semplice. La risposta e complicata.
Per un algoritmo di ordinamento e facile: ordina correttamente? In quanto tempo? Per un modello linguistico, "buono" puo voler dire: preciso, onesto, utile, innocuo, divertente, conciso, creativo… e queste qualita non vanno sempre nella stessa direzione.
La valutazione degli LLM e un campo di ricerca a se. Ogni benchmark cattura qualcosa di vero e manca qualcosa di importante.
Benchmark automatici
MMLU — L'ampiezza delle conoscenze
MMLU (Massive Multitask Language Understanding) testa 57 discipline accademiche: medicina, diritto, chimica, storia, matematica, filosofia… Sono quiz a scelta multipla con quattro opzioni, valutati automaticamente.
Punteggio medio di un umano istruito: ~90%. I migliori modelli attuali raggiungono 88-89%.
Cosa misura: l'ampiezza delle conoscenze salvate nei parametri.
Cosa manca: la capacita di ragionare su situazioni nuove, ammettere l'incertezza, rilevare una domanda mal posta.
HumanEval — Il codice
164 problemi di programmazione Python. Il modello genera una funzione, i test unitari automatici verificano che funzioni. La metrica standard e pass@k: si generano k proposte per problema (spesso k=1 o k=10), e si conta un successo non appena almeno una passa i test. pass@1 misura l'affidabilita, pass@10 la capacita grezza.
Cosa misura: la capacita di produrre codice funzionante su problemi ben definiti.
Cosa manca: la realta dello sviluppo — capire un bug in un codebase da 50.000 righe, refactorare, documentare.
MATH & GSM8K — La matematica
MATH: 12.500 problemi di matematica livello liceo/olimpiadi, in LaTeX. GSM8K: 8.500 problemi aritmetici in linguaggio naturale.
Cosa misura: il ragionamento matematico multi-step.
Cosa manca: la creativita matematica, la prova formale, la scoperta.
Il benchmark umano: LMSYS Arena
L'Arena e diversa. Umani anonimi fanno qualsiasi domanda a due modelli (mostrati senza nome), leggono le due risposte e scelgono quella preferita. Il punteggio ELO deriva da migliaia di questi duelli.
E l'unico benchmark che misura cio che gli umani preferiscono davvero — in tutta la loro soggettivita. Lunghezza ideale, tono, formato, umorismo, onesta percepita.
Cosa misura: la preferenza umana globale.
Cosa manca: la precisione fattuale (gli umani non sanno sempre quale risposta e corretta), i compiti specializzati, la riproducibilita.
Esplora il radar
Ecco cinque modelli importanti confrontati su sei benchmark. Clicca su un modello per vedere i punteggi dettagliati, o su un benchmark per capire cosa valuta.
Ogni asse è un benchmark. I modelli hanno profili diversi — forte nel codice, debole nel ragionamento lungo, o viceversa. Nessun radar dà il verdetto finale: bisogna incrociare benchmark oggettivi e preferenze umane per giudicare un LLM.
Cosa rivela il radar
Guarda attentamente i pattern:
Nessun modello dominante. Claude 3.5 Sonnet guida su HumanEval e BBH. GPT-4o domina Arena e MATH. Llama 3.1 70B e competitivo ma inferiore ai modelli proprietari quasi ovunque.
Arena e benchmark accademici non correlano perfettamente. Un modello puo essere eccellente in MMLU e medio in Arena — e viceversa. Gli umani apprezzano altro oltre alla precisione accademica.
I benchmark si saturano. MMLU era difficile nel 2020 (GPT-3: 43%). Nel 2024 tutti i grandi modelli sono tra 82 e 89%. La differenziazione arriva altrove.
I problemi fondamentali della valutazione
Contaminazione dei dati
Se i dati di addestramento contengono le risposte dei benchmark, il modello ha "barato" senza saperlo. E un problema serio con dataset pubblici come MMLU.
La soluzione: benchmark privati, aggiornati regolarmente, con domande che non circolano online. Difficile da mantenere su larga scala.
Benchmark hacking
Alcuni lab ottimizzano i modelli sui benchmark invece che per le capacita che dovrebbero misurare. Un modello puo imparare a riconoscere il formato di una domanda MMLU senza capire davvero la materia.
E il problema di Goodhart: quando una misura diventa un obiettivo, smette di essere una buona misura.
La questione della preferenza umana
L'Arena soffre di un bias: gli umani tendono a preferire risposte lunghe e formattate (liste, titoli, esempi) anche quando una risposta breve sarebbe piu utile. I modelli che imparano a ottimizzare l'Arena diventano prolissi.
Cosa nessun benchmark misura
- La capacita di rilevare una domanda ambigua e chiedere chiarimenti.
- L'onesta: saper dire "non lo so" invece di inventare.
- La coerenza su conversazioni lunghe.
- Il ragionamento causale su situazioni davvero nuove.
- L'adattamento al contesto dell'utente.
Queste qualita sono difficili da misurare automaticamente — eppure spesso sono quelle che contano di piu in pratica.
Verso nuovi paradigmi di valutazione
La ricerca esplora diverse direzioni:
LLM-as-a-judge: usare un LLM potente per valutare le risposte di un altro. Scalabile, ma circolare: i bias del giudice contaminano la valutazione.
Benchmark avversariali: umani cercano attivamente di mettere in trappola i modelli. Misurano la robustezza, non solo le capacita in condizioni normali.
Valutazione su compiti reali:
- SWE-Bench — veri bug GitHub da correggere in codebase esistenti. Il modello riceve un repository, una descrizione del bug, e deve produrre una patch che passi i test. Molto piu duro di HumanEval.
- GAIA — domande multi-step che richiedono ragionamento, ricerca web, manipolazione di file. Misura la capacita agentica.
- GPQA (Graduate-Level Google-Proof QA) — domande di fisica, chimica, biologia a livello dottorale, pensate perche non si possa rispondere tramite ricerca su Google. Distingue i modelli che ragionano da quelli che recuperano.
- ARC-AGI — puzzle visivi astratti, pensati per misurare il ragionamento generale su concetti nuovi. Nessun modello aveva superato una soglia umana prima di fine 2024.
- Humanity's Last Exam — domande al livello dei migliori ricercatori mondiali, in domini in cui i benchmark classici sono saturi.
Valutazione continua e automatica: sistemi che generano continuamente nuove domande per seguire l'evoluzione dei modelli.
La regola d'oro
Nessun singolo benchmark ti dira se un modello e adatto al tuo caso d'uso.
La migliore valutazione resta sempre la stessa: costruisci un dataset dei tuoi casi d'uso reali, valuta i modelli su quello e confronta cio che conta per te — non cio che conta per le classifiche.
I benchmark sono proxy. L'unico vero test e il tuo problema.
Aggiornato il