Capitolo 13 · Allucinazioni · 9 min

Perche gli LLM inventano

Calibrazione, certezze false, contromisure. Il meccanismo strutturale dietro la critica piu frequente — e cosa si puo fare al riguardo.

La critica piu frequente

Poni a un LLM una domanda su un argomento di nicchia. Ti risponde con sicurezza: un riferimento bibliografico, una data, una citazione. Verifichi. Il libro non esiste. La data e sbagliata. La citazione non e mai stata pronunciata.

Questo fenomeno ha un nome ufficiale — allucinazione — ed e probabilmente la prima cosa che si rimprovera agli LLM. Non un bug occasionale: una proprieta strutturale. Per capire perche, bisogna tornare al modo in cui il modello e stato addestrato.

Tre meccanismi che si combinano

1. La cross-entropy non premia l'incertezza. Durante il pre-addestramento (capitolo 06), l'obiettivo e minimizzare la log-probabilita del token corretto. In nessun momento il modello impara a dire « non lo so »: impara a predire sempre qualcosa, il piu plausibile possibile. Se la risposta giusta non e nei suoi pesi, produce la stringa piu verosimile, non un'ammissione di ignoranza.

2. Il RLHF premia la sicurezza piu dell'onesta. Durante l'allineamento (capitolo 08), degli umani classificano le risposte. In media, preferiscono una risposta sicura e ben formulata a un « non sono sicuro ». Il reward model apprende questo bias, e l'LLM impara a sembrare sicuro — anche quando non lo e.

3. Nessun ciclo di verifica interna. Un umano che inventa una citazione si ferma, dubita, va a verificare. Un LLM che genera token per token non ha questo meccanismo. Avanza, senza controllo esterno, e ogni token genera il successivo nella stessa logica di plausibilita.

Un'allucinazione non e un bug. E cio che succede quando un sistema addestrato a produrre sempre testo plausibile incontra una domanda la cui risposta non e nei suoi pesi.

Il problema della calibration

Un modello ben calibrato e un modello la cui sicurezza dichiarata corrisponde alla probabilita di essere corretto. Se dice « sono sicuro all'80 % », dovrebbe avere ragione circa l'80 % delle volte.

Gli LLM grezzi (prima del RLHF) sono sorprendentemente ben calibrati sulle loro probabilita interne. Ma l'allineamento decalibra il modello: premiando la sicurezza, lo si allontana dalla verita statistica delle sue stesse predizioni.

E cio che spiega la modalita « allucinare con aplomb »: non e che il modello non sappia di non sapere. E che il suo addestramento lo ha spinto a mascherare questa incertezza.

Il modello assegna una probabilità a ciascuna delle sue affermazioni. Un'affermazione falsa ma coerente riceve spesso un punteggio alto: questo è il meccanismo strutturale delle allucinazioni, non un bug puntuale che una patch può correggere.

Gioca con qualche domanda. Osserva come la sicurezza dichiarata e la probabilita di essere corretto non seguono sempre la stessa curva. Attiva + RAG o + ragionamento esteso per vedere come le contromisure riducono lo scarto.

Quattro famiglie di contromisure

Le allucinazioni non spariscono con un allineamento migliore. Sono strutturali. Per ridurle in pratica, servono leve sistemiche, non solo un modello migliore.

1. Connettere il modello a degli strumenti (capitolo 11)

La regola: tutto cio che un LLM fa male, lo si delega a un sistema deterministico. Calcolare una derivata? Code interpreter. Recuperare una quotazione di borsa? API. Verificare che un file esista? File system tool. Il modello non tenta piu di indovinare il risultato — lo osserva.

Effetto: le allucinazioni sui domini coperti dagli strumenti scendono a zero. Le allucinazioni sugli altri domini restano.

2. RAG (capitolo 10)

Invece di chiedere al modello cio che si ricorda di un argomento, gli si danno fonti affidabili al momento di rispondere. Le allucinazioni bibliografiche o fattuali diminuiscono fortemente, perche il modello puo citare cio che legge, non solo cio che immagina.

Limite: se le fonti sono cattive o mal recuperate, il modello allucina sul loro contenuto. E anche con buone fonti, puo sovra-estrapolare (« la fonte dice X, quindi necessariamente Y »).

3. Ragionamento esteso (capitolo 17)

Un modello che si prende il tempo di verificare la propria bozza prima di rispondere sbaglia meno. I modelli di ragionamento (o1, o3, Claude extended thinking) generano una catena di pensiero invisibile, in cui possono ricalcolare, contraddire un passaggio, ripartire da un'altra pista.

E imperfetto — un modello puo allucinare dentro il proprio ragionamento anche — ma il semplice fatto di srotolare i passaggi cattura una parte significativa degli errori.

4. Fine-tuning esplicito sull'incertezza

L'angolo piu promettente sul lato ricerca: addestrare il modello all'abstention. Gli si mostrano coppie (domanda, risposta) dove, quando la probabilita interna e bassa, la risposta giusta e « non lo so » o « non ho l'informazione ». Il modello impara a riconoscere il proprio livello di sicurezza, e a comunicarlo.

Diversi lab ci stanno lavorando (DeepMind, Anthropic). E ancora lontano dall'essere robusto, ma e l'unica tecnica che attacca davvero la radice del problema.

Rilevare un'allucinazione in pratica

Qualche euristica utile dal lato utente:

  • Chiedi delle fonti. Se il modello non puo citare le sue fonti, o le inventa, tratta la risposta come sospetta.
  • Verifica cio che e specifico. Nomi propri, date, cifre esatte, citazioni sono le zone a rischio. Il contenuto generale e spesso OK.
  • Riformula la domanda diversamente. Un modello che inventa da spesso risposte coerenti alla stessa domanda riformulata — ma incoerenti a riformulazioni molto diverse.
  • Chiedi al modello il suo livello di sicurezza. Imperfetto, ma correlato alla qualita reale della risposta, soprattutto sui modelli recenti.
  • Incrocia con un altro modello. Le allucinazioni sono raramente le stesse da un modello all'altro. Una risposta su cui GPT-4 e Claude convergono ha molte piu probabilita di essere corretta.

Cosa ricordare

Tre cose.

Una. Le allucinazioni non sono un difetto del modello: sono la conseguenza del suo obiettivo di addestramento. Nessun fine-tuning superficiale le fa sparire.

Due. Le contromisure che funzionano in produzione sono sistemiche (RAG, strumenti, ragionamento, abstention). Nessuna e perfetta isolata; combinate, riportano il tasso di allucinazione a un livello accettabile per la maggior parte dei casi.

Tre. Per l'utente finale, la migliore difesa resta non fidarsi ciecamente, soprattutto sui dettagli precisi (fonti, date, cifre). Un LLM che ti risponde con aplomb non e una prova che abbia ragione.

Chiedere a un LLM « sei sicuro? » non e una verifica. E solo un'altra generazione di testo plausibile.

Aggiornato il

Perché gli LLM hanno allucinazioni (e come ridurle) · Step by Token