Capitolo 20 · Interpretabilità · 9 min

Cosa succede davvero dentro?

Circuiti, neuroni polisemantici, Sparse Autoencoders. Come Anthropic e DeepMind aprono la scatola nera.

Una scatola nera che funziona

Un LLM con 70 miliardi di parametri e un oggetto che si addestra, si valuta, si distribuisce — ma che non si capisce davvero. Sappiamo quali pesi ha imparato. Sappiamo che questi pesi implementano qualcosa. Non sappiamo cosa.

Per molto tempo, non sembrava importante. Se funziona, funziona. Ma man mano che i LLM prendono decisioni con conseguenze reali — codice medico, agenti autonomi, moderazione di contenuti — la domanda diventa pressante: possiamo aprire la scatola?

E l'oggetto dell'interpretabilita meccanicistica. Non una disciplina che descrive cio che fa un modello dall'esterno (quello e il benchmarking), ma una che cerca di reverse-engineerare gli algoritmi implementati nei neuroni.

Piccolo vocabolario per questo capitolo

Prima di tuffarci, ecco i termini che incontreremo. Li svilupperemo man mano — questa tabella e solo un punto di riferimento per non perdersi.

Termine	In una frase
Feature	Un pattern ricorrente nelle attivazioni del modello, spesso associabile a un concetto umano.
Polisemantico	Un neurone che si attiva su piu concetti non correlati. La regola, in un LLM.
Monosemantico	Una "feature" che risponde a un solo concetto identificabile. L'obiettivo.
Superposizione	La rete codifica piu concetti di quanti neuroni abbia, sovrapponendoli.
Circuito	Un sotto-grafo della rete che implementa una funzione precisa.
SAE (Sparse Autoencoder)	La tecnica che decompone le attivazioni in feature monosemantiche.
Steering	Modificare il comportamento del modello amplificando o sopprimendo una feature.

Il problema: neuroni polisemantici

Se potessi aprire un Transformer e osservare un neurone preciso, magari speresti di trovare « il neurone che rileva i cani » o « il neurone che sa fare l'addizione ». La realta e piu disordinata.

Un neurone di un LLM e tipicamente polisemantico: si attiva su piu concetti non correlati. Lo stesso neurone puo rispondere fortemente a menzioni di cani, a verbi al passato, a domande aperte in francese, e a tag HTML. Perche? Perche la rete ha molti piu concetti da rappresentare di quanti neuroni abbia — li sovrappone.

Questa sovrapposizione (Elhage et al., 2022) e una scoperta chiave. Spiega perche osservare un neurone alla lente quasi mai da un segnale interpretabile.

La soluzione: Sparse Autoencoders

Se i concetti sono sovrapposti nei neuroni, allora la base giusta per guardarli non e lo spazio dei neuroni — e un altro spazio, piu grande, dove ogni dimensione corrisponderebbe a un solo concetto.

E l'idea degli Sparse Autoencoders (SAE). Si apprende una proiezione dell'attivazione interna del modello verso uno spazio molto piu ampio (spesso 10× o 100× piu ampio), con un vincolo di sparsita: solo alcune dimensioni devono essere attive alla volta. La rete e forzata a rappresentare ogni attivazione come una combinazione di un piccolo numero di feature interpretabili.

Anthropic ha pubblicato nel 2024 un paper di rilievo ("Scaling Monosemanticity") che applica questa tecnica a Claude 3 Sonnet. Hanno estratto milioni di feature, alcune spettacolari: una feature per il concetto di ponte Golden Gate, una per i bug di codice, una per l'adulazione, una per il tradimento. Queste feature sono monosemantiche — ognuna corrisponde a un concetto unico e riconoscibile.

Esplora tu stesso

Passa il mouse su un neurone per vedere cosa lo attiva. Molti rispondono a concetti senza apparente relazione — è la polisemanticità. Gli Sparse Autoencoders scompongono queste attivazioni in feature interpretabili dall'umano, base dell'interpretabilità meccanicistica.

Scegli una feature e guarda su quali token si accende in diversi passaggi. Noterai che alcune feature (come la negazione o i nomi propri) attraversano lingue e contesti — sono concetti robusti che il modello ha astratto.

I circuiti: algoritmi emergenti

Oltre alle feature, l'interpretabilita studia i circuiti: sotto-grafi della rete che implementano una funzione precisa. Un po' come si identificherebbe, in un microprocessore, il sotto-circuito che fa l'addizione.

L'esempio piu celebre e l'induction head, scoperto da Anthropic nel 2022 (Olsson et al.). E un meccanismo che appare tipicamente nei layer intermedi di un Transformer, e che implementa una regola semplice: se il modello ha visto il pattern AB prima nel contesto, e rivede A ora, predice B.

E una forma primitiva di apprendimento in contesto (in-context learning). Prima di questo circuito, il modello non sa sfruttare le ripetizioni del contesto. Dopo, diventa bruscamente piu performante — e questa transizione coincide con un salto nei benchmark di few-shot.

Sono stati identificati diversi altri circuiti:

Induction heads — copia di pattern dal contesto
Bracket completion — chiusura coerente di parentesi annidate
Indirect object identification — risoluzione di "Maria ha dato il libro a Paolo" → "a lei" si riferisce a Maria
Feature suppression — un head che spegne una feature in certi contesti

Ogni circuito e un piccolo algoritmo che la rete ha scoperto da sola durante l'addestramento.

Perche conta per la sicurezza

L'interpretabilita non e solo una curiosita scientifica. E, per molti ricercatori, la via piu promettente per allineare seriamente i modelli potenti.

Oggi, si allinea tramite RLHF e fine-tuning: si modificano le risposte osservabili, ma non si sa se il modello abbia veramente internalizzato un valore o se faccia semplicemente finta in superficie. Se si potessero identificare le feature e i circuiti responsabili, ad esempio, del comportamento di inganno, o del ragionamento morale, si avrebbe una leva molto piu solida.

Anthropic ha mostrato che si puo steerare un modello direttamente: amplificando artificialmente la feature « ponte Golden Gate », hanno reso Claude ossessionato da questo ponte — lo evocava a proposito di qualsiasi domanda. Dimostrazione ludica, ma lo stesso meccanismo permetterebbe, in linea di principio, di rimuovere chirurgicamente un comportamento pericoloso senza degradare il resto.

I limiti attuali

L'interpretabilita meccanicistica e una disciplina giovane. Le difficolta sono numerose:

La scala. Un SAE su Claude 3 ha estratto 34 milioni di feature. Annotarle, nominarle, capirle una per una e gigantesco.
La completezza. Si trovano feature. Se ne mancano anche. Quanti concetti importanti ci sfuggono?
La composizionalita. Capire una feature isolata e fattibile. Capire come 50 feature interagiscono per produrre un comportamento e molto piu difficile.
La generalizzazione. Una feature trovata su GPT-2 non si trasporta meccanicamente su Claude o Llama. Ogni modello e la sua propria scatola.

Ma il ritmo delle pubblicazioni accelera. Anthropic, DeepMind, EleutherAI, OpenAI, Apollo Research, Goodfire, Transluce — interi team si formano attorno a queste domande.

Se vogliamo fidarci di modelli sempre piu potenti per decisioni sempre piu importanti, avremo bisogno di qualcosa di meglio che fargli passare un esame. Avremo bisogno di guardare all'interno.

Aggiornato il 10 maggio 2026