Capitolo 17 · Ragionamento · 9 min
Pensare prima di rispondere
Token di pensiero, ragionamento esteso, budget di riflessione. Come i modelli o1/o3 generano una catena di pensiero nascosta prima di rispondere.
La risposta rapida e spesso sbagliata
Qual e l'ultima cifra di 7¹⁰⁰ ?
Se fai questa domanda a un LLM classico, ti rispondera probabilmente « 7 » in una frazione di secondo. Logico : 7 inizia con 7, 7² = 49, e se non si pensa troppo, si suppone che resti 7. La risposta e sbagliata — e 1.
Ma se poni la stessa domanda a un modello di ragionamento come o1, o3 o DeepSeek-R1, esita. « Riflette » per 10, 20, a volte 60 secondi. E arriva alla risposta giusta.
La differenza non sta nei pesi del modello. Sta in cio che al modello e permesso fare prima di rispondere.
I thinking tokens
Ogni LLM genera token, uno alla volta, da sinistra a destra. Cio che distingue i modelli di ragionamento e che generano prima una lunga sequenza di token nascosti — un monologo interno che l'utente non vede mai — prima di produrre la risposta finale.
Questi token nascosti si chiamano thinking tokens (o token di riflessione).
Il modello puo scriverci qualsiasi cosa : calcoli intermedi, ipotesi che poi smentisce, rami di esplorazione abbandonati, verifiche. E una brutta copia che cancella prima di mostrarti il risultato pulito.
Non e magia. E semplicemente spazio in piu per affrontare un problema difficile.
Prova tu stesso
Imposta il budget di riflessione su « Nessuno » poi clicca su « Ragiona ». Osserva la risposta istantanea. Poi passa il budget su « Completo » e rilancia.
I blocchi grigi sono la catena di pensiero interna — il modello formula ipotesi, verifica, a volte torna indietro. Questi thinking token costano in latenza e prezzo, ma sbloccano problemi che la modalità diretta non risolve.
La differenza tra i due non sta nella capacita del modello — sta nel tempo di calcolo all'inferenza che gli viene allocato.
Come funziona tecnicamente
Non e un'architettura diversa. E lo stesso Transformer, lo stesso meccanismo di attention, la stessa generazione autoregressiva.
Cio che cambia e l'addestramento e il decoding. Durante il fine-tuning, il modello impara a produrre tracce di ragionamento utili — catene di pensiero che convergono verso la risposta giusta. Gli si mostrano migliaia di problemi con le loro soluzioni, e impara a costruire il percorso intermedio.
All'inferenza, gli si da un budget di thinking tokens — un limite su quanti token nascosti puo generare. Piu il budget e grande, piu puo esplorare. E oltre un certo budget, la qualita delle risposte sui compiti difficili smette di aumentare in modo significativo.
Un dettaglio importante : i thinking tokens sono generati prima della risposta, nello stesso flusso di token. Il modello non « riflette » in parallelo — riflette in serie, e cio costa token come tutto il resto.
Ragionamento esteso vs chain-of-thought
Hai forse visto la tecnica del chain-of-thought (CoT), dove si chiede esplicitamente al modello « pensa passo dopo passo ». E diverso, ma imparentato.
| Chain-of-Thought (con prompt) | Ragionamento esteso (nativo) | |
|---|---|---|
| Chi lo attiva | L'utente nel prompt | Il modello stesso |
| Visibilita | Visibile nella risposta | Nascosto (thinking tokens) |
| Controllo | Si possono guidare le tappe | Il modello sceglie il suo piano |
| Esempi | GPT-4 con « let's think step by step » | o1, o3, Claude con extended thinking |
Anche il CoT con prompt migliora le prestazioni — ma il ragionamento nativo va oltre, perche il modello non e costretto a scrivere un ragionamento leggibile. Puo esplorare percorsi di brutta copia, fare calcoli che cancella, contraddirsi e correggersi, tutto questo nello spazio nascosto.
Quando vale la pena
Il ragionamento esteso migliora significativamente le prestazioni su :
- Matematica e logica — dimostrazioni, problemi combinatori, aritmetica esatta
- Codice complesso — debugging multi-file, algoritmi non banali
- Ragionamento strutturato — puzzle, deduzioni concatenate
- Pianificazione — compiti che richiedono di delineare una strategia prima di agire
Per una domanda fattuale semplice (« qual e la capitale della Francia ? »), del testo creativo, o una traduzione, il ragionamento esteso non porta nulla — e costa di piu.
E anche una delle contromisure piu efficaci contro le allucinazioni (capitolo 13). Un modello che si prende il tempo di verificare la propria brutta copia intercetta errori che una risposta in un colpo solo avrebbe lasciato passare. Non e magia — puo allucinare dentro il suo ragionamento — ma il semplice fatto di srotolare le tappe filtra una parte significativa degli errori fattuali.
Il costo, ecco il vero freno. I thinking tokens sono fatturati come i token normali. Un modello o1 che genera 1.000 token di pensiero prima di rispondere in 30 token consuma in realta 1.030 token. Su milioni di richieste, fa la differenza.
Test-time compute scaling
Cio che i modelli di ragionamento hanno messo in evidenza e che si puo comprare intelligenza all'inferenza : piu si allocano thinking tokens, piu le risposte migliorano sui compiti difficili.
E quello che si chiama test-time compute scaling — in opposizione allo scaling abituale che aumenta i parametri del modello durante l'addestramento.
La curva e simile alle leggi di scala classiche : raddoppiare il budget di riflessione migliora le prestazioni, ma con rendimenti decrescenti. A un certo punto, pensare piu a lungo non compensa piu.
Ed e una scoperta importante : l'intelligenza di un LLM non e una costante fissata dai suoi pesi. Dipende anche dal compute che gli si da nel momento in cui risponde.
Un modello che riflette a lungo su un problema difficile puo superare un modello piu grande che risponde in fretta. La velocita non e sempre una virtu.
Aggiornato il