Capitolo 17 · Ragionamento · 9 min

Pensare prima di rispondere

Token di pensiero, ragionamento esteso, budget di riflessione. Come i modelli o1/o3 generano una catena di pensiero nascosta prima di rispondere.

La risposta rapida e spesso sbagliata

Qual e l'ultima cifra di 7¹⁰⁰ ?

Se fai questa domanda a un LLM classico, ti rispondera probabilmente « 7 » in una frazione di secondo. Logico : 7 inizia con 7, 7² = 49, e se non si pensa troppo, si suppone che resti 7. La risposta e sbagliata — e 1.

Ma se poni la stessa domanda a un modello di ragionamento come o1, o3 o DeepSeek-R1, esita. « Riflette » per 10, 20, a volte 60 secondi. E arriva alla risposta giusta.

La differenza non sta nei pesi del modello. Sta in cio che al modello e permesso fare prima di rispondere.

I thinking tokens

Ogni LLM genera token, uno alla volta, da sinistra a destra. Cio che distingue i modelli di ragionamento e che generano prima una lunga sequenza di token nascosti — un monologo interno che l'utente non vede mai — prima di produrre la risposta finale.

Questi token nascosti si chiamano thinking tokens (o token di riflessione).

Il modello puo scriverci qualsiasi cosa : calcoli intermedi, ipotesi che poi smentisce, rami di esplorazione abbandonati, verifiche. E una brutta copia che cancella prima di mostrarti il risultato pulito.

Non e magia. E semplicemente spazio in piu per affrontare un problema difficile.

Prova tu stesso

Imposta il budget di riflessione su « Nessuno » poi clicca su « Ragiona ». Osserva la risposta istantanea. Poi passa il budget su « Completo » e rilancia.

I blocchi grigi sono la catena di pensiero interna — il modello formula ipotesi, verifica, a volte torna indietro. Questi thinking token costano in latenza e prezzo, ma sbloccano problemi che la modalità diretta non risolve.

La differenza tra i due non sta nella capacita del modello — sta nel tempo di calcolo all'inferenza che gli viene allocato.

Come funziona tecnicamente

Non e un'architettura diversa. E lo stesso Transformer, lo stesso meccanismo di attention, la stessa generazione autoregressiva.

Cio che cambia e l'addestramento e il decoding. Durante il fine-tuning, il modello impara a produrre tracce di ragionamento utili — catene di pensiero che convergono verso la risposta giusta. Gli si mostrano migliaia di problemi con le loro soluzioni, e impara a costruire il percorso intermedio.

All'inferenza, gli si da un budget di thinking tokens — un limite su quanti token nascosti puo generare. Piu il budget e grande, piu puo esplorare. E oltre un certo budget, la qualita delle risposte sui compiti difficili smette di aumentare in modo significativo.

Un dettaglio importante : i thinking tokens sono generati prima della risposta, nello stesso flusso di token. Il modello non « riflette » in parallelo — riflette in serie, e cio costa token come tutto il resto.

Ragionamento esteso vs chain-of-thought

Hai forse visto la tecnica del chain-of-thought (CoT), dove si chiede esplicitamente al modello « pensa passo dopo passo ». E diverso, ma imparentato.

Chain-of-Thought (con prompt)Ragionamento esteso (nativo)
Chi lo attivaL'utente nel promptIl modello stesso
VisibilitaVisibile nella rispostaNascosto (thinking tokens)
ControlloSi possono guidare le tappeIl modello sceglie il suo piano
EsempiGPT-4 con « let's think step by step »o1, o3, Claude con extended thinking

Anche il CoT con prompt migliora le prestazioni — ma il ragionamento nativo va oltre, perche il modello non e costretto a scrivere un ragionamento leggibile. Puo esplorare percorsi di brutta copia, fare calcoli che cancella, contraddirsi e correggersi, tutto questo nello spazio nascosto.

Quando vale la pena

Il ragionamento esteso migliora significativamente le prestazioni su :

  • Matematica e logica — dimostrazioni, problemi combinatori, aritmetica esatta
  • Codice complesso — debugging multi-file, algoritmi non banali
  • Ragionamento strutturato — puzzle, deduzioni concatenate
  • Pianificazione — compiti che richiedono di delineare una strategia prima di agire

Per una domanda fattuale semplice (« qual e la capitale della Francia ? »), del testo creativo, o una traduzione, il ragionamento esteso non porta nulla — e costa di piu.

E anche una delle contromisure piu efficaci contro le allucinazioni (capitolo 13). Un modello che si prende il tempo di verificare la propria brutta copia intercetta errori che una risposta in un colpo solo avrebbe lasciato passare. Non e magia — puo allucinare dentro il suo ragionamento — ma il semplice fatto di srotolare le tappe filtra una parte significativa degli errori fattuali.

Il costo, ecco il vero freno. I thinking tokens sono fatturati come i token normali. Un modello o1 che genera 1.000 token di pensiero prima di rispondere in 30 token consuma in realta 1.030 token. Su milioni di richieste, fa la differenza.

Test-time compute scaling

Cio che i modelli di ragionamento hanno messo in evidenza e che si puo comprare intelligenza all'inferenza : piu si allocano thinking tokens, piu le risposte migliorano sui compiti difficili.

E quello che si chiama test-time compute scaling — in opposizione allo scaling abituale che aumenta i parametri del modello durante l'addestramento.

La curva e simile alle leggi di scala classiche : raddoppiare il budget di riflessione migliora le prestazioni, ma con rendimenti decrescenti. A un certo punto, pensare piu a lungo non compensa piu.

Ed e una scoperta importante : l'intelligenza di un LLM non e una costante fissata dai suoi pesi. Dipende anche dal compute che gli si da nel momento in cui risponde.

Un modello che riflette a lungo su un problema difficile puo superare un modello piu grande che risponde in fretta. La velocita non e sempre una virtu.

Aggiornato il

Modelli di ragionamento: pensare prima di rispondere · Step by Token