Capitolo 01 · Fondamenti · 6 min

Predire una parola alla volta

Cos'è un modello linguistico? Perché predire la parola successiva è sufficiente per far emergere l'intelligenza.

La grande sorpresa

Ecco la cosa piu strana dell'IA moderna: tutto cio che fa un grande modello linguistico si basa su una sola capacita — predire la parola successiva.

Gli dai l'inizio di una frase:

"Il cielo e blu perche…"

Il modello calcola, tra le migliaia di parole che conosce, quale sia la piu probabile subito dopo. Poi ricomincia con quella nuova parola aggiunta. E ancora. E ancora. Tutto qui.

Da questa operazione minuscola e meccanica emerge tutto il resto: traduzione, sintesi, codice, spiegazioni di fisica quantistica, battute, poesie.

Perche funziona

Per predire bene la parola successiva, bisogna capire moltissime cose sul mondo.

Considera questa frase:

"Il medico ha rimandato l'infermiera a casa sua perche lei…"

Per indovinare cosa viene dopo, il modello deve sapere che "lei" probabilmente si riferisce all'infermiera (e non al medico): deve capire la grammatica, il contesto, forse persino le convenzioni sociali del mestiere medico.

Predire parole significa modellare il mondo che le ha prodotte.

Questa e l'idea centrale. Costringere un sistema a predire testo umano su larga scala significa obbligarlo a imparare, indirettamente, come funziona il mondo in cui quel testo e stato scritto.

Una distribuzione, non una parola

Quando diciamo "il modello predice la parola successiva", e una scorciatoia. In realta, a ogni passo produce una distribuzione di probabilita su tutto il suo vocabolario: ogni token riceve un punteggio, e la somma fa 1.

Per generare testo, bisogna poi scegliere un token da questa distribuzione. Qui le cose diventano interessanti: lo stesso modello, con lo stesso prompt, puo produrre testi molto diversi a seconda della strategia di campionamento usata.

A ogni passo, il modello propone una distribuzione su tutti i token del vocabolario. La barra più alta è raramente l'unico candidato plausibile — è questo che rende la continuazione del testo aperta invece che meccanica.

Tre leve da manipolare qui sopra:

  • Temperatura — divide i logits prima del softmax. A bassa temperatura (0.1-0.3), la distribuzione si concentra sul candidato piu probabile: il modello diventa prevedibile, quasi deterministico. Ad alta temperatura (1.5-2.0), si appiattisce: le opzioni piu insolite tornano credibili.
  • Top-k — mantiene solo i k candidati piu probabili, eliminando la lunga coda di opzioni rare.
  • Top-p (nucleus sampling) — mantiene il piu piccolo insieme la cui massa cumulata supera p. Piu furbo di top-k: se un passo ha una risposta ovvia, p puo tagliare a un solo candidato. Se il modello esita tra 20 opzioni vicine, le mantiene tutte.

Prova il prompt Capitale. La distribuzione e talmente concentrata su Roma che la temperatura ha quasi nessun effetto: bisogna salire oltre 1.8 per dare una possibilita alle altre opzioni. Il modello e sicuro di se.

Al contrario, su Il cielo al secondo passo, diverse continuazioni sono plausibili ( luce, colore, mare…): e li che la temperatura cambia davvero il risultato.

Il ciclo che fa tutto

Tutto cio che fa un LLM sta in questo ciclo:

  1. Leggere il contesto (i token gia presenti).
  2. Produrre una distribuzione di probabilita sul prossimo token.
  3. Campionare un token da questa distribuzione.
  4. Aggiungerlo al contesto. Ricominciare.

E meccanico, ripetitivo, noioso da descrivere. Eppure, eseguito miliardi di volte su un modello con centinaia di miliardi di parametri, questo ciclo produce dialoghi, dimostrazioni, codice che compila.

Il piano di questo sito

Il percorso e organizzato in quattro parti, dal piu meccanico al piu compiuto.

I. Anatomia di un modello. Smontiamo la macchina. Tokenizzazione, embeddings, attenzione, Transformer — come un testo diventa una sequenza di vettori che possiamo trasformare.

II. Addestrare e allineare. Come questi miliardi di parametri imparano. Loss, gradiente, campionamento, RLHF — dal modello casuale all'assistente utile.

III. Il modello in produzione. Cosa succede quando invii un prompt a ChatGPT o Claude. Finestra di contesto, RAG, agenti — l'infrastruttura che rende gli LLM utilizzabili ogni giorno.

IV. Andare oltre. I temi che occupano la ricerca attuale. Fine-tuning, multimodalita, ragionamento esteso, leggi di scala, interpretabilita, diffusione — per capire dove va il seguito.

Ogni capitolo contiene almeno una visualizzazione manipolabile. L'obiettivo non e farti memorizzare formule, ma darti un'intuizione meccanica di cio che succede all'interno.

Andiamo.

Aggiornato il

Prevedere la parola successiva, ancora e ancora · Step by Token