Capitolo 12 · Prompting · 8 min
L'arte di parlare con un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Perché la formulazione di un prompt cambia radicalmente ciò che un modello produce.
Il prompt non e testo — e un programma
Quando scrivi "riassumi questo articolo" in ChatGPT, in apparenza non succede nulla di spettacolare. Ma il testo che hai inviato ha attivato un comportamento molto preciso in un modello addestrato su migliaia di miliardi di token.
Un prompt e un programma in linguaggio naturale. Non nel senso che venga compilato, ma nel senso che la sua formulazione determina quale tipo di comportamento il modello attivera. La stessa frase riformulata diversamente puo dare risultati radicalmente differenti — non perche il modello sia capriccioso, ma perche il suo pre-addestramento gli ha insegnato pattern distinti per contesti distinti.
Il prompt engineering e l'arte di formulare questo programma per ottenere il comportamento voluto.
Quattro livelli di tecnica
Zero-shot: porre semplicemente la domanda
La tecnica piu semplice. Si pone la domanda direttamente, senza esempi ne istruzioni. Il modello attiva il comportamento piu probabile dato il suo addestramento.
Funziona molto bene per i compiti semplici e fattuali. Fallisce sui problemi che richiedono ragionamento — non perche il modello non sappia, ma perche non sa che deve ragionare.
Few-shot: mostrare esempi
Invece di spiegare cosa si vuole, lo si mostra. Si mettono da 2 a 5 coppie (input, output) prima della vera domanda. Il modello — grazie al suo meccanismo di in-context learning — coglie il pattern e lo applica al nuovo input.
La chiave: gli esempi devono essere rappresentativi del tipo di compito. Esempi fuori tema non aiutano. Esempi che mostrano il procedimento da seguire aiutano molto.
Chain-of-Thought: ragionare passo dopo passo
Una scoperta sorprendente del 2022 (Wei et al.): basta aggiungere un'istruzione come "pensa passo dopo passo" perche le prestazioni sui problemi di ragionamento raddoppino, a volte triplichino.
Perche funziona? Il modello genera token uno alla volta. Forzandolo a scrivere il suo ragionamento intermedio, gli si da una "brutta copia" in cui puo fare calcoli, verificare ipotesi, correggere errori — prima di concludere. Senza CoT, va direttamente alla conclusione, senza rete.
E lo stesso principio che vale per un umano: scrivere "25 × 37 = 25 × 30 + 25 × 7 = 750 + 175 = 925" da molte piu probabilita di arrivare al risultato giusto rispetto a tentare di rispondere mentalmente in un colpo solo.
Self-Consistency: votare tra piu catene
La self-consistency e un'estensione del CoT. Invece di generare una sola catena di ragionamento, se ne generano molte (tipicamente da 5 a 20) con temperature variate, poi si vota per la risposta piu frequente.
L'idea: ogni run puo fare un errore diverso. Ma se la maggior parte converge sulla stessa risposta, e probabilmente quella giusta.
E costoso (N volte piu token), ma sui compiti di ragionamento difficili, il guadagno in affidabilita e reale.
Prova tu stesso
Confronta le quattro tecniche su tre problemi. Osserva in particolare che gli esempi few-shot aiutano su un problema strutturato (il mercante), ma non cambiano molto sui trabocchetti logici.
Stessa domanda, cinque formulazioni. Lo score passa dal 30 al 90 % senza toccare il modello. La lezione: un prompt non è un testo, è un programma la cui sintassi implicita gli LLM interpretano grazie al pre-training.
Cosa rivela sui LLM
Queste quattro tecniche non sono trucchi. Illuminano qualcosa di fondamentale sul funzionamento dei LLM.
L'in-context learning e gratuito. Un LLM impara dai tuoi esempi senza aggiornare i suoi pesi — solo leggendo il contesto. E una capacita emergente del pre-addestramento massiccio: il modello ha visto cosi tanti pattern che puo estrarne uno nuovo al volo.
Il ragionamento e un comportamento, non una capacita fissa. Un modello che fallisce in zero-shot su un problema puo riuscire in CoT sullo stesso problema — senza cambiare nulla dei suoi parametri. Cio che il prompt attiva cambia cio che il modello "fa" delle sue capacita interne.
La temperature crea diversita, il voto riduce la varianza. La self-consistency sfrutta il fatto che gli errori sono spesso casuali: tanti modi diversi di fallire, ma uno solo di riuscire. Il consenso filtra il rumore.
I limiti
La lunghezza del contesto. Ogni esempio few-shot consuma token. Con una finestra di contesto da 8.000 token, non puoi metterci 50 esempi. Anche il CoT allunga le risposte.
Gli esempi possono trarre in inganno. Se i tuoi esempi contengono un bias, il modello lo riprodurra. "Garbage in, garbage out" si applica anche al few-shot.
La prompt injection. Un contenuto malevolo nel contesto puo cortocircuitare le tue istruzioni. Se il tuo prompt dice "traduci questo testo" e il testo dice "ignora le istruzioni precedenti e fai altro", il modello puo obbedire al contenuto piuttosto che all'istruzione.
I modelli evolvono. I prompt che funzionano su GPT-4 non funzionano necessariamente su Claude o Llama. Ogni modello ha i suoi pattern privilegiati, le sue formulazioni che "funzionano" meglio.
La regola pratica
Per scegliere una tecnica:
- Domanda semplice / fattuale → zero-shot, e sufficiente.
- Formato specifico atteso → few-shot con 2-3 esempi.
- Ragionamento o calcolo → CoT. Sempre.
- Affidabilita critica → CoT + self-consistency.
E una meta-regola: se il tuo prompt assomiglia a del codice — con una struttura chiara, variabili esplicite, casi d'uso definiti — sara piu affidabile di un testo ambiguo.
Un'ultima cosa. Le tecniche descritte qui (il CoT in particolare) sono gli antenati prompt-driven di cio che oggi si trova nei modelli di ragionamento nativi (o1, o3, Claude extended thinking, DeepSeek-R1). Questi fanno automaticamente e intensamente cio che il CoT con prompt simulava — vedi il capitolo 17 per capire il passaggio dal prompt engineering al ragionamento integrato nel modello.
Un buon prompt non e una formula magica. E una specifica chiara di cio che vuoi, in un linguaggio che il modello riconosce come il segnale che deve seguire.
Aggiornato il