Capitolo 11 · Agenti · 10 min

Dal modello che risponde al modello che agisce

Tool use, ciclo ReAct, compiti multi-step. Come un LLM diventa un agente capace di agire nel mondo.

Dal modello che risponde al modello che agisce

Finora tutti i capitoli descrivevano un LLM in un ruolo passivo: riceve un prompt, genera una risposta, finisce li. Il modello non fa nulla nel mondo: produce testo.

Ma qualcosa e cambiato. Gli LLM possono ora chiamare strumenti: cercare sul web, eseguire codice, leggere un file, inviare un'email. E con questa capacita diventa possibile un'architettura completamente diversa.

Il limite del modello senza strumenti

Fai questa domanda a un LLM senza accesso a internet: "Qual e il prezzo dell'azione Apple in questo momento?"

Inventera qualcosa di plausibile. Oppure dira che non lo sa. In entrambi i casi non puo rispondere correttamente, perche l'informazione non e nei suoi parametri.

Dagli uno strumento — un'API di quotazioni in tempo reale — e la risposta diventa banale. Il modello non deve imparare questa informazione durante l'addestramento. La ottiene nel momento in cui gli serve.

Il ciclo ReAct

L'architettura di riferimento per gli agenti si chiama ReAct (Reasoning + Acting). Funziona in tre fasi cicliche:

Think (Pensare) — Il modello analizza la situazione. Scrive la sua catena di ragionamento: "Per rispondere a questa domanda ho bisogno di X. Chiamero lo strumento Y con questi parametri."

Act (Agire) — Il modello genera una chiamata strumento strutturata: il nome dello strumento e i suoi parametri. Il sistema esegue la chiamata e recupera il risultato.

Observe (Osservare) — Il risultato dello strumento viene iniettato nel contesto. Il modello vede cosa e successo e decide cosa fare dopo.

Poi si ricomincia. Finche il modello stima di avere informazioni sufficienti per rispondere.

Avanza passo dopo passo

Ecco tre compiti: uno semplice (calcolo), uno che richiede un'API, uno che concatena piu strumenti. Avanza passo per passo per vedere il ragionamento del modello e come il contesto si accumula a ogni turno.

Osserva il loop: il modello pensa, sceglie uno strumento, legge il risultato, ricomincia. Ogni ciclo è una nuova predizione di token — l'« agente » emerge da un LLM a cui è stato insegnato a chiamare funzioni, non da una nuova architettura.

Come sono definiti gli strumenti

Uno strumento non e un pezzo di codice che il modello "capisce magicamente". E una definizione strutturata — nome, descrizione, parametri — che il modello vede nel suo contesto:

{
  "name": "web_search",
  "description": "Cerca informazioni recenti sul web.",
  "parameters": {
    "query": "string — la query di ricerca"
  }
}

Il modello ha imparato durante l'addestramento a produrre chiamate di strumenti in questo formato. Quando "sceglie di usare uno strumento", genera semplicemente testo che assomiglia a una chiamata API.

E il sistema che rileva questo testo, esegue la chiamata reale e rimanda il risultato nel contesto.

Il contesto che cresce

Ogni iterazione del ciclo aggiunge token al contesto: riflessione, chiamata strumento, risultato. Un compito complesso che richiede cinque iterazioni puo consumare facilmente diverse migliaia di token.

E per questo che gli agenti tendono a essere piu lenti e costosi dei semplici scambi domanda-risposta. Ed e per questo che la gestione del contesto — sapere cosa conservare, cosa riassumere, cosa buttare — e un problema aperto nella progettazione di sistemi agentici.

Tool use vs fine-tuning

Domanda naturale: perche insegnare al modello a usare strumenti invece di insegnargli direttamente le informazioni?

Diverse ragioni:

I dati cambiano. Prezzo di un'azione, meteo, stato di un database: queste informazioni cambiano continuamente. Nessun addestramento puo catturarle.

Precisione. Un calcolo, una query SQL, una conversione di unita: gli strumenti sono deterministici ed esatti. Gli LLM no.

Modularita. Dare un nuovo strumento a un modello richiede poche righe. Riaddestrare un modello per integrare una nuova competenza richiede settimane e milioni di dollari.

Planning e decomposizione dei compiti

Gli agenti piu capaci non si limitano a un ciclo lineare. Decompongono un compito complesso in sotto-compiti, ne eseguono alcuni in parallelo e combinano i risultati.

Per esempio, "scrivi un rapporto comparativo su tre concorrenti" puo decomporsi in: cercare le informazioni su ogni concorrente (tre chiamate in parallelo), poi sintetizzare i risultati.

E ancora un campo di ricerca attiva. Gli LLM attuali pianificano ragionevolmente su compiti brevi, ma deragliano facilmente su compiti lunghi e complessi.

I rischi degli agenti

Con la capacita di agire arriva la capacita di fare danni.

Azioni irreversibili. Un agente che ha accesso alla tua email puo inviare un messaggio. Nessun annullamento possibile. Le buone architetture agentiche distinguono le azioni di lettura (innocue) da quelle di scrittura (da confermare).

Loop infiniti. Senza guardrail, un agente puo restare bloccato in un ciclo: cerca un'informazione, non la trova, riformula, cerca di nuovo… indefinitamente.

Reward hacking. Se l'obiettivo e specificato male, un agente puo trovare scorciatoie inattese per massimizzare il punteggio — senza fare cio che volevamo davvero.

Allucinazioni sugli strumenti. Il modello puo inventare chiamate a strumenti che non esistono, o con parametri sbagliati.

MCP: verso uno standard per gli strumenti

All'inizio, ogni vendor definiva il proprio formato di tool use: OpenAI aveva function calling, Anthropic aveva il proprio protocollo interno, ogni framework agentico reinventava la ruota. Risultato: incompatibilita, integrazioni rifatte per ogni modello, ecosistema frammentato.

A novembre 2024, Anthropic pubblica il Model Context Protocol (MCP): uno standard aperto per descrivere strumenti, risorse e prompt in modo indipendente dal modello. Un server MCP espone un insieme di strumenti (per esempio "leggi questo file", "interroga questo database"). Qualsiasi client compatibile MCP — Claude Desktop, Cursor, estensioni VSCode, framework agentici — puo collegarsi.

L'analogia che ricorre spesso: MCP sta agli LLM come USB-C sta alle periferiche. Una presa comune.

L'adozione e stata rapida: OpenAI, Microsoft e la maggior parte dei vendor principali hanno annunciato la compatibilita MCP nel 2025. E diventato di fatto il protocollo standard per il tool use.

Code interpreter, sandbox, computer use

Alcune classi di strumenti particolarmente importanti:

Code interpreter. Un sandbox Python (a volte JavaScript) in cui il modello puo eseguire codice arbitrario. Calcoli precisi, manipolazioni di dati, generazione di grafici — tutto cio che gli LLM fanno male nativamente, possono delegarlo a Python. Disponibile su OpenAI, Claude, Google.

Browser / web automation. Uno strumento che rende il modello capace di cliccare, scrollare, compilare moduli su pagine web. Anthropic lo chiama computer use, OpenAI propone Operator. Ancora fragile, ma l'evoluzione e rapida.

File system & shell. Uno strumento che da accesso a un disco virtuale, a un terminale. Cuore dei "coding agents" come Cursor, Cline, Aider, Claude Code.

Memoria a lungo termine

Il contesto di un agente cresce, ma resta limitato. Come fa un assistente a riconoscerti nella conversazione successiva? Con una memoria a lungo termine esterna.

Diversi approcci:

Memoria vettoriale — ogni interazione importante viene riassunta e salvata come embedding. A ogni nuova conversazione, si recuperano i ricordi pertinenti (RAG, versione memoria).
Profilo utente strutturato — l'agente aggiorna un dossier sull'utente (preferenze, progetti in corso, storico).
Memoria procedurale — l'agente tiene traccia delle ricette che hanno funzionato ("per riassumere un paper, segui questi passi").

ChatGPT ha introdotto una memoria nel 2024, Claude nel 2025. E uno dei cantieri piu attivi nella progettazione agentica.

Multi-agent: piu LLM che collaborano

Tendenza recente: invece di un solo agente, far collaborare piu LLM specializzati.

Un agente orchestratore riceve il compito, lo decompone e delega ad agenti specializzati (un esperto di codice, un esperto di ricerca web, un verificatore). I risultati risalgono all'orchestratore, che li combina.

Questa architettura assomiglia a un'organizzazione umana — e ha gli stessi vantaggi (parallelizzazione, specializzazione) e gli stessi problemi (comunicazione, coordinamento, perdita di informazione tra agenti).

Cosa cambia

L'LLM non e piu un oracolo da interrogare: e un cervello collegato a braccia.

Questa transizione e ancora recente. Gli agenti attuali sono impressionanti su compiti ben delimitati e fragili su compiti lunghi e ambigui. Ma l'evoluzione e rapida, e capire l'architettura fondamentale — ReAct, tool use, contesto che cresce — e il miglior punto di partenza.

Aggiornato il 10 maggio 2026