Capitolo 15 · Multimodalità · 8 min

Quando il modello legge le immagini

Patch embedding, ViT, CLIP. Come un Transformer di testo diventa multimodale trattando un'immagine come una griglia di token.

Il modello non vede davvero

Quando invii una foto a GPT-4o o Claude e ti dice cosa rappresenta, non c'e un "occhio" nel modello. Nessun sistema visivo, nessun rilevatore di oggetti. Il modello non "vede" un'immagine: legge una sequenza di vettori.

Questo e tutto il trucco della multimodalita moderna: trasformare qualsiasi tipo di dato (immagine, audio, video) in una rappresentazione che assomiglia a token di testo. Dopo questa trasformazione, il Transformer standard fa il resto.

Nota sulla portata di questo capitolo. Qui parliamo di modelli che comprendono le immagini (le descrivono, rispondono a domande, leggono un grafico). Per i modelli che generano immagini a partire da un testo — Stable Diffusion, DALL-E, Midjourney — l'architettura e diversa ed e l'oggetto del capitolo 21.

ViT: tagliare l'immagine in patch

L'architettura di riferimento per le immagini si chiama ViT (Vision Transformer), proposta da Google nel 2020.

L'idea e disarmante nella sua semplicita: tagliare l'immagine in piccoli quadrati (patches) di dimensione fissa — 16×16 pixel di default. Ogni patch viene appiattita in un vettore, poi proiettata nello spazio di embedding del Transformer.

Un'immagine 224×224 pixel, tagliata in patch 16×16, produce 196 patch — cioe 196 token. Questi token vengono inviati al Transformer esattamente come token di testo. L'attenzione li tratta, li mette in relazione, estrae caratteristiche pertinenti.

La posizione di ogni patch nell'immagine e codificata tramite un positional embedding, esattamente come per i token di testo.

Manipola le patch

Ecco un'immagine 16×16 (semplificazione: ViT-Base lavora su 224×224). Cambia la dimensione delle patch per osservare come variano la risoluzione e il numero di token.

L'immagine viene tagliata in patch quadrate, ogni patch diventa un token tramite una proiezione lineare. Il Transformer non sa più se l'input è testo o una griglia di immagini — tratta la sequenza nello stesso modo.

Il token speciale [CLS]

Nei primi ViT, un token speciale [CLS] viene aggiunto all'inizio della sequenza. Dopo che l'attenzione ha fatto circolare l'informazione tra tutte le patch, il vettore [CLS] viene usato come rappresentazione globale dell'immagine.

E quello che viene inviato a una testa di classificazione per rispondere a "che cos'e?".

Nei modelli multimodali moderni (GPT-4V, Claude 3, Gemini), l'approccio e diverso: i token delle patch immagine vengono concatenati direttamente con i token di testo nella stessa sequenza. La cross-attention fa il resto.

CLIP: allineare immagini e testi

Prima di poter mescolare immagini e testi nello stesso Transformer, gli embeddings di immagini e testi devono abitare lo stesso spazio vettoriale.

E il problema risolto da CLIP (OpenAI, 2021). CLIP addestra due encoder in parallelo — uno per le immagini, uno per i testi — con un solo obiettivo: avvicinare le rappresentazioni di un'immagine e della sua didascalia.

Dopo l'addestramento su centinaia di milioni di coppie (immagine, testo), CLIP produce spazi in cui "una foto di gatto" e una foto di gatto hanno vettori vicini. E questa proprieta che permette a un LLM di "capire" un'immagine iniettata nel suo contesto.

L'architettura di un modello vision-language

Gli LLM multimodali attuali sono generalmente composti da:

  1. Un encoder visivo (spesso un ViT pre-addestrato) che produce token immagine.
  2. Un proiettore (una piccola MLP) che mappa i token immagine nello spazio di embedding dell'LLM.
  3. L'LLM che riceve la sequenza mista (token immagine + token testo) e genera la risposta.

Questo "proiettore" e spesso l'unica parte addestrata durante l'adattamento di un LLM testuale verso il multimodale: il resto resta congelato.

Cosa vede davvero il modello

E tentante immaginare che il modello abbia una "comprensione visiva" profonda. In realta succede questo:

Ogni patch di 16×16 pixel viene appiattita in un vettore di 768 valori (per ViT-Base). Questo vettore e una media statistica dei pixel: una rappresentazione molto locale.

E l'attenzione tra tutti questi vettori che ricostruisce le relazioni spaziali, rileva i bordi, riconosce le forme. Il modello non ha alcun concetto integrato di "cerchio" o "volto": li scopre statisticamente.

E per questo che gli LLM visivi possono sorprendere su compiti semplici per un umano (contare oggetti, distinguere sinistra/destra) ma essere notevoli su compiti di alto livello (interpretare un grafico, leggere una prescrizione).

E l'audio ?

Lo stesso principio — convertire una modalita in una sequenza di token — si applica alla voce. Il modello di OpenAI Whisper (2022) resta il riferimento per la trascrizione voce→testo. La sua architettura e un Transformer encoder-decoder, esattamente come un modello di traduzione.

Il trucco : si trasforma il segnale audio in spettrogramma Mel — un'immagine 2D in cui l'asse verticale e la frequenza e l'orizzontale il tempo. Ogni piccolo quadrato di questo spettrogramma diventa un token di input, come le patch di ViT per le immagini. Whisper produce poi token di testo in output.

Per la generazione vocale (text-to-speech), il principio e invertito : si generano token audio a partire dal testo. ElevenLabs, OpenAI TTS, Suno (per la musica) usano tutti Transformer addestrati a predire i token audio successivi. La voce clonata di una persona cara e esattamente la tokenizzazione di qualche minuto di registrazione usato come condizionamento.

Il salto recente arriva dai modelli voice nativamente multimodali : GPT-4o realtime (2024), Gemini Live (2025), Claude voice. Questi modelli non fanno piu l'andata e ritorno testo ↔ audio internamente — ragionano direttamente in uno spazio che mescola token testo e token audio. E cio che rende la latenza bassa (~300 ms) e la prosodia naturale — il modello puo sorridere mentre parla, perche non ha mai lasciato il dominio audio.

Come per la visione, l'architettura sottostante resta un Transformer. La differenza sta unicamente nella modalita del token.

I token: una moneta universale

La vera lezione della multimodalita e che il token e un'astrazione universale.

Testo → token.
Immagini → token (patch).
Audio → token (spettrogramma tagliato).
Molecole → token (atomi).

Appena possiamo convertire una modalita in una sequenza di vettori densi, un Transformer puo trattarla. E per questo che le stesse architetture che hanno rivoluzionato l'NLP stanno rivoluzionando ora visione, audio, biologia e fisica.

Il Transformer e un motore a token. I ricercatori continuano a inventare nuovi modi per tokenizzare il mondo.

Aggiornato il

Multimodalità: quando un LLM guarda le immagini · Step by Token