Capítulo 15 · Multimodalidad · 8 min

Cuando el modelo lee imágenes

Patch embedding, ViT, CLIP. Cómo un Transformer de texto se vuelve multimodal tratando una imagen como una cuadrícula de tokens.

Una imagen tambien puede ser tokens

Un Transformer no exige palabras. Exige una secuencia de vectores.

Para aplicar la misma arquitectura a imagenes, podemos cortar la imagen en pequeños cuadrados, convertir cada cuadrado en un vector y alimentar la secuencia al modelo. Es la idea de los Vision Transformers.

Nota sobre el alcance de este capitulo. Aqui hablamos de modelos que comprenden imagenes (las describen, responden a preguntas, leen un grafico). Para los modelos que generan imagenes a partir de un texto — Stable Diffusion, DALL-E, Midjourney — la arquitectura es diferente y es el tema del capitulo 21.

La imagen se divide en patches cuadrados, y cada patch se convierte en un token mediante una proyección lineal. El Transformer ya no sabe si la entrada es texto o una rejilla de imágenes — procesa la secuencia de la misma forma.

Patches

Una imagen de 224×224 pixeles puede dividirse en patches de 16×16. Eso produce 14×14 = 196 patches, y por tanto 196 tokens visuales.

Cada patch se aplana, se proyecta a un embedding, y se trata como un token mas. La posicion indica donde estaba el patch en la imagen.

Texto e imagen juntos

Un modelo multimodal puede mezclar tokens de texto y tokens visuales en una misma secuencia:

[tokens de imagen] + [tokens de texto] → respuesta

La atencion permite que una palabra mire una region de la imagen, y que una region visual influya en una palabra generada.

Coste

Mas resolucion significa mas patches. Y mas patches significa mas tokens. Como la atencion cuesta O(n²), duplicar la resolucion puede aumentar mucho el coste.

Por eso los sistemas multimodales usan trucos: compresion visual, resoluciones adaptativas, seleccion de regiones, modelos especializados.

Y el audio?

El mismo principio — convertir una modalidad en secuencia de tokens — se aplica a la voz. El modelo de OpenAI Whisper (2022) sigue siendo la referencia para la transcripcion habla→texto. Su arquitectura es un Transformer encoder-decoder, exactamente como un modelo de traduccion.

El truco: se transforma la señal audio en un espectrograma Mel — una imagen 2D donde el eje vertical es la frecuencia y el horizontal el tiempo. Cada pequeño cuadrado de ese espectrograma se convierte en un token de entrada, igual que los patches de ViT para las imagenes. Whisper produce despues tokens de texto a la salida.

Para la generacion vocal (text-to-speech), el principio se invierte: se generan tokens de audio a partir de texto. ElevenLabs, OpenAI TTS, Suno (para musica) usan todos Transformers entrenados para predecir el siguiente token de audio. La voz clonada de un ser querido es exactamente la tokenizacion de unos minutos de grabacion usados como condicionamiento.

El salto reciente viene de los modelos de voz nativamente multimodales: GPT-4o realtime (2024), Gemini Live (2025), Claude voice. Estos modelos ya no hacen el ida y vuelta texto ↔ audio internamente — razonan directamente en un espacio que mezcla tokens de texto y tokens de audio. Eso es lo que da una latencia baja (~300 ms) y una prosodia natural — el modelo puede sonreir mientras habla, porque nunca abandono el dominio audio.

Como ocurre con la vision, la arquitectura subyacente sigue siendo un Transformer. La unica diferencia esta en la modalidad del token.

Lo siguiente

Ya vimos como el modelo predice, aprende, usa contexto, herramientas y datos multimodales. Queda una pregunta dificil: como sabemos si realmente es bueno?

Necesitamos evaluarlo.

Actualizado el

Multimodalidad: cuando un LLM mira imágenes · Step by Token