Capítulo 05 · Arquitectura · 14 min

El Transformer completo

Ensamblando las piezas: atención multi-cabeza, feed-forward, normalización, conexiones residuales.

Una pila de bloques simples

Un Transformer no es una maquina magica. Es una pila de bloques casi identicos.

Cada bloque recibe una secuencia de vectores, la transforma un poco, y la pasa al bloque siguiente. Repetido 12, 24, 80 veces, ese patron produce representaciones cada vez mas ricas: al principio señales locales, despues relaciones sintacticas, despues conceptos mas abstractos.

Pasa el cursor por un sub-bloque para ver su rol: la attention difunde información entre tokens, el feed-forward la transforma localmente, la normalización y los residuales estabilizan el resto. Apilados 32 o 96 veces, dan un GPT-4 o un Claude.

El esqueleto del bloque

Un bloque Transformer moderno contiene tres ideas:

Atencion — cada token mira los tokens anteriores y recupera informacion util.
Feed-forward — cada token pasa por una pequeña red que transforma su vector de forma independiente.
Conexiones residuales y normalizacion — el bloque aprende una correccion, no una reescritura completa, y mantiene las activaciones estables.

La atencion mezcla informacion entre tokens. El feed-forward calcula dentro de cada token. La normalizacion y los residuales hacen que todo pueda apilarse muchas veces sin romperse.

Por que repetir?

Un solo bloque ve relaciones simples. Varios bloques permiten construir relaciones sobre relaciones.

En una capa temprana, una head puede detectar que duerme mira a gato. En otra capa, esa relacion puede influir en el sentido de toda la frase. Mas arriba, el modelo puede usar ese estado para elegir una continuacion coherente.

Cada capa reescribe la secuencia con un poco mas de contexto.

Por eso los modelos grandes no solo tienen mas parametros: tienen mas profundidad. Esa profundidad les da tiempo para refinar la representacion antes de producir el siguiente token.

El feed-forward es memoria

La atencion suele llevarse toda la fama, pero una gran parte de los parametros vive en las capas feed-forward.

Intuicion util: el feed-forward funciona como una memoria asociativa. Cuando el vector de un token activa cierta direccion, la capa puede añadir informacion que el modelo ha aprendido durante el entrenamiento.

No "recupera" un documento literal. Ajusta el vector para hacerlo mas compatible con patrones vistos miles de veces.

Residuales: aprender diferencias

Si cada bloque reemplazara completamente su entrada, entrenar decenas de capas seria inestable. Las conexiones residuales evitan eso:

salida = entrada + cambio aprendido

El bloque no tiene que reconstruir todo desde cero. Solo aprende que debe cambiar. Si una parte de la informacion ya es buena, puede pasar casi intacta.

La salida: del vector a la distribucion

A estas alturas, el ultimo bloque nos da, para cada posicion, un vector de unos cuantos miles de dimensiones. Como volvemos a una distribucion sobre el vocabulario?

Un solo paso. Multiplicamos ese vector por una matriz W_out de dimensiones (d_model × |vocab|) y aplicamos un softmax. El resultado: para cada posicion, una probabilidad sobre los ~50.000 tokens del vocabulario. Eso es la salida de un LLM — una distribucion.

Detalle elegante: en la mayoria de los modelos, W_out comparte sus pesos con la matriz de embedding de entrada (weight tying). La misma transformacion que mapea el token 5234 a un vector, en sentido inverso, mapea un vector a la probabilidad del token 5234. Ahorra parametros y generaliza mejor.

Mixture of Experts: no todos los parametros se activan

Una variante arquitectural se ha vuelto dominante en los modelos recientes: Mixture of Experts (MoE). Mixtral, DeepSeek, Llama 4, GPT-4, Gemini — todos la usan.

La idea: en vez de un solo FFN por bloque, se ponen varios en paralelo (normalmente entre 8 y 128 expertos). Para cada token, una pequeña red de enrutamiento (router) selecciona dos o cuatro — los mas pertinentes para ese token. Solo esos expertos se activan.

Consecuencia: un modelo puede tener 400 mil millones de parametros "totales" pero activar solo 50 mil millones por token. Capacidad de un modelo grande, coste de calculo de uno pequeño. Es lo que hace que Mixtral 8×7B (47 mil millones de parametros) sea competitivo en inferencia frente a modelos densos mucho mas grandes.

El compromiso: la VRAM tiene que albergar todos los expertos (si no, hay que hacer swap), y el enrutamiento añade una capa de inestabilidad al entrenamiento. Sigue siendo un area de investigacion muy activa.

Lo siguiente

Ya tenemos la arquitectura: tokens → embeddings → atencion → feed-forward → salida. Falta explicar como aprende sus pesos. La respuesta esta en el entrenamiento: prediccion, error, gradiente, repetidos a escala enorme.

Actualizado el 10 de mayo de 2026