Capítulo 08 · Alineamiento · 9 min

Del modelo bruto al asistente

Fine-tuning, RLHF, IA constitucional. Cómo hacer que un LLM sea útil e inofensivo.

Un completador no es un asistente

Despues del pre-entrenamiento, el modelo sabe continuar texto. Pero "continuar texto" no es lo mismo que "ayudar a una persona".

Si escribes una pregunta, un modelo bruto puede continuar con otra pregunta, repetir el estilo de un foro, inventar una respuesta insegura o completar una instruccion peligrosa. No tiene todavia la nocion de conversacion util.

Tres prompts idénticos, dos modelos: a la izquierda el modelo crudo, a la derecha el mismo tras fine-tuning supervisado y RLHF. El crudo continúa el texto; el alineado responde — y rechaza las solicitudes problemáticas.

Varias etapas sucesivas

El alineamiento moderno se hace en varias fases apiladas sobre el pre-entrenamiento.

1. Instruction tuning (SFT)

El primer paso es el instruction tuning: entrenar el modelo con ejemplos del tipo:

instruccion → respuesta esperada

En vez de aprender solo "que token viene despues", aprende que una instruccion humana suele pedir una respuesta directa, clara y estructurada.

No cambia la arquitectura. Cambia los datos y, por tanto, el comportamiento.

2. RLHF

El RLHF añade una señal humana.

Se generan varias respuestas para el mismo prompt. Personas las comparan: cual es mas util, mas honesta, mas segura? Con esas preferencias se entrena un modelo de recompensa, y luego se ajusta el LLM para producir respuestas que ese modelo prefiera.

La idea no es hacer al modelo "bueno" en sentido filosofico. Es darle una direccion de comportamiento: sigue instrucciones, evita daño, explica limites.

2bis. DPO: PPO, en mas simple

El RLHF tal como lo acabamos de describir se apoya en un algoritmo de RL (PPO) pesado de entrenar: reward model aparte, inestabilidad numerica, coste de computo enorme.

En 2023, un equipo de Stanford propone DPO (Direct Preference Optimization). La idea: cortocircuitar el reward model y el paso de RL. Matematicamente se puede derivar una simple loss supervisada que optimiza directamente el LLM para que prefiera la respuesta "ganadora" a la "perdedora" en cada par de comparaciones.

En concreto, partiendo de los mismos pares (prompt, respuesta_A_mejor_que_respuesta_B) que usaba el RLHF clasico, DPO entrena el modelo en una sola pasada — como un fine-tuning supervisado clasico. Sin reward model aparte, sin PPO, sin inestabilidad.

El resultado es casi indistinguible de PPO-RLHF en los benchmarks, por una fraccion del coste. Desde 2024, DPO y sus variantes (IPO, KTO, ORPO) han sustituido en gran medida al PPO clasico en Llama, Mistral y la mayoria de los labs open-source. Anthropic y OpenAI siguen usando pipelines mas complejos, pero la diferencia se reduce.

Sigues leyendo "RLHF" en todas partes. Se ha vuelto un termino generico. Bajo el capot, cada vez mas es DPO.

3. RLAIF / Constitutional AI

Una variante: en vez de humanos, se usa otro modelo (a menudo el mismo) para dar el feedback segun una constitucion escrita — un conjunto de principios ("no des instrucciones ilegales", "no inventes fuentes", "explica tu razonamiento cuando sea util"...). Es lo que se llama Constitutional AI.

Ventajas: escalable (los humanos son caros y lentos), reproducible (la constitucion es explicita), modificable (se pueden ajustar los principios sin reanotar todo).

Es el procedimiento que usa Anthropic para Claude, y que muchos otros laboratorios han adoptado desde entonces.

Seguridad y rechazos

Un asistente alineado tambien debe saber decir no. Esa parte es delicada:

  • rechazar instrucciones claramente dañinas
  • no rechazar preguntas legitimas por exceso de prudencia
  • proponer alternativas seguras cuando sea posible

Un buen rechazo no es una pared. Es una redireccion: "no puedo ayudar con eso, pero si el problema real es X, aqui tienes una opcion segura".

Por que los LLMs alucinan

Es probablemente la critica mas frecuente que se hace a los LLMs: inventan hechos con aplomo. Una referencia bibliografica que no existe, una cita que nunca se pronuncio, un evento deformado. Por que?

Se combinan tres mecanismos.

1. La cross-entropy no recompensa la incertidumbre. Durante el pre-entrenamiento (capitulo 06), el modelo aprende a minimizar la log-probabilidad del token correcto. En ningun momento aprende a decir "no se" — el objetivo es siempre predecir algo. Si la respuesta correcta no esta en sus parametros, produce la cadena mas plausible al olfato.

2. El RLHF recompensa la confianza mas que la honestidad. Cuando los humanos anotan preferencias, en promedio prefieren una respuesta confiada y bien formulada antes que un "no estoy seguro, no se". El reward model aprende ese sesgo, y el LLM aprende a parecer seguro, incluso cuando no lo esta.

3. Sin bucle de verificacion interna. Un humano que inventa se detiene, duda, verifica. Un LLM que genera token a token no tiene ese mecanismo de forma nativa — avanza, sin control externo.

Por eso las alucinaciones no desaparecen con un alineamiento mas refinado. Son estructurales. Las contramedidas eficaces son sistemicas:

  • Conectar el modelo a herramientas (capitulo 11) — calcular en vez de estimar, consultar una base en vez de memorizar.
  • RAG (capitulo 10) — proveer fuentes fiables en lugar de depender de la memoria de los parametros.
  • Razonamiento extendido (capitulo 17) — un modelo que se toma el tiempo de pensar alucina menos.
  • Fine-tuning explicito sobre la incertidumbre — enseñar al modelo a decir "no se" cuando su probabilidad interna es baja (investigacion activa).

Una alucinacion no es un bug del modelo. Es lo que pasa cuando un sistema entrenado para siempre producir texto plausible se topa con una pregunta cuya respuesta no esta en sus pesos.

Fin de la parte II

Acabas de recorrer todo el pipeline interno de un LLM moderno, desde los bytes brutos del texto hasta el comportamiento alineado:

  • 01 — Predecir la siguiente palabra, una y otra vez.
  • 02 — Tokenizar el texto.
  • 03 — Embeber cada token en un espacio de sentido.
  • 04 — Dejar que los tokens se miren entre si via la atencion.
  • 05 — Apilar bloques Transformer.
  • 06 — Entrenar por descenso de gradiente.
  • 07 — Muestrear la siguiente palabra.
  • 08 — Alinear con las preferencias humanas.

Ninguno de estos mecanismos es misterioso por si solo. Ninguno, aislado, basta para explicar lo que ves cuando un LLM resume un articulo cientifico o escribe un soneto: la inteligencia emerge de su composicion a gran escala.

El milagro no esta en una sola de las piezas. Esta en la cadena entera, multiplicada por miles de millones de parametros y entrenada sobre billones de tokens.

Y ahora?

El modelo esta listo. Sabe predecir, razonar, seguir instrucciones. Pero entre el y la experiencia que tienes cuando usas ChatGPT o Claude, queda toda una infraestructura: la ventana de contexto que define lo que recuerda, el RAG que le da acceso a tus documentos, los agentes que lo conectan a herramientas.

Es el tema de la parte III — El modelo en produccion.

Y mas alla, la parte IV — Ir mas lejos entra en los temas de investigacion actuales: fine-tuning, multimodalidad, razonamiento extendido, leyes de escalado, interpretabilidad, difusion.

El pipeline esta puesto. Lo que sigue es todo lo que construimos encima.

Actualizado el

Del modelo base al asistente: RLHF explicado · Step by Token