Capítulo 01 · Fundamentos · 6 min

Predecir una palabra a la vez

¿Qué es un modelo de lenguaje? Por qué predecir la siguiente palabra es suficiente para hacer emerger la inteligencia.

La gran sorpresa

Esta es la cosa mas rara de la IA moderna: todo lo que hace un gran modelo de lenguaje se apoya en una sola capacidad — predecir la siguiente palabra.

Le das el principio de una frase:

"El cielo es azul porque..."

El modelo calcula, entre miles de palabras que conoce, cual es la mas probable justo despues. Luego vuelve a empezar con esa nueva palabra añadida. Y otra vez. Y otra vez. Eso es todo.

De esta operacion diminuta y mecanica emerge todo lo demas: traduccion, resumen, codigo, explicaciones de fisica cuantica, bromas, poemas.

Por que funciona

Para predecir bien la siguiente palabra, hay que entender muchisimas cosas sobre el mundo.

Mira esta frase:

"El medico envio a la enfermera a su casa porque ella..."

Para adivinar lo que viene despues, el modelo debe saber que "ella" probablemente se refiere a la enfermera (y no al medico): debe entender la gramatica, el contexto, quiza incluso las convenciones sociales del oficio medico.

Predecir palabras significa modelar el mundo que las produjo.

Esa es la idea central. Obligar a un sistema a predecir texto humano a gran escala significa obligarlo a aprender, indirectamente, como funciona el mundo en el que ese texto fue escrito.

Una distribucion, no una palabra

Cuando decimos "el modelo predice la siguiente palabra", es un atajo. En realidad, en cada paso produce una distribucion de probabilidad sobre todo su vocabulario: cada token recibe una puntuacion, y la suma vale 1.

Para generar texto, despues hay que elegir un token de esa distribucion. Aqui la cosa se vuelve interesante: el mismo modelo, con el mismo prompt, puede producir textos muy distintos segun la estrategia de muestreo.

En cada paso, el modelo propone una distribución sobre todos los tokens del vocabulario. La barra más alta rara vez es el único candidato plausible — eso es lo que hace que la continuación del texto sea abierta y no mecánica.

Tres controles para manipular arriba:

Temperatura — divide los logits antes del softmax. Con temperatura baja (0.1-0.3), la distribucion se concentra en el candidato mas probable: el modelo se vuelve predecible, casi determinista. Con temperatura alta (1.5-2.0), se aplana: las opciones raras vuelven a ser plausibles.
Top-k — conserva solo los k candidatos mas probables y elimina la larga cola de opciones raras.
Top-p (nucleus sampling) — conserva el conjunto mas pequeño cuya masa acumulada supera p. Es mas adaptable que top-k: si un paso tiene una respuesta obvia, p puede cortar a un solo candidato. Si el modelo duda entre 20 opciones cercanas, las mantiene.

Prueba el prompt Capital. La distribucion esta tan concentrada en Madrid que la temperatura casi no tiene efecto: hay que subir por encima de 1.8 para dar una oportunidad a otras opciones. El modelo esta seguro.

En cambio, en El cielo en el segundo paso, varias continuaciones son plausibles ( luz, color, mar...). Ahi es donde la temperatura cambia realmente el resultado.

El bucle que lo hace todo

Todo lo que hace un LLM cabe en este bucle:

Leer el contexto (los tokens ya presentes).
Producir una distribucion de probabilidad sobre el siguiente token.
Muestrear un token de esa distribucion.
Añadirlo al contexto. Volver a empezar.

Es mecanico, repetitivo, aburrido de describir. Y sin embargo, ejecutado miles de millones de veces en un modelo con cientos de miles de millones de parametros, este bucle produce dialogos, demostraciones, codigo que compila.

El plan de este sitio

El recorrido se organiza en cuatro partes, de lo mas mecanico a lo mas acabado.

I. Anatomía de un modelo. Desmontamos la maquina. Tokenizacion, embeddings, atencion, Transformer — como un texto se convierte en una secuencia de vectores que se pueden transformar.

II. Entrenar y alinear. Como aprenden esos miles de millones de parametros. Loss, gradiente, muestreo, RLHF — del modelo aleatorio al asistente util.

III. El modelo en producción. Lo que ocurre cuando envias un prompt a ChatGPT o Claude. Ventana de contexto, RAG, agentes — la infraestructura que hace que los LLMs sean utilizables a diario.

IV. Ir más lejos. Los temas que ocupan la investigacion actual. Fine-tuning, multimodalidad, razonamiento extendido, leyes de escala, interpretabilidad, difusion — para entender hacia donde va lo siguiente.

Cada capitulo contiene al menos una visualizacion manipulable. El objetivo no es que memorices formulas, sino darte una intuicion mecanica de lo que ocurre dentro.

Vamos.

Actualizado el 10 de mayo de 2026