Capítulo 17 · Razonamiento · 9 min

Pensar antes de responder

Tokens de pensamiento, razonamiento extendido, presupuestos de reflexión. Cómo los modelos o1/o3 generan una cadena de pensamiento oculta antes de responder.

La respuesta rapida suele ser falsa

Cual es el ultimo digito de 7¹⁰⁰?

Si le haces esa pregunta a un LLM clasico, probablemente te respondera "7" en una fraccion de segundo. Tiene sentido: 7 empieza por 7, 7² = 49, y si no piensas demasiado, podrias suponer que sigue siendo 7. Esa respuesta es falsa — es 1.

Pero si le haces la misma pregunta a un modelo de razonamiento como o1, o3 o DeepSeek-R1, duda. "Piensa" durante 10, 20, a veces 60 segundos. Y llega a la respuesta correcta.

La diferencia no esta en los pesos del modelo. Esta en lo que el modelo tiene permitido hacer antes de responder.

Los thinking tokens

Todo LLM genera tokens, uno a la vez, de izquierda a derecha. Lo que distingue a los modelos de razonamiento es que primero generan una larga secuencia de tokens ocultos — un monologo interno que el usuario nunca ve — antes de producir la respuesta final.

Esos tokens ocultos se llaman thinking tokens (o tokens de reflexion).

El modelo puede escribir cualquier cosa ahi: calculos intermedios, hipotesis que luego refuta, ramas de exploracion abandonadas, verificaciones. Es un borrador que borra antes de mostrarte el resultado limpio.

No es magia. Es simplemente espacio adicional para resolver un problema dificil.

Pruebalo tu mismo

Pon el presupuesto de reflexion en "Ninguno" y haz clic en "Razonar". Observa la respuesta instantanea. Despues, cambia el presupuesto a "Completo" y vuelve a lanzarlo.

Los bloques en gris son la cadena de pensamiento interna — el modelo hipotetiza, verifica, a veces retrocede. Estos thinking tokens cuestan en latencia y precio, pero desbloquean problemas que el modo directo no resuelve.

La diferencia entre los dos no esta en la capacidad del modelo — esta en el tiempo de computo en inferencia que se le permite usar.

Como funciona tecnicamente

No es una arquitectura diferente. Es el mismo Transformer, el mismo mecanismo de atencion, la misma generacion autoregresiva.

Lo que cambia es el entrenamiento y el decodificado. Durante el fine-tuning, el modelo aprende a producir trazas de razonamiento utiles — cadenas de pensamiento que convergen hacia la respuesta correcta. Se le muestran miles de problemas con sus soluciones, y aprende a construir el camino intermedio.

En inferencia, se le da un presupuesto de tokens de pensamiento — un limite de cuantos tokens ocultos puede generar. Cuanto mayor es el presupuesto, mas puede explorar. A partir de cierto presupuesto, las mejoras de calidad en tareas dificiles empiezan a estancarse.

Un detalle importante: los thinking tokens se generan antes de la respuesta, en el mismo flujo de tokens. El modelo no "piensa" en paralelo — piensa en serie, y eso cuesta tokens como todo lo demas.

Razonamiento extendido vs chain-of-thought

Quizas hayas visto la tecnica del chain-of-thought (CoT), donde se le pide explicitamente al modelo "piensa paso a paso". Es algo distinto, pero emparentado.

Chain-of-Thought (prompted)Razonamiento extendido (nativo)
Quien lo activaEl usuario, en el promptEl propio modelo
VisibilidadVisible en la respuestaOculto (thinking tokens)
ControlEl usuario puede guiar los pasosEl modelo elige su plan
EjemplosGPT-4 con "let's think step by step"o1, o3, Claude con extended thinking

El CoT prompted tambien mejora el rendimiento — pero el razonamiento nativo va mas alla, porque el modelo no esta obligado a escribir un razonamiento legible. Puede explorar caminos sucios, hacer calculos que luego descarta, contradecirse y autocorregirse, todo dentro del espacio oculto.

Cuando vale la pena

El razonamiento extendido mejora significativamente el rendimiento en:

  • Matematicas y logica — pruebas, combinatoria, aritmetica exacta
  • Codigo complejo — depuracion multi-archivo, algoritmos no triviales
  • Razonamiento estructurado — puzzles, deducciones encadenadas
  • Planificacion — tareas que requieren trazar una estrategia antes de actuar

En cambio, para una pregunta factual simple ("cual es la capital de Francia?"), texto creativo o traduccion, el razonamiento extendido no aporta nada — y cuesta mas.

Es tambien una de las contramedidas mas eficaces contra las alucinaciones (capitulo 13). Un modelo que se toma el tiempo de verificar su propio borrador atrapa errores que una respuesta de un solo golpe habria dejado pasar. No es magia — puede alucinar dentro de su razonamiento tambien — pero el simple hecho de desplegar los pasos filtra una parte significativa de los errores factuales.

El coste es el verdadero freno. Los thinking tokens se facturan como los tokens normales. Un modelo o1 que genera 1 000 tokens de pensamiento antes de una respuesta de 30 tokens consume en realidad 1 030 tokens. Sobre millones de peticiones, eso suma.

Test-time compute scaling

Lo que han revelado los modelos de razonamiento es que se puede comprar inteligencia en el momento de la inferencia: cuantos mas tokens de pensamiento se asignen, mejor son las respuestas en tareas dificiles.

Esto se llama test-time compute scaling — en contraposicion al scaling habitual que aumenta los parametros del modelo durante el entrenamiento.

La curva se parece a las scaling laws clasicas: doblar el presupuesto de reflexion mejora el rendimiento, pero con rendimientos decrecientes. En cierto punto, pensar mas tiempo deja de compensar.

Y este es un descubrimiento importante: la inteligencia de un LLM no es una constante fija marcada por sus pesos. Tambien depende del computo que se le da en el momento de responder.

Un modelo que piensa largo y duro sobre un problema dificil puede superar a un modelo mas grande que responde rapido. La velocidad no siempre es una virtud.

Actualizado el

Modelos de razonamiento: pensar antes de responder · Step by Token