Capítulo 11 · Agentes · 10 min

Del modelo que responde al modelo que actúa

Tool use, bucle ReAct, tareas multi-paso. Cómo un LLM se convierte en un agente capaz de actuar en el mundo.

Pensar, actuar, observar

Un agente no es un modelo mas inteligente por definicion. Es un modelo colocado dentro de un bucle donde puede decidir una accion, llamar una herramienta, observar el resultado y continuar.

Observa el bucle: el modelo piensa, elige una herramienta, lee su resultado, vuelve a empezar. Cada ciclo es una nueva predicción de token — el «agente» emerge de un LLM al que se le enseñó a llamar funciones, no de una nueva arquitectura.

El ciclo ReAct

El patron clasico se llama ReAct: Reason + Act.

El modelo razona sobre el siguiente paso.
Produce una accion estructurada: llamar una herramienta, buscar, calcular.
El sistema ejecuta esa accion.
El resultado vuelve al contexto.
El modelo decide si necesita otro paso o si puede responder.

El modelo no ejecuta la herramienta dentro de sus pesos. Solo escribe una llamada que el programa alrededor interpreta.

Por que funciona

Un LLM es bueno para lenguaje, planificacion aproximada y transformacion de informacion. Es malo para aritmetica exacta, datos en tiempo real y acciones externas.

Las herramientas compensan esas debilidades:

calculadora para numeros exactos
buscador para informacion reciente
base de datos para datos internos
API para actuar en un sistema

El agente combina lenguaje y ejecucion.

Riesgos

Dar herramientas a un modelo tambien aumenta el riesgo:

puede elegir la herramienta equivocada
puede interpretar mal una observacion
puede entrar en bucles
puede ejecutar acciones demasiado amplias

Por eso un agente serio necesita limites: permisos, validaciones, logs, confirmaciones humanas para acciones sensibles.

MCP: hacia un estandar para herramientas

Al principio, cada proveedor definia su propio formato de tool use: OpenAI tenia function calling, Anthropic su protocolo interno, cada framework agentico reinventaba la rueda. El resultado: incompatibilidades, integraciones rehechas para cada modelo, ecosistema fragmentado.

En noviembre de 2024, Anthropic publica el Model Context Protocol (MCP): un estandar abierto para describir herramientas, recursos y prompts de manera independiente del modelo. Un servidor MCP expone un conjunto de herramientas (por ejemplo "leer este archivo", "consultar esta base de datos"). Cualquier cliente compatible con MCP — Claude Desktop, Cursor, extensiones VSCode, frameworks agenticos — puede conectarse a el.

La analogia que vuelve a menudo: MCP es a los LLMs lo que USB-C es a los perifericos. Un enchufe comun.

La adopcion fue rapida: OpenAI, Microsoft y la mayoria de los proveedores grandes anunciaron en 2025 su compatibilidad con MCP. Se ha vuelto el protocolo estandar de facto para tool use.

Code interpreter, sandboxes, computer use

Algunas clases de herramientas particularmente importantes:

Code interpreter. Un sandbox Python (a veces JavaScript) donde el modelo puede ejecutar codigo arbitrario. Calculos precisos, manipulacion de datos, generacion de graficos — todo lo que los LLMs hacen mal de forma nativa lo pueden delegar a Python. Disponible en OpenAI, Claude, Google.

Browser / web automation. Una herramienta que da al modelo la capacidad de hacer clic, scroll, rellenar formularios en paginas web. Anthropic lo llama computer use, OpenAI ofrece Operator. Aun fragil, pero la evolucion es rapida.

File system & shell. Una herramienta que da acceso a un disco virtual, a un terminal. Corazon de los "coding agents" como Cursor, Cline, Aider, Claude Code.

Memoria a largo plazo

El contexto de un agente crece, pero sigue acotado. Como te reconoce un asistente en la conversacion siguiente? Con una memoria a largo plazo externa.

Varias aproximaciones:

Memoria vectorial — cada interaccion importante se resume y se almacena como embedding. En cada nueva conversacion, se recuperan los recuerdos relevantes (RAG, version memoria).
Perfil de usuario estructurado — el agente actualiza un dossier sobre el usuario (preferencias, proyectos en curso, historial).
Memoria procedural — el agente guarda traza de las recetas que funcionaron ("para resumir un paper, sigue estos pasos").

ChatGPT introdujo una memoria en 2024, Claude en 2025. Es uno de los frentes mas activos en el diseño agentico.

Lo siguiente

Otra forma de adaptar un modelo no es darle herramientas, sino cambiar una pequeña parte de sus pesos para un dominio concreto. Es el fine-tuning, y en particular LoRA.

Actualizado el 10 de mayo de 2026