Los agentes autónomos (o semiautónomos) basados en modelos de lenguaje (LLM, por sus siglas en inglés), son aplicaciones de software que, en lugar de seguir un conjunto fijo de reglas ("si pasa X, haz Y"), utilizan un modelo de lenguaje grande (como GPT-4, Claude, Gemini, etc.) como su "cerebro" para razonar (pueden descomponer una solicitud compleja en pasos, planificar, hacer inferencias lógicas y adaptarse a nueva información) y actuar (ejecutan tareas en el mundo digital, o eventualmente físico, haciendo uso de herramientas (APIs, bases de datos, navegadores web, código) de tipo informático).
¿Cómo funcionan en la práctica? Pueden enfocarse en un objetivo: reciben una instrucción de alto nivel, por ejemplo: "Reserva un vuelo a Madrid para el viernes que no cueste más de 200€, y si no hay, busca alternativas en tren". Aplican razonamiento: el LLM dentro del agente analiza el objetivo, lo divide en sub-tareas (consultar precios, comparar opciones, priorizar restricciones). Manejan el uso de herramientas: el agente puede llamar a una API de búsqueda de vuelos, consultar un calendario, enviar un correo y demás. Tienen iteración y memoria: reciben resultados, los evalúan, y si falla o la situación cambia, ajustan su plan (por ejemplo, "No hay vuelos, ahora reviso trenes"). Pueden recordar conversaciones o pasos previos.
Lo interesante es que un Chatbot típico solo responde o genera texto, no tiene acceso a herramientas externas, funciona sin memoria de largo plazo y no planifica ni razona más allá de la respuesta inmediata. En cambio, un Agente LLM ejecuta acciones (escribe archivos, hace clics, envía comandos), usa calculadora, navegador, APIs y códigos, puede tener memoria persistente y hace planificación secuencial y se adapta.
Aquí ponemos ejemplos concretos:
Asistentes de programación como Devin (de Cognition) o AutoGPT: pueden escribir código, ejecutarlo, depurarlo y desplegarlo.
Agentes de automatización empresarial que leen correos, extraen datos, llenan formularios y responden.
Agentes de investigación como Storm de Stanford: buscan en internet, leen artículos, sintetizan información y generan informes.
Agentes personales (en desarrollo) que gestionan tu agenda, compras, reservas, etc., interactuando con múltiples servicios Web.
Por supuesto, aún tienen limitaciones y riesgos. En la fiabilid pueden fallar, alucinar (inventar respuestas), o quedarse en bucles infinitos. Costo y latencia: cada razonamiento requiere múltiples llamadas al LLM. En seguridad es delicado. Darles acceso a ejecutar acciones reales (enviar emails, transferir dinero) conlleva riesgos. Por eso hoy suelen requerir supervisión humana (modo "humano en el bucle"). Un agente LLM es como un empleado digital que recibe un objetivo complejo, piensa cómo lograrlo paso a paso, usa herramientas (calculadora, navegador, APIs) para actuar, y aprende de los resultados. No son perfectos, pero representan un salto cualitativo frente a la automatización tradicional basada en reglas.




















