En una conferencia de IA celebrada en San Diego, un grupo de investigadores decidió medir algo que los benchmarks clásicos apenas rozan: si un modelo es capaz de sostener decisiones encadenadas, respetar reglas sin “hacer trampas” y coordinarse con otros actores durante varios turnos. Para eso eligieron un escenario que parece frívolo hasta que lo miras con ojos de laboratorio: Dungeons & Dragons, un sistema donde la creatividad se expresa en lenguaje natural, pero la mecánica impone restricciones duras (movimiento, acciones, recursos, tiradas, turnos). El trabajo se presentó en NeurIPS 2025, con la idea de que el juego funciona como una maqueta pequeña de problemas reales que exigen memoria, planificación y cooperación.
El marco que proponen, llamado D&D Agents, convierte la partida en algo auditable: los modelos no “improvisan” el estado del mundo, sino que interactúan con herramientas para consultar posiciones, puntos de vida, inventario o efectos, y luego eligen acciones dentro de un sistema formal. En ese diseño hay una intención clara: separar el “hablar bonito” de la toma de decisiones que realmente cambia el tablero. Es una forma elegante de poner a prueba lo que la industria llama agentes: sistemas que no solo responden, sino que actúan, persisten y se adaptan.
Combates cortos para medir consistencia
La prueba, según la descripción pública, no fue una campaña interminable, sino combates cortos y repetibles: encuentros extraídos de La mina perdida de Phandelver, limitados a 10 turnos, con personajes configurados en distintos niveles de potencia y con tres escenarios para comparar comportamientos bajo dificultad variable. Ese recorte importa porque evita una excusa típica: “se me fue el hilo por el contexto largo”. Aquí, con solo diez rondas, lo que se mide es si el modelo mantiene consistencia táctica, no si aguanta una novela.
En ese ring se enfrentaron tres sistemas comerciales muy conocidos: uno de OpenAI (GPT-4), otro de Anthropic (Claude 3.5 Haiku) y otro de DeepSeek (DeepSeek-V3). El resultado que más titulares ha dado es que Claude 3.5 Haiku salió mejor parado en los escenarios exigentes, especialmente cuando tocaba gastar recursos con inteligencia —hechizos, curación, habilidades— en lugar de jugar “a conservar” por inercia. GPT-4 quedó cerca y DeepSeek-V3 sufrió más en ese formato.
Más que ganar: rol, coordinación y disciplina
Lo interesante es el matiz: no basta con ganar. Los autores también observan cómo cada modelo sostiene el rol (hablar y actuar como su personaje), cómo coordina intenciones con el equipo y cómo evita contradicciones cuando el entorno cambia por azar (tiradas) o por movimientos del rival. En algunas coberturas se destaca que los modelos, cuando se presionan, tienden a dos vicios opuestos: o se vuelven verbosos y pierden precisión mecánica, o se vuelven mecánicos y pierden “persona”. El experimento intenta medir ese equilibrio porque, fuera del juego, un agente útil necesita ambas cosas: ejecutar bien y explicar bien.















