Cient�ficos de EE.UU. han puesto a la IA a jugar a 'Dungeons & Dragons' y la china DeepSeek se atasca frente a ChatGPT

En una conferencia de IA celebrada en San Diego, un grupo de investigadores decidi� medir algo que los benchmarks cl�sicos apenas rozan: si un modelo es capaz de sostener decisiones encadenadas, respetar reglas sin �hacer trampas� y coordinarse con otros actores durante varios turnos. Para eso eligieron un escenario que parece fr�volo hasta que lo miras con ojos de laboratorio: Dungeons & Dragons, un sistema donde la creatividad se expresa en lenguaje natural, pero la mec�nica impone restricciones duras (movimiento, acciones, recursos, tiradas, turnos). El trabajo se present� en NeurIPS 2025, con la idea de que el juego funciona como una maqueta peque�a de problemas reales que exigen memoria, planificaci�n y cooperaci�n.

El marco que proponen, llamado D&D Agents, convierte la partida en algo auditable: los modelos no �improvisan� el estado del mundo, sino que interact�an con herramientas para consultar posiciones, puntos de vida, inventario o efectos, y luego eligen acciones dentro de un sistema formal. En ese dise�o hay una intenci�n clara: separar el �hablar bonito� de la toma de decisiones que realmente cambia el tablero. Es una forma elegante de poner a prueba lo que la industria llama agentes: sistemas que no solo responden, sino que act�an, persisten y se adaptan.

Combates cortos para medir consistencia

La prueba, seg�n la descripci�n p�blica, no fue una campa�a interminable, sino combates cortos y repetibles: encuentros extra�dos de La mina perdida de Phandelver, limitados a 10 turnos, con personajes configurados en distintos niveles de potencia y con tres escenarios para comparar comportamientos bajo dificultad variable. Ese recorte importa porque evita una excusa t�pica: �se me fue el hilo por el contexto largo�. Aqu�, con solo diez rondas, lo que se mide es si el modelo mantiene consistencia t�ctica, no si aguanta una novela.

En ese ring se enfrentaron tres sistemas comerciales muy conocidos: uno de OpenAI (GPT-4), otro de Anthropic (Claude 3.5 Haiku) y otro de DeepSeek (DeepSeek-V3). El resultado que m�s titulares ha dado es que Claude 3.5 Haiku sali� mejor parado en los escenarios exigentes, especialmente cuando tocaba gastar recursos con inteligencia �hechizos, curaci�n, habilidades� en lugar de jugar �a conservar� por inercia. GPT-4 qued� cerca y DeepSeek-V3 sufri� m�s en ese formato.

M�s que ganar: rol, coordinaci�n y disciplina

Lo interesante es el matiz: no basta con ganar. Los autores tambi�n observan c�mo cada modelo sostiene el rol (hablar y actuar como su personaje), c�mo coordina intenciones con el equipo y c�mo evita contradicciones cuando el entorno cambia por azar (tiradas) o por movimientos del rival. En algunas coberturas se destaca que los modelos, cuando se presionan, tienden a dos vicios opuestos: o se vuelven verbosos y pierden precisi�n mec�nica, o se vuelven mec�nicos y pierden �persona�. El experimento intenta medir ese equilibrio porque, fuera del juego, un agente �til necesita ambas cosas: ejecutar bien y explicar bien.