1. Vandal Random
  2. Noticias
  3. Científicos de EE.UU. han puesto a la IA a jugar a 'Dungeons & Dragons' y la china DeepSeek se atasca frente a ChatGPT

Científicos de EE.UU. han puesto a la IA a jugar a 'Dungeons & Dragons' y la china DeepSeek se atasca frente a ChatGPT

Los investigadores lo plantean como un banco de pruebas para saber si la IA puede sostener comportamiento fiable durante varios pasos sin que el humano esté corrigiendo cada dos minutos.
Científicos de EE.UU. han puesto a la IA a jugar a 'Dungeons & Dragons' y la china DeepSeek se atasca frente a ChatGPT
·
Actualizado: 11:00 23/2/2026
chatgpt
china
deepseek
estados unidos

En una conferencia de IA celebrada en San Diego, un grupo de investigadores decidió medir algo que los benchmarks clásicos apenas rozan: si un modelo es capaz de sostener decisiones encadenadas, respetar reglas sin “hacer trampas” y coordinarse con otros actores durante varios turnos. Para eso eligieron un escenario que parece frívolo hasta que lo miras con ojos de laboratorio: Dungeons & Dragons, un sistema donde la creatividad se expresa en lenguaje natural, pero la mecánica impone restricciones duras (movimiento, acciones, recursos, tiradas, turnos). El trabajo se presentó en NeurIPS 2025, con la idea de que el juego funciona como una maqueta pequeña de problemas reales que exigen memoria, planificación y cooperación.

El marco que proponen, llamado D&D Agents, convierte la partida en algo auditable: los modelos no “improvisan” el estado del mundo, sino que interactúan con herramientas para consultar posiciones, puntos de vida, inventario o efectos, y luego eligen acciones dentro de un sistema formal. En ese diseño hay una intención clara: separar el “hablar bonito” de la toma de decisiones que realmente cambia el tablero. Es una forma elegante de poner a prueba lo que la industria llama agentes: sistemas que no solo responden, sino que actúan, persisten y se adaptan.

Combates cortos para medir consistencia

La prueba, según la descripción pública, no fue una campaña interminable, sino combates cortos y repetibles: encuentros extraídos de La mina perdida de Phandelver, limitados a 10 turnos, con personajes configurados en distintos niveles de potencia y con tres escenarios para comparar comportamientos bajo dificultad variable. Ese recorte importa porque evita una excusa típica: “se me fue el hilo por el contexto largo”. Aquí, con solo diez rondas, lo que se mide es si el modelo mantiene consistencia táctica, no si aguanta una novela.

PUBLICIDAD

En ese ring se enfrentaron tres sistemas comerciales muy conocidos: uno de OpenAI (GPT-4), otro de Anthropic (Claude 3.5 Haiku) y otro de DeepSeek (DeepSeek-V3). El resultado que más titulares ha dado es que Claude 3.5 Haiku salió mejor parado en los escenarios exigentes, especialmente cuando tocaba gastar recursos con inteligencia —hechizos, curación, habilidades— en lugar de jugar “a conservar” por inercia. GPT-4 quedó cerca y DeepSeek-V3 sufrió más en ese formato.

Más que ganar: rol, coordinación y disciplina

Lo interesante es el matiz: no basta con ganar. Los autores también observan cómo cada modelo sostiene el rol (hablar y actuar como su personaje), cómo coordina intenciones con el equipo y cómo evita contradicciones cuando el entorno cambia por azar (tiradas) o por movimientos del rival. En algunas coberturas se destaca que los modelos, cuando se presionan, tienden a dos vicios opuestos: o se vuelven verbosos y pierden precisión mecánica, o se vuelven mecánicos y pierden “persona”. El experimento intenta medir ese equilibrio porque, fuera del juego, un agente útil necesita ambas cosas: ejecutar bien y explicar bien.

Comentarios: 0

En forosComentar en nuestros foros

Más sobre Tecnología

RANDOM
Flecha subir