En un experimento que ha despertado tanto perplejidad como sonrisas en la comunidad tecnológica, el modelo de inteligencia artificial ChatGPT-4o —la joya de la corona de OpenAI— ha sido derrotado en una partida de ajedrez por Video Chess, un rudimentario juego de la consola Atari 2600, lanzada en 1977.
La prueba, diseñada por el ingeniero Robert Jr. Caruso de Citrix, tenía un objetivo más provocador que técnico: poner a prueba los límites de un modelo de lenguaje frente a un motor diseñado exclusivamente para jugar ajedrez, por primitivo que este sea.
La Atari ganó a la IA moderna
La partida se desarrolló en un entorno emulado que replicaba fielmente la arquitectura original de la Atari, con un procesador de apenas 1,19 MHz y una memoria RAM de 128 bytes. ChatGPT, por su parte, recibió información textual sobre el tablero y debía razonar cada movimiento en base a descripciones, no a una interfaz visual ni a un motor de ajedrez interno. El resultado fue una colección de errores graves: confundir torres con alfiles, ignorar amenazas elementales o no comprender jugadas legales como enroques o avances de peón.
Más allá de la anécdota, el caso pone de relieve una limitación estructural de los modelos generativos: carecen de comprensión real del entorno y actúan, como indica Caruso, "como buscadores sofisticados, no como sistemas que razonan". ChatGPT, sin una representación interna del tablero, basó sus jugadas en correlaciones lingüísticas, no en lógica espacial ni principios del juego. A lo largo de los 90 minutos que duró la partida, el ingeniero tuvo que intervenir repetidamente para evitar jugadas inválidas o reinicios absurdos solicitados por la IA.

El contraste histórico no podría ser más irónico: mientras en 1997 Deep Blue, un superordenador de IBM optimizado exclusivamente para ajedrez, vencía al campeón mundial Garry Kaspárov gracias a su capacidad de calcular 200 millones de posiciones por segundo, en 2025 una IA con millones de parámetros es incapaz de superar a una pieza de software escrita hace más de cuatro décadas. Esto ilustra una diferencia clave: la especialización frente a la generalización. ChatGPT brilla en tareas de lenguaje natural, pero flaquea cuando se le exige operar con reglas estrictas que no están implícitas en su entrenamiento.