La IA de ChatGPT se vuelve tan lista que supera el test para medir su inteligencia y obliga a inventar otro m�todo

La inteligencia artificial ha avanzado tanto en los �ltimos a�os que los expertos han tenido que redise�ar por completo las herramientas con las que miden su capacidad. El benchmark ARC-AGI, considerado hasta ahora el test m�s complejo para evaluar la inteligencia artificial general (AGI), ha sido superado en su versi�n inicial por el modelo o3 de OpenAI con una puntuaci�n del 87,5%.

Este hito ha obligado a sus creadores a lanzar una versi�n renovada, ARC-AGI 2, dise�ada para desafiar incluso a los sistemas m�s sofisticados, que ahora apenas alcanzan un 5% de aciertos. El ARC-AGI original fue desarrollado en 2019 por Fran�ois Chollet, creador de la librer�a Keras, como una forma de evaluar la capacidad de razonamiento abstracto y composicional de los modelos de IA. La premisa era sencilla: tareas muy dif�ciles para algoritmos, pero relativamente f�ciles para humanos.

La inteligencia humana a�n marca la diferencia

A trav�s de puzles simb�licos, el test eval�a c�mo las m�quinas procesan patrones, reglas y contextos. El �xito inicial de los modelos m�s avanzados motiv� una profunda revisi�n para preservar su utilidad como medida de AGI real. Entre las mejoras introducidas en ARC-AGI 2 est� el incremento de la diversidad y complejidad de los problemas, eliminando los que pod�an resolverse mediante fuerza bruta o heur�sticas.

Adem�s, incorpora nuevos retos centrados en razonamiento l�gico, simbolismo y adaptabilidad contextual, �reas donde las IA siguen mostrando limitaciones notables. Mientras que modelos como o3 apenas ara�an el 5% de aciertos, los humanos resuelven estos desaf�os en uno o dos intentos. Este desajuste ha quedado confirmado por los datos: todas las pruebas del ARC-AGI 2 han sido testadas con participantes humanos en estudios controlados.

Hay una web para probar suerte con los test siendo humano

La diferencia de rendimiento refuerza la idea de que los modelos actuales, por potentes que sean, todav�a est�n lejos de replicar el tipo de razonamiento flexible y general que caracteriza al pensamiento humano. Para los m�s curiosos, existe incluso una web donde cualquiera puede intentar resolver estos puzles y comprobar de primera mano el tipo de retos que desconciertan a la IA. La nueva edici�n de la competici�n ARC Prize, que se desarrollar� hasta noviembre de 2025, ha elevado su recompensa a 700.000 d�lares para quien logre superar el test.

Adem�s, se ha duplicado la capacidad de c�mputo disponible y se han introducido medidas contra el sobreajuste, como la obligaci�n de publicar los modelos antes de la evaluaci�n final. Por ahora, la conclusi�n es clara: a�n queda camino por recorrer antes de que las m�quinas piensen como nosotros.