Confirmado: cient�ficos de Oxford logran hacer funcionar una IA con tan solo 128 MB de RAM: Un modelo con 260.000 par�metro

La idea suena a provocaci�n: ejecutar un modelo de IA en un PC "de museo" y demostrar que, en condiciones muy concretas, 128 MB de RAM pueden bastar. Eso es lo que ha ense�ado Universidad de Oxford a trav�s de EXO Labs: un Pentium II a 350 MHz con Windows 98 moviendo un modelo diminuto sin desmoronarse. El v�deo y la explicaci�n t�cnica apuntan a una tesis clara: la "IA" no es un bloque �nico; depende much�simo del tama�o del modelo, de c�mo se implementa la inferencia y de qu� se le pide que haga.

El truco est� en la escala. El experimento no pone a correr un chatbot moderno de miles de millones de par�metros, sino una versi�n con unos 260.000 par�metros, que en esas condiciones llega a ~39 tokens por segundo. Esa cifra es llamativa en un equipo as�, pero tambi�n es una pista de lo que realmente se est� midiendo: un motor muy optimizado, tareas simples y un modelo que cabe "apretado" en memoria. En textos divulgativos que han seguido el proyecto se menciona incluso que, al subir a decenas de millones de par�metros, la velocidad cae a alrededor de 1 token por segundo, es decir: funciona, pero ya no "vuela".

Lo que mide (y lo que no)

Conviene traducirlo a castellano llano: que algo arranque con 128 MB no significa que esa sea la "RAM para usar IA" en general, sino la RAM suficiente para una IA muy peque�a y con objetivos acotados. En un modelo de lenguaje, la memoria no solo guarda pesos: tambi�n hay buffers, vocabulario, contexto (la "memoria" del di�logo), y el propio sistema operativo. Por eso el m�rito aqu� es doble: por un lado, elegir un modelo min�sculo; por otro, recortar dependencias y escribir un camino de ejecuci�n austero (puro C, sin capas).

Este tipo de demos conectan con una l�nea de investigaci�n de a�os: hacer modelos m�s baratos de almacenar y de ejecutar mediante compresi�n, poda y cuantizaci�n. Un cl�sico muy citado, Deep Compression, describ�a c�mo combinar poda + cuantizaci�n + codificaci�n para recortar el tama�o de redes profundas de forma dr�stica sin perder precisi�n en tareas concretas. Y en el mundo de los modelos de lenguaje, los trabajos sobre inferencia con menos bits (por ejemplo 4-bit) discuten justo ese intercambio entre huella de memoria, velocidad y degradaci�n de calidad. El mensaje de fondo: muchas veces el cuello de botella no es "falta de IA", sino c�mo empaquetas la IA para el hardware real.

Por qu� se ha viralizado

La comparaci�n con el presente ayuda a entender por qu� esto se ha viralizado. Mientras Nvidia vende aceleradores como el Blackwell B200 con precios que se han citado en el rango de 30.000�40.000 d�lares, el experimento de EXO apunta a otra direcci�n: IA "suficiente" para determinados usos, cerca del usuario, y sin depender de un centro de datos. Es la misma conversaci�n �a otra escala� que alimenta el auge de la inferencia en el borde (edge), donde el objetivo no es batir r�cords, sino abaratar y descentralizar.

Para educaci�n, pruebas, jugueteo t�cnico, o tareas ultracerradas (texto muy guiado, dominios peque�os), estos modelos son interesantes. Para razonamiento complejo, generaci�n larga con coherencia, o tareas multimodales, la realidad sigue siendo la misma: mandan los par�metros, el ancho de banda de memoria y la potencia.